爬虫如何解析动态网页

来源:百度知道 编辑:UC知道 时间:2024/06/15 02:33:19
很多动态网站,页面都是javascript生成的,一般的抓源码只能看到很多script,js这些,就爬不到东西了。
我现在看到的很多方法都是要调用浏览器来渲染页面再取出来,这样效率比较低,刚接触这块,很多都不懂,特来求教各位有什么比较高效的办法。
或者叫解析动态JS,就是那些html的dom都是由js生成的

1.页面不是javaScript生成的,是由java service page即jsp页面,由

服务器处理后生成的,

换句话说,你看到的不是源文件,而是经过处理器处理的,

保证了代码的安全性!

2.js文件只是记录了javaScript的一些方法,设置等....

3.javaScript控制界面的东西

4.JSP控制后台的东西

这里的动态网站不是你想象的那样是一个又动画的网页,这里的动态是用JSP或者是用asp及其php做的网页,你直接让浏览器保存的页面其中又script.js这样的文件。或者是你得到后缀是.js的文件其实那就是JavaScript这样的脚本了,但是这些东西是控制HTML页面的已经有的东西,并不是新的生成的,动态页面的意思是动态的生成新的内容,JSP和asp还有php这样的脚本语言就可以实现这样的功能了。呵呵………………