火车采集器:如何采集需要登陆后才能采集的网页内容,并且登陆时需要验证码,每次请求验证码都是变化的!

来源:百度知道 编辑:UC知道 时间:2024/05/31 22:50:09
需要采集登陆后才能采集的网页,并且登陆是有变化的验证码!请高手指点!
我把我所有的百度家产给你!

你可以做一个图形界面(可以是网页或者是桌面程序),然后下载指定的网页内容,并且显示在浏览器中。

然后你就像往常一样,输入这个网页上所有的内容,包括当时生成的验证码,并且把Post的地址指向你自己的程序。

这样,当你的程序得到Post的请求之后,你就可以获得全部的HTML变量参数名,然后你就如实地把所有的参数,按照Post的方式传回到对方的服务器,这必须在对方的验证码失效之前完成。这样就完成了登录的过程,并且你保存所有的对方服务器传回来的HTTP Head中的内容。

然后你就可以直接去调用那些需要登录才能够查看的页面,并且在每次调用的时候,都把刚才获得的Head中的内容原封不动地传回去,这样,你就相当于已经“登录”了一样,可以获得那些需要登录才能够查看的内容了。

但是你最少要保证,每30分钟去请求一次对方服务器的资源,因为如果你闲置了一段时间的话,你保存的Head信息有可能就会失效(Session timeout),就需要像一开始一样重新来一次了。