我想用java实现查找某个网站内所有的页面链接

来源:百度知道 编辑:UC知道 时间:2024/05/29 01:51:34
我想用java实现查找某个网站内所有的页面链接,网站外部的链接不要。请问有什么适合的java第三方包吗,请高手推荐一下。

第三方包:

apache的httpclient

构造HTTP请求,注意设置Agent伪造成某类浏览器,否则有的网站会把你的程序请求屏蔽掉。

将获取到的文本逐个分析连接,递归爬。

html的a标签最简单
js的连接比较麻烦,目前似乎很多成品爬虫都很难解决js的问题。

用servlet或jsp写....
得配合ajax...
就是个采集嘛