用java作一个类似google爬虫的信息聚合器?

来源:百度知道 编辑:UC知道 时间:2024/06/07 07:14:46
怎么样才可以用java作一个类似google爬虫的信息聚合器?
非常的着急,希望个位前辈和高手能够指点一下了!谢谢了啊!!!!!!

这个东西比较复杂,至少要涉及以下方面:

1)多线程的自动http下载。

2)html文件的格式解析。

3)把解析后的数据存入数据库。

给你一个网站连接,里面有大量的Java开源软件,你可以选择合适的类库,在这基础上进行开发。
http://www.open-open.com/