如何做一个蜘蛛程序

来源:百度知道 编辑:UC知道 时间:2024/05/17 01:32:32
如何做一个蜘蛛程序

有很多开源软件的

jspider等

关键是算法,否则爬来爬去就容易死掉

是啊,推荐先学习一下开源的spider吧:
Larbin: http://larbin.sourceforge.net/index-eng.html

larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

三>、开源spider一览

spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.

第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目

Spier定义(关于Spider的定义,有广义和狭义两种).

狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序.
广义:所有能利用http协议检索web文档的软件都称之为spider.
其中Protocol Gives Sites Way To Keep Out The \'Bots Jeremy Carl, Web Week, Volume 1, Issue 7, November 1995 是和spider息息相关的协议,大家有兴趣参考robotstxt.org.

Heritrix

Heritrix is the Internet Archive\'s open-source, extensible, web-scale, archival-quality web crawler project.

Heritrix (sometimes spelled heretrix, o