网站数据采集原理

来源:百度知道 编辑:UC知道 时间:2024/05/21 06:59:51
谁能说说网站数据采集原理?请说得详细点.有例子更好.
谢谢~!
可以追加分.

A服务认为根据不同的采集器种类和开发语言的不同,获取方式有些不同。但他们都是通过访问被采集站点来提取被采集站点的相应信息。采集程序通过读取采集规则中的信息来确定应该以什么样的方式来访问被采集网站,被采集网站中哪些地址是有效的,哪些内容是该收集的,如何提取有用的信息等等,这些都是由采集规则指定的。
制定规则时需要认真查看列表页面代码。起始字符串标准:在页面html代码中,所需内容之前有且仅有一次出现(如多次出现,以第一次出现的位置为准);结束字符串标准:在页面html代码中,起始字符串之后有且仅有一次出现(如多次出现,以第一次出现的位置为准)。记住这里是起始字符串之后。起始字符串和结束字符串是成对出现的,采集器会截取他们之间的内容作为有效内容;
关于起始字符串和结束字符串的另外一种解释。起始字符串:在采集到的代码中处于有效文本信息之前的一段字符串,这段字符串必须满足以下条件:在有效信息之前的内容中是唯一的。(如不唯一则以第一次出现的位置为准)在有效信息之前的内容中必须存在一个或以上的起始字符串(程序将以该字符串第一次出现的位置为准),否则内容将会提取失败。结束字符串:在采集到的代码中处于有效文本信息之后的一段字符串,这段字符串必须满足以下条件:从 起始字符串 开始到有效信息结束的内容中不得包含该字符串。在有效信息之后的内容中必须存在一个或以上的结束字符串(程序将以该字符串从起始字符串开始第一次出现的位置为准),否则内容将会提取失败。

首先接收指定页面,然后用正则表达式分析里面的网页结构,获取指定的数据.采集不同网站的数据,所用的正则表达式也不同,没有所谓能用的.因为不同网站的HTML代码的结构也不同.如果被采集网站改版了,也可以采集不了数据