数据采集规则怎么设定?

来源:百度知道 编辑:UC知道 时间:2024/05/28 16:38:58
要做一个采集器,指定的网站,看了一下,全部都生成的是静态页面。 还全部都是二级域名。超崩溃。

http://XXX.YYYYYY.cn/ZZZZZZZ/2594355959853744128/20090901/206017.html

以上就是某篇文章的地址。 我用这个地址做为参数传递给我写好的函数。能够采集到数据。

但是我不能只采这一篇文章啊。烦躁ing 。。。

麻烦高手指点下。 怎么来写这个规则。。。。
或者说,我怎么获得批量的地址。从而实现我的采集功能。。
期待ing。。。。。。。。。。。。。。。。。。。。。。。。。。

像这样的采集系统一定要采用多线程编程。
至于采集规则,多研究一下静态页面生成原则就差不多哦。

还用这么麻烦吗?
试试乐思采集系统,你只需要吧首页写进去,采集的页面都是主动的

补充一下:乐思采集系统的原理跟你现在说的这个不一样,但是有效多了