数据采集规则怎么设定?
来源:百度知道 编辑:UC知道 时间:2024/05/28 16:38:58
要做一个采集器,指定的网站,看了一下,全部都生成的是静态页面。 还全部都是二级域名。超崩溃。
http://XXX.YYYYYY.cn/ZZZZZZZ/2594355959853744128/20090901/206017.html
以上就是某篇文章的地址。 我用这个地址做为参数传递给我写好的函数。能够采集到数据。
但是我不能只采这一篇文章啊。烦躁ing 。。。
麻烦高手指点下。 怎么来写这个规则。。。。
或者说,我怎么获得批量的地址。从而实现我的采集功能。。
期待ing。。。。。。。。。。。。。。。。。。。。。。。。。。
http://XXX.YYYYYY.cn/ZZZZZZZ/2594355959853744128/20090901/206017.html
以上就是某篇文章的地址。 我用这个地址做为参数传递给我写好的函数。能够采集到数据。
但是我不能只采这一篇文章啊。烦躁ing 。。。
麻烦高手指点下。 怎么来写这个规则。。。。
或者说,我怎么获得批量的地址。从而实现我的采集功能。。
期待ing。。。。。。。。。。。。。。。。。。。。。。。。。。
像这样的采集系统一定要采用多线程编程。
至于采集规则,多研究一下静态页面生成原则就差不多哦。
还用这么麻烦吗?
试试乐思采集系统,你只需要吧首页写进去,采集的页面都是主动的
补充一下:乐思采集系统的原理跟你现在说的这个不一样,但是有效多了