怎么批量采集网站上的数据?(方法好的追加100分)

来源:百度知道 编辑:UC知道 时间:2024/06/03 06:10:50
http://newhouse.hfhome.cn/HouseView.aspx?ItemID=424&BulidingID=6794

像这样的网站,我要才采集它表格里面的数据,但是每次要打开很麻烦,而且量很多,怎么能节省资源采集下来?

(方法好的追加100分)说到做到!

这是一个页面嵌套iframe的数据采集,先简单说一下采集原理:
通过你提供的Url定位一个楼盘(这个Url可带参数批量采集),通过解析获取楼盘的详细数据(就是看到的表格数据),这个过程可以通过导航来实现完成,找到iframe中的表格后,获取相应数据前置和后置标志可以采集表格数据(但这种情况意义不大),所以需要根据单元格获取内容的链接地址(即点击后打开的页面),然后在导航到这个页面,采集每个房间的详细信息(房间号、套型、面积等等)。
根据你提供的信息来看,这是一个多层导航的采集,如果需要批量采集,还需带有参数,这个任务配置起来较为复杂一些。
你可以使用的工具:Soukey采摘、网络矿工或网络神采。但好像免费版本都不支持这么复杂的采集案例,需要使用商业版。

这个多少分,估计也没能给你写的。麻烦。专门找人写吧