网站文本提取
来源:百度知道 编辑:UC知道 时间:2024/06/05 01:04:50
不知道大家了解新闻或小说的提取器不?
现在我想提取一个网站目录下的网页数据。
里面有很多类似的
../item.htm?id=000061003
../item.htm?id=000061004
../item.htm?id=000061005
这样的网页,里面有类似的文本内容
我想全部提取出做成可以直接阅读对比的数据库,不知道有什么类似的软件可以使用吗?
谢谢了
网页文件巨多,不可能一一保存(六十万),希望可以找到一个简单些的方法,各位都是高手,还请指教
小说和新闻采集器采集下来后,文件都是逐个保存。如果要逐个打开编辑的话和在网页上复制也没什么区别
回a6538662 :两者都有`整站下载器我也想过,可我估计我的电脑会在下完之前瘫痪。网站是别人的,数据库我也拿不到不是。
我就是想批量保存之后处理成数据库,没数据库保存什么其它什么格式也可以,只要不是一个一个处理就方便多了。
编程我不会,只好找找看有没有替代软件。
现在我想提取一个网站目录下的网页数据。
里面有很多类似的
../item.htm?id=000061003
../item.htm?id=000061004
../item.htm?id=000061005
这样的网页,里面有类似的文本内容
我想全部提取出做成可以直接阅读对比的数据库,不知道有什么类似的软件可以使用吗?
谢谢了
网页文件巨多,不可能一一保存(六十万),希望可以找到一个简单些的方法,各位都是高手,还请指教
小说和新闻采集器采集下来后,文件都是逐个保存。如果要逐个打开编辑的话和在网页上复制也没什么区别
回a6538662 :两者都有`整站下载器我也想过,可我估计我的电脑会在下完之前瘫痪。网站是别人的,数据库我也拿不到不是。
我就是想批量保存之后处理成数据库,没数据库保存什么其它什么格式也可以,只要不是一个一个处理就方便多了。
编程我不会,只好找找看有没有替代软件。
http://www.namipan.com/d/c8b66bb533ae1e1905d28e16ccf86ebcb1e5601f0385ce00
网站信息万能采集器(超级网免费版)
这个可以保存到数据库
新闻采集,也叫新闻小偷,设好一次后,后面的全部就一来了。
----------------------------------------------------------------------------
没太明白,你是要保存网页还是把网页处理成数据库一类的.
前者有整站下载器可以用来,批量保存网页.
后者只有编程解决最方便了.
还是没搞明白究竟是做什么?六十万既然都做成网页了,原稿一定是数据库吧.
这不是瞎折腾吗!~~嘎嘎!
----------------------------------------------------------------------------
---------------------------------------------------------------------------
点击文件 另存为 文本文件
不清楚你所说的“可以直接阅读对比的数据库”是什么意思。
不过把那些文件方便地都下载下来倒是可以。
使用 迅雷 的 新建批量任务 功能即可。
方法参考这里:
http://www.pconline.com.cn/pcedu/t