网站文本提取

来源:百度知道 编辑:UC知道 时间:2024/06/05 01:04:50
不知道大家了解新闻或小说的提取器不?

现在我想提取一个网站目录下的网页数据。

里面有很多类似的
../item.htm?id=000061003
../item.htm?id=000061004
../item.htm?id=000061005

这样的网页,里面有类似的文本内容

我想全部提取出做成可以直接阅读对比的数据库,不知道有什么类似的软件可以使用吗?

谢谢了
网页文件巨多,不可能一一保存(六十万),希望可以找到一个简单些的方法,各位都是高手,还请指教

小说和新闻采集器采集下来后,文件都是逐个保存。如果要逐个打开编辑的话和在网页上复制也没什么区别

回a6538662 :两者都有`整站下载器我也想过,可我估计我的电脑会在下完之前瘫痪。网站是别人的,数据库我也拿不到不是。

我就是想批量保存之后处理成数据库,没数据库保存什么其它什么格式也可以,只要不是一个一个处理就方便多了。

编程我不会,只好找找看有没有替代软件。

http://www.namipan.com/d/c8b66bb533ae1e1905d28e16ccf86ebcb1e5601f0385ce00

网站信息万能采集器(超级网免费版)

这个可以保存到数据库

新闻采集,也叫新闻小偷,设好一次后,后面的全部就一来了。

----------------------------------------------------------------------------

没太明白,你是要保存网页还是把网页处理成数据库一类的.

前者有整站下载器可以用来,批量保存网页.

后者只有编程解决最方便了.

还是没搞明白究竟是做什么?六十万既然都做成网页了,原稿一定是数据库吧.
这不是瞎折腾吗!~~嘎嘎!

----------------------------------------------------------------------------

---------------------------------------------------------------------------

点击文件 另存为 文本文件

不清楚你所说的“可以直接阅读对比的数据库”是什么意思。
不过把那些文件方便地都下载下来倒是可以。

使用 迅雷 的 新建批量任务 功能即可。

方法参考这里:

http://www.pconline.com.cn/pcedu/t