网站文本提取

来源：百度知道编辑：UC知道时间：2024/06/05 01:04:50

不知道大家了解新闻或小说的提取器不？

现在我想提取一个网站目录下的网页数据。

里面有很多类似的
../item.htm?id=000061003
../item.htm?id=000061004
../item.htm?id=000061005

这样的网页，里面有类似的文本内容

我想全部提取出做成可以直接阅读对比的数据库，不知道有什么类似的软件可以使用吗？

谢谢了
网页文件巨多，不可能一一保存（六十万），希望可以找到一个简单些的方法，各位都是高手，还请指教

小说和新闻采集器采集下来后，文件都是逐个保存。如果要逐个打开编辑的话和在网页上复制也没什么区别

回a6538662 ：两者都有`整站下载器我也想过，可我估计我的电脑会在下完之前瘫痪。网站是别人的，数据库我也拿不到不是。

我就是想批量保存之后处理成数据库，没数据库保存什么其它什么格式也可以，只要不是一个一个处理就方便多了。

编程我不会，只好找找看有没有替代软件。

http://www.namipan.com/d/c8b66bb533ae1e1905d28e16ccf86ebcb1e5601f0385ce00

网站信息万能采集器(超级网免费版)

这个可以保存到数据库

新闻采集，也叫新闻小偷，设好一次后，后面的全部就一来了。

----------------------------------------------------------------------------

没太明白,你是要保存网页还是把网页处理成数据库一类的.

前者有整站下载器可以用来,批量保存网页.

后者只有编程解决最方便了.

还是没搞明白究竟是做什么?六十万既然都做成网页了,原稿一定是数据库吧.
这不是瞎折腾吗!~~嘎嘎!

----------------------------------------------------------------------------

---------------------------------------------------------------------------

点击文件另存为文本文件

不清楚你所说的“可以直接阅读对比的数据库”是什么意思。
不过把那些文件方便地都下载下来倒是可以。

使用迅雷的新建批量任务功能即可。

方法参考这里：

http://www.pconline.com.cn/pcedu/t

pdf文本提取如何提取文本中的邮箱地址? 批处理提取文本指定行如何从图片中提取文本 caj文件怎样提取里面文本? vb.net如何提取文本框中的文本如何用VB提取文本中的内容？怎样用VB来提取文本中的字符串怎么样提取一段txt文本中的数字？？用C语言对文本进行提取