电脑编程高手请进，需懂HTML，跪求！

来源：百度知道编辑：UC知道时间：2024/05/05 22:11:19

我家中有人民日报电子版的光盘，因为需要编辑语料库，所以需要把HTML的网页，集中起来，然后经过TextForever的转换，将格式转换为TXT格式，再用TextForever将所有的TXT记事本文件合并成一个文件，也就是说需要整理成一个TXT文件。所以说，如何找到那一篇篇的HTML文件是一个麻烦的问题，单个的网页上有下载的按钮，可是太麻烦，于是本人在光盘里面试图搜索HTML格式的文件，没有发现，后来经几次尝试，发现，必须点击HTML网页里面的“下一个记录”按钮，然后在一个临时文件TEMP文件夹中才出现需要寻找的HTML文件，可是必须要一个一个地点击，一直点“下一记录”，每天都要点数万下的鼠标，然后在把这些文件复制，粘贴，全部转换成TXT，然后再合并成一个文件！并且光盘一旦取出，TEMP里面的这些临时文件全部自动删除，本人跪求有哪位高人可以指点，让小生省点事情，虽然我以前学过编程，可是都忘记了。如果我说的还不清楚的话，请加本人的Q：20735910，望高人指点！
二楼的方法不错，是个方法，可是怎么样编写，我不求什么思路，我只求实质性的解决问题方法！
请大家帮帮我。

两个思路：

第一个思路比较简单：编写两个程序，一个程序要做的事情就是控制人民日报程序窗口，反复做下面的事情：全选、复制、在下一页上点鼠标、等待2秒钟。另外一个程序要做的事情是如下循环：取剪贴板数据、如果和上次取的不同则添加到文本文件后面、等待1秒钟。两个程序分开来写就非常简单了，然后启动程序2、人民日报、程序1，你就可以睡觉了，电脑不厌其烦的给你点击、复制、粘贴、保存。

第二个思路，查看人民日报光盘上的文件，必要时候使用FileMon这样的工具跟踪，能找到HTML文件内容在哪个文件里面，那个文件可能是数据库格式、或者其它格式，如果没有压缩或者加密那就是你到幸运。否则检测探索其加密或者压缩的算法，运气好的时候可以写程序一下取出所有内容。

可以程序读取HTML文件，然后再写入你要保存的地方，程序在遇见<a href="">下一个记录</a>的时候,直接跳转到href那个网页，然后继续进行读取.
这些可以用JAVA里面的IO流那一章的东西做，配合下FileMon就可以了。
呵呵，本人菜鸟，才刚学JAVA.

学习，很专业！

学习了

电脑编程高手请进，需懂HTML，跪求！电脑编程高手请进! 电脑编程！高手请进我狂想学电脑编程.电脑编程高手请进. HTML高手请进 HTML高手请进? 电脑C++编程高手请进求救会html的高手请进！！！编程高手请进 VB编程高手请进