电脑编程高手请进,需懂HTML,跪求!

来源:百度知道 编辑:UC知道 时间:2024/05/05 22:11:19
我家中有人民日报电子版的光盘,因为需要编辑语料库,所以需要把HTML的网页,集中起来,然后经过TextForever的转换,将格式转换为TXT格式,再用TextForever将所有的TXT记事本文件合并成一个文件,也就是说需要整理成一个TXT文件。所以说,如何找到那一篇篇的HTML文件是一个麻烦的问题,单个的网页上有下载的按钮,可是太麻烦,于是本人在光盘里面试图搜索HTML格式的文件,没有发现,后来经几次尝试,发现,必须点击HTML网页里面的“下一个记录”按钮,然后在一个临时文件TEMP文件夹中才出现需要寻找的HTML文件,可是必须要一个一个地点击,一直点“下一记录”,每天都要点数万下的鼠标,然后在把这些文件复制,粘贴,全部转换成TXT,然后再合并成一个文件!并且光盘一旦取出,TEMP里面的这些临时文件全部自动删除,本人跪求有哪位高人可以指点,让小生省点事情,虽然我以前学过编程,可是都忘记了。如果我说的还不清楚的话,请加本人的Q:20735910,望高人指点!
二楼的方法不错,是个方法,可是怎么样编写,我不求什么思路,我只求实质性的解决问题方法!
请大家帮帮我。

两个思路:

第一个思路比较简单:编写两个程序,一个程序要做的事情就是控制人民日报程序窗口,反复做下面的事情:全选、复制、在下一页上点鼠标、等待2秒钟。另外一个程序要做的事情是如下循环:取剪贴板数据、如果和上次取的不同则添加到文本文件后面、等待1秒钟。两个程序分开来写就非常简单了,然后启动程序2、人民日报、程序1,你就可以睡觉了,电脑不厌其烦的给你点击、复制、粘贴、保存。

第二个思路,查看人民日报光盘上的文件,必要时候使用FileMon这样的工具跟踪,能找到HTML文件内容在哪个文件里面,那个文件可能是数据库格式、或者其它格式,如果没有压缩或者加密那就是你到幸运。否则检测探索其加密或者压缩的算法,运气好的时候可以写程序一下取出所有内容。

可以程序读取HTML文件,然后再写入你要保存的地方,程序在遇见<a href="">下一个记录</a>的时候,直接跳转到href那个网页,然后继续进行读取.
这些可以用JAVA里面的IO流那一章的东西做,配合下FileMon就可以了。
呵呵,本人菜鸟,才刚学JAVA.

学习,很专业!

学习了