如何获得'百度知道'的所有词条名,本人欲收集所有中文词条

来源:百度知道 编辑:UC知道 时间:2024/05/27 10:54:26
本人欲收集所有中文词条,请问怎样才能 "获得'百度知道'的所有词条名",
注:只要有词条名就可以了,词条名下的解释或图片或链接等若有更好,
注:最佳结果=一个Txt文件内集合所有中文词条名
如何(找百度)?
在哪里,怎样的操作,不是发个邮件给百度吧,我也不知具体的操作,
你都知啦,我还是试用期一级的水准了,
如果谁能给我这样的一个Txt文件,本人现有的所有分数全付上
本人敬上,

你说的是“知道”还是“百科”呢,知道里面全是长长的提问,只有百科才有词条名。

因为百科的数据库你拿不到,所以只能编程序抓取
第一个词条地址是:
http://baike.baidu.com/view/1.htm
最新词条的地址我不清楚,反正目前是几百万条,例:
http://baike.baidu.com/view/1234567.htm

做这个程序从1循环到1234567,每次循环都下载一个页面,并且从页面源代码中固定的位置取出词条名,存下来

开着电脑24小时不断抓取就行了。断电的话开机就从断的地方继续

你自己重新开帖求程序吧,写这程序也需要几小时。

或者你开个高分提问,我就给你做程序。(百度为什么要限制最高200分呢)

做这个程序从1循环到1234567,每次循环都下载一个页面,并且从页面源代码中固定的位置取出词条名,存下来

开着电脑24小时不断抓取就行了。断电的话开机就从断的地方继续

你自己重新开帖求程序吧,写这程序也需要几小时。

或者你开个高分提问,我就给你做程序。(百度为什么要限制最高200分呢)

你找百度要吧!