我做一个蜘蛛程序,从哪里获得无数的域名列表呢

来源:百度知道 编辑:UC知道 时间:2024/05/31 11:15:21
我做一个蜘蛛程序,我做一个蜘蛛程序,从哪里获得无数的域名列表呢,总不能我一个一个的去找域名吧

这个曾想过N次,的确比较感兴趣.不是回答楼主的问题,是讨论一下.
我觉得WHOIS服务器上应该全球域名都在他那里,应该是有一个数据库的.所以像百度,GOOGLE这样的搜索引擎,应该是WHOIS相关机构有业务上的合作的,或者是WHOIS服务有相应的对外接口.比如很多IDC能提供域名注册前的查询,这个数据库肯定来自于WHOSIS.但是这个接口,或者是业务合作方式,的确需要进一步去明确.
另外一个可能是DNS缓存,建立一个DNS服务以后,应当会在服务器本地有一个DNS缓存,复制于WHOIS服务器.所以我们上宽带,总要设置一个DNS服务器地址或者由连接本生自动获取地址,所有域名连接的请求都是从这个DNS服务器获得相应解析的.这一点我们在注册域名并指向时肯定深有体会,其现象是,各区域在域名指向后PING通的时间是有差别的,就应该是DNS同步缓存延时造成的.

以上两种可能,很想进一步获得信息,对机器人的工作机制非常感兴趣.

百度上搜

域名全拼:网址大全 ( wangzhidaquan.com )试试

像百度,GOOGLE这样的搜索引擎,应该是WHOIS相关机构有业务上的合作的,----------------我觉得根本没必要合作

只要有几个稍微著名一点的网站就可以了,从那个网站开始搜索,所有相关的链接在延伸出去,就可以到几乎任何有人浏览的网页,这就像蜘蛛网。

也就是说,如果你的域名已经申请了,那么 whois 上肯定就会收录,那么网络蜘蛛会不会爬呢?不会的,它只爬有人、有浏览量、有链接量的网站。

所以楼主如果要爬网,直接从某个著名门户开始爬就行了,肯定能爬到所有有效的网址,这只是爬的深度和时间问题。

从访问过的网页中提取.

读取已有的网页,从内容中提取所有的链接,
然后再访问提取的链接,再分析.................
............................循环