全网搜索引擎是怎么制作的?

来源:百度知道 编辑:UC知道 时间:2024/05/25 13:19:55
就是和百度搜索.GOOGLE搜索一样的。想学习下!
是怎么制作的呢?

这个可挺难的。

首先需要你有一定数量的机器来采集页面。
然后就是有一套较好的数据采集策略。从网页等资源中抽取有用资源。
还有就是一套较优的数据结构。

通常下载都采用广度搜索策略。
提取就要用到正则表达式开处理。

补充(2008-10-1 18:33:16)
这个不是一两句话能说清楚的. 需要有一定编程基础和一定的理论知识. 不知道你具备这些不?

多线程下载器比较容易编写. 不好弄的就是数据结构部分. 还有就是主题抽取.

如果想简单也可以, 就是编写下载器, 然后将下载的网页的Html代码去除. 将抽取到的正文部分储存到数据库中(比如MSSQL), 然后利用数据库的全文检索功能提供查询服务.

首先需要你有一定数量的机器来采集页面。
然后就是有一套较好的数据采集策略。从网页等资源中抽取有用资源。
还有就是一套较优的数据结构。

通常下载都采用广度搜索策略。
提取就要用到正则表达式开处理。