求个网页分析爬虫,能分析域名下所有的页面,把有我要找的关键字的页面自己打开。

来源:百度知道 编辑:UC知道 时间:2024/06/22 08:39:02
求个网页分析爬虫,就是那种在一个网站里输入关键字,就可以分析这个域名下所有的页面,自动将有这个关键字的页面弹出。
比如,我在一个公司的页面,我想找一个关于叫张三的人的资料,这个公司那么多页面,又没有站内搜索能力,这个时候我把爬虫打开,输入“张三”字样,让爬虫把这个公司域名下所有的页面都分析一遍,假设有3个页面有“张三”字样,就把这3个页面都弹出来。
本人是代码纯菜鸟,一点都不会的那种,只写过CS的脚本。。下了个PYTHON还不会用,求各位脚本大大,程序员大大,黑客大大帮忙一下,能做出来直接用最好。
我QQ:525891998,加好友请注明下“爬虫”,做出来的也可以直接发我QQ邮箱里。
跪谢!!
顺便问一下,为什么我悬赏积分只能用100分?我想把全部的分都给这个问题。。。

边可啊,你做搜索引擎啊?你要的效果可以用下GOOGLE或百度的站内搜索功能的,如需要这种站内搜索功能请看这个两个网站上面的搜索帮助。

www.ok7188.com

1 爬虫技术研究综述
引言?
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:?

(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。?
(2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。?
(3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。?
(4) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。?
为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(general?purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。?

1 聚焦爬虫工作原理及关键技术概述?
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件,如图