
来源:百度知道 编辑:UC知道 时间:2024/06/10 09:31:41
20条 谢谢!

摘要: 首先给出了主题网络爬虫的定义和研究目标; 然后系统分析了近年来国内外主题爬虫的研究方法和技
术, 包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法, 并比较了
各种方法优缺点; 最后对未来的研究方向进行了展望。
关键词: 主题网络爬虫; 信息检索; Web 挖掘
中图分类号: TP391 文 献标志码: A 文 章编号: 1001- 3695( 2007) 10- 0026- 04
Survey on topic-focused Web crawler
LIU Jin-hong, LUYu-liang
( Dept. of Network, PLA Electric Engineer Institute, Hefei 230037, China)
Abstract: This paper gave the goal of focused crawling, then comprehensively analyzed the recent advances of the relevant researches
and applications about focused-crawler, included focused crawling methods based on text contents, link analyses’
methods, classifier-guided methods and other focused methods. Finally pointed out the future direction of focused crawling.
Key words: topic-focused crawler; information retrieval; Web mining
0 引言
随着网络上海量信息的爆炸式增长, 通用搜索引擎面临着
索引规模、更新速度和个性化需求等多方面的挑战[ 1, 2] 。面对
这些挑战, 适应特定主题和个性化搜索的主题网络爬虫( focused
crawler or t