数据挖掘与信息检索

来源:百度知道 编辑:UC知道 时间:2024/06/25 07:16:18
信息检索与数据挖掘的区别

信息检索是通过索引等方式,方便的查询到你想要的信息。

数据挖掘是在海量数据中,挖掘出你不知道的知识。

前者主要问题是查询,后者主要问题是知识的发现。

信息检索:从大量的数据中找到你需要的数据。
数据挖掘:除了要找出你需要的数据,还需要发现找到的数据的关联性。
例如给一个产品打分,打分项有好几个,最后一项满意度。信息检索就是查出每一项的N个分数或者产品每一次的N个分数,而信息挖掘能发现几个打分项和产品满意度之间的关系,从而选择最能提高满意度的项目进行改进。

信息检索 当前的主要目标是同义词,近义词分析,多用在搜索引擎方面。
数据挖掘 是另外一种东西
信息检索中的某些思想可以用在数据挖掘里面比如plsi/plsa
两种东西属于两个学科,

1 引言
随着社会的不断进步,特别是在互联网迅猛发展的今天,人们在不断地接触形形色色的信息,同时也要对这些信息进行过滤,从而提取出对自己真正有用的内容。为了达到这个目的,人们开发出了众多的检索引擎,有针对Web进行搜索的Goolge、百度等,也有针对各行业开发的专题检索系统。目前,国内的每个行业、领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取最新的信息,中文检索引擎是必然的产物。中文检索引擎与西文检索引擎在实现的机制和原理上大致雷同,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而中文分词技术就是其中很关键的部分。
2 中文检索引擎的基本原理
常见的中文检索引擎主要完成两方面的任务:
1.信息的规范化。将搜集来的信息按照一定的方式进行组织管理,使之成为可以高效检索的信息库。
2.信息的检索和表达。以索引好的信息库作为信息基础,利用信息库已被索引的特点,实施快速检索,同时根据用户的需求将检索结果进行输出。
其中,信息的规范化包括分词和索引(以及资料的搜集和整理)、更新(维护)两部分;信息的检索包括搜索、结果输出两部分。整个信息处理和检索过程如图1所示: