Lucene是什么?

来源:百度知道 编辑:UC知道 时间:2024/06/14 05:29:11
查了一些资料,lucene是一个全文检索的东西
是说得配合字典才能进行分词、提取关键词吗?
谢谢!
那不配合字典如何分词呢?
比如“我是学生”,没有字典,他怎么知道“学生”是一个词而不是两个字呢?

再次感谢!
那你上面说的““可以配合字典分词,提取关键字”,而不是必须 ”是什么意思呢?

Lucene针对中文单字为词,“我是学生”在standardAnalyzer分割下,分为“我”,“是”,“学”,“生”。
车东做了CJKAnalyzer可以分为“我是”,“是学”,“学生”。
你也可以用Dijkstra算法来自己做一个,源代码向家立要,他和我写过《Lucene分析与应用》,他会告诉你去如何下载这个代码,这种分词都是有经验值的,也就是说“学生”,已经是分割过的,就是有字典存在。
不配合字典你再想一想,自然语言是什么?是人类的交谈工具吧,有没有规律哪?频率,位置依赖关系,但是不管如何,人类自己要能明白,没有人类自身的经验,就别谈“分词”,“字典”。
分词与Lucene关系不大,它只是输入,虽然也会影响索引,与效率,效能,但是Lucene与你谈论的问题关系不太大。

一种全文检索引擎
应该说是“可以配合字典分词,提取关键字”,而不是必须
配合字典的话会有较强的专业性和精度

答案是:如果没有字典,就不知道“学生”是一个词

如果你的字典里有“学生”,就找到了,如果你的字典里也没有,那也找不到。

这就是字典对精度的影响,当然也取决于算法。

如果你的字典里有“好学”,又有“学生”
那么对于“好学生”可能的情况是,分词结果为“好学/生”而不是“好/学生”