关于java搜索引擎

来源:百度知道 编辑:UC知道 时间:2024/05/22 00:50:54
做个企业搜索引擎
没打算用lucene,速度、效率不好保证,甚至都没打算用ssh来做
后台打算直接用servlet。
主要还是想提升搜索的速度和效率
初期不需要网上搜索,1000W条左右的企业数据库,只要保证数据库检索的效率就可以了,毕竟用hibernate操作与jdbc直接操作比较起来数据量大了还是有差距的。
这段时间想了想思路有点迷糊了,具体该不该用ssh,还是只选择哪一种来用,听听兄弟们的意见-_-。
主要还是考虑搜索速度与效率方面的问题
有这方面经验的朋友们给指点下
主要是该用那些框架或者技术,不包括搜索引擎实现这部分,主要是对检索到的网络数据/数据库数据的处理之类的。
用nutch做索引?
我还是担心lucene的效率问题啊

lucene的效率没有问题,你可以100W条记录的索引放在一台机器上,用nutch分开检索的算法,或者用hadoop存储索引,自己写一个indexsearcher,但是需要注意各个机器上的结果是本地最优不是全局最优的结果,如果想全局最优的结果还得采用全局频率计数(Nutch现在有没有我不清楚),或者放开各个机器返回结果的数量,从算法理论的角度上最大可能的获得最优解。100W记录的响应我测试过,应该可以满足要求。等你遇到什么问题,可以再联系,lucene后面的基准测试你也可以看看。
老吴

http://www.me.lv/jse/

这里有个免费的,按理说应该C++,这个是多层的结构不是mvc结构

lucene有个 neuth 的项目,可以做搜索

全文检索是肯定要的,数据库自带的向来不被看好。

Heritrix或者Nutch

其实Lucence没啥不好的,不过根据Lz的需求,我的提议未尝不是一个好的解决方案

你持久层不用Hibernate可以试验下Ibatis+Resin

可以用spring的jdbc template + struts

lucene就足够了.

主要看检索的复杂度, 单纯检索来说lucene比数据库高的多

Servlet只是做交互的, 不是做检索的.