哪位兄弟能帮忙翻译下这段话lucene

来源:百度知道 编辑:UC知道 时间:2024/05/17 21:08:23
1. Create tokenized stream from fields of document. The result is an enumeration of terms with
2. stop words filtered and possibly normalized and or Porter stemmed.
Invert the documents by counting occurrences through the used of hash table. Positions are
recorded in posting table using extendable array.
3. Sort the posting table using an in-placed quick sort.
4. Write sorted postings to disk using δ encoding.
5. Merge sort the segments representing the entire document.
Let’s assume that n terms appearing in the m documents. The cost is linear time O(mn)for reading the corpus and the for the iterations of tokenizing and filtering of all documents in step 1).Since it takes constant time to add, to find and or to update the weight of a specific token in the hashtable(ignoring collisions),the total time to construct the hashtable would be O(mn),
with the storage overheads for hashtable≈1.5n(for each document)and by then the table must fit in main m

1 .创建记号流,从各个领域的文件。其结果是一个枚举的条款
2 .停止词过滤,并可能正常化或波特阻挡。
倒置证件票事件,通过使用的哈希表。持仓
记录表张贴使用可延长阵列。
3 .排序表张贴使用,在有条件的快速排序。
4 .收件整理张贴到磁盘使用δ编码。
5 .合并排序阶层代表整个文件。
让我们假设n项出现在M文件。成本是线性的时间为O ( MN )的阅读语料,并为迭代tokenizing和过滤的所有文件,在第1步) 。因为它需要持续的时间补充,以寻找并或更新的重量特定令牌在哈希表(忽略碰撞) ,总时间,构建哈希表,将澳(分钟) ,
随着存储间接为哈希表≈ 1.5 N (下每个文件) ,并届时表必须配合在主记忆体。分拣的独特条件使用快速排序,在第3步)应负有统计学上的复杂度为O ( mnlog ( n ) )的,既然是做"就地, "空间间接成本是N由于没有额外的开销与排序。第5步) ,只是因为原来的设计有关心的机器没有足够的内存运行时间为文本处理。结合第4步) ,因为这两个步骤,涉及重型磁盘读写,将是不成比例的,与我们的运行时间计算,所以,我们选择了不包括在我们的讨论[ 1 ] 。因为它需要持续的时间补充,以寻找并或更新的重量一个具体象征,在哈希表(忽略碰撞) ,总时间,构建哈希表,将澳(分钟) ,
随着存储间接为哈希表≈ 1.5 N (下每个文件) ,并届时表必须配合在主记忆体。分拣的独特条件使用快速排序,在第3步)应负有统计学上的复杂度为O ( mnlog ( n ) )的,既然是做"就地, "空间间接成本是N由于没有额外的开销与排序。第5步) ,只是因为原来的设计有关心的机器没有足够的内存运行时间为文本处理。结合第4步) ,因为这两个步骤,涉及重型磁盘读写,将是不成比例的,与我们的运行时间计算,所以,我们选择了不包括在我们的讨论[ 1 ] 。因此,为我们的运行分析,我们根本复位.
外地来的整数。最大值从原来的10000 ,以避免合并,也禁用磁盘写作,以防止磁盘印务局业务从不断发生..