C++高手快进来

来源：百度知道编辑：UC知道时间：2024/06/15 15:50:22

2.问题背景
有一种简单的网页判重的方法，通过求两个网页内容的最长公共子序列(LCS)长度来判定两个网页的相似程度。如：
（网页A）老师：请用“果然”造句。
（网页B）学生：先吃水果，然后喝汽水……
它们的最长公共子序列为“果然”，长度为2。注意这里的“子序列”并不要求连续。
类似的，下面两个网页：
（网页A）老师：请用“果然”造句。
（网页B）学生：先吃水果，然后喝汽水，果然拉肚子……
最长公共子序列还是“果然”，长度为2。但不难看出，由于“果然”两个字在网页B中也曾连续出现，第二组网页比第一组更加“相似”。为了区分开这两种情况的区分度，我们改用一种称为LZW的理论。为了严格的叙述相似度的计算方法，我们首先定义“文本单元”。
假定网页用一个不包含空白字符（空格、回车换行、水平制表符）的字符串来表示。它只包含纯文本，没有标签。在计算相似度之前，你应该首先对该字符串进行处理，划分成一个个“文本单元”。每个文本单位可以是一个中文字、英文单词（由一个或多个连续的半角英文字母和数字组成，正规表达式为[a-zA-Z0-9]+）、或者一个标点符号。
根据上述定义，同一个标点符号的全角和半角应该被作为不同的文本单元，尽管他们看起来可能很相近；每个单独全角英文和全角数字都应该被看成一个单独的文本单元，而连续的半角英文字母和数字应被看成一个整体。总之，全角的字符可以与中文字同等对待。
这样，网页被看成文本单元序列。例如，网页“内容？123456??web2.00#”切分出的文本单元序列为（为了显示方便，用下划线分隔各文本单元）：
内_容_？_1_2_345_6_?_?_web2_._00_#
而网页“why内容相似??1234567890,web#00”的切分结果为：
why_内_容_相_似_?_?_1234567890_,_web_#_00
黑体部分给出了两个网页的一个公共子序列。注意“内容”、“??”分别在两个网页中都是连续出现的文本单元。为了奖励这种情况，LZW规定一段由连续k个文本单元组成的字符串权值为k2。在刚才的例子中，“内容”、“??”的权值均为4。但“00”是一个数字串，应当被看成一个单独的文本单元。所以权值仅为1。

貌似你什么都不理解，没有概念，那就是不及格啦，如果是书的话，你应该回滚往前看，如果是课堂学习的话，那你距离可就远了，呵呵
等人家回答，还不如去看看书吧。思想这种东西不用提示。有就是有，没有就是没有，求人不如求己。

太长了！

呵...百度之星.......
我也是因为这个不会........
q296806968

看吧！

等人家回答，还不如去看看书吧。思想这种东西不用提示。有就是有，没有就是没有，求人不如求己。给你推荐个网页

这是百度之星的考题，呵呵~~~~
都是高手阿

c语言课程设计啊！！高手快进来救命啊！！ C语言的高手们快进来！帮忙啊 C语言的问题，高手快进来啊 C语言的问题，高手快进来啊~~~~~~~~~ 高手！！快进来！游戏高手快进来春联高手快进来！高手快进来啊作文高手快进来！高手快进来急急！！