能不能介绍下:单文档自动文摘系统 这是我的毕业论文 希望有高手指点下!!

来源:百度知道 编辑:UC知道 时间:2024/05/05 21:16:38
数字5000~10000左右 希望高手能知道下该下哪找这类型的资料。谢谢!!

主要有自动摘录,基于理解的自动文摘,
信息抽取和基于结构的自动文摘4种.
其中,自动摘录(Automatic Extraction)将文本视为句子的线性序列,将句子视为词的
线性序列.然后通过计算句子的权值,对原文中的所有句子按权值高低降序排列,权值最高
的若干句子被确定为文摘句,然后将所有文摘句按照它们在原文中的出现顺序输出.
基于理解的自动文摘方法是以人工智能,特别是自然语言理解技术为基础而发展起来的
文摘方法.这种方法与自动摘录的明显区别在于对知识的利用,它不仅利用语言学知识获取
语言结构,更重要的是利用领域知识进行判断,推理,得到文摘的意义表示,最后从意义表
示中生成摘要.
基于理解的文摘方法需要对文章进行全面的分析,生成详尽的语义表达,这对于大规模
真实文本而言是很难实现的.与之相比,信息抽取(Information Extraction)只对有用的文本
片段进行有限深度的分析,其效率和灵活性显著提高.
篇章是一个有机的结构体,篇章中的不同部分承担着不同的功能,各部分之间存在着错
综复杂的关系.篇章结构分析清楚了,文章的核心部分自然能够找到.但是语言学对于篇章
结构的研究还很不够,可用的形式规则就更少了,这使得基于结构的自动文摘到目前为止还
没有一套成熟的方法,不同学者用来识别篇章结构的手段也有很大差别.
基于以上的介绍,我们决定使用自动摘录的文摘方法,因为其实现简单,效率较高,适
用于"网际新闻快车"系统待文摘文章数目巨大,准确率要求不苛刻的应用环境.
系统流程
Hawk单文档自动文摘系统的系统流程如图1所示,包括预处理,加权,排序,文摘选
取,句子重排以及后处理输出等.
图1. Hawk单文档自动文摘系统的系统流程图
预处理
预处理的主要是进行分词以及划分章节,段落句子等原文本处理工作.将输入的原文本
按照其所属章节,段落和句子等信息进行标记.
其中在分词阶段,进行未登陆词的识别对于文摘的抽取,特别是关键词的标引有非常重
要的作用.在此,我们主要采取