能不能介绍下:单文档自动文摘系统 这是我的毕业论文 希望有高手指点下!!
来源:百度知道 编辑:UC知道 时间:2024/05/05 21:16:38
主要有自动摘录,基于理解的自动文摘,
信息抽取和基于结构的自动文摘4种.
其中,自动摘录(Automatic Extraction)将文本视为句子的线性序列,将句子视为词的
线性序列.然后通过计算句子的权值,对原文中的所有句子按权值高低降序排列,权值最高
的若干句子被确定为文摘句,然后将所有文摘句按照它们在原文中的出现顺序输出.
基于理解的自动文摘方法是以人工智能,特别是自然语言理解技术为基础而发展起来的
文摘方法.这种方法与自动摘录的明显区别在于对知识的利用,它不仅利用语言学知识获取
语言结构,更重要的是利用领域知识进行判断,推理,得到文摘的意义表示,最后从意义表
示中生成摘要.
基于理解的文摘方法需要对文章进行全面的分析,生成详尽的语义表达,这对于大规模
真实文本而言是很难实现的.与之相比,信息抽取(Information Extraction)只对有用的文本
片段进行有限深度的分析,其效率和灵活性显著提高.
篇章是一个有机的结构体,篇章中的不同部分承担着不同的功能,各部分之间存在着错
综复杂的关系.篇章结构分析清楚了,文章的核心部分自然能够找到.但是语言学对于篇章
结构的研究还很不够,可用的形式规则就更少了,这使得基于结构的自动文摘到目前为止还
没有一套成熟的方法,不同学者用来识别篇章结构的手段也有很大差别.
基于以上的介绍,我们决定使用自动摘录的文摘方法,因为其实现简单,效率较高,适
用于"网际新闻快车"系统待文摘文章数目巨大,准确率要求不苛刻的应用环境.
系统流程
Hawk单文档自动文摘系统的系统流程如图1所示,包括预处理,加权,排序,文摘选
取,句子重排以及后处理输出等.
图1. Hawk单文档自动文摘系统的系统流程图
预处理
预处理的主要是进行分词以及划分章节,段落句子等原文本处理工作.将输入的原文本
按照其所属章节,段落和句子等信息进行标记.
其中在分词阶段,进行未登陆词的识别对于文摘的抽取,特别是关键词的标引有非常重
要的作用.在此,我们主要采取