论文部分内容阅读
自动文本摘要通过计算机技术完成对文本的分析,并能够自动生成摘要以及实现对内容的总结,能够帮助用户尽快获取可用信息,并有利于用户对自身兴趣的定位。对自动文本摘要的研究,在实际应用中不仅帮助用户快速准确地得到需要的信息,而且降低了摘要编写的成本,摘要出版时间在很大程度上得到缩减;在理论上,自动文本摘要便于用户了解语言信息,建立对知识的认识模型。自动文本摘要在计算机语言的应用具有强劲的渗透力,在市场中具有广阔的应用前景。因此,情报学以及计算机语言学关注于提高自动文摘系统的有效性以及准确性。 在大数据发达的今天,维吾尔文摘要提取对于我们的生活息息相关。我们如何在这海量信息中能够快速、准确地搜寻所需要的信息是当前面临的一个问题。维吾尔文自动摘要解决这一问题,能够快速、简洁、明了地表达出维吾尔文文档的中心意思,具有一定的社会价值。给我区少数民族人民的社会生活带来了一定的使用价值。同时,对于研究新疆以及中亚地区同属阿勒泰语系语言的自动文摘技术研究也有一定的参考借鉴意义。本论文将在已有的中文和英文自动摘要工作基础上面,对维吾尔文自动摘要方法进行研究,本文是对这一研究方向的一个全新尝试。 本文的工作围绕维吾尔语文本自动摘要相关技术的研究。首先,介绍选题意义及背景,国内外本领域发展现状及趋势,维吾尔语信息处理研究现状等;之后详细介绍文摘与自动文本摘要的定义、分类、现阶段对文本摘要处理的技术和自动文本摘要相关关键技术等;第三章重点介绍了作为文本预处理部分关键技术的维吾尔文句子边界识别方法,进行相关实验并进行评价;第四章对维吾尔文关键词提取方法进行了介绍,基于TextRank算法进行关键词提取实验并分析评价。最后,在前章工作的基础上提出了两种自动文摘方法并进行实验,即基于统计和篇章结构信息相结合的文摘提取法,以及基于图和篇章结构信息相结合的文摘提取法;并对两种方法进行了分析比对。 本文的创新点是,在分析维吾尔文句子边界识别、关键词提取方法的基础上,结合统计和图的特点以及自动文摘技术特点,提出了基于统计分析和篇章结构信息的维吾尔文自动文摘方法以及基于图和篇章结构信息的维吾尔文自动文摘方法。对上述两种文摘提取方法进行了参数调整实验,将两种方法自动摘要提取结果进行了对比研究,比较了两个系统的效果,也对特征对不同文体的影响做了分析。 对维吾尔文自动文摘提取相关的技术,包括维吾尔文特征研究、句子边界识别、关键词提取、基于统计和篇章结构信息相结合的摘要提取方法,及基于图和篇章结构信息相结合的摘要提取方法等进行的分析和研究,得到了较好的实验结果,并且为以后相关的研究提供了较为坚实的基础。