维吾尔文自动文摘提取方法及相关技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:adamas522
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本摘要通过计算机技术完成对文本的分析,并能够自动生成摘要以及实现对内容的总结,能够帮助用户尽快获取可用信息,并有利于用户对自身兴趣的定位。对自动文本摘要的研究,在实际应用中不仅帮助用户快速准确地得到需要的信息,而且降低了摘要编写的成本,摘要出版时间在很大程度上得到缩减;在理论上,自动文本摘要便于用户了解语言信息,建立对知识的认识模型。自动文本摘要在计算机语言的应用具有强劲的渗透力,在市场中具有广阔的应用前景。因此,情报学以及计算机语言学关注于提高自动文摘系统的有效性以及准确性。  在大数据发达的今天,维吾尔文摘要提取对于我们的生活息息相关。我们如何在这海量信息中能够快速、准确地搜寻所需要的信息是当前面临的一个问题。维吾尔文自动摘要解决这一问题,能够快速、简洁、明了地表达出维吾尔文文档的中心意思,具有一定的社会价值。给我区少数民族人民的社会生活带来了一定的使用价值。同时,对于研究新疆以及中亚地区同属阿勒泰语系语言的自动文摘技术研究也有一定的参考借鉴意义。本论文将在已有的中文和英文自动摘要工作基础上面,对维吾尔文自动摘要方法进行研究,本文是对这一研究方向的一个全新尝试。  本文的工作围绕维吾尔语文本自动摘要相关技术的研究。首先,介绍选题意义及背景,国内外本领域发展现状及趋势,维吾尔语信息处理研究现状等;之后详细介绍文摘与自动文本摘要的定义、分类、现阶段对文本摘要处理的技术和自动文本摘要相关关键技术等;第三章重点介绍了作为文本预处理部分关键技术的维吾尔文句子边界识别方法,进行相关实验并进行评价;第四章对维吾尔文关键词提取方法进行了介绍,基于TextRank算法进行关键词提取实验并分析评价。最后,在前章工作的基础上提出了两种自动文摘方法并进行实验,即基于统计和篇章结构信息相结合的文摘提取法,以及基于图和篇章结构信息相结合的文摘提取法;并对两种方法进行了分析比对。  本文的创新点是,在分析维吾尔文句子边界识别、关键词提取方法的基础上,结合统计和图的特点以及自动文摘技术特点,提出了基于统计分析和篇章结构信息的维吾尔文自动文摘方法以及基于图和篇章结构信息的维吾尔文自动文摘方法。对上述两种文摘提取方法进行了参数调整实验,将两种方法自动摘要提取结果进行了对比研究,比较了两个系统的效果,也对特征对不同文体的影响做了分析。  对维吾尔文自动文摘提取相关的技术,包括维吾尔文特征研究、句子边界识别、关键词提取、基于统计和篇章结构信息相结合的摘要提取方法,及基于图和篇章结构信息相结合的摘要提取方法等进行的分析和研究,得到了较好的实验结果,并且为以后相关的研究提供了较为坚实的基础。
其他文献
近年来,随着信息化建设的稳步推进,空间信息应用已逐步深入到人们的日常生产和生活当中,人们在受益于信息技术进步的同时,对空间信息服务提出了更高的要求,而传统的信息访问模式在
采用分布式计算框架及存储架构,云计算提供了一种高效的数据处理方式。云计算所具有的良好通用性、高可靠性和高可扩展性,吸引了众多研究人员及企业机构对云计算相关技术的关注
近年来随着各种重大Web安全事件的发生,对Web安全攻防技术的研究也越来越受到重视,被广泛研究的Web安全技术之一是Web渗透测试。Web渗透测试技术是从攻击者的角度考虑目标Web环
射频识别(RFID)技术作为一项无线自动识别技术在各种相关的行业中逐步被人们所认识和重视。但由于部分尚存的问题困难,致使超高频系统的应用还不是很广,针对存在的问题,需经系统
综合信息系统中分系统越来越多,而且日益复杂。各个分系统之间数据交互的要求也不断增加,同时各种历史数据爆炸性增加。实现综合信息系统中的数据实时、高效地分发,以及各个分系
篇章关系是文本中的组成部分彼此之间的语义关系,篇章语义关系分析是自然语言处理中的一个基本任务,很多其他任务都能从中受益。本文对篇章关系的关键技术进行了研究,对篇章关系
众包是互联网环境下一种新兴的分布式解决问题的生产方式。众包模式可帮助企业获得全球化的人力资源,显著降低开发成本,提高生产效率。采用众包模式开发软件是未来软件发展的一
随着人类对于软件的使用越来越广泛普遍,研究越来越深入,对其精确度的要求也越来越高。程序的语法错误可以在相应的平台上完成检测,但是并没有完成程序逻辑检测。针对软件逻辑错
信息技术的进步和计算机软硬件技术的快速发展推动了计算机系统的大量普及。启动速度是衡量计算机系统性能和用户体验的重要指标之一。提升计算机系统启动速度具有重要意义。
矩阵是一种非常重要的基本数据结构,它在电子商务、社会网络、信息检索等领域都有广泛的应用。如今这些领域处理的数据量越来越大,而过去对矩阵运算的研究多集中在单机算法,用户