基于深度学习的维吾尔语文本事件信息的抽取与分析

来源 :新疆大学 | 被引量 : 0次 | 上传用户:hanyouzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的普及以及网络信息爆炸式的增长,使得人们越来越多的从网上获取自己关心的事件。如何高效且准确的抽取相关信息变得极具挑战性。事件抽取作为信息抽取领域重要的研究方向,其将事件作为信息表示的基本单元和组织手段,把含有事件信息的非结构化文本以结构化或者半结构化的形式从不同的信息源中抽取并以不同层次和粒度呈现出来。维吾尔语文本事件抽取与分析目的是利用深度学习技术从非结构化的维吾尔语文本数据中抽取事件信息,是自动文摘、自动问答系统等基于事件的信息组织技术的基础。随着新疆的通信事业发展迅速,大量基于民族语言的网站和通信平台不断建立,这为基于维吾尔语事件信息的抽取和分析研究提供了大量的语料资源。事件信息抽取与分析包括事件识别和事件要素的识别,事件识别旨在抽取事件触发词,并将其所对应的事件做出对应的分类。针对事件识别研究中对事件句上下文隐含语义信息挖掘不充分,识别稳定性弱的问题,结合对维吾尔语语言特点分析,提取维吾尔语文本事件包含的六大特征块。为提高维吾尔语事件特征表达,在特征集中引入富含词汇语义及上下文位置关系的Word Embedding。利用深度学习联合模型对特征抽象化的学习能力和事件中抽象含义序列关系的捕获特性,训练分类器完成事件识别任务。实验结果表明Word Embedding特征项的引入提高了模型识别的性能,并且与六大特征块的融合获得了较理想的召回率和准确率以及F值。事件要素识别部分,本文采用深度学习技术将其转化为分类问题,利用双向长短期记忆网络对事件句前后文进行双向序列学习,从已识别出的事件类别中识别出真正的事件要素类别。并聚焦于模型分类器的训练和特征的选择,以及隐含特征的发现。避免了过多的人工干预因素和相关领域知识的欠缺,由此获得较客观的识别结果。实验评测表明深度学习技术有效的改善了维吾尔语文本事件要素识别任务中训练实例不平衡和数据稀疏问题,加强了系统识别的稳定性。
其他文献
目的本研究旨在通过文献回顾、德尔菲专家咨询法,依据知信行理论,构建综合性医院ICU护士亚谵妄综合征知信行现况调查问卷并对综合性医院ICU护士亚谵妄综合征知信行水平状况进
先秦典籍中,"毛"字含义有三:毛发与兽毛之类;草类;五谷.金文和<说文>中的"毛",字形像谷子."毛"字的基本含义就是"五谷".甲骨文中无"毛"字而有"舞"字,"舞"字中一人所执之物非
ICD是医院信息系统的重要组成部分,从2002年开始,我国将ICD-10(国际疾病分类第十次修订版)作为疾病分类的标准在全国推行,这是一个集科学性、准确性、完整性、适用性于一身的分
高职辅导员不仅是学生日常行为的监督者,同时也是思想政治的引导者。本文围绕基于生源多元化背景下高职院校辅导员思想政治教育水平的优化策略展开了深入探讨,简要阐述了多元
内部控制可以合理保证企业目标的实现。由于家族的涉入,家族企业的内部控制有其独特之处。本文阐述家族企业内部控制的特点及缺陷,分析其原因,并提出加强家族企业内部控制的
一人公司的出现降低了经营风险和成本,实现了经济效益的最大化,为投资者提供了更多的选择,但是由于一人公司机制上的特殊,传统的公司法律制度理论已经不能适应一人公司的加入
2013年11月习近平同志在湖南省花垣县十八洞村考察时首次提出精准扶贫。随后,在众多场合与会议中,在广泛调研的实践中,多次详细阐述精准扶贫重要论述,开创了新时期扶贫开发工作的新思路、新境界,是指导我国脱贫攻坚工作的重要指南。习近平关于精准扶贫的重要论述从2013年提出至今已取得显著成就。深入研究习近平关于精准扶贫的重要论述,对促进脱贫攻坚工作的有效开展与全面建成小康社会的顺利实现意义重大。本研究运
<正> 卵巢癌是常见妇女恶性肿瘤之一,严重地危胁健康和生命。国外对此极其重视。但是,由于早期诊断的方法尚不够完善,治疗的规律还没有充分掌握,因此,死亡率仍占妇女癌瘤死亡
文章研究了武汉近代里弄住宅的居住环境及影响要素,分析了里弄住宅居住环境的特色及系统构成,提出了现阶段里弄住宅居住环境保护与改善的任务对策。
经颅磁刺激(Transcranial magnetic stimulation,TMS)是一项非侵入、无痛无创的检测和治疗技术,在生物磁学、精神医学临床和脑基础研究等领域具有广阔的发展空间。然而现有的磁