基于问答社区的网络非规范词规范化技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:lcsj652
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网文本中存在着大量的非规范词,这些非规范词既包含用户无意识产生的输入错误,也包含用户出于幽默、规避审查等目的而使用的一些约定俗成的网络新词。正是这些非规范词的存在使得传统NLP工具在处理互联网文本时性能较低,因此在预处理阶段,把非规范词替换为对应的规范词是提升下游NLP任务性能的重要手段。本文主要研究非规范词的规范化任务,即给定一个非规范词寻找与其相对应的规范词。主要创新点和研究成果如下:(一)提出了基于网络知识库的词规范化技术框架,并对其中的关键问题进行研究。过去的工作主要将中文词规范化视作一个拼写修正的问题,从音似、词法的角度进行研究,对新出现的非规范词产生机制如音译、同义替换等难以进行有效建模。本文从知识抽取的角度对词规范化任务进行研究,首先从网络知识库中获取解释非规范词词义的句子,进而利用语义理解及分类的方法从中抽取出目标规范化词,完成词规范化。本文以问答社区为网络知识库,对所提出的技术方案进行了有效性验证。(二)研究了从问答社区用户答案中抽取目标规范词的问题,并从句子语义角度出发设计和实现了基于LSTM的目标规范词抽取算法。从问答社区中获取到解释给定非规范词词义的用户答案后,问题便转变为如何从用户答案中准确地抽取出目标规范词。本文从句子语义角度出发,提出若干基于LSTM的抽取模型,包括预测目标词起止位置的抽取模型和词块编码的排序模型,同时实现了传统的模式匹配模型,并通过实验对比了不同模型性能的差异。(三)从非规范词的产生机制出发,设计和实现了基于词对内在关联特征的候选规范词判断方法。目前仅依靠语义理解,难以获得高质量的非规范词-规范词对,因此本文又对词对本身的关联变化特点进行建模,对抽取出的有噪声的非规范词-规范词对做进一步的分类过滤。本文针对不同的变化关系设计相应的拼音、字形等特征,通过实验对比了多种分类器在本任务上的性能,取得了良好的分类效果。
其他文献
本文对氧化铝厂建设中的人工拌制沥青砂浆进行总结,文山氧化铝厂是云南第一座氧化铝厂,文山氧化铝厂的建成,是云南铝厂建设的一个重要里程碑事件,在此之前云南所有电解铝厂的
目的观察补肾复方对老年人T细胞凋亡及其相关基因群mRNA表达的调控作用模式.方法老年人44例,采取补肾方和安慰剂随机分组,双盲给药;采用TUNEL标记的流式细胞仪检测分析各组T
根据遗忘过程的变化规律及人们在不同学习材料、不同学习方法等情况下学习所表现出来的遗忘特性,分析论述了如何运用遗忘特性指导教师备课、课堂教学、课程设置与安排、平时
目的观察经皮穿刺低温等离子消融髓核成形术治疗椎间盘源性腰痛的临床疗效。方法将100例椎间盘源性腰痛患者随机分为观察组和对照组,每组50例。对照组采用针刀疗法,观察组采
目的探究综合护理干预应用于产妇产时与产后出血护理中的效果。方法本次试验对象均选自2018年1月至2019年2月在本院进行治疗的80例产妇,按照入院先后顺序分成试验组(n=40)和
通过对医学生学习成绩的比较研究发现,不同思维类型的一年级学生,学习医学专业性课程的学习困难程度是不同的;同时还发现,制约医学生学习专业课程的关键性因素是科学思维能力
随着新课程改革的深入实践,引起了教育者们对小学数学教学评价的全新认知和思考。评价在我国教育教学改革中起着举足轻重的作用。然而在小学数学教学中,原有的数学教学评价存在着诸多不完善的地方。这样的评价方式已不能适应现行的教育教学发展状况。基于这个现状,重视小学数学教学评价的改革势在必行,现代小学数学教学需要新的多元化的评价来推进小学数学教学良性的发展。老师们也在进行着相应教学评价的实践工作。但受制于诸多