论文部分内容阅读
互联网文本中存在着大量的非规范词,这些非规范词既包含用户无意识产生的输入错误,也包含用户出于幽默、规避审查等目的而使用的一些约定俗成的网络新词。正是这些非规范词的存在使得传统NLP工具在处理互联网文本时性能较低,因此在预处理阶段,把非规范词替换为对应的规范词是提升下游NLP任务性能的重要手段。本文主要研究非规范词的规范化任务,即给定一个非规范词寻找与其相对应的规范词。主要创新点和研究成果如下:(一)提出了基于网络知识库的词规范化技术框架,并对其中的关键问题进行研究。过去的工作主要将中文词规范化视作一个拼写修正的问题,从音似、词法的角度进行研究,对新出现的非规范词产生机制如音译、同义替换等难以进行有效建模。本文从知识抽取的角度对词规范化任务进行研究,首先从网络知识库中获取解释非规范词词义的句子,进而利用语义理解及分类的方法从中抽取出目标规范化词,完成词规范化。本文以问答社区为网络知识库,对所提出的技术方案进行了有效性验证。(二)研究了从问答社区用户答案中抽取目标规范词的问题,并从句子语义角度出发设计和实现了基于LSTM的目标规范词抽取算法。从问答社区中获取到解释给定非规范词词义的用户答案后,问题便转变为如何从用户答案中准确地抽取出目标规范词。本文从句子语义角度出发,提出若干基于LSTM的抽取模型,包括预测目标词起止位置的抽取模型和词块编码的排序模型,同时实现了传统的模式匹配模型,并通过实验对比了不同模型性能的差异。(三)从非规范词的产生机制出发,设计和实现了基于词对内在关联特征的候选规范词判断方法。目前仅依靠语义理解,难以获得高质量的非规范词-规范词对,因此本文又对词对本身的关联变化特点进行建模,对抽取出的有噪声的非规范词-规范词对做进一步的分类过滤。本文针对不同的变化关系设计相应的拼音、字形等特征,通过实验对比了多种分类器在本任务上的性能,取得了良好的分类效果。