论文部分内容阅读
文本释义判别指判断两个文本是否表达相同的含义。文本释义判别是机器翻译、信息检索、复述问题和自动问答等研究领域的基础,是自然语言处理的重要技术和基础研究。本文以深度学习框架下的中文文本释义判别为研究对象,以提升文本释义判别的性能为研究目标,研究了释义语料的构建、中文词语相似度计算和文本的释义判别模型。本文主要从以下三个方面进行研究:针对目前中文文本释义判别任务中缺少释义语料、现存的释义语料可读性差和释义程度不高等问题,本文提出质量可控的释义语料构建方法。CTSC-19释义语料库是在Sougou T-16语料库上选择将要进行释义改写的文本,然后使用众包技术对已选择的文本进行释义改写。为监测语料制作者构建语料的行为并监督语料构建的质量,设计了中文释义判别语料库构建系统。最终构建的CTSC-19释义语料库已应用在第八届全国社会媒体处理大会的2019文本溯源评测中。针对现有中文词语相似度计算研究没有充分利用汉字中音、形、义这三大要素来进行词语相似度计算的问题,本文提出基于音形义的词语相似度计算模型。该模型使用词的分散表示,学习汉语中字、偏旁、拼音的分散式表示,然后交互的计算这些汉语构成要素的语义相似度,最后利用岭回归模型融合这些相似度,从而得到词语的相似度。在Word-Sim297数据集上的实验结果表明,该模型优于CBOW模型和Skip-gram模型等基线方法。为在释义判别中利用语言学特征,本文提出了融合句法与语义的中文文本释义判别模型,该模型引入文本的句法特征获得具有句法结构的文本语义表达,使用句法信息来增强文本的语义表达,在句法结构上学习文本的语义表示,并通过卷积神经网络提取有效的释义关系特征,把提取的特征与传统特征进行融合,通过多层神经网络对文本进行释义判别。在PSP数据集上的实验结果表明,该模型取得了更优的F1-score值,证明该模型的有效性。