论文部分内容阅读
委婉语是日常生活中的一种普遍的语言现象,是交际过程中不可或缺的润滑剂。委婉语问题在语言学领域一直是一个热门的话题,但是在自然语言处理领域,尚未有相关的研究。委婉语是一个值得研究的问题,建设汉语委婉语资源库,对自然语言处理领域的机器翻译、隐喻识别、情感分析、以及人机对话系统都有一定的意义。在语言学领域,对委婉语的研究涉及到委婉语现象的方方面面,包括委婉语的定义、分类、形成原因、认知理据等等,研究多集中在会话原则、社会语言学、认知语言学、语言教学等方面。大部分研究为理论研究、定性研究,缺乏相关的量化研究和语料库资源。在自然语言处理领域,拥有大量成熟的自动或半自动的技术用以处理语言问题,但是对于委婉语这种复杂的语言现象,缺少形式化处理的方法,缺少大量人工标注的基础语言资源予以参照。本文尝试结合语言学与自然语言处理两个学科的理论与技术,站在跨学科的角度,使用自然语言处理相关技术建设一个动态的汉语委婉语资源库,并进行初步的应用,本文的研究工作主要包括以下四个方面:1、构建自然语言处理领域可以使用的语料库语言资源:通过对目前常用的四本委婉语词典进行评价,确定常用委婉语界定范围,并验证词典中的例句的分词效果。通过检索和提取《人民日报》语料,为923个委婉语添加63159个句子。为了做好初期语言资源的建设,使用了五人投票、人工标注的方法,对所有句子进行了标注,并对语料中出现的委婉语的语义、用法、情感色彩方面发生的变化进行了注释。根据现有语言学研究成果,结合自然语言处理相关任务,对委婉语在语义层面进行了详细的分类,分类包括11个大类,每个大类2-5个子类,并给出了相关的理据,以及示例。2、运用自然语言处理相关技术,完成委婉语的自动识别,使资源库可以进行自动更新,从而获取大规模语料:由于委婉语多为多义词,为了保证语料库能够大量地、不断地更新,需要实现对委婉语语义的自动识别。本文运用词嵌入技术,结合已训练好的词向量模型,生成算术平均和TF-IDF(Term Frequency–Inverse Document Frequency)加权平均两种句子向量,并使用K-Means和谱聚类两种方式对委婉语句子进行无监督聚类。通过对结果的分析和可视化,发现委婉语的上下文在无监督聚类的条件下,难以被分类器学习,委婉语的自动识别需要人工标注的先验知识。借助人工标注,本文尝试使用KNN(k-Nearest Neighbors)和SVM(Support Vector Machine)两种有监督分类模型,以十折交叉验证进行实验,取得了较好的效果。基于有监督分类器识别的准确率最高可以达到96.29%,F1值为0.9167。我们还使用训练好的有监督分类器对未收录进委婉语资源的委婉语进行识别,并使用下采样的方法,弥补由于训练集不同类型样本数量不均衡,给分类器预测性能造成较大影响的问题,实验获得了一定的成果,但是仍然有改进的空间,委婉语资源库的规模仍需要进一步扩大。3、运用委婉语自动识别技术,对亿字级海量语料进行自动识别,分析委婉语历时性变化发展趋势与成因:本文通过运用自己训练的分类器对委婉语进行自动识别,从1946年-2017年的《人民日报》语料全集中抽取出数百万句委婉语句子,并运用自动识别、量化统计分析的方法,对委婉语的历时性变化发展进行研究,并对原因进行了探讨。利用大量数据展示了委婉语的发展和变化与社会、人的观念之间的“共变关系”。从定量研究的方向证明了语言变化发展中的“格雷什姆规律”和“更新规律”。4、初步尝试了委婉表达自动改写:本文初步尝试进行了汉语委婉表达改写研究。将表达特定态度、看法的句子替换为委婉表达。从词典的注释入手,结合以往语言学的研究成果,运用Stanford Core NLP生成句法树,从委婉语目标词的词性、在短语、句法树中的位置、上下文搭配、以及上下文的词性等方面进行判断,设定句子改写条件,对于语言规则无法解决的问题,使用Ken LM训练一个语言模型对生成的句子进行打分,通过计算改写前的句子与改写后的句子得分的差值,设置筛选阈值,从而达成句子委婉表达自动改写的目的。