基于自然语言处理技术的汉语委婉语资源库构建与应用

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:shaoping6868
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
委婉语是日常生活中的一种普遍的语言现象,是交际过程中不可或缺的润滑剂。委婉语问题在语言学领域一直是一个热门的话题,但是在自然语言处理领域,尚未有相关的研究。委婉语是一个值得研究的问题,建设汉语委婉语资源库,对自然语言处理领域的机器翻译、隐喻识别、情感分析、以及人机对话系统都有一定的意义。在语言学领域,对委婉语的研究涉及到委婉语现象的方方面面,包括委婉语的定义、分类、形成原因、认知理据等等,研究多集中在会话原则、社会语言学、认知语言学、语言教学等方面。大部分研究为理论研究、定性研究,缺乏相关的量化研究和语料库资源。在自然语言处理领域,拥有大量成熟的自动或半自动的技术用以处理语言问题,但是对于委婉语这种复杂的语言现象,缺少形式化处理的方法,缺少大量人工标注的基础语言资源予以参照。本文尝试结合语言学与自然语言处理两个学科的理论与技术,站在跨学科的角度,使用自然语言处理相关技术建设一个动态的汉语委婉语资源库,并进行初步的应用,本文的研究工作主要包括以下四个方面:1、构建自然语言处理领域可以使用的语料库语言资源:通过对目前常用的四本委婉语词典进行评价,确定常用委婉语界定范围,并验证词典中的例句的分词效果。通过检索和提取《人民日报》语料,为923个委婉语添加63159个句子。为了做好初期语言资源的建设,使用了五人投票、人工标注的方法,对所有句子进行了标注,并对语料中出现的委婉语的语义、用法、情感色彩方面发生的变化进行了注释。根据现有语言学研究成果,结合自然语言处理相关任务,对委婉语在语义层面进行了详细的分类,分类包括11个大类,每个大类2-5个子类,并给出了相关的理据,以及示例。2、运用自然语言处理相关技术,完成委婉语的自动识别,使资源库可以进行自动更新,从而获取大规模语料:由于委婉语多为多义词,为了保证语料库能够大量地、不断地更新,需要实现对委婉语语义的自动识别。本文运用词嵌入技术,结合已训练好的词向量模型,生成算术平均和TF-IDF(Term Frequency–Inverse Document Frequency)加权平均两种句子向量,并使用K-Means和谱聚类两种方式对委婉语句子进行无监督聚类。通过对结果的分析和可视化,发现委婉语的上下文在无监督聚类的条件下,难以被分类器学习,委婉语的自动识别需要人工标注的先验知识。借助人工标注,本文尝试使用KNN(k-Nearest Neighbors)和SVM(Support Vector Machine)两种有监督分类模型,以十折交叉验证进行实验,取得了较好的效果。基于有监督分类器识别的准确率最高可以达到96.29%,F1值为0.9167。我们还使用训练好的有监督分类器对未收录进委婉语资源的委婉语进行识别,并使用下采样的方法,弥补由于训练集不同类型样本数量不均衡,给分类器预测性能造成较大影响的问题,实验获得了一定的成果,但是仍然有改进的空间,委婉语资源库的规模仍需要进一步扩大。3、运用委婉语自动识别技术,对亿字级海量语料进行自动识别,分析委婉语历时性变化发展趋势与成因:本文通过运用自己训练的分类器对委婉语进行自动识别,从1946年-2017年的《人民日报》语料全集中抽取出数百万句委婉语句子,并运用自动识别、量化统计分析的方法,对委婉语的历时性变化发展进行研究,并对原因进行了探讨。利用大量数据展示了委婉语的发展和变化与社会、人的观念之间的“共变关系”。从定量研究的方向证明了语言变化发展中的“格雷什姆规律”和“更新规律”。4、初步尝试了委婉表达自动改写:本文初步尝试进行了汉语委婉表达改写研究。将表达特定态度、看法的句子替换为委婉表达。从词典的注释入手,结合以往语言学的研究成果,运用Stanford Core NLP生成句法树,从委婉语目标词的词性、在短语、句法树中的位置、上下文搭配、以及上下文的词性等方面进行判断,设定句子改写条件,对于语言规则无法解决的问题,使用Ken LM训练一个语言模型对生成的句子进行打分,通过计算改写前的句子与改写后的句子得分的差值,设置筛选阈值,从而达成句子委婉表达自动改写的目的。
其他文献
学位
学位
学位
我国民办或私立教育的传统源远流长,最早可以追溯到先秦时代诸子百家的讲学活动。经过两千余年私塾与书院等形式的发展,民办教育在民国时期达到高峰,出现一批在现代教育规范下的私立大学,成为中国近现代高等教育的主力军。1949年新中国成立之后,高等教育公有化,私立、民办教育完全退出。直至改革开放之后,随着办学类别与层次日益多元化,民办大学才得以重新从无到有,由弱变强,在办学规模、学生数量、办学质量和社会影响
机器学习,特别是深度学习,已经成为一种通过分析和提取高维神经影像数据中的隐藏连接模式来理解脑部疾病的神经基础的新兴工具。这种数据密集型方法越来越被认为有可能提高我们对脑部疾病的理解,以及它们的准确诊断和预防,特别是如果提供更大规模的神经影像数据库,并且基于现有数据开发改进的特征提取和训练方法。本论文的重点是开发新的特征提取技术和新的机器学习模型,使用静息状态的功能磁共振成像(Rsf MRI)数据以
改革开放以来,特别是加入WTO后,中国凭借丰富的劳动力和自然资源优势积极参与国际分工,对外贸易迅猛增长,成为当之无愧的“世界工厂”和具有全球影响力的贸易大国。然而,在全球价值链分工体系中,中国仍然处于中低端位置,外贸“大而不强”问题依然突出。随着中国劳动力成本持续上升,资源、能源、环境约束加剧,支撑对外贸易快速发展的传统竞争优势逐步弱化,单纯依赖要素投入扩张出口的粗放型贸易增长模式已难以为继。同时
学位
董事会下设有三个专门委员会:审计委员会、提名委员会和薪酬委员会,大多数重要的董事会决议结果都源于下设专门委员会的决策,因此,专门委员会在公司治理中发挥着重要的作用。审计委员会制度的产生起源于美国历史上的麦克森·罗宾斯财务舞弊案,随着更多的财务舞弊案被频频爆出,其设立目的也从转移管理层的外部审计师聘任权到作为公司治理机制的重要组成部分。美、英两国对审计委员会制度建设的探索经历了众多的波折,从最初的建
学位
学位