基于词向量表征的新词发现及命名实体识别研究

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:wudixuejie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘中结构化数据的挖掘分析相对成熟,但非结构化的数据挖掘分析面临许多挑战。文本数据是一种非常重要的非结构化数据,对于该种数据类型的挖掘分析面临着更多的挑战,主要面临如中文分词、命名实体识别、实体关系抽取、语义理解,情感分析等等一系列的问题。其中,分词技术几乎是绝大多数中文文本数据挖掘分析的基础步骤。然而,由于人们总是在不断地创造新的词汇,这些新词是不可能被人们完全收录,所以会导致分词错误,从而引致命名实体的标记错误。因此,新词识别已经成为文本挖掘的一个难点和瓶颈问题。近几年利用神经网络或深度学习训练语言模型而得到的词向量表征能够很好的表征词与词之间的语义关系,受此启发,本文把这种词向量表征用于中文的新词发现识别中,提出了一个基于词向量表征和n-gram相结合的无监督的新词发现方法。首先,本文通过训练神经网络语言模型把词映射到一个高维空间,并且对比了Skip-gram模型和CBOW模型得到的词向量对新词结果的影响,发现Skip-gram模型能够取得更好效果。其次,考虑到如果几个相邻的词经常的共同出现在不同的词序列中,那么他们一定存在某种关系。本文受关联规则算法的启发,设计了高效的n-gram挖掘算法,把挖掘出的n-gram作为新词候选词串。接着,本文利用训练好的词向量对候选词串进行剪枝,剔除噪音数据,从而得到新词结果。本文还设计了剪枝算法,并且对比了不同向量相似性度量方法对最终结果的影响,发现余弦相似性剪枝效果最好。同时,本文也和其他新词发现方法做了相应对比,证实了本文方法的有效性。最后,本文在新词结果的基础上,进一步利用条件随机场对结果进行分类,从而实现命名实体词的识别。本文的主要贡献为:(1)在中文新词识别领域引入了神经网络训练的词向量,把词向量和n-gram相结合,提出了一种新的无监督的新词识别方法。(2)在新词发现的基础上利用条件随机场对新词进行分类并识别出其中的命名实体词,为命名实体识别提出了一种新的实践。
其他文献
孕早期去医院做产检,医生会开一张做NT的检查单,但是很多人不知道,这个检查是个什么,做它有什么意义?$$ NT是什么?$$ NT即超声检查胎儿颈项后透明带宽度,是唐氏筛查的一种,又叫颈项
报纸
<正> 256.若要替一只具有散光的眼睛验光,但只准使用球面透镜而不准使用圆柱透镜,则可以用一片裂隙板来进行检查。裂隙板是一片黑色的板,其上有一条细长的缝隙。例
在飞速发展的信息时代,信息技术的每一次进步对远程教育的理论研究和实践发展都会产生强烈的影响,促进教学方式的变革和新教学模式的形成.现代信息技术模式已成为当前远程开
石家庄城市发展的百年历史实现了从蕞尔村庄到省会都市的巨变,而石家庄城市化起点的人口数量至今众说纷纭,不可端倪.由于19世纪末和20世纪初的人口数量,关系到城市化之前的石
随着高职教育改革的进一步深入,高职护理助产专业针对职业教育课程改革进行了大量的理论探讨和实践研究。本项目探索了基于岗位工作任务的《外科护理技术》课程改革与实践,采
<正>高中化学新课标4《化学反应原理》主题2《化学反应速率和化学平衡》活动探究建议中提到过一种奇妙的化学震荡反应。这个实验在高中实验课程中从未开设过,主要原因在于实
目的探讨开颅手术过程中急性压疮发生的危险因素,为临床护理人员筛选压疮高危人群、制定术中急性压疮的防控措施提供参考。方法回顾性分析2015年7月至2016年6月住院并接受开