论文部分内容阅读
数据挖掘中结构化数据的挖掘分析相对成熟,但非结构化的数据挖掘分析面临许多挑战。文本数据是一种非常重要的非结构化数据,对于该种数据类型的挖掘分析面临着更多的挑战,主要面临如中文分词、命名实体识别、实体关系抽取、语义理解,情感分析等等一系列的问题。其中,分词技术几乎是绝大多数中文文本数据挖掘分析的基础步骤。然而,由于人们总是在不断地创造新的词汇,这些新词是不可能被人们完全收录,所以会导致分词错误,从而引致命名实体的标记错误。因此,新词识别已经成为文本挖掘的一个难点和瓶颈问题。近几年利用神经网络或深度学习训练语言模型而得到的词向量表征能够很好的表征词与词之间的语义关系,受此启发,本文把这种词向量表征用于中文的新词发现识别中,提出了一个基于词向量表征和n-gram相结合的无监督的新词发现方法。首先,本文通过训练神经网络语言模型把词映射到一个高维空间,并且对比了Skip-gram模型和CBOW模型得到的词向量对新词结果的影响,发现Skip-gram模型能够取得更好效果。其次,考虑到如果几个相邻的词经常的共同出现在不同的词序列中,那么他们一定存在某种关系。本文受关联规则算法的启发,设计了高效的n-gram挖掘算法,把挖掘出的n-gram作为新词候选词串。接着,本文利用训练好的词向量对候选词串进行剪枝,剔除噪音数据,从而得到新词结果。本文还设计了剪枝算法,并且对比了不同向量相似性度量方法对最终结果的影响,发现余弦相似性剪枝效果最好。同时,本文也和其他新词发现方法做了相应对比,证实了本文方法的有效性。最后,本文在新词结果的基础上,进一步利用条件随机场对结果进行分类,从而实现命名实体词的识别。本文的主要贡献为:(1)在中文新词识别领域引入了神经网络训练的词向量,把词向量和n-gram相结合,提出了一种新的无监督的新词识别方法。(2)在新词发现的基础上利用条件随机场对新词进行分类并识别出其中的命名实体词,为命名实体识别提出了一种新的实践。