论文部分内容阅读
近年,互联网快速发展,网络中文本信息也呈现指数级的增长。各种社交网络在交流中的使用,使得词语的含义不断变化,不断丰富。随着网络中新鲜词语、旧词新用以及语言不规范使用等现象的出现,在信息检索、自然语言处理、文本挖掘等领域中,词语相关度计算特别是同义词扩展等基础任务的重要性愈发凸显。在信息检索和自然语言处理等领域中,同义词扩展一直是一个基础而关键的任务,包括文本聚类,频繁项集挖掘,主题模型等多种方法在同义词扩展上有着良好的效果。除了基于统计的方法,基于规则的方法,人工同义词词典等也是同义词扩展重要研究成果。随着近年深度学习方法在图像处理,语音处理等方向上取得惊人的成果,如何将其优势体现在自然语言处理任务上一直是诸多研究者们研究的重点方向。本文基于深度学习和词向量在自然语言处理上的研究成果,进行同义词扩展方向的创新性研究和应用。基于目前大数据的特征和词语同义特性,本文主要研究问题是如何在给定的种子词集中,从海量文本中扩展出具有与词集中各词具有相同语义和语法信息的词语。针对前述问题,本文主要完成以下重点工作:第一,实验并对比分析了多种常用的词表示方法和词语相似度计算算法,包括稀疏向量表示方法,基于主题模型的表示方法,基于wAF的表示方法等,并针对各种方法进行实验从而判断优劣。第二,实现并改进了基于word embedding的词向量表示法,并实现了基本的同义词扩展算法。主要采用C&W提出的神经网络模型和word2vec工具包进行词向量的训练,以及词语相似度的计算实验。第三,提出将词向量与词语语法特征结合的特征优化方法,以及基于特征空间变换的词向量空间优化算法。基于词向量学习出种子词集中各词具有的共同语义,对种子词集词向量进行特征空间变换,并由此扩展出具有相同含义的词语。本文创新地将词向量与目前先进的词语信息标注方法,如POS, NER, parser等结合,并采用负抽样等方法,加强模型的准确性和健壮性。该模型方法与word2vec和WordNet同义词词典的实验比较结果显示,本算法在同义词扩展上有着更优秀的表现。第四,将上述核心算法应用在微博短文本分类,TREC KBA评测等项目中,并取得了良好的效果。在微博分类中,由于文本过短、不规范和信息缺失等原因,导致分类效果不好;而本文可以有效地进行特征扩展,从而增加特征,提高分类准确度。本方法应用于查询扩展任务时,将有效提高信息检索的召回率等。