基于词向量模型特征空间优化的同义词扩展研究与应用

被引量 : 15次 | 上传用户:wangxiangbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年,互联网快速发展,网络中文本信息也呈现指数级的增长。各种社交网络在交流中的使用,使得词语的含义不断变化,不断丰富。随着网络中新鲜词语、旧词新用以及语言不规范使用等现象的出现,在信息检索、自然语言处理、文本挖掘等领域中,词语相关度计算特别是同义词扩展等基础任务的重要性愈发凸显。在信息检索和自然语言处理等领域中,同义词扩展一直是一个基础而关键的任务,包括文本聚类,频繁项集挖掘,主题模型等多种方法在同义词扩展上有着良好的效果。除了基于统计的方法,基于规则的方法,人工同义词词典等也是同义词扩展重要研究成果。随着近年深度学习方法在图像处理,语音处理等方向上取得惊人的成果,如何将其优势体现在自然语言处理任务上一直是诸多研究者们研究的重点方向。本文基于深度学习和词向量在自然语言处理上的研究成果,进行同义词扩展方向的创新性研究和应用。基于目前大数据的特征和词语同义特性,本文主要研究问题是如何在给定的种子词集中,从海量文本中扩展出具有与词集中各词具有相同语义和语法信息的词语。针对前述问题,本文主要完成以下重点工作:第一,实验并对比分析了多种常用的词表示方法和词语相似度计算算法,包括稀疏向量表示方法,基于主题模型的表示方法,基于wAF的表示方法等,并针对各种方法进行实验从而判断优劣。第二,实现并改进了基于word embedding的词向量表示法,并实现了基本的同义词扩展算法。主要采用C&W提出的神经网络模型和word2vec工具包进行词向量的训练,以及词语相似度的计算实验。第三,提出将词向量与词语语法特征结合的特征优化方法,以及基于特征空间变换的词向量空间优化算法。基于词向量学习出种子词集中各词具有的共同语义,对种子词集词向量进行特征空间变换,并由此扩展出具有相同含义的词语。本文创新地将词向量与目前先进的词语信息标注方法,如POS, NER, parser等结合,并采用负抽样等方法,加强模型的准确性和健壮性。该模型方法与word2vec和WordNet同义词词典的实验比较结果显示,本算法在同义词扩展上有着更优秀的表现。第四,将上述核心算法应用在微博短文本分类,TREC KBA评测等项目中,并取得了良好的效果。在微博分类中,由于文本过短、不规范和信息缺失等原因,导致分类效果不好;而本文可以有效地进行特征扩展,从而增加特征,提高分类准确度。本方法应用于查询扩展任务时,将有效提高信息检索的召回率等。
其他文献
设计了一种电容位移传感器在线标定平台,用于位移的高精度调节和检测。该平台的运动对称中心轴、测量光路的对称中心轴和传感器的传感轴共轴,故从测量原理上减小了阿贝误差。
<正>甬政发[2014]52号各县(市)区人民政府,市直及部省属驻甬各单位:为贯彻落实市委、市政府《关于建设智慧城市的决定》(甬党[2010]14号)精神,进一步提高政务及公共信息资源
游女。当提起这个名字,相信大多数人的脑海里都会浮现那些身着锦衣,白底浓妆,身姿妩媚的经典女性形象。然而当光华褪去时,在舞台之外,在游郭的不为人知的另一面,她们的日常生
<正>2019年第12期(截稿日期2019年9月1日)患者,男性,62岁,以"发现血压升高8年,血压控制不佳5年"为主诉于2019年2月26日入院。现病史:8年前因体检发现血压升高,具体血压值不详
近几年来,随着国内金融市场稳步发展和不断开放,A股国际化进程持续推进,我国金融市场对外资越来越有吸引力。明晟公司、富时罗素集团已宣布将A股正式纳入其相关国际股票指数,这将
报纸
自闭症谱系障碍是一种较为常见的发育障碍,患者主要表现之一为社会交往障碍,其中包括模仿和情绪感知的障碍。在社会交往中,模仿具有极其重要的作用,通过模仿他人的表情、动作
就业情况是衡量一个国家经济发展状况的重要指标之一,高校是一个国家培养人才的摇篮,因此,高校就业工作是国家就业工作的重中之重。将网络科技运用在高校就业工作中,这是信息
目前山西地区的贷款管理仍然有部分业务是手工操作,基于文档登记管理以及使用档案管理的办法进行业务的办理工作。在很多地方虽然有了计算机配置,但是在缺少专用的贷款管理软
自从英国率先提出“创意产业”的概念以来,创新型艺术管理人才就是创意产业中不可或缺的重要元素之一。2006年开始,我国提出了发展文化创意产业的任务方向,作为一个重视创新管理
对公司本质的承诺直接决定着公司法理论的走向。本文从超越“唯一本质观”出发 ,全面评述了法人拟制说、法人否认说和法人实在说的理论优势和局限及其对立法实践的影响。在此