文本语义相似度研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:lake_zhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个信息爆炸的时代里,我们所能接触到的信息成指数级增长。为了方便人们以最快速度获取信息,文本语义相似度(Semantic Textual Similarity, STS)研究的应用领域不断扩大,涵盖了自然语言处理的各个方面,如信息检索、自动问答、机器翻译等等,其性能的优劣直接影响着自然语言处理系统的工作质量。本文基于FrameNet资源,针对文本语义相似度研究的任务,在新闻、视频描述、词典注释映射和翻译评测语料上,利用线性插值模型(Linear Interpolation Model, LIM),从词重叠、语法、语义三个方面对文本片段对进行度量。本文的主要研究成果如下:(1)提出了基于FrameNet资源、WordNet知识库、向量空间模型(Vector Space Model, VSM)的三种文本相似度模型,并利用线性插值的方法将它们集成化形成LIM-based模型,该模型的平均Pearson系数达0.5458。(2)本文将含有深层次的句法语义关系的LIM-based模型与只包含句法信息的基于树核函数文本相似度模型作比较,发现包含深层次句法语义关系的STS模型在各种类型的语料可结果最为稳定。文本的主要贡献在于引入FrameNet资源计算英文文本对的相似度,通过与基于树核函数的相似度模型的对比,分析了深层句法语义关系与表层语法关系的不同,这些结论都将为今后而向大规模、开放式的文本语义相似度研究提供重要的依据。提出的LIM-based模型在参与2013年STS国际评测的89个文本相似度模型中排名14、在SMT语料集排名第3。
其他文献
对金属材料的切割和焊接是工业生产中的一道重要工序,广泛应用于机械制造、建筑、电力、水利、造船等领域。目前在国内,主要还是由人或传统生产设备来完成,生产效率较低。如
利用卫星进行数据采集是当前一种先进的数据采集手段。在卫星数据采集系统中,用户数据接收站的原有设备已经远不能满足用户日益增大的数据需求,并且多数设备依赖于国外进口,
由于不对称、冲击性、非线性负荷容量的不断增长,电能质量问题日益突出;另一方面,随着现代科学技术的发展,越来越多的敏感负载对电能质量有着更高的要求。 因此,电能质量问题日
在当前的临床实践中,数字减影技术是一种无法替代的有效的血管可视化工具,如何进一步改善其成像功能和质量,为指导诊断和治疗提供更强大依据,仍然是目前医学领域研究的热点课
本文提出了基于电影拍摄特征和电影拍摄模板的精彩镜头提取框架。该框架具有高效性、通用性、全自动的特点。框架包括一些新的低层算法,如镜头分割、镜头类型分类、慢镜头检
全向视觉是一种新兴的视觉技术,由于全向视觉的大视场,人们很快将这项技术用在了机器人足球世界杯RoboCup的赛场上.本文在比较了当前全向摄像机镜面投影变换方法的优缺点后,
近年来,随着微电子技术、网络技术的迅猛发展,微控制技术在电力机车中得到广泛应用,使得电力机车逐步发展成为一个多微机控制的分布系统。本文在对原有的机车有触点控制电路
本文阐述了基于IP技术的USB-AHB桥的设计与实现,该桥是一款802.11B芯片中的子模块,该桥用于802.11B芯片系统中,使芯片基于该桥与USB主机进行通信。 论文首先研究了USB协议,介
软计算为开展移动机器人的智能研究提供了新的手段和挑战。本文以一种全方位移动机械手为背景,结合中国科学院百人计划项目“智能控制方法及应用研究”和科技部国际科技合作重
机器人视觉是机器人领域的一个重要研究方向。本文结合国家“863”计划机器人技术主题项目“MEMS微装配机器人”和“宜人化双臂操作型服务机器人”,针对基于视觉伺服的机器人