基于Simhash的英语句子快速检索算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:wwkuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及,计算机应用技术的迅猛发展和全球一体化进程的不断加深,使用不同语种的群体间的交流障碍日益突出。针对这一问题产生了机器翻译(Machine Translate)这一崭新学科,同时它也是人工智能的一个热点研究领域。机器翻译涉及到数学、语言学、计算机学等诸多领域,是一个典型的多边缘交叉学科。可以毫不夸张地讲,在进入21世纪之后,几乎每一个生活在信息网络时代的人,都要直接或间接地与机器翻译打交道。无论在科学技术上、商业上还是政治上,机器翻译都无疑是一个非常重要的实用学科。机器翻译的最终目标就是追求翻译结果的信、达、雅,但受限于人类对自身认知水平研究的限制,翻译结果并不能总是达到预期。经过近百年的发展,出现了种类繁多的机器翻译系统,例如基于规则的(Rule-Based Machine Translate,RBMT)、基于统计的(Statistics-Based Machine Translate,SBMT)等等。它们的使用环境不同,各有利弊。近年来,随着统计机器翻译系统进入瓶颈期以及存储技术的不断发展,基于实例的机器翻译方法(Example-Based Machine Translate,EBMT)日益受到青睐。实例机器翻译方法不需要对句子进行深度的语法分析,只利用原始语料库中的相似实例,进行匹配替换处理。语料库中的相似实例越多,相似程度越高,翻译结果就会越精确。本文主要针对实例机器翻译系统中相似实例的查找过程进行研究,希望找到一种速度更快、相似度计算结果更贴近真实值的相似实例检索方法。本文首先介绍了相似文本检索和机器翻译系统的研究现状及各自存在的主要问题。其次,研究了Simhash算法的原理和基于向量空间模型(VSM)的TF-IDF方法。然后,重点介绍了本文提出的借助Simhash实现相似实例快速检索的算法原理,各个关键环节的处理,以及需要用到的同义词典——WordNet。接着,根据本文提出的方法,在VS2010平台上,采用C++语言编程,搭建了一个相似实例检索系统模型,它可以作为实例机器翻译系统模型的一部分,并借助此模型对本文提出的方法进行了相关测试。最后,将本文提出的方法与基于相同词汇的、基于编辑距离的和单独使用TF-IDF方法在时间和相似度计算结果方面进行了比较。从实验结果可以看出,本方法能够降低相似实例检索过程的时间消耗,且语料库规模越大,效果越明显;当候选的相似例句中含有同义词时,本方法计算出的相似度结果更能客观反应两句间的实际相似程度。
其他文献
随着多媒体通信业务需求量的增长,频谱资源也日益紧缺。本论文提出的认知无线电技术从二级利用频谱的角度出发提高了无线频谱利用率,能够有效的解决频谱紧缺的现状,据雷声公
海水作为典型的散射介质使得高分辨率的水下视觉技术也受水下自身成像的退化。成像退化主要由介质的衰减和散射造成,前向散射导致图像的轻微细节模糊,而后向散射则导致严重的
随着多媒体技术的飞速发展,各种视频终端越来越广泛地应用于人们生活中,微电子技术和嵌入式操作系统的不断发展,为多媒体化视频终端的发展创造了有利条件,嵌入式技术与网络、
移动Ad Hoc网络是一种能随时随地组成网络而不需要任何固定的底层设备支持的自组网,目前得到越来越广泛的应用。由于网络中每个节点都具有路由转发功能,且网络拓扑具有高度动
随着中国3G技术大规模商用时代的到来,TD-SCDMA已经成为国内外移动通信界普遍关注的热点,许多科研机构和大型通信企业都投入大量的资金和人力进行TD-SCDMA系统的技术研究和设
并行组合扩频通信系统较普通的扩频通信系统和软扩频通信系统具有更高的信息传输能力和频带利用率,同时继承了扩频通信系统的抗干扰、抗侦破等显著特点,适用于猝发通信、频带
随着现代通信网的快速发展,人们对接入网带宽提出了更高的要求。由于光纤的带宽优势,无源光网络(PON)技术成为了最有前景的接入技术,特别是PON的最新技术-吉比特比无源光网络
协作分集通过移动终端之间分享彼此的天线,构成的虚拟多天线阵列来实现与传统的MIMO技术相同的效果。协作路由技术则是物理层的协作分集技术和网络层的路由选择技术的结合。协
近几年来,音视频处理技术与嵌入式处理器相结合是现今嵌入式产品应用的一个热点课题。嵌入式产品已经被应用于各种领域。公安、安防、视频监控行业的发展在经历了模拟数字混
本文分析了国内外汽车检测信息化管理的发展和现状,开发了一套汽车检测信息管理平台应用程序。通过该系统,可以在网络上轻松查询到用户车辆的检测状态、检测数据、检测次数等