跨语言文本相关性检测技术研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:joinrootcn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理(NLP)的过程中,文本相似性检测一直是一个相对重要的课题。当前,单语言文本之间的相似性检测算法已经趋于成熟,然而随着跨语言信息检索技术快速兴起以及国际之间学术交流的日益密切,造成了跨语言相似文本越来越多的存在。因此,跨语言文本相关性的度量就变得尤为重要。本文总结了已有的单语言文本相似性计算方法,研究了跨语言信息检索的相关内容以及当前流行的几种跨语言文本相关性检测算法。结合我国跨语言抄袭主要集中于中英文语言之间的现状,做了如下研究:(1)针对跨语言文本相关性检测过程中需要利用机器翻译技术快速检索相似文本候选集的问题,论文探索了当前主流的中文机器翻译工具在中英文文本相关性检测过程中应用的可行性。论文对不同粒度的文本应用机器翻译进行了文本转换,分析了各粒度文本下的实验结果,最终提出一种基于二元组与句子相结合的机器翻译算法,该算法具有较高的翻译比对效率,同时兼具较好的准确率和召回率。最后,论文将该算法与Minwise Hash算法进行结合实现了相似文本候选集的快速遴选。(2)针对跨语言文本相关性检测算法CL-ESA算法中算法性能主要受索引文档集质量影响的问题,论文提出了基于聚类的索引文档选取算法。算法通过将聚类算法应用于索引文档选取的过程中,确保了索引文档集中的文档具有较好的区分度和质量。最终实验结果表明,算法不仅改善了CL-ESA算法的召回率,同时提高了算法的时间性能。
其他文献
目的:在于通过无创呼吸机治疗慢性阻塞性肺疾病合并呼吸衰竭临床的研究,对于肺疾病(慢阻肺)提供借鉴.方法:整群选取接诊的慢阻肺并呼吸衰竭患者50例,随机分为观察组(加用无创
目的:研究序贯透析在透析失衡综合征治疗的效果.方法:从2011年1月开始,96例CKD5期维持性血液透析失衡综合征患者全部来自我院血液透析专科门诊,男性53例,女性43例,年龄从32岁
ITU-T的新一代视频编解码标准H.264,相对于先前的视频编码标准,能在相同码率下提供很好的视频图像质量。随着H.264常见的三种开源代码的公开,如何有效地在实际应用系统和工程中
目的:探讨血必净注射液治疗慢性阻塞性肺疾病合并呼吸衰竭的效果.方法:将我院2014年01月~2016年02月收治的80例慢性阻塞性肺疾病合并呼吸衰竭患者作为研究对象,并进行随机分组
随着网络资源的不断扩展和所提供业务的不断增加,电信网、广播电视网和计算机通信网之间的相互渗透、相互融合,实现三网合一,为用户提供综合业务是必然的发展趋势。新型HFC网
遗传代谢病的诊断一直都是医学界的一大难题,以往由于缺乏有效的检测技术,所以导致很多患者无法及时确诊和得到救治.近几年来,随着我国科学技术的发展以及医疗卫生事业的进步
目的:分析肾动态显像在小儿先天性肾积水中的临床应用价值.方法:选取2015年1月-2016年1月50例行择期手术的先天性肾积水患儿为研究对象,手术前后性常规肾动态显像检查,比较患
随着媒体压缩技术和宽带网络技术的飞速发展,以远程音视频交互为特色的流媒体业务已成为目前行业内最迫切的需要,而媒体播放器是实现流媒体业务的关键部分,因此,播放器的性能也就
目的:探讨应用双主动带教模式提高儿科教学质量的效果.方法:选取2015年7月-2015年12月实习的33名儿科护生为观察组,采用双主动的教学模式;以2015年1月-2015年6月未进行双主动
目的:探讨分析奥扎格雷钠联合疏血通对脑血栓的临床效果及其对动脉斑块的影响.方法:随机选取2014年3月~2016年3月我院收治的脑血栓患者60例作为研究对象,按照随机数表法分为对