【摘 要】
:
当今人类越来越重的网络依赖性令网络数据的规模呈现出爆炸性增长的趋势,文字作为重要载体,其相关的文本信息处理技术得到越来越多的关注。文本相似度量作为该技术的关键部分
论文部分内容阅读
当今人类越来越重的网络依赖性令网络数据的规模呈现出爆炸性增长的趋势,文字作为重要载体,其相关的文本信息处理技术得到越来越多的关注。文本相似度量作为该技术的关键部分,其准确率直接影响文本信息处理的结果。目前文本相似度量方法的主流之一是利用向量空间模型(VSM)中向量关系来反应文本之间的相似程度,其概念简单、可计算性强。但该方法涉及到高维稀疏矩阵的处理,计算复杂度高,另外,它忽略语义信息对文本的影响。另有一种基于语义的相似度算法可克服此缺点。但需要特定领域的知识库支持,其建立过程的繁杂性,使此类算法理论多过实践。借鉴此二类算法,本文提出一种新方法(HSim)。该方法结合第一类方法中空间模型的优势,以及第二类方法中语义信息的优势,最后利用汉明距离来计算文本相似度,从而避开了对高维稀疏矩阵的直接处理。该方法一方面利用汉明距离克服第一类方法中高维稀疏矩阵低计算效率的缺点;另一方面,VSM模型与汉明距离的结合,使HSim直接利用语义词典作为参照,克服了第二类方法中特定领域知识库建立过程繁杂的缺点。实验利用训练语料以F度量与其他文本相似度量方法进行聚类比较。实验结果表明HSim方法较其他方法性能更为优越的同时,也存在一些适用性的不足。针对这些不足,本文针对算法步骤中的两次映射以及最后计算的输入集进行优化改进,并进行新的实验,实验结果表明改进的方法在适用性上有很大的提高。
其他文献
目前各大高校都已扩大办学规模,师生数量都有明显的提高,这对于学校的行政管理能力提出了更高的要求,尤其是在日常考勤方面。现今所采取的考勤方式多采用人工收集,随着师生人
移动IP是对IP移动支持功能的补充,促使TCP/IP向无线移动领域拓展,采用移动IP来解决无线IP网络中的移动性管理成为一种必然。移动性管理是移动IP研究中的一个十分重要的问题,移动
随着计算机技术的快速发展和信息化的不断深入,大型互联网企业产生的日志量也呈现出爆炸式增长。通过分析和检测日志,及时发现用户行为和系统状态的异常,对于提高用户满意度
随着人们生活信息化水平的提高,生活方式将会产生巨大的变化。伴随着物联网的发展,在室内环境中出现了越来越多的智能化设备。而2010年低功耗蓝牙技术的问世,也使得基于蓝牙
基于属性的加密体制是基于身份加密体制的延伸,也是基于模糊身份加密体制的具体应用。在基于属性的加密体制中,身份用一系列描述性的属性表示,同时添加了一个更具灵活性的访问结
嵌入式系统已经广泛地渗透到科学研究、工程设计、军事技术、各类产业和商业文化艺术、娱乐业以及人们的日常生活等各方面。随着嵌入式系统越来越广泛的应用,嵌入式系统中的
轨道交通以其运量大、耗能低、快捷、准时、安全、舒适等特点,逐步成为城市公共交通系统的重要组成部分和人们出行的首选,越来越多有条件的城市已经或即将开始进行轨道交通的
跌倒行为检测算法是行为识别的重要组成部分之一,其研究不仅对儿童和老人的安全监护有着十分重要的意义,而且在一定程度上,还能促进智能视频监控技术的发展。本文主要是对计
互联网相关技术飞速发展,各级各部门政府都建立起了电子政务G2C平台,政民互动环节进一步加强。群众在电子政务G2C交互平台上反映的信息中隐含着大量的即将可能发生的重大事件
MANET是一种不依赖于基础设施,无中心的,自组织的无线网络,该技术组网方式灵活,功耗低,可以嵌入各种移动设备中,未来发展前景非常可观。随着MANET的研究的深入,为了最大程度发挥MANE