基于相似语义的文本相似度的判别研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:opss_eagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,大量文本信息不断涌入我们的视野,在这样一个信息化时代里,如何快速有效地在这浩瀚的信息海洋里找到需要的东西是亟待解决的问题。目前的检索效果不是很理想,主要原因在于用户不能很好地表达自己的需求,而系统给出过多的查询结果,给用户检索带来诸多不便。如果能让用户在结果集中去掉或保留和某一文本相似的文本集合,就可以大大减少用户阅读量。而文本的自动分类研究以及文本相似度的判别研究工作在这里就起到了重要的作用。目前文本自动分类所采用的主要方法是向量空间模型。该方法的思想是把文本分割成由词或字组成的特征项,进而把文本表征成由特征项构成的向量空间中的一个点,通过计算向量之间的夹角来判定文本之间的相似程度。目前关于自动分类的研究已经取得了很大的进展,并提出了一些有效的算法,如Bayes 算法、支撑向量机SVM(support vectormachine)、Boosting、KNN(k-nearest neighbors)算法等等,其中适用最广泛的是KNN算法。基于向量空间模型的算法作为一种简单、有效的算法,在文档分类中引起广泛关注,并且取得了很好的成果。但是,其中的大多数算法都因为计算复杂度太高而不适用于大规模的场合,而造成算法复杂度太高的原因之一,就是向量空间模型中向量空间的维数过多。因此,如果能够有效地降低向量空间的维数,则算法复杂度将大大降低,准确度也将大大提高。 论文中提出了一种提高算法分类精度的方法:对一个标准词库按照语义相似程度进行统一分类,把4万多个词条聚集成300个左右的类。做文本分类计算时,把待分类文本在这个分类词库上进行向量表示,这样相同类别的词条就可以用同一个向量表示,而不像之前每一个词条都要用一个向量来表示,这样就大大地减少了向量的维数,从而大大简化算法的复杂度,有效的提高了算法的准确度。 本文主要包括2部分:第一部分对标准词库进行统一分类研究,第二部分通过建立模型,对KNN算法在标准词库下的应用进行研究。
其他文献
医学影像己成为现代医学中的一个重要的组成部分。医学影像的研究包括两个独立的部分:医学成像系统及医学图像处理。前者强调对图像形成的过程研究,后者主要对已经获得的图像
实际数据库中存在较多的连续型数值属性,而现有的很多数据挖掘方法只能处理离散型的属性,因而需要对连续属性进行离散化,因此,连续属性离散化方法成为数据挖掘领域重要的基础
行动推理是人工智能的一个重要的研究领域。Agent一般处于动态不完全可知的环境中,为了完成给定的任务,通过自主推理、规划、寻找出从初始状态到达目标状态的动作序列,从而实
随着视频会议系统蓬勃兴起,其安全性需求越发紧迫。根据这种发展趋势,对在视频会议环境下的视频保密性进行了研究。由于视频数据具有数据量大、冗余度高、实时性强等特点,故基本
随着网络技术的广泛应用,网络安全成为越来越受人们关注的问题。目前最流行的网络安全解决方案是入侵检测系统和防火墙技术,但是由于入侵检测系统存在产生大量的报警(Alert)和
随着网络的普及和虚拟现实技术的发展,三维虚拟试衣技术已成为国内外学术界普遍关注和研究的重要课题。三维服装虚拟试衣系统(3D Garment Virtual Try-On System)主要包括三个
常用的多目标优化方法自身的不足及其在实际应用中存在的诸多困难,一直阻碍着多目标优化方法的发展。在20世纪80年代中期,进化算法开始应用于解决多目标优化问题。目前涌现了
行人异常检测是当今世界智能视觉系统研究中一个十分活跃的新领域,应用到地铁、道路、超市出入口等环境中有着明显的社会和经济效益。将远程控制与计算机视觉分析技术相结合使
由于无线传感器网络中节点的能源、计算能力和带宽都非常有限,因此设计能够有效节约能源、延长网络生命周期的协议成为其研究的重点之一。从减少网络能量消耗的角度出发,本文
互联网的迅速发展、信息网络的应用普及、信息传输媒体的数字化演变进程的推进,使得电子图书馆、在线服务和电子商务等先进的多媒体服务有了十分广阔的前景。然而,在全球一体