基于本体的语义文本分类研究

来源 :北京化工大学 | 被引量 : 13次 | 上传用户:yorehi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类在很多文本挖掘和信息检索系统中发挥着重要的作用,可以改善检索性能、提供导航/浏览机制及发现相似文本等。文本分类的研究已成为数据挖掘中一个非常重要的课题。文本分类的首要问题是文本数据的数学表示。目前多数文本分类算法都是以向量空间模型为基础的。这种文本表示方法非常简单,但却引发了高维稀疏的问题;而且基于向量空间模型的分类算法都没有很好地解决文本数据所特有的两个自然语言问题:近义词和多义词。所有这些问题都极大地干扰了文本分类算法的效率和准确性,使文本分类的性能下降。尽管人们提出通过向量空间权重调整和降维来解决上述问题,但是这些方法都有自身的缺点。向量空间权重调整法实际上并没有有效地解决以上问题,它只能非常有限地提高文本分类的性能。降维法虽然解决了高维稀疏问题,但是降维的代价一般都非常大。为了避免上述问题的产生,本文结合《知网》,提出了语义特征向量文本表示法和文本间语义相似度的计算方法。最后,对基于语义简单向量距离、语义k-NN和语义SVM三类中文文本分类算法进行了测试。经实验证明,在三类语义分类算法中,语义SVM分类算法的性能比其他两个都好;此外,语义文本分类算法比传统的文本分类算法具有更高的F1值。
其他文献
目前,电力系统的运行与控制已经演变成一个涉及大量数据和信息计算的应用工程。因此,有必要将网格计算技术引入到电力系统的工程实践中来,探索在大电网范围内实施高效率控制和决策的新途径。本文设计了一种基于网格的潮流计算架构,提出了一种基于多QoS约束的网格选择调度算法。同时,论文中设计了求解潮流计算矩阵方程的并行算法,提出了冗余计算的方案,并将算法编制成网格服务,部署在Globus网格计算结点上。通过在实
随着Web服务的发展,服务的数量迅速增长,涉及的领域不断扩大,由此出现了以往的模型无法解决的新问题。针对多领域服务质量的评价问题和评价结果的信任度问题,本文提出了基于W
随着半导体制造工艺的不断进步及单核处理器暴露出来的许多局限,多核处理器成为应用需求和技术发展的必然产物。多核处理器的出现,随之带来了一些问题,其中的核间通信技术就
随着微电子技术、计算技术和无线通信等技术的飞速发展和日益成熟,无线传感器网络被广泛应用于军事、环境监测等多个领域,但是网络的不安全性限制了它的应用,安全问题受到了
虚拟化技术作为一门新兴技术,对于资源管理和控制的研究尚处于起步阶段,现有的方法无法灵活地进行资源管理和控制。同时,现今多数的虚拟机监控系统采集信息不够全面,不能准确
网络管理接口一致性测试包括通信协议一致性测试、信息模型一致性测试和管理功能一致性测试。其中,信息模型一致性测试是检验管理系统或被管设备与管理信息模型的规范是否保
在计算机虚拟仿真领域,应用粒子系统模拟不规则模糊物体的方法已经得到了广泛应用。随着游戏玩家对场景环境要求的日益提高,粒子系统已经成为计算机游戏领域不可或缺的关键技
电子商务是国际市场出现和发展起来的新兴贸易方式。电子商务网站的建设比较容易,但要让电子商务网站发挥更高的效益则是困难的事情。如何吸引客户,提高客户的忠诚度成为企业
图形用户界面(Graphic User Interface),简称为GUI,是指采用图形方式显示的计算机操作环境用户接口。它借助菜单、按钮等标准界面元素和鼠标操作,帮助用户和计算机之间进行交
基于内容的图像检索中面临两个问题:首先是底层视觉特征与高层语义之间存在差距;其次是视觉特征向量的维数较高,使得大型图像数据库中的检索速度非常慢。针对上述问题,本文重点