【摘 要】
:
分类是数据挖掘中一项非常重要的任务,目前在商业上应用最多。分类的目的是提出一个分类函数或分类模型(也常常称做分类器),该模型能把数据库中的数据项映射到给定类别中的某
论文部分内容阅读
分类是数据挖掘中一项非常重要的任务,目前在商业上应用最多。分类的目的是提出一个分类函数或分类模型(也常常称做分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。大量的统计方法和机器学习方法被应用于自动文本分类。自动文本分类分为三个过程:首先对文本进行预处理,将文本数字化;接着构造并训练分类器;最后用分类器对新文本进行分类。本文根据对以往传统的分类方法的研究,特别是每一个分类器对于不同类别的区分程度不同,提出一种基于综合评价理论的多分类器综合方法,旨在利用各个子分类器对于不同类别的区分度不同,互相取长补短,评价模型使用了线性加权模型,把多个分类器综合和在一个容器内。训练过程参照了优化理论中的直接搜索方法。形成一个容纳多个分类器的容器。文本预处理过程中,首先通过对几种特征抽取方法的比较,选取一种最适合本系统的方法;其次选取一种合适的权重计算方法,最后把文本表示成向量的形式。在分类器的训练过程中,首先构造了四个子分类器,利用复旦大学提供的语料进行测试分析,再根据综合评价理论构造分类容器,对分类容器进行训练时,得出各个子分类器的类别权值,即权值矩阵。分类器测试时,先用子分类器对文本进行判别,再利用权值矩阵,运用集值迭代的方法进行加权求和,最后取和最大的类做为类别归属。这个容器是各个分类器的一个优化的组合,实验结果表明,这个容器确实得到了比较理想的分类效果。本文中用到的方法有SVM分类方法、贝叶斯分类方法、简单向量距离法和多组判别分析法。
其他文献
随着计算机网络和多媒体技术的发展,尤其是基于TCP/IP网络技术应用的迅猛发展,一个全新的应用领域——协同工作应用越来越受到业界人士的青睐。 本文对T.120多媒体数据会议
无线传感器网络(Wireless Sensor Networks,简称WSN)是物联网的重要组成部分。最近几年,人们在传统WSN的基础上演化出了双层传感器网络(Two-tiered Sensor Networks,简称TSN)模
随着计算机通信技术的发展,地理距离已经不再成为人们交流的瓶颈,人们可以通过局域网或远程计算机访问数据库,而且这些促进世界范围内通信的技术越来越引起人们的注意。本文
实现自主、生动的虚拟鱼实时动画,包括以下三方面的工作,海底环境的表现,鱼的感知及行为模型,鱼的动作表现。本文旨在通过建立一个鱼的感知及行为模型,结合海底环境信息,为最
公共交通是和人们的生活息息相关的重要建设项目,随着交通技术的快速发展,智能公交调度技术被越来越多的人所关注。公交调度的科学化、智能化、无纸化将会提高公交调度的效率
如何满足数据不断增长的要求?如何有效地保护数据,提高系统的高可用性和容灾能力?这是互联网时代信息的爆炸性增长和电子商务等关键应用的特殊需求,也是对存储系统的管理提出
本文主要研究了数字图书馆资源检索和个性化推荐的相关技术,论述了数字图书馆中元数据的特点,分析了DublinCore元数据标准内容和优势,并根据DublinCore标准构建了数字资源元
本文针对复杂背景下的彩色图像,提出了一种基于肤色分割,几何特征和面部特征验证相结合的人脸检测算法,实现彩色图像中人脸的检测与定位。本文首先在肤色聚类特性的基础上,利
本文主要做了以下工作: 1.分析了设计WAP电子口岸的必要性。 本文认为开发基于WAP平台的电子口岸应用系统,将能够为移动通信运营商WAP业务发展提供新的增长点,同时也能够
本论文的主要内容是北京谱仪(BES) III 在线数据获取系统研究工作的一部分,实现了对数据流信息的监测。 升级改造后的BESIII 数据获取系统大规模运用了先进的计算机和网络