基于SVM的多层次大类别数文本分类系统(HJ-TCM)的设计与实现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:aykp0512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对建立多层次大类别数文本分类系统进行了研究,分析了其中的各种关键技术和难点,并提出了相应的解决方案。文章首先针对特征抽取问题进行深入研究,比较了目前常用的几种特征抽取方法,并提出了一种适合中文环境的DF+CHI的组合特征抽取方法,进一步提高了分类器的性能。针对项目采用《中图图书馆图书分类法》的分类体系,其中各个分类类别按层次树状结构组织且分类数目很大,而且对分类的速度和精度都有很高的要求的特点,选择性能好的支持向量机(SVM)作为分类器,能够有效地避免经典学习方法中过学习、维数灾难、局部极小等问题,而且在小样本条件下仍然具有良好的泛化能力。文章同时采用有向无环图支持向量机(DAGSVM)和最大投票法(Max Wins)相结合的技术实现分类器的组合,既能准确定位分类类别,又能形成分类类别的相似度列表,为分类系统提供了更高的灵活性,同时采用有效的缓存机制解决了资源管理问题。为了进一步提高SVM的训练速度,本文在分析现有训练算法的基础上提出了三元序贯解析优化(3SAO)训练算法。由于该算法选择了比SMO更大的工作集而没有增加过多的计算,总的优化步骤减少,收敛速度也更快,平均训练速度约为SMO的两倍。文章最后用真实语料进行测试,系统表现出了很好的召回率和准确率。
其他文献
多语种的语音合成研究是近年来国内外语音合成研究的一个热点.实现多语种的语音合成,包括方言、少数民族语言的合成,也是国内汉语语音合成研究的一个重要研究方向.粤语作为一
一般意义上的产品数据管理(PDM)作为一种管理产品资料与开发步骤的软件系统,可能存在以下两方面的问题:PDM系统对产品的销售商、客户、原材料供货商等企业外部对象以及在追踪产
SOI MOSFET器件具有速度高、功耗低、抗辐照能力强、温度稳定性好等诸多优点,在军工、航空航天等众多领域有着广阔的应用前景.但迄今为止,SOI MOSFET器件的理论还很不完善,严
视频处理中的目标分割和跟踪是计算机视觉的一个重要分支.根据目标检测和跟踪的处理过程可以将算法分为背景初始化和背景更新,目标分割,目标跟踪,多目标的分类.前面的处理是
现阶段交通运输业飞速发展,交通状况复杂多变,道路运输量的增长与资源环境矛盾日益突出,智能交通系统应运而生。车牌识别系统作为智能交通系统的重要组成部分,其内容主要包括图像
随着计算机和网络的日益普及,不仅在军事政治领域,而且在人们日常生活,经济活动中,都越来越依赖于电子信息的交互了.因此,如何保证这些信息不被窃取、篡改和破坏,成为人们使
全球定位系统最早应用在军事方面.随着科学技术的发展和人们对全球定位系统的了解,全球定位系统逐渐并且越来越广泛地应用到社会生产的各个领域.全球定位系统的产品很多,从手
随着电力工业的迅速增长,电网规模不断扩大,人民的生产和生活对于电力的需求和依赖越来越大.一方面,人们要求电力部门能够提供不仅是足够的,而且是安全、经济、可靠和高质量
数据库知识发现(KDD)研究如何从大量的数据中智能地、自动地提取出有价值的知识和信息,是当前相当活跃的研究领域。近年来,电子商务大潮正在全球范围内急速改变传统的商业模式。如何才能在电子商务竞争中取胜?能够提供客户资源及相关数据分析的客户关系管理系统(Customer Relationship Management,CRM)就成为焦点,但是CRM系统中庞大的数据量阻碍了我们从中发现有价值的客户模式,
燃料电池系统运行的安全性一直是人们关心的问题,特别是把它用于车载系统,安全性的问题就显得尤为突出。为了能够实时监测燃料电池的各个工作状态、及时发现各种可能出现的设备