自动文本分类算法研究

被引量 : 0次 | 上传用户:toboho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的飞速发展导致网络上的文档信息急剧增长,如何自动处理这些海量信息成为目前重要的研究课题。文本分类是对文档信息进行有序组织的方法,它能够为信息检索提供更高效的搜索策略和让其返回更准确的检索结果。本文研究自动文本分类算法。 本文首先介绍了文本分类的发展概况,对常用的分类算法,比如朴素贝叶斯(Naive Bayes,简称NB)、TFIDF、k近邻(k Nearest Neighbors,简称k-NN)和支持向量机(Support Vector Machine,简称SVM)等进行了介绍和分析,为后续章节的研究提供了理论和实验基础。 平滑技术虽然能够使NB算法避免零概率问题,但该技术本身存在一些不足之处,为此本文提出了两种新的策略:NB_TF和NB_TS,可以在不采用平滑技术的情况下消除NB算法中的零概率问题。分析和实验表明,与Laplace和SGT平滑算法进行比较,新策略在有效性、适应性等方面具有较好的性能。 本文对调整训练文本权值能否提高单分类器性能的问题进行了研究,采用了较简单的权值调整策略,提出了两种新算法:KTrainl和KTrain2。分析和实验表明,新算法能够对分类器性能起到一定的提升作用。 本文在研究TFIDF和k-NN算法的基础上,融入增大错分训练文本权值可以改进分类器性能的思想,提出了一种改进的TFIDF算法——S-TFIDF,该算法采用k-NN算法思想改进TFIDF算法性能。实验验证了S-TFIDF算法在分类性能上优于TFIDF和k-NN算法。同时,S-TFIDF算法保持了TFIDF算法的高运行效率,适合大规模的文本分类任务。
其他文献
无线射频识别(RFID)系统是智能化、自动化进行商品标识和人群身份识别的先进技术,它可极大地提高商品管理、物流控制以及人流安检等的效率和可靠性。射频识别系统主要由应答器和
徐复观的一生巨流奔湍。一方面他生在一个巨流涌动的时代,另一方面徐复观半生从政,半生为学,不管是从政还是为学都是赫赫洪洪,勇往直前。其现实人生在政治与学术之间回环,其思想则
农药污染已给人们的健康和食品安全带来了很大的危害,因而对农药及其残留进行降解就显得尤为重要。本课题选用了几种典型的农药,对其降解进行了研究,旨在开发一种高效、方便、实
教育信息化是信息技术在教育领域中巨大变革的体现,而最终体现在信息技术与课程整合的层面上。在影响信息技术与课程整合的诸要素中,教师的专业能力是非常关键的。因此,本研
国运兴衰,系于教育;教育成败,系于教师。教育发展与教育质量的提高离不开教师,教育改革成功的关键也在于教师。为此,当前世界各国都纷纷把教育改革的重点转向教师队伍的建设,而在教
路遥的作品质朴、厚重、真诚,表现出了深厚的生活基础和历史文化积淀,又与时代、与社会的变迁紧紧相扣,通过对路遥文集中作品的分析和研究,揭示出作品中蕴藉的思想文化内涵,即对农
现浇混凝土空心楼盖结构在我国已得到广泛应用。但现阶段该楼盖结构的设计方法,由于没有充分发挥板的实际刚度贡献,使结果偏于保守。结合湖南省建设厅重点资助项目进行研究,
我们处在一个信息爆炸的时代,对繁杂的抽象信息之间的复杂关系进行探索的努力,促使了信息可视化这一崭新科学领域的出现。本文对信息可视化及其工具的概念、类型、国内外现状及
针对我国水体富营养化及水华严重发生造成生态灾害的问题,探索浮游藻类控制、抑制水华发生的行之有效的途径是非常迫切的。在利用物理、化学和其它生物方法处理不甚理想的情
低聚木聚(Xylo-oligosaccharides,XOS)是从富含木聚糖的天然植物中经生物技术提取的出2~7个木糖以β-1,4糖苷键连接而成的低度聚合糖类的总称,以二糖和三糖为主。作为一种新型的寡