文本分类中的关键技术研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:tiger0092009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的大规模普及,信息量的迅猛增加,用户要在信息海洋里,快速、准确、全面地找到所需要的信息,就像大海捞针一样困难。如何有效地组织和管理数据,方便人们的检索?如何快速地区分有用信息和无用信息?如何从海量的数据中高效地获取有用知识?如何满足各种用户的个性化需求?所有这些问题都成了人们面临的挑战性课题。文本分类是将自然文本根据内容自动分为预先定义的一个或者几个类别的过程。它作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱无章的问题,方便用户准确地定位所需的信息。在文本分类领域,有两个影响分类效果的主要因素,分别是特征选择算法和文本分类算法。特征选择主要是找出描述特定领域的相关词汇,去除影响分类效果的噪音词汇(如虚词、形容词等),它可以大大减少特征集合中的特征数,提高系统运行的速度和分类准确度;而好的分类算法则是取得满意的分类效果的保证。χ~2统计量(Chi-square,CHI)是一种重要的特征选择算法,这种算法考虑了特征与类别出现的各种可能性,表现出了良好的分类效果和稳定性。但也存在着缺陷和不足,它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性。本文根据χ~2统计量算法存在的这两个缺点,对其进行了改进,提出了统计频率(StatisticalFrequency,SF)算法,实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出了良好的分类效果。在文本分类领域,本文在阐述几种常见的分类算法后,重点分析了K近邻(K-Nearest Neighbor,KNN)算法。经典KNN算法在文本分类中表现出了较高的分类准确率,应用较为广泛。但是经典KNN易受K值选择和训练文本分布的影响,使分类结果偏向于文本数较多的一类。本文对KNN算法进行了优化,实验结果表明,基于统计频率及改进的KNN算法能够减少样本库对分类效果的影响,改善了分类性能。
其他文献
《中共中央关于国有企业改年和发展若干重大问题的决定》指出:“坚持党的领导,发挥国有企业党组织的政治核心作用,是一个重大原则,任何时候都不能动摇。企业党组织的政治核心作用
近年来,中国曲协深入学习贯彻习近平新时代中国特色社会主义思想和党的十九大精神,认真落实习近平总书记在文艺工作座谈会和中国文联十大开幕式上的重要讲话精神,按照《中国文联关于加强新文艺群体联络服务管理工作的意见》和《中国曲艺家协会深化改革方案》要求,积极探索尝试联络服务管理新曲艺组织、新曲艺群体的新举措、新方式,自觉将工作视域由“家”向“者”延伸进而扩大到“界”,将工作重心着眼于团结人、鼓舞人、引导人
期刊
随着新媒体技术的发展,中职学校在开展校园教育教学活动时,充分利用新媒体平台,为学生提供良好的学习环境.本文就新媒体在中职学校教育中的应用现状展开分析,详细阐述新媒体
辽源市机械电子工业公司党委近年来对下属22户企业,在构建起了党建工作的新机制,配齐配强主要领导,健全组织机构的同时,不断探索党建工作的新路子,在改进工作方法,服务于经济中心工
2005年12月以来,我院采用经尿道绿激光前列腺汽化术治疗前列腺增生[BPH]268例,均收到满意效果。现将护理体会介绍如下。
君识北国肃冬,冰封千里层云,俱为鸟兽散。  有问南归雁,安知北风寒。  莫辞野径峰回轉,为舟春阳江畔。  君客何惜长安乱,高粱酒一坛,自是马平川。
期刊
榆木桥子镇党委副书记、人大主席石长林谈道:群众以前怀疑最多的是干部贪占,挥霍浪费。寿山村有5个村办企业,年集体经济收人10万元左右。在没开展财务公开前,群众对财务收支疑虑较多
文章就化工类专业职业教育匠心育人模式的构建进行讨论,对职业院校当前的匠心育人模式建设情况加以了解,并对具体的建设措施进行探讨和描述,希望能够有效提高职业院校的育人
代建制作为一种新兴的政府公益性项目投资管理模式和制度,已经从探索阶段步入不断完善和全面推广,取得了较大的成就。该模式具体的实施方法是政府业主通过竞争方式选择有相应
近年来,我国产业创新能力弱、核心技术依赖国外的问题突出,自主知识产权匮乏已成为我国参与国际竞争的重要障碍,这一问题已经得到国家和政府的高度重视。因此,走中国特色的自
学位