【摘 要】
:
当今社会,信息技术的迅猛发展以及因特网的迅速普及,使得数字信息资源急剧增加。如何从海量非结构化的文本数据中获取有用信息成为信息处理领域研究的重要问题之一。文本主要
论文部分内容阅读
当今社会,信息技术的迅猛发展以及因特网的迅速普及,使得数字信息资源急剧增加。如何从海量非结构化的文本数据中获取有用信息成为信息处理领域研究的重要问题之一。文本主要任务是研究微薄文本的分类技术,即根据未分类文本的语义信息判别其所属的类别,自动把文本划分到预先设定的文本类别的一个或几个类别中。文本分类的主要目的是帮助人们快速将信息分类,从而能够根据类别有效地找到其所需要的信息。微博是一种新型的网络社交平台,也是新型媒体之一。微博文本属于短文本类别,用词简洁,包含的信息量多少不一等特点。除此之外,微博文本的形式更加自由,传播速度快,实时性强,很多信息是很有价值的。微博文本分类在各个领域有着广泛的应用前景。相对于一般文本分类,微博文本分类在理论、方法和技术都还存在许多问题,本文对此进行一些初步的探讨。本文研究分类技术在微博短文本上的应用。首先介绍了分本分类的研究内容和国内外现状,接着阐述了文本分类的一般过程,分别描述文本分类的几个关键阶段,如预处理,文本表示,特征选择等。然后对典型分类算法做介绍,如K近邻(KNN)、朴素贝叶斯等。接着结合KNN算法的优缺点和微博文本的特性,以及用户自身偏好,提出了基于微博特征的分类算法。改进后的KNN算法在训练时间、分类速度和分类准确率上获得较好的提高。实验结果亦证实,改进后的KNN算法在微博文本的分类应用中,较KNN算法和朴素贝叶斯算法具有更短的训练时间、更快的分类速度和更高的分类准确。
其他文献
2001年基础教育课程改革所提倡的“知识与技能、过程与方法、情感态度价值观”的三维目标体系以及“自主、合作、探究”的教学方式等新课程理念已经被得到广泛认同,对我国英
陕西省地热地质条件丰富,蕴藏着巨大的地热资源。其中最为突出的关中盆地早在隋唐时期,天然温泉就已被古人用于医疗洗浴、旅游观光。随着科技的日新月异,关中地热资源开发利
随着全国三网融合工作的全面推进,有线电视网络双向化改造成了有线电视行业亟待解决的问题。本文阐述了如何将OTN和EPON技术应用到西安有线电视网络改造中,以较先进的技术实
目的探析病例导入式教学法在口腔修复学临床教学中的应用效果。方法 50例2014年7月~2015年8月的口腔科实习生作为乙组,50例2015年9月~2016年8月的口腔科实习生作为甲组,乙组
随着数字多媒体技术的飞速发展,数字图像在各个领域得到了广泛的应用。但是在数字图像的获取、压缩、传输等过程中,图像的质量会下降。为了减小图像处理系统对数字图像的降质
旅游产业联动发展是区域经济一体化的客观要求。武陵山区旅游资源丰富独特,经过多年发展,已经形成了较为完备的旅游资源体系,旅游产业快速发展且初具规模,基础设施建设不断加
在越来越激烈的市场竞争中,中小企业的经营管理正面临越来越严峻的挑战。因此,通过完善的经济预测方法,建立起有效的财务预警系统,并对可能发生的经营失败,发出预警信号,为管
本文以物流信息平台为研究对象,通过竞争战略理论,着重分析行业平台的竞争环境,探讨56114物流网的竞争战略选择。首先,本文第一章绪论部分介绍了56114物流网的企业背景,阐述
一体化进程和我国市场经济的迅猛发展,信息科技和知识经济时代已经到来,智力资本已经日益成为企业最重要的资本。教育培训成为企业培育人才、发掘企业人力资源的重要途径,培
"活动单导学"倡导在活动中促进学生主动、全面发展,将教育目的蕴于"活动"过程之中,活动中也自始至终离不开教师的精心"导学"。从设计"活动单"起,"导学"就已经开始。"方案"是"