基于背景学习的迭代式文本分类框架

来源 :暨南大学 | 被引量 : 0次 | 上传用户:njcxm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机及互联网的普及在带给人们的生活和工作丰富资源的同时也使信息呈现爆炸式增长。随着网络中文本数据呈指数级增长,信息的人工分类和管理也已经被计算机自动分类所替代。经过多年的研究和发展,文本自动分类领域已经开发出一些相对成熟的算法。对于中文文本分类,也已经有一些方法和系统可以达到较高的分类准确率。研究分析发现,在文本预处理阶段,对于歧义语段的划分始终是影响分类准确率的一个重要因素,至今仍未完全解决。本文结合互信息度理论,提出一种基于背景学习的迭代式框架,以此为基础通过对分词数据预处理来改进传统的基于朴素贝叶斯模型的文本分类算法。本文使用新浪网不同类别数据对提出的迭代式框架进行实验评估。实验结果表明本文提出的基于背景学习的迭代式文本分类框架可行有效。
其他文献
在信息检索技术随着互联网的迅猛发展而日趋成熟的同时,搜索引擎也已经成为人们日常生活中越来越不可缺少的重要工具和手段。传统的信息检索是在基于关键词匹配的基础上,机械
随着数据存储技术的快速发展,从大量数据中发现潜在的、有用的信息成为巨大的挑战。特别是随着数据流广泛呈现在各个应用领域,对数据流的挖掘成为了目前数据挖掘研究领域的一个
随着移动互联网的快速发展以及Android操作系统的持续更新,运行在Android系统上的应用程序也越来越复杂和庞大,使得Android手机软件开发者必须使用基于该平台的第三方库来快
智能交通系统平台(ITS Platform)的在21世纪的发展中用到了很多先进的理论和技术,是下一代交通系统的发展方向。使用信息化技术采集、处理、管理交通信息是系统中的重要部分,其中
随着计算机视觉、计算机图形学等技术在各个领域的广泛应用,以及智能化模拟技术的快速发展,三维重建相关技术已是众多研究学者的研究热点。点云重建过程是基于多视图三维重建
移动互联网的发展,加快了数据的产生速度;促进了云计算、大数据等数据处理技术的进步。为解决通用搜索引擎应对海量数据检索时返回信息量大、查询精度低等弊病,各类垂直搜索引
灰度图像的彩色化是计算机图像处理中一个重要的组成部分,也是最近几年中得到各国计算机专家关注的热点话题。其主要目的是将彩色图像的颜色信息迁移到灰度图像中去,使得灰度图
社会医疗保险制度作为国家社会保障体系的重要组成部分,在保障劳动者身体健康、稳定社会秩序、安定人们生活等方面发挥着重要作用。然而,随着医疗保险事业的不断发展,医疗保险领
模型检测是一种完全自动化的系统可靠性与安全性的形式化验证技术,目前已经广泛应用于集成电路、通信协议、安全协议等软硬件系统的验证。模型检测技术基于对系统状态空间的遍
随着智能监控系统在现实生活中越来越多的应用,智能监控算法的研究也已经成为计算机视觉领域的一个热点。行人携物检测是物品盗窃、物品交换等异常行为识别研究的一部分,也正在