MapReduce框架下的贝叶斯文本分类学习研究

被引量 : 0次 | 上传用户：fongfongfongfong

【摘要】

：

文本分类是信息检索与文本挖掘的重要基础。目前，虽然很多文本分类算法都成功地应用在各个领域，但单一文本分类算法容易导致构造的分类器分类性能差、泛化能力弱。集成学习算法

【作者】

：

卫洁

【发表日期】

：

2012年期

【关键词】

：

文本分类集成学习 MapReduce 朴素贝叶斯 Hadoop

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类是信息检索与文本挖掘的重要基础。目前，虽然很多文本分类算法都成功地应用在各个领域，但单一文本分类算法容易导致构造的分类器分类性能差、泛化能力弱。集成学习算法利用多个单分类器之间的差异，有效地改善了分类器的性能和泛化能力。然而，随着网络数据规模的急剧增长，传统的集中式系统框架难以满足集成学习和海量文本数据分析处理要求的存储空间和计算能力。并行计算的出现使大规模文本数据集的集成分类学习成为可能。Google的MapReduce并行编程模型抽象度高，它封装了并行处理底层的细节问题，为程序员设计及编写并行程序提供了简易的编程框架。本文通过分析朴素贝叶斯的可加性，设计了基于MapReduce并行编程模型的TFIDF改进的贝叶斯文本分类算法，该算法利用五个MapReduce作业完成分类器的训练和测试部分。在Hadoop分布式平台上的实验表明该算法构造的分类器具有高数据容量、高效性和高性能的特点。进而通过对集成文本学习算法进行研究，结合Bagging算法的并行特点，提出了基于MapReduce的贝叶斯集成文本分类器。该分类器的训练首先用随机属性选择构建训练子集的方法破坏了朴素贝叶斯的稳定性，其次利用MapReduce框架下的贝叶斯文本分类算法作为基分类器对训练子集进行学习，并行地产生多个基分类器。分类器的测试包括利用各个基分类器并行产生中间结果和对中间结果进行不加权投票得出最终结果两个步骤。实验结果表明该算法适用于大规模文本数据集的分类学习，同时具有高效性、准确性、高可靠性和易扩展性的优点。

其他文献

道是无情却有情

《庄子》可以说是中国古代文苑里一朵常开不败的奇葩，千百年来一直散发着迷人的魅力。作为诸子散文，它具有很高的思想价值，哲学价值；然而它又是先秦诸子散文中最富有文学色彩的艺

学位

庄子情道美学

非酒精性脂肪性肝炎研究进展

期刊

非酒精性脂肪性肝炎肝功能异常酒精性肝病肝脏组织学肝细胞肠细菌汇管区急性肝功能衰竭肝硬化胺碘酮酒精性肝炎气球样变

武汉城市水体景观修复性设计的研究

武汉素有“百湖之市”的美誉，城市中众多的水体成为其最具地方特色的景观，是城市对自我文化内涵的表达，也是城市魅力最精彩的体现，它承载着城市历史文化的发展与变迁。武汉城市中

学位

武汉水体景观修复性设计策略

探析建筑物给排水施工中的问题及其对策

给排水工程的质量是保证建筑物建设质量的重要因素。在具体设计过程中,设计人员的技术水平和态度都会影响其施工质量。目前,建筑施工管道存在的主要问题包括管道漏水、管道堵

期刊

建筑物给排水问题对策

室内环境中臭氧的监测方法

介绍了室内环境中臭氧的主要来源及对人体健康的危害,并对其主要监测方法进行了综述。

期刊

室内环境臭氧监测方法

高校图书馆阅读推广工作探析——以辽宁科技大学图书馆为例

文章以辽宁科技大学为例通过搞好图书馆硬件配套设施建设;建立原创馆藏文献书评数据库;成立阅读协会;多元参与指导学生选择性阅读等方式做好图书馆的阅读推广工作,使大学生能

期刊

高校图书馆阅读阅读推广工作

HBV前C区基因变异与血清肝纤维化标志物的相关性研究

探讨HBV前c区基因变异与肝纤维化的相关性。应用聚合酶链反应-单链构象多肽性分析(PCR-SS-CP)银染技术检测FIBV前C区基因变异和放射免疫法检测血清肝纤维化标志物(血清透明质

期刊

乙型肝炎病毒基因变异肝纤维化

慢性乙型肝炎患者ALT、HBV DNA及血清肝纤维化标志物与肝纤维化程度的关系

目的探讨ALT、HBV DNA以及血清纤维化标志物透明质酸(HA)、层粘连蛋白(LN)、Ⅲ型前胶原肽(PⅢP)、Ⅳ型胶原(CⅣ)与慢性乙型肝炎肝纤维化程度的关系。方法检测281例慢性乙型肝

期刊

肝炎乙型慢性肝硬化丙氨酸转氨酶DNA病毒

圆周运动教学案例实施与评析

<正>一、教学设计的指导思想与前期分析本课题是笔者自己借班教学的一节公开课,事先了解到学生对象知识层次较为薄弱并且学习习惯、学习态度、思维习惯都比较差,学生不善于思

期刊

圆周运动小实验包装带三门青蟹直线运动物理量教学案例

双线盾构隧道正交下穿既有铁路框架桥数值模拟分析

在城市地铁修建中,难免出现新建隧道下穿铁路框架桥的情况。为研究新建双线盾构隧道施工对上方既有铁路框架桥的影响,以成都地铁5号线福宁路~五块石区间盾构隧道正交下穿既有

会议

地铁盾构铁路框架桥荷载沉降数值模拟

MapReduce框架下的贝叶斯文本分类学习研究

与本文相关的学术论文