MapReduce框架下的贝叶斯文本分类学习研究

被引量 : 0次 | 上传用户:fongfongfongfong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是信息检索与文本挖掘的重要基础。目前,虽然很多文本分类算法都成功地应用在各个领域,但单一文本分类算法容易导致构造的分类器分类性能差、泛化能力弱。集成学习算法利用多个单分类器之间的差异,有效地改善了分类器的性能和泛化能力。然而,随着网络数据规模的急剧增长,传统的集中式系统框架难以满足集成学习和海量文本数据分析处理要求的存储空间和计算能力。并行计算的出现使大规模文本数据集的集成分类学习成为可能。Google的MapReduce并行编程模型抽象度高,它封装了并行处理底层的细节问题,为程序员设计及编写并行程序提供了简易的编程框架。本文通过分析朴素贝叶斯的可加性,设计了基于MapReduce并行编程模型的TFIDF改进的贝叶斯文本分类算法,该算法利用五个MapReduce作业完成分类器的训练和测试部分。在Hadoop分布式平台上的实验表明该算法构造的分类器具有高数据容量、高效性和高性能的特点。进而通过对集成文本学习算法进行研究,结合Bagging算法的并行特点,提出了基于MapReduce的贝叶斯集成文本分类器。该分类器的训练首先用随机属性选择构建训练子集的方法破坏了朴素贝叶斯的稳定性,其次利用MapReduce框架下的贝叶斯文本分类算法作为基分类器对训练子集进行学习,并行地产生多个基分类器。分类器的测试包括利用各个基分类器并行产生中间结果和对中间结果进行不加权投票得出最终结果两个步骤。实验结果表明该算法适用于大规模文本数据集的分类学习,同时具有高效性、准确性、高可靠性和易扩展性的优点。
其他文献
《庄子》可以说是中国古代文苑里一朵常开不败的奇葩,千百年来一直散发着迷人的魅力。作为诸子散文,它具有很高的思想价值,哲学价值;然而它又是先秦诸子散文中最富有文学色彩的艺
武汉素有“百湖之市”的美誉,城市中众多的水体成为其最具地方特色的景观,是城市对自我文化内涵的表达,也是城市魅力最精彩的体现,它承载着城市历史文化的发展与变迁。武汉城市中
给排水工程的质量是保证建筑物建设质量的重要因素。在具体设计过程中,设计人员的技术水平和态度都会影响其施工质量。目前,建筑施工管道存在的主要问题包括管道漏水、管道堵
介绍了室内环境中臭氧的主要来源及对人体健康的危害,并对其主要监测方法进行了综述。
文章以辽宁科技大学为例通过搞好图书馆硬件配套设施建设;建立原创馆藏文献书评数据库;成立阅读协会;多元参与指导学生选择性阅读等方式做好图书馆的阅读推广工作,使大学生能
探讨HBV前c区基因变异与肝纤维化的相关性。应用聚合酶链反应-单链构象多肽性分析(PCR-SS-CP)银染技术检测FIBV前C区基因变异和放射免疫法检测血清肝纤维化标志物(血清透明质
目的探讨ALT、HBV DNA以及血清纤维化标志物透明质酸(HA)、层粘连蛋白(LN)、Ⅲ型前胶原肽(PⅢP)、Ⅳ型胶原(CⅣ)与慢性乙型肝炎肝纤维化程度的关系。方法检测281例慢性乙型肝
<正>一、教学设计的指导思想与前期分析本课题是笔者自己借班教学的一节公开课,事先了解到学生对象知识层次较为薄弱并且学习习惯、学习态度、思维习惯都比较差,学生不善于思
在城市地铁修建中,难免出现新建隧道下穿铁路框架桥的情况。为研究新建双线盾构隧道施工对上方既有铁路框架桥的影响,以成都地铁5号线福宁路~五块石区间盾构隧道正交下穿既有