分布式架构下的海量文本特征分类研究

被引量 : 0次 | 上传用户:Kingss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的信息以爆炸式快速增长,这些以文本为代表的海量数据包含了大量有价值的信息,而现有的多数分析工具无法快速有效地分析这些数据,从而失去了实时数据价值。而大量出现的短文本也对文本分类带来了新的挑战,因此,必须找到基于机器学习的快速智能处理海量文本数据的方法。一方面,多核并行和分布式计算存储技术正是解决该问题的重要方式,通过在机器集群上实现并行算法可大大加速处理过程。另一方面,还必须以信息论和统计语言模型为核心,通过分词,特征提取,分类器等工具,灵活智能地研究文本特征,以实现有效信息的提取和分类。.本文通过对文本分类的基本过程,包括预处理,文本向量化,特征提取,分类等进行了分析,重点论述了支持向量机和贝叶斯分类器的原理和并行化,并进行了性能测试;详述了广泛使用的分布式架构Hadoop和其存储解决方案;分析了文本情感分类器的原理,优化与性能测试结果。本文的研究内容与创新点包括:将自然语言处理,信号分析和并行计算紧密整合,分析社交网络的海量数据;提出了一种利用二叉排序树和哈希算法的优化策略,该策略充分利用多核计算资源,从而大大提升了文本情感分类的效率;对短文本的特点进行了深入分析,并对长文本语料(新闻)与新媒体短文本语料(微博等)进行对比测试,指出了短文本处理中需要注意的问题。海量数据文本分类适用于当前大数据时代的主题,能够广泛应用于自动信息处理,社会行为监控监测等领域,具备广泛的理论背景和较强的工程意义。
其他文献
为了设计出一种在结构和传动性能上更为优越的SCARA平面关节式机器人,在传统设计的基础上,根据装配机器人的总体要求和主要技术参数,在SolidWorks环境下,对SCARA机器人进行了
犬儒主义奉行一种玩世不恭、游戏人生的生活方式,对当今传媒文化界造成了极大的影响。本文简介了犬儒主义的由来,分别分析了它在当今新闻报道、影视作品和文学作品中的表现和
<正>廖明君(以下简称"廖"):舒宪先生,作为《民族艺术》的编委成员,你从上个世纪八十年代文艺新方法大讨论中步入学坛,曾经倡导神话-原型批评和结构主义神话学的方法;九十年代
从医学文献和全国统编《中医诊断学》教材等,对“恶寒”与“畏寒”的混淆与区别进行了分析、探讨,并结合临床表现进行了论述,认为“恶寒”与“畏寒”不但临床表现不同,而且两者产
历代医家提出了湿温病禁汗、禁下、禁润之湿温治法“三禁”。然而,这是相对的,临床上必须灵活掌握。笔者认为,“三禁”主要是指湿温早期湿未化热而言。如湿热完全化燥化火,治疗则
为了进一步促进多元文化信息的交流和文化市场的发展,本文引入市场营销组合的概念,通过对市场营销组合的含义和发展进行分析,在结合文化对产品影响的基础上,对跨文化产品的设
无论是《中日韩自由贸易协定》,还是由《北美自由贸易协定》转向而成的《美墨加自由贸易协定》,抑或是“美国色彩”浓厚的《跨太平洋伙伴关系协定》(TPP),北欧的《跨大西洋贸
中国玉教信仰的基本教义:以玉为神;玉代表天(天命);玉象征永生。玉教的传承不像西方宗教在教堂内的有意识传教,而是通过"无意识的习惯",即通过神话观念与语言惯例而世代相传
儒家讲究修身齐家治国平天下,以天命为要,有一套完整的思想行为标准,以修养自身的方式来使自己与道与统一,从而成为经世之才。而内自省就是儒家提出的修养自身的方法,在儒家
随着呼叫中心在全国各行各业的广泛应用,基于呼叫中心的应用也随之广泛发展起来,从传统的应答呼叫中心,到随后的视频呼叫中心等等,呼叫中心系统不但在功能上越来越强大,而且