基于支持向量机的文本分类在并行环境中的性能分析及应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ybchen123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是指按照预先定义的主题类别,根据文档集合中的每个文档的内容,自动地分类到预先设定的类型集合中,使其对应类型集合中的某一类别或者某几个类别。由于这些类别是可以重叠的,所以每一类可以作为一个单独的两类分类问题。 近十年来人类已经处于一个信息极其丰富的时代,报纸、电视、杂志、Internet 等多种传播媒体将各种各样大量的信息呈现在人们的面前。随着计算机技术、通讯技术、网络技术的飞速发展以及互联网技术应用的日益普及,以电子形式存在的数据的总量急剧增长。一方面,网上信息的多样性和多变性导致信息过度膨胀,另一方面,用户却找不到所需要的信息,在这样一个动态变化的环境下对各种文本信息进行收集、分析、分类、评价并提供有效的信息分类服务就成为一个研究热点。 本论文主要研究的是目前分类效果最好的支持向量机,利用现有的串行程序进行相关的并行化设计,按照现有的能力和条件进行并行化效率的分析,找出解决文本分类效率随分类问题规模增大而下降问题的方法和为组建并行环境的硬件最佳配置提供参考是本论文的目的。 本文的主要工作和结论: 1.模型并行化的探索,对目前文本分类效果最好的支持向量机进行并行化,实现文本分类中训练和测试计算效率的提高; 2.并行化的效率优化,对文本分类算法进行相关的并行化设计和实现,根据现有的实验环境进行并行化效率的分析,找出并行环境最佳配置; 3.并行算法效率与并行环境存在着依赖,根据并行环境的系统特点,运行过程中的通信开销在很大的程度上决定了并行分类的加速比,所以降低通讯开销的时间是提高并行效率的有效环节。
其他文献
多数基于网络的入侵检测系统(NIDS)普遍存在的一个不足就是经常会产生大量相似的或重复的警报数据,可称之为警报洪流。NIDS应该极力避免警报洪流的出现,因为出现警报洪流时,N
家庭网络DRM是DRM领域发展的新方向。它进行以家庭为单位的数字版权管理,具有很多优点,适合于数字家庭和家庭网络应用中。内容保护是数字家庭和家庭网络中必须解决的安全问题,很
随着移动通信技术的迅速发展,出现了一种不需要移动通信基站支持的移动自组网(Mobile Ad Hoc Networks,简称MANET)。不同于传统的移动数据管理系统,在基于MANET的分布式数据管理
随着集成电路工艺的进步,处理器系统的软差错率 SER(Soft Error Rate)将急剧增加,其原因包括以下几方面因素:一、晶体管工作电压的降低减小了集成电路噪声容限,使芯片更易受瞬态故
业务规则是定义和约束企业业务结构与业务行为的规定或规范,是企业业务运作和管理决策所依赖的重要资源。随着客户需求的日益多样化、企业间竞争加剧、合作更为广泛复杂等因
图像作为一种用来描述和存储现实世界信息的媒体,往往不同于传统意义上的字符数字,仅用几个简单的关键字来描述图像数据中所包含的大量的复杂的语义信息、视觉特性、时间和空间
实时调度研究的核心就是探讨以时间限制为条件,合理调配资源,以完成目标处理的最优策略。本文针对机场航班运营管理系统(Flight operation and management system,FOMS)的定时序
随着信息技术的发展,图像资源的日益丰富,基于关键字和描述文本的传统图像检索模式已不能胜任使用需要,有效检索海量图像数据的需求变得日益迫切。针对这一需求,基于内容的图像检
为了研究对象的行为,人们需要用传感器对对象的行为进行采样,但不幸的是很多情况下很难保证传感器接收到的信号是仅仅是感兴趣的信号,通常情况下传感器接收到的信号会被各种各样
网络处理器是一种专门针对网络数据处理而设计的处理器,其具有可伸缩、可扩展和可编程等特性。网络处理器不仅被用来开发网络路由和交换设备,同时,也被用来开发网络安全设备,如硬