基于支持向量机的文本分类在并行环境中的性能分析及应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：ybchen123

【摘要】

：

文本分类是指按照预先定义的主题类别，根据文档集合中的每个文档的内容，自动地分类到预先设定的类型集合中，使其对应类型集合中的某一类别或者某几个类别。由于这些类别是可以重

【作者】

：

殷勇

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2006年期

【关键词】

：

支持向量机文本分类性能分析串行程序并行化设计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类是指按照预先定义的主题类别，根据文档集合中的每个文档的内容，自动地分类到预先设定的类型集合中，使其对应类型集合中的某一类别或者某几个类别。由于这些类别是可以重叠的，所以每一类可以作为一个单独的两类分类问题。近十年来人类已经处于一个信息极其丰富的时代，报纸、电视、杂志、Internet 等多种传播媒体将各种各样大量的信息呈现在人们的面前。随着计算机技术、通讯技术、网络技术的飞速发展以及互联网技术应用的日益普及，以电子形式存在的数据的总量急剧增长。一方面，网上信息的多样性和多变性导致信息过度膨胀，另一方面，用户却找不到所需要的信息，在这样一个动态变化的环境下对各种文本信息进行收集、分析、分类、评价并提供有效的信息分类服务就成为一个研究热点。本论文主要研究的是目前分类效果最好的支持向量机，利用现有的串行程序进行相关的并行化设计，按照现有的能力和条件进行并行化效率的分析，找出解决文本分类效率随分类问题规模增大而下降问题的方法和为组建并行环境的硬件最佳配置提供参考是本论文的目的。本文的主要工作和结论： 1．模型并行化的探索，对目前文本分类效果最好的支持向量机进行并行化，实现文本分类中训练和测试计算效率的提高； 2．并行化的效率优化，对文本分类算法进行相关的并行化设计和实现，根据现有的实验环境进行并行化效率的分析，找出并行环境最佳配置； 3．并行算法效率与并行环境存在着依赖，根据并行环境的系统特点，运行过程中的通信开销在很大的程度上决定了并行分类的加速比，所以降低通讯开销的时间是提高并行效率的有效环节。

其他文献

分布式入侵检测系统报警数据融合技术研究与实现

多数基于网络的入侵检测系统(NIDS)普遍存在的一个不足就是经常会产生大量相似的或重复的警报数据,可称之为警报洪流。NIDS应该极力避免警报洪流的出现,因为出现警报洪流时,N

学位

入侵检测警报数据融合过滤合成

家庭网络DRM研究

家庭网络DRM是DRM领域发展的新方向。它进行以家庭为单位的数字版权管理，具有很多优点，适合于数字家庭和家庭网络应用中。内容保护是数字家庭和家庭网络中必须解决的安全问题，很

学位

家庭网络DRM数字家庭认证域代理签名用户控制层

移动自组网数据管理关键技术研究

随着移动通信技术的迅速发展，出现了一种不需要移动通信基站支持的移动自组网(Mobile Ad Hoc Networks，简称MANET)。不同于传统的移动数据管理系统，在基于MANET的分布式数据管理

学位

移动自组网分布式数据管理数据缓存替换查询处理资源发现

处理器Y-行为及其相关性能优化的研究

随着集成电路工艺的进步，处理器系统的软差错率 SER（Soft Error Rate）将急剧增加，其原因包括以下几方面因素：一、晶体管工作电压的降低减小了集成电路噪声容限，使芯片更易受瞬态故

学位

处理器分支预测器Y-行为容错技术

一种轻型业务规则管理模型的研究

业务规则是定义和约束企业业务结构与业务行为的规定或规范,是企业业务运作和管理决策所依赖的重要资源。随着客户需求的日益多样化、企业间竞争加剧、合作更为广泛复杂等因

学位

业务规则业务规则管理ECA规则引擎LD-BRM

基于内容的混合模型图像检索算法研究

图像作为一种用来描述和存储现实世界信息的媒体，往往不同于传统意义上的字符数字，仅用几个简单的关键字来描述图像数据中所包含的大量的复杂的语义信息、视觉特性、时间和空间

学位

CBIRSIFTFeatureforst特征检测局部哈希敏感

实时任务调度在FOMS系统中的应用研究与实现

实时调度研究的核心就是探讨以时间限制为条件，合理调配资源，以完成目标处理的最优策略。本文针对机场航班运营管理系统(Flight operation and management system，FOMS)的定时序

学位

任务调度FOMS系统截止期

基于小波的仿射不变性图像检索

随着信息技术的发展，图像资源的日益丰富，基于关键字和描述文本的传统图像检索模式已不能胜任使用需要，有效检索海量图像数据的需求变得日益迫切。针对这一需求，基于内容的图像检

学位

图像检索仿射变换小波变换模式识别

盲信号分离算法比较与研究

为了研究对象的行为，人们需要用传感器对对象的行为进行采样，但不幸的是很多情况下很难保证传感器接收到的信号是仅仅是感兴趣的信号，通常情况下传感器接收到的信号会被各种各样

学位

盲信号分离信号处理BSS方法学习法则自适应迭代计算

基于NP-1c网络处理器的防火墙的研究和实现

网络处理器是一种专门针对网络数据处理而设计的处理器，其具有可伸缩、可扩展和可编程等特性。网络处理器不仅被用来开发网络路由和交换设备，同时，也被用来开发网络安全设备，如硬

学位

网络安全防火墙网络处理器系统设计网络接口

基于支持向量机的文本分类在并行环境中的性能分析及应用

与本文相关的学术论文