论文部分内容阅读
文本分类是指按照预先定义的主题类别,根据文档集合中的每个文档的内容,自动地分类到预先设定的类型集合中,使其对应类型集合中的某一类别或者某几个类别。由于这些类别是可以重叠的,所以每一类可以作为一个单独的两类分类问题。
近十年来人类已经处于一个信息极其丰富的时代,报纸、电视、杂志、Internet 等多种传播媒体将各种各样大量的信息呈现在人们的面前。随着计算机技术、通讯技术、网络技术的飞速发展以及互联网技术应用的日益普及,以电子形式存在的数据的总量急剧增长。一方面,网上信息的多样性和多变性导致信息过度膨胀,另一方面,用户却找不到所需要的信息,在这样一个动态变化的环境下对各种文本信息进行收集、分析、分类、评价并提供有效的信息分类服务就成为一个研究热点。
本论文主要研究的是目前分类效果最好的支持向量机,利用现有的串行程序进行相关的并行化设计,按照现有的能力和条件进行并行化效率的分析,找出解决文本分类效率随分类问题规模增大而下降问题的方法和为组建并行环境的硬件最佳配置提供参考是本论文的目的。
本文的主要工作和结论:
1.模型并行化的探索,对目前文本分类效果最好的支持向量机进行并行化,实现文本分类中训练和测试计算效率的提高;
2.并行化的效率优化,对文本分类算法进行相关的并行化设计和实现,根据现有的实验环境进行并行化效率的分析,找出并行环境最佳配置;
3.并行算法效率与并行环境存在着依赖,根据并行环境的系统特点,运行过程中的通信开销在很大的程度上决定了并行分类的加速比,所以降低通讯开销的时间是提高并行效率的有效环节。