论文部分内容阅读
2006年Google首席执行官Eric Schmidt首次提出了“云计算”的概念,现在它已成为国际IT业中的重要增长点。云计算时代的到来,使得各种类型的互联网应用层出不穷,各类数据呈爆炸式的增长,对于存储在云数据库中的海量文本数据而言,用户如何快速有效地获取、管理和使用这些文本数据,已经成为信息科学迫切需要解决的问题,其中使用文本分类是有效的文本数据处理方法。在文本分类系统中分类器的构造是极其重要的,传统的文本分类算法或传统的模式识别都是基于最佳划分的,而仿生模式识别(Bionic Pattern Recognition,BPR)强调的是对事物的“认识”而非“区分”,更符合人类认识世界的本质。中科院王守觉院士提出了的仿生模式识别的数学实现方法,即通过对特征空间中的样本采用高维空间复杂几何形体进行覆盖,实现模式识别。仿生模式识别在语音识别、人脸识别、地面实物识别方面都得到了很好的识别效果。实践表明仿生模式识别方法有许多优点,能够有效地降低识别的错误率,识别效率优于传统的模式识别方法。本文以此为出发点,首先介绍了文本分类的基本概念和关键技术,然后研究了仿生模式识别的理论基础及其神经网络算法实现,又从几何理论的角度提出了本实验室的一种用超椭球作为高维空间同源类模板的仿生模式识别算法。接着又在此基础上,针对文本特征空间的高维性和表示向量的稀疏性提出了一种改进的基于超球覆盖的仿生模式识别新算法。该算法能灵活地覆盖特征空间中的样本点,有效地克服了文本特征的稀疏性。实验结果表明,在中文数据上,基于超球覆盖的仿生模式识别分类算法要比传统的分类算法的分类性能更好,虽然在训练时间上有待提高,但在分类时间上能实现更快的速度。