基于超球覆盖仿生模式识别的文本分类算法研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:cuisong521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2006年Google首席执行官Eric Schmidt首次提出了“云计算”的概念,现在它已成为国际IT业中的重要增长点。云计算时代的到来,使得各种类型的互联网应用层出不穷,各类数据呈爆炸式的增长,对于存储在云数据库中的海量文本数据而言,用户如何快速有效地获取、管理和使用这些文本数据,已经成为信息科学迫切需要解决的问题,其中使用文本分类是有效的文本数据处理方法。在文本分类系统中分类器的构造是极其重要的,传统的文本分类算法或传统的模式识别都是基于最佳划分的,而仿生模式识别(Bionic Pattern Recognition,BPR)强调的是对事物的“认识”而非“区分”,更符合人类认识世界的本质。中科院王守觉院士提出了的仿生模式识别的数学实现方法,即通过对特征空间中的样本采用高维空间复杂几何形体进行覆盖,实现模式识别。仿生模式识别在语音识别、人脸识别、地面实物识别方面都得到了很好的识别效果。实践表明仿生模式识别方法有许多优点,能够有效地降低识别的错误率,识别效率优于传统的模式识别方法。本文以此为出发点,首先介绍了文本分类的基本概念和关键技术,然后研究了仿生模式识别的理论基础及其神经网络算法实现,又从几何理论的角度提出了本实验室的一种用超椭球作为高维空间同源类模板的仿生模式识别算法。接着又在此基础上,针对文本特征空间的高维性和表示向量的稀疏性提出了一种改进的基于超球覆盖的仿生模式识别新算法。该算法能灵活地覆盖特征空间中的样本点,有效地克服了文本特征的稀疏性。实验结果表明,在中文数据上,基于超球覆盖的仿生模式识别分类算法要比传统的分类算法的分类性能更好,虽然在训练时间上有待提高,但在分类时间上能实现更快的速度。
其他文献
伴随着数字多媒体技术的迅速发展与网络应用的日益普及,数字作品的发布与传送也越来越方便快捷,同时数字作品的版权保护也受到了巨大的挑战。虽然目前针对数字作品版权保护方法
数字图像盲取证技术是信息安全技术下的一个分支。区别于主动取证,数字图像盲取证是在不预先向取证图像中载入认证标识的前提下,对图像内容的原始性、完整性和真实性进行认证
随着通信技术的不断进步,为提高3G在通信市场的竞争力,3GPP在2004年的年底启动了长期演进LTE技术的标准化工作。同时不断增加的用户数量和业务种类对无线通信系统容量和质量
在管道、锅炉中,常存在管与管相贯的情况。为了保证结构的美观和稳定性,焊接的时候一般要求沿其相贯线来进行。空间相贯曲线是一种常见的复杂曲线,这类曲线的自动焊接是人们研究
摘要:随着宽带无线接入的出现,蜂窝移动通信技术与宽带无线接入技术已呈现出相互融合的趋势,宽带接入移动化、移动通信宽带化的业务需求越来越旺盛,用户对更高的速率要求也越
目前在卫星应急通信中卫星用户地面站与其维护平台广泛使用UDP作为传输层协议,该协议简单、快速但不能保证数据的可靠传输,因此可靠通信协议成为本文研究的重点。本文汲取TCP协
下一代无线通信系统需要更高的传输速率和更可靠的传输性能。增设节点(基站)提高无线通信网络的覆盖率、对抗信道的衰落和提升系统的性能,将增加成本开销。多天线MIMO系统(Multip
手势是一种人们常用的交流方式,将这种简单易懂的交流方式应用于人机交互领域,即为手势识别技术。手势识别技术正是当前人机交互领域的研究重点内容之一。  本文设计实现了一
三维人脸艺术造型是基于人脸照片原型进行三维建模和艺术形变得到的计算机三维模型,与原型人脸相比,既具有相似性又具有艺术夸张性,能给观众带来更好的亲和力,在动画影视、游戏、
在中国乃至全球范围内,众多的道路交通事故导致了很大的人员伤亡和财产损失。据估计,大约44%的车祸发生原因是由于车辆偏离正常车道。车道偏离警告系统(简称为LDWS或RDWS)是根据车