不完备信息系统处理技术及其在文本分类中的应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户：xxzjlei

【摘要】

：

随着网络技术的飞速发展与普及，信息处理已经成为人们获取有用信息不可缺少的工具，而文本自动分类则是信息处理的重要研究方向。当前的文本分类方法主要有基于概率的统计分

【作者】

：

代劲

【机构】

：

重庆邮电大学

【出处】

：

重庆邮电大学

【发表日期】

：

2006年期

【关键词】

：

粗糙集不完备信息系统属性约简文本分类网络技术

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络技术的飞速发展与普及，信息处理已经成为人们获取有用信息不可缺少的工具，而文本自动分类则是信息处理的重要研究方向。当前的文本分类方法主要有基于概率的统计分类方法、基于机器学习的分类方法。无论采用哪一种分类方法，都要面对一个首要的问题：如何处理文本中分词处理后数量庞大的文本特征项。在文本分类中，文本特征向量通常高达几千甚至上万维，这给整个分类过程带来了相当庞大的计算量，不仅影响到文本分类的效能，而且在很大程度上影响着分类算法的应用推广。因此，进行有效的降维处理是非常重要的。粗糙集理论是一种新的处理模糊和不确定知识的软计算工具。它能有效地分析和处理不精确、不一致、不完整等各种不完备信息，并从中发现隐含的知识，揭示潜在的规律，近年来在机器学习、数据挖掘等多个领域得到广泛应用。本文详细阐述了粗糙集中的不完备信息系统处理技术，并结合文本分类的特点，给出了一个基于粗糙集属性约简的文本分类解决方案，主要创新点如下： 1.采用概率统计方法，根据文本属性在不同文本、不同类别中的重要性与分布情况对其进行筛选和排序； 2.结合文本分类的特点，提出了适用于文本分类的一种量化容差关系和启发式的属性约简算法； 3.整个实验系统构建在数据库端，数据以表的形式、算法以存储过程的形式存储在服务器内，能轻易的扩展到网络与分布式协同计算方式。本文从上面几点出发，构建了一个完整的网络文本自动分类系统。经过封闭式和开放式实验测试，表明系统能够较好地进行文档特征项的特征提取并且大幅度的降低了整个文本分类的时间代价。为粗糙集理论的实际应用与文本分类技术的进一步发展提供了一个好的研究样例。

其他文献

科研评估体系中数据预处理系统设计与实现

知识经济条件下，知识更新速度加快，科学技术发展迅猛，科研评估体系出现了新的发展动向。在科研评估体系中，数据的处理在其中占有重要的作用，随着大型科技文献、论文、专利数据库系

学位

数据预处理元数据数据抽取数据转换数据集成

基于XML的数字化校园信息发布与交换技术研究

随着校园信息化建设的迅速发展,校园网络为学校的教学、科研和管理等工作提供了较好的资源共享、信息交流和协同工作。但是,校园网络信息系统也面临着一系列的问题,如存在信

学位

可扩展标记语言数字化校园数据建模数据交换信息发布

贝叶斯网络在适应性教学系统中的应用研究

近年来,网络教学平台不断涌现,但许多网络教学平台的个性化教学并不能令人满意,教学质量不高。这样,网上适应性教学就成为现代远程教学发展的必然趋势,而其中学生模型作为适

学位

远程教学适应性教学学生模型贝叶斯网络应用

路由器中路由查找子系统的实现和优化

因特网流量十二个月翻一番的爆炸式发展使网络技术的研究成为当前的热点,特别是路由器的设计技术更成为关注的焦点。通过分析网络处理器的架构和微引擎的编程方式,在基于Inte

学位

网络处理器微引擎微码最长前缀匹配算法路由查找

网络入侵的异常检测算法研究

入侵检测系统作为一种积极主动的安全防护技术，提供了对内部攻击、外部攻击和误操作的实时防护：在网络系统受到危害之前，拦截和响应入侵。现在的入侵检测系统面临着巨大挑战：日趋

学位

入侵检测系统自组织映射主成分分析异常检测

指定验证者的代理签名体制

在现代信息安全系统中，由于数字签名司以提供数据完整性和可鉴别性，满足电子商务、电子政务的需求，因此，它在当今信息化社会中是一种非常重要的技术。在代理签名体制中，原始签名者

学位

签名代理签名指定验证者的签名安全

网络性能及故障检测系统设计与实现

随着Internet的不断发展，IP网络中的业务类型不断增多，各种对网络服务质量要求较高的新型网络应用不断涌现，例如流媒体视频、网络电视、网络视频会议等。这些新型的网络业务有着

学位

网络性能故障检测Web技术流媒体BP神经网络算法

海量文档图像信息的自动提取相关技术研究与实现

伴随着计算机技术的不断发展,基于数字图像处理以及图像模式识别技术的应用也随之延伸到各个方面。文档的电子化管理已成为文档管理的大趋势,因而研究纸质文档资料的电子化处

学位

文档图像倾斜校正窗口模板边缘检测

疾病基因密码子使用特征分析及致病基因预测

定位候选策略是目前发现疾病基因的主要方法,其关键问题之一是如何对采用连锁分析等方法定位的疾病区间中数以百计的候选基因进行致病风险评估。有效解决这一问题对于缩短疾

学位

生物信息学特征发现密码子使用疾病基因预测

组播网络性能影响因素及优化方法的研究

近年来，随着在Internet上流媒体、视频等业务的相继开展，IP组播技术和应用开始快速发展。因组播技术能以高效、可扩展的方式发送单点到多点、多点到多点的数据，能有效节省带宽和

学位

组播网络性能网络拓扑仿真聚合组播

不完备信息系统处理技术及其在文本分类中的应用

其他学术论文