【摘 要】
:
数据挖掘是当前国际学术界一项前沿的研究课题,它融合了数据库、人工智能、机器学习、统计学、智能计算、认知科学等多个领域的知识,是数据库研究中很有应用价值的一个新方向
论文部分内容阅读
数据挖掘是当前国际学术界一项前沿的研究课题,它融合了数据库、人工智能、机器学习、统计学、智能计算、认知科学等多个领域的知识,是数据库研究中很有应用价值的一个新方向,对各个行业领域的决策具有极大的指导作用。文本分类是数据挖掘领域中重要分支之一,其任务是对未知类别的文本进行自动处理,判断它们所属的预定义类别集合中的类别。随着网络的飞速发展和各种电子文本数量的迅速增长,有效的信息检索和过滤等变得越来越困难和重要。文本分类便是一个有效的解决办法,它已成为一项很有实用价值的技术。目前,已经有很多机器学习算法在文本分类领域中得到应用,并取得了一定的成果,比较普遍典型的是类中心向量法。但是这些算法大部分都是基于统计计算的,缺乏反馈体系机制,忽略了文本整体的有机性和文本之间的联系性。同时,这些算法几乎都是在单层次上做一次终结式分类,没有考虑到文本类别的逐层分类。为此,本文在对模糊认知图的概念、特性以及它的知识表示和推理机制进行初步研究的基础上,根据模糊认知图中各节点相互关联和文本整体有机性结合起来,通过充分考虑特征项之间、特征项与类别之间、类别与类别之问的因果关系和相互影响,提出一种基于模糊认知图的文本分类推理算法,采用迭代推理体现反馈机制,它特别适用于训练和测试文本数量不多的情况以及交叉学科、新兴学科。同时,在常规中文文本的单层次分类基础上,本文提出了基于大类小类(父类子类)的文本类层次树的概念。而在每一层上,采用类中心向量法和基于模糊认知图分类推理算法组合的分步补充的分类方法,从而构造出分步文本层次分类模型和算法(即SHTC),并对此进行了实验验证。结果表明,该方法可以有效提高文本分类的精度和效能。
其他文献
本文以电信服务开通系统(Service Process System,SPS)的系统架构及其周边接口的分析设计作为SOA(Service-Oriented Architecture)思想在具体系统中的应用研究的一个重要切入
基于图像的公路路面病害自动识别与分类,一直是图像处理和模式识别领域的一项挑战性工作,其对公路养护工程具有很大的指导作用。本文的背景科研项目为南京理工大学江苏省自然基
惯性导航系统作为一种现代化导航系统已经广泛地应用到各类飞行器中,在现代军事航空领域发挥着举足轻重的作用。惯性测试评价平台主要是对惯性器件的特征参数进行测试和评价
人脸识别技术是计算机模式识别领域非常活跃的研究课题,而特征抽取是人脸识别中最基本的问题之一,因此能否抽取人脸图像有效的鉴别特征也成为人脸识别技术的关键问题。典型相
随着网络带宽的增加和高速局域网的普及,已有网络取证系统由于数据捕获和分析能力的不足造成大量信息丢失,削弱了证据的说服力和法律效力。深入研究网络取证相关技术,设计并
随着计算机的普及和数据库系统的巨大成功,各种数据库系统以前所未有的速度开发出来并在各行业得到广泛应用,使得事务处理变得更加准确、高效,积累的数据更是以指数级的速度
说话人识别属于生物认证技术的一种,是一种根据语音波形中反映说话人生理和行为特征的语音参数来识别说话人身份的技术。在生物认证技术领域中,说话人识别技术以其独特的方便
随着英特网的发展,人们越来越多的面临怎样有效地查找相关外语文件的问题。在互联网发展初期,网络内容以英文为主,上网用户也多来自美、英等发达国家,但此后,来自其他国家的
数字电视是目前最具发展前景的产业之一,我国也推出自己了的地面数字电视广播标准—DMB-TH。在这种形势下,各种针对DMB-TH的数字电视产品都被开发出来,便携式移动电视接收机
嵌入式软件的特殊性使得其开发过程比传统的通用计算机软件要复杂得多,而调试作为嵌入式系统开发中的关键环节,扮演着十分重要的角色。目前,国内在嵌入式调试技术方面所做的