数据采掘的研究与应用

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 14次 | 上传用户:Air8712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据采掘是统计学、计算机科学、模式识别、人工智能、机器学习及其它学科相结合的产物。在当今数字化社会中,各种商业、政府、科学数据库和数据量的急剧增长,远远超过了人类目前已有的分析和理解能力,因此从大量的数据中智能地、自动地提取出有价值的知识和信息的研究,即数据库知识发现,具有十分重要的现实意义。 本文主要研究了数据采掘中的如下几个问题:基于偏置变换的决策树学习算法;决策树算法属性选择标准;粗糙集理论及应用;基于主体的分布数据采掘系统以及面向多任务的通用数据采掘系统及其系统集成。 本文的研究成果主要为: 1.为解决现存决策树学习算法在属性选择、数据噪声、数据递增及领域限制等问题,实现了一个基于偏置变换的决策树学习算法BSDT。BSDT采用了一种基于CBR的两级式学习策略来完成过程偏置变换。其中,第一级用于选取最优决策树学习算法。它利用经典范例库及现存算法的特性构造出CBR所需的范例库,再采用CBR方法选取面向目标任务的最优算法;第二级用于对目标任务的学习。将上一级选出的最优算法作为第二级学习算法进行目标分类规则的学习。同时,还为增加新算法与经典例子集提供了机制。 2.为解决决策树学习算法在处理偏好、代价及概念层次等问题上存在的缺陷,实现了泛化算法以及特化算法对原始训练集进行概念层次的提升及下沉操作,使原始训练集达到某种要求的概念层次来完成对概念层次的柔性指定。结合偏好系数、代价系数构造了属性选择函数ASF。 3.对粗糙集中的一种重要表示方法一差别矩阵进行了拓广,提出了相似矩阵及关联矩阵的表示。基于关联矩阵,提出了关联属性度量的概念;基于相似矩阵,提出了必然规则和似然规则的概念。同时实现了基于关联属性的Top-down的知识约简算法URD以及基于粗糙集的决策树学习算法RSDT。RSDT算法解决了不确定知识的处理和表示问题。
其他文献
视唱练耳是音乐专业中最为重要的一门基础课程。在音乐教学中通过考核性的创新模式进行视唱练耳的基础教学加强学生的基础知识和基本技能,激发学生对视唱练耳学习的积极性和
“电功率”一章教学内容的编写注重从学生的认知水平出发,紧密联系学生生活实际·以下例题与学生的生活密切相关,是中考的命题趋势·有利于增强学生的节能意识,渗透情感教育,
近年来,我国从南至北一些地区的中小养猪场、养猪户,发生新的疫情,由于这种猪病疫情以高热为主要特征,称为“猪高热病”,它不仅给养猪业造成了巨大的经济损失,对畜产品安全也构成了
调查门楼水库库区发展休闲旅游农业的背景和动因,从资源优势、地理优势、基础优势、政策优势、市场优势等五个方面分析了门楼水库库区发展休闲旅游农业的优势,指出了发展休闲旅
可食用昆虫作为食品的开发潜力巨大、营养价值高、环境污染低,但同时也面临消费者接受程度偏低、立法保障不健全、食品安全问题突出和食品加工技术薄弱等问题。本文通过对世
在高三第一轮复习进行到“电磁复合场”部分时,笔者以“磁流体发电机”为背景,将电磁场常见知识点、电路及能量转化、宏观微观联系等相关问题串联起来,完成了一堂综合性的电
本文以国家863/CF-CIMS应用示范工程(合同号:863-511-910-1032)为应用背景,以自主开发的混合式集成化CF-CAPP为研究对象,提出了采用“融合实例推理的混合式集成化CAPP系统”的开发
数学建模与仿真已经成为分析产品技术性能的一项重要技术。随着科学技术的高速发展,产品结构和功能日趋复杂与异构。复杂产品通常是机械、电子、液压、控制等多领域子系统的