Web结构挖掘与高维数据挖掘研究

被引量 : 4次 | 上传用户：ruqianwusan3

【摘要】

：

数据挖掘是人工智能、机器学习、模式识别和信息决策等领域的前沿研究方向之一。随着Web的迅速发展以及数据采样能力的提升,Web挖掘和高维数据挖掘逐渐成为数据挖掘的两个重

【作者】

：

于红

【发表日期】

：

2012年01期

【关键词】

：

Web结构挖掘链接分析高维数据聚类流形聚类增量抽样

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是人工智能、机器学习、模式识别和信息决策等领域的前沿研究方向之一。随着Web的迅速发展以及数据采样能力的提升,Web挖掘和高维数据挖掘逐渐成为数据挖掘的两个重要任务。Web是现代社会人们传播和获取信息最重要的一个平台。Web中包含的网页数量已经达到十亿的规模,并且仍在与日剧增,Web包含的信息量更是呈现爆炸式的增长。由于Web中的信息是非结构化和自组织的,传统的信息检索技术很难在实际需求中得到有效的应用。除了Web页面以外,Web中还有大量的超链接。超链接蕴含了对网页的重要性评价信息,因此Web结构挖掘(即Web链接分析)成为提高Web信息检索质量最重要的途径。聚类分析是数据挖掘的基本方法之一,在许多领域都有着广泛的应用。近年来很多聚类问题中的数据普遍呈现出高维特征。而已有的经典聚类方法都是基于低维数据空间的假设,不能对高维数据进行有效聚类。高维数据聚类问题成为目前聚类分析研究的重点。流形聚类是近年来发展起来并被广泛研究的一种高维数据聚类分析方法。本文针对数据挖掘中的Web结构挖掘和高维数据聚类两个典型问题,研究分析了基于链接分析的搜索引擎页面排序算法、Web社区发现算法、流形聚类中的有效相异度度量以及针对大规模高维数据流形聚类的低秩逼近问题,主要贡献包括：(1)分析了基于链接分析的页面排序算法PageRank算法和HITS算法的特点,提出了基于多级衰减模型的PageRank算法框架,根据衰减模型来分配页面间的直接链接和间接链接的权值,提高了查询的精确度；提出了基于页面相似度和链接流行度的HITS改进算法,根据页面间相对于查询主题的相似度以及页面间链接的流行度来分配链接的权值,有效缓解了HITS算法的主题漂移问题。(2)深入研究了基于最大流的社区发现技术中边容量与社区的规模之间的关系,从社区发现角度分析了链接结构的特征,提出利用网页的入度和出度的概率分布来分配边容量的方法,减少了噪音页面被提取出来的可能性,提高了网络社区的质量。(3)提出了基于邻域路径的有效相异度,强化了通过流形学习算法获得的数据低维表示的类别特征,改善了通过流形学习进行聚类的效果。分析了采用Nystrom扩展方法逼近大规模核矩阵特征向量的近似程度与抽样点之间的关系,并基于此分析提出了增量抽样策略,提高了利用Nystrom扩展方法进行加速流形聚类时的聚类质量。

其他文献

移动学习的系统装备环境研究

文章将移动学习系统环境中的终端设备和网络接入方式统称为移动学习系统装备环境,在分别详细介绍了不同移动终端和无线网络的各自分类和特点之后,构建出通用的移动学习系统装

期刊

移动学习装备环境终端设备网络接入

FGF10单克隆抗体对SCID小鼠银屑病模型的作用研究

银屑病是一种T细胞介导的慢性炎症性皮肤病，其发病的使动环节是真皮内T淋巴细胞浸润，同时也是维持银屑病皮损特征的重要因素。除T细胞外，树突细胞、单核/巨噬细胞以及一些炎症趋

学位

银屑病FGF10单克隆抗体SCID小鼠动物模型

基于JXTA的移动学习支撑平台的研究与实现

移动学习作为一种新的学习模式,改变了传统E-learning的局限性,逐步受到国内外学者的重视。文章则基于移动学习的特点,结合JXTA平台所具有的相似性,提出了基于JXTA的移动学习

期刊

移动学习JXTA服务组合

基于图像处理的PLC灯板检验系统设计与实现

可编程逻辑控制器(PLC)作为工业自动化控制的核心产品,在自动控制领域得到广泛的应用。而在PLC大批量生产中,PLC灯板虚焊、漏焊等质量问题时有发生,如果不将类似问题检查出来

学位

PLC灯板视觉检测系统图像预处理

机床支承件及线轨联接面静态精度特性研究

机床静态性能计算及精度分析是实现数控机床高性能、高精度的重要核心途径之一。以有限元理论为基础的结构分析方法被广泛的应用到机床的性能计算与精度分析领域,为机床的性

学位

静态分析精度特性线轨联接面精度评价

我国城镇化的特征分析与路径思考

中国城镇化进程规模空前,因影响深远而举世瞩目。中国城镇化现已进入快速发展阶段,区域速度差异、城镇规模差异、二元结构差异等矛盾问题日渐显现,系统分析城镇化发展特征、

期刊

城镇化特征分析发展路径

新课改与中文专业师范生的职前教育

高等师范院校的职前教育服务于基础教育,为基础教育输送合格师资。但随着新课改的实施,中小学的课堂教学得到了进一步改善,而高师职前教育明显滞后,不适应新课改对师资培训的

期刊

新课改中文专业师范生教师职前教育教师教育

末梢血β-羟丁酸监测在糖尿病及糖尿病酮症酸中毒诊治中的研究

背景：近几年，糖尿病的患者人数逐年递增，目前全球约有1.5亿人患有糖尿病，由于人类的生活环境变得越来越复杂，糖尿病患者将可能进一步增加。糖尿病患者最常见且病情最严重的急性并

学位

糖尿病酮症酸中毒β-HBA尿酮体

面向小分子检测的SPR传感器研究

表面等离子体共振(Surface Plasmon Resonance, SPR)技术被广泛应用于生物、化学、食品安全,环境等方面的检测以及光无源器件的制作、新型材料的获取及物质的筛选鉴定等方面

学位

表面等离子体共振漏模共振层层自组装小分子检测纳米结构

中西医结合治疗妇女卵巢血肿23例疗效观察

在妇产科临床实践工作中因卵巢血肿引起的小腹疼痛已屡见不鲜,究其病因,为女性排卵期黄体及卵巢表面毛细血管破裂所致,属祖国医学"腹痛","癥瘕"的范畴.现就采用中西医结合治

期刊

卵巢血肿中西医结合疗法加味四物汤先锋霉素VI止血敏Vitk1

Web结构挖掘与高维数据挖掘研究

其他学术论文