多关系异构对象Web挖掘研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:aws134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网(World Wide Web)随着近十年来的迅猛发展,已经成为一个巨大而复杂的信息空间.当用户面对这样快速增长的信息空间时,往往感觉到"信息过载".面对这样的问题,Web挖掘技术应运而生.该技术结合信息检索,数据挖掘以及知识管理等技术,帮助用户快速的查找和管理所需要的信息.针对研究对象的不同,目前Web挖掘技术有三大研究方向:Web内容挖掘、Web结构挖掘以及Web使用挖掘. 随着用户对Web上信息的进一步使用,在基本的Web内容数据的基础上衍生出了其他类型的数据.比如:用户的网站浏览数据,用户查询日志数据以及用户评价数据等.在这些数据中包含了多种对象,其中包括用户、查询词,所点击浏览的页面等.并且这些对象不仅包含自身的性质,也同时与其他不同的对象之间存在多种关联关系.我们称之为:多关系异构对象.这种多关系异构对象数据包含了大量有价值的信息,充分利用这些信息能有效的提高用户对Web信息获取的满意度、提高信息的利用率.当前的Web挖掘研究并没有涉及该种复杂数据的挖掘问题.由于该数据数量巨大但关联关系很稀疏,使得对该种数据的挖掘成为非常巨大的挑战.本课题通过拓宽当前Web挖掘对象的范围,提出了多关系异构对象挖掘研究来解决这些问题.在该研究中,我们相应的提出了多关系异构对象内容挖掘、多关系异构对象结构挖掘以及多关系异构对象使用挖掘的概念,并针对每个类别提出了一系列的挖掘算法并进行了体系化的理论研究工作. 本课题的研究提出了以下创新性的理论: 1. 多关系异构对象的潜在语义分析.考虑到对象本身的内容信息以及与之关联的对象信息,我们提出一种概率潜在语义分析模型来统一内容信息以及关系信息获得更好的聚类效果. 2.基于迭代的互增强算法.在信任网络传播理论下,对象的类信息以及同构对象的相似度信息可以被迭代的传播到与之相关联的对象中去. 3.基于耗散热传导模型的链接分析算法.传统的PageRank算法不能在复杂的基于层次的链接结构图上进行分析.为了解决这个问题,我们首次提出一种基于耗散热传导的层次化链接分析算法.该算法不仅考虑链接结构,同时也考虑到链接结构图的层次信息. 4.解决数据稀疏性问题的数据平滑算法.数据稀疏性问题是协同过滤中一个非常重要的问题.为了填补数据中缺失的值,我们利用聚类信息来平滑数据稀疏性问题.通过聚类信息,我们可以将利用类信息来填充个体缺失的信息. 5.用户语言模型研究.我们创新地提出一个基于统计语言模型的用户个性化模型,其集成个体、团体以及全部用户的模型来提供更准确用户模型,同时解决用户个人信息稀疏性问题.其中,全部用户的模型来平滑个体模型中没有出现的词,同时将用户聚类,利用聚类用户的行为来平滑个体中缺失的信息. 6.存储与模型统一的协同过滤理论.基于存储的协同过滤面临数据稀疏以及耗时等问题而基于模型的协同过滤丢失了用户的个性的多样性,我们提出一个新型的协同过滤模型,其集成基于存储的协同过滤与基于模型的协同过滤为一体来提供更好的推荐. 这些理论贯穿了多关系异构对象挖掘的三个方向.本课题研究的大量实验结果也表明我们提出的算法是可行有效的.其中提出的很多算法也被应用到国家自然科学项目中.
其他文献
高温超导磁悬浮车高速运行时,必须实时检测运动速度作为车体运动控制依据。就此,本文详细介绍了速度测量仪的设计过程。 首先分析了各种测速方法,根据车体的运行环境,选择
随着互联网的发展,人们在获得有效信息的同时,也被越来越多的冗余信息所困扰。因此迫切需要一个帮助人们快速浏览工具,该工具通过对相似文档集合的加工整理,将这些文档的重要的、
欧洲信息社会咨询组于2001年提出了环绕智能的构想及其实现的可行性技术路线。按照定义,环绕智能是无处不在的计算,无处不在的通信与用户适用界面的融合,目标是设计、实现下
随着社会信息化程度的不断提高以及机群技术的日益成熟,越来越多的商业应用被集中部署到以机群为主要环境的数据中心。这些应用服务一般要持续运行,承受大量的用户访问,在商
近年来随着计算机技术的发展以及后PC时代的来临,嵌入式系统已经广泛应用于家用电器、工业控制、国防科技等各个领域,并且已经成为近年来增长最快的行业。GT2000是方舟科技的
随着计算机网络技术的快速发展,网络安全的重要性日益突出,作为TCP/IP上的SSL安全协议应用越来越广泛。但SSL本身存在着安全缺陷,不能很好地满足网络应用日益提高的安全性要
Internet的高速发展,给人们的工作和生活带来了极大的便利,同时人们对Internet的服务品质和访问速度要求越来越高。虽然带宽不断增加,用户数量也在不断增加,受Web服务器的负载和
在有限元计算理论和计算机技术共同支持下发展起来的在单机上运行的传统有限元分析软件是解决复杂工程设计分析问题的有力工具。由大连理工大学工程力学系/工程力学研究所/工
在运动模糊图像的恢复中,计算机仿真图像具有使成像过程中诸多退化因素可被分离、运动参数设置灵活、可控等优越性,因而在恢复算法的研究和各算法性能的统一评价等方面都不可
伴随着计算机的发展,计算机辅助设计CAD技术在世界范围获得了广泛的应用,网络化应用成为了计算机辅助设计技术的主要发展趋势之一。当前世界主流的CAD软件普遍采用了基于特征