基于Dirichlet过程的DeepWeb数据源聚类研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:fxyygs99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和信息技术的快速发展,互联网已成为人们获取信息的重要途径。Deep Web数据源中蕴含的高质量、结构化的数据也越来越受到人们的关注。Deep Web是指互联网上由后台数据库动态产生的页面,这些页面不能通过静态链接直接访问,只能通过表单提交查询的方式来获取。作为Deep Web数据源集成中的关键一步,Deep Web数据源聚类就是将数据源按照领域进行划分。由于缺乏数据源的先验知识,目前Deep Web数据源聚类任务面临难以预先确定聚类个数的问题。在特征提取方面,Deep Web数据源存在特征向量高维稀疏的特点。针对以上问题,本文将Dirichlet过程引入Deep Web数据源聚类研究中,提出了一种基于Dirichlet过程的Deep Web数据源聚类方法。文本的主要研究工作和成果如下:①提出了基于层次Dirichlet过程的特征提取方案。将查询接口中原本高维稀疏的短文本,表示为主题特征,该过程在降维的同时能自动确定特征数,不需要人工事先设定主题特征的数目,解决了因为先验知识缺乏而带来的参数设定的难题。②针对Deep Web数据源聚类算法因缺乏先验知识而难以预先确定聚类数目的问题,提出基于Dirichlet过程混合模型的聚类算法。该算法无需人工事先指定聚类个数,由Dirichlet过程根据数据自动计算得到,特别适用于Deep Web数据源数量大,变化快的特点。③在Dirichlet过程混合模型的参数推导过程中,提出了一种加权Gibbs抽样算法,在原始Gibbs抽样算法的基础上,为主题特征引入权重信息,解决了原始抽样算法带来的聚类不均衡问题。最后,在Deep Web数据源聚类的通用数据集上进行了实验。在F-measure值和熵值两个指标上对本文提出的方法进行了评估。实验结果表明,相比于经典的聚类算法和特征提取方案,本文方法对参数依赖较少,同时具有较好的聚类效果。
其他文献
信息可视化技术自上世纪90年代中期出现并兴起后,正从根本上改变着人们表示、分析和理解大型复杂数据的方式。而多维数据的可视化作为该领域内的经典问题,一直备受研究者的关
双语资源在计算语言学研究领域具有十分特殊的地位,对机器翻译、双语词典编纂、术语抽取、跨语言信息检索等研究和应用提供了有力的支持。对双语资源的研究面临着如下三个问
伴随着计算机网络技术的不断发展,人类信息技术日新月异,网络安全已成为行业应用的重要组成部分。作为网络安全分支之一的入侵检测系统主要识别各种入侵行为和入侵事件,一直
交叉调试代理是嵌入式交叉调试系统的重要组成部分,也是使用最为普遍的一种调试方式。但无论是调试桩程序、调试服务器还是ROM Monitor、Rom Emulator这样一些交叉调试代理,
作为一个极富挑战性的高技术密集型项目,机器人足球吸引了越来越多的研究和关注。路径规划问题是机器人足球中类人机器人避障比赛中的重要部分,其实时性和稳定性对整个比赛起着
随着互联网技术的发展,电子商务在我国的经济建设的地位越来越重要。商品搜索引擎是电子商务网站一个重要的部分,是用户在网站上购物的入口,起到连接一切商品的桥梁的作用。传统
随着人们饮食条件的提升以及生活方式的多样化,消化道疾病逐渐成为困扰人类健康的一大因素。如何更高效地预防和诊断消化道疾病成为一个社会性的问题。无线胶囊内镜正是为此
随着互联网的发展,Web已经成为人们获取信息的重要渠道和手段,但同时里指数增长的Web信息,又对人们如何从中获取有效的信息带来了巨大挑战。探索自动、高效的网页信息检索方
在全球信息化加快发展的背景下,促进电子政务的发展已经成为一个国家或地区参与全球竞争,争取经济和社会发展“先机”的重要内容。近些年来,我国的电子政务建设虽然取得了长
即时通讯(Instant Messaging,简称IM)通常是指应用在计算机网络平台上的,利用点对点的协议,能够实现即时的文本、图片、音频和视频交流的一种通信方式。随着互联网的迅猛发展