基于链接分析的Web社区发现技术研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:mylook1028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW已经成为一个巨大的、分布广泛的全球信息服务中心,且以惊人的速度在不断扩大。目前Web上数据具有海量和无组织等特征,如何快速、有效地利用Web上的数据成为研究热点。Web中存在大量的社区,这些社区是Web组织中非常重要的信息。社区可以为用户提供有价值的、及时的信息。社区反映了Web中普遍存在的复杂聚团关系和层次关系,对社区的深入研究可以了解Web中知识信息及其组织结构的发展状况。可将Web社区发现算法应用于搜索引擎有助于提高Web信息搜索的精确度,进而实现垂直搜索引擎。Web页面间的链接关系为Web社区发现研究提供了极其丰富的信息线索。链接分析是Web社区发现主要技术之一。本文在分析当前Web及其数据特征、Web社区的定义、链接分析技术、Web拓扑结构模型等理论基础上,对基于链接分析的Web社区发现技术:基于重要度分析的PageRank算法、基于共引用与共耦合关系的HITS算法、基于有向二分图的Trawling算法、基于流量的算法进行了详细的分析。并重点研究了基于共引用与共耦合关系的HITS算法实现过程及其在社区发现中存在的问题,针对HITS算法本身只考虑Web页面间超链接而忽略Web页面内容信息,对链接不加区分,对所有的链接赋予相等权重,结果常常把与主题无关的页面赋予较高的权重,导致了社区结果网页出现了主题漂移现象。本文提出了基于链接价值度和页面语义主题相似度的改进HITS算法,该算法将链接权威度和页面语义主题相似度这两个不同角度的属性融合到链接权重分配中,突出了链接的差异性。从而极大地减少了主题漂移现象,提高了查询的效率和质量。本文最后提出了验证算法的有效性实验方案并设计了一个Web社区发现系统,该系统利用本文提出的改进算法进行了Web社区发现。经过大量实验证明,本文提出的改进算法能够进一步提高所发现Web社区的质量,具有重要的理论和实际应用价值。
其他文献
随着计算机网络技术的不断发展,黑客攻击日益猖獗,网络安全问题日趋严峻。传统的各种静态安全防御体系,如防火墙、身份认证及数据加密技术并不足以构成完整的安全防御体系,入
数据挖掘是一门多学科交叉的研究领域,它综合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新科学技术的研
摄像机运动检测有助于实现视频语义内容的理解和分析,是基于内容的视频检索系统中的重要研究内容。本文通过对摄像机运动检测技术的研究,给出了一种基于支持向量机的摄像机运
为了提高软件测试活动的效费比,软件工程领域的研究者们提出了测试用例排序技术:通过重新编排测试用例的执行顺序以求在更短的时间内发现更多的软件错误。实践证明,使用测试
随着软件规模日益扩大,软件复杂度的增加以及程序代码量的几何级数增长,软件开发人员面临着开发周期延长,产品质量不高等一系列问题。因此,软件复用成为解决上述问题的切实可
人类基因组计划实施以来已积累了海量的生物序列数据。随着现代生物技术的快速发展,高通量检测工具日趋完善,后基因组研究的瓶颈已不再是生物序列数据的产生和获取,而是如何对现有的生物序列数据进行有效的信息挖掘和分析。只有利用新的、有效的数据挖掘和分析工具才能从海量的生物学数据中提炼出有用的生物学知识,才能弄清楚它们所蕴含的结构和功能信息,进而彻底了解它们所表达的生物学意义。模式识别技术是揭示核酸和蛋白质序
随着电信行业进行重组,电信业务系统中数据库应用将越来越广泛。如何充分利用现有软件与硬件资源获得最大的数据处理能力,将成为电信级数据库应用中的一个重要课题。   数据
随着数字多媒体技术和网络技术的不断发展,保障信息的安全变得越来越重要。信息隐藏是保护多媒体信息安全的一种新兴技术,其中视频信息隐藏技术近年来已经成为信息安全领域的
据中国残联统计,我国约有2057万听力语言障碍者。他们是需要国家和全社会关心和帮助的有特殊困难的群体。手语是听力语言障碍者使用的最重要的交际手段。一方面,如同各地区都
随着Zigbee技术的应用越来越广,其安全性日益成为关注的重点。随机性测试是研究密码算法安全性的重要技术手段,针对Zigbee协议的随机性测试,如何选择和组合,以及对现有的算法