基于社会网络分析方法的web资源挖掘研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:sun_sun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今的时代是网络信息的时代,网络上的网页数量非常的庞大,并且正在以飞快的速度增长。搜索引擎的出现可以帮助我们从网络上较为准确的获取含有相关的信息的网页,但是获得信息是比较宽泛的,有很多不是你想要的信息,也无法确认这些信息的准确性。这时候,最好的方法是从权威的网站上找相应的信息。如果能在用户使用搜索引擎查询信息时,给出相应信息的权威网页,则可以提高用户搜索的效率,改善搜索引擎的搜索质量。 本文研究了几种社会网络分析方法在Web资源挖掘上的应用。通过用户绐定的关键词,从指定的搜索引擎获取相应的搜索结果,并以这些搜索结果的URL为初始的URL集合,通过自己开发的URL网络蜘蛛向外做适当扩展,得到一个结点间主题相似度较高的权威图。对获得权威图进行Random Walks分析,点度中心性分析,凝聚子群分析,从而挖掘出其中的权威页面和权威社区。 (1)Random Walks应用于分析相邻网页结点之间的亲密度,即相互到达的概率的乘积。亲密度高,网页与网页的联系就比较紧密,而且可以通过比较相互到达概率的大小来判断网页结点之间是否存在依附关系。 (2)点度中心性分析应用于分析单个结点的权威值的大小,依据是网页被引用的次数。 (3)凝聚子群分析是挖掘出相互之间联系比较紧密的小团体,主要指标是边密度,如果几个结点之间的边的密度比较高,则它们之间的联系就比较紧密。 实验表明,结合三种分析算法,点度中心性分析算法可以较好地挖掘出时下相关主题的权威网页站点,Random Walks和凝聚子群可以较好地挖掘出时下相关主题的权威网页社区,提供给用户比较准确的信息。因此可以把这些方法以适当的方式应用于搜索引擎中。
其他文献
随着Internet技术的迅速发展,利用网络平台解决城市中突发事件时多个部门协同工作的城市应急联动系统受到政府部门的极大重视,这对提高城市对突发、应急和灾难性事件的快速反
人脸表情识别技术是涉及生物特征识别、模式识别、图像处理、机器视觉、运动跟踪、生理学、心理学等研究领域的一个极富挑战性的交叉课题,是近年来模式识别与人工智能领域的
课程之间拓扑图的自动构建可以为高等学校教学计划自动编排、在线图书销售与推荐系统等提供模型参考。课程之间拓扑图自动构建技术的核心任务是如何依据课程的语义建立课程之
数据挖掘是从大量数据中挖掘出未知的、有价值的模式或规律的复杂过程。聚类分析是数据挖掘中的一个重要研究领域,其目的是按照事物间的相似性对给定事物进行区别和分类,并采
Java语言由于其独特的“一次编译,随处运行”的特点已经成为目前因特网上非常流行的编程语言。平台无关、面向对象、多线程、可靠安全这些特性使得Java在互联网领域得到广泛
船舶试验数据服务平台的研发是由国防科工委为服务于全国船舶行业,旨在共享数据信息和船舶技术以便于技术咨询和设计研究而提出的课题。按照国家“十一五”规划提出的科学发
由于Web海量信息处于不断的变化中,通用搜索引擎已经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务。通用搜索引擎试图索引全部Web信息并服务于所有领域的
随着信息技术的迅猛发展,P2P (Peer-to-Peer)技术也逐渐成为业界研究与关注的焦点。在P2P网络中,每一个节点都同时扮演着客户端和服务器端的角色,这使得网络上的沟通变得更容
概念格是一种有效的知识发现与数据挖掘工具,由形式背景生成概念格的过程,实质上是一种概念聚类过程,反映了概念之间的特化和泛化关系。当形式背景中属性的概念层次发生变化
烟草害虫快速检测与识别是烟草病虫害防治的基础。传统的烟草病虫害识别主要是专家或烟草种植者通过肉眼观察害虫的外部特征并与模式标本对照来识别的,这种识别方法费时费力