论文部分内容阅读
当今的时代是网络信息的时代,网络上的网页数量非常的庞大,并且正在以飞快的速度增长。搜索引擎的出现可以帮助我们从网络上较为准确的获取含有相关的信息的网页,但是获得信息是比较宽泛的,有很多不是你想要的信息,也无法确认这些信息的准确性。这时候,最好的方法是从权威的网站上找相应的信息。如果能在用户使用搜索引擎查询信息时,给出相应信息的权威网页,则可以提高用户搜索的效率,改善搜索引擎的搜索质量。
本文研究了几种社会网络分析方法在Web资源挖掘上的应用。通过用户绐定的关键词,从指定的搜索引擎获取相应的搜索结果,并以这些搜索结果的URL为初始的URL集合,通过自己开发的URL网络蜘蛛向外做适当扩展,得到一个结点间主题相似度较高的权威图。对获得权威图进行Random Walks分析,点度中心性分析,凝聚子群分析,从而挖掘出其中的权威页面和权威社区。
(1)Random Walks应用于分析相邻网页结点之间的亲密度,即相互到达的概率的乘积。亲密度高,网页与网页的联系就比较紧密,而且可以通过比较相互到达概率的大小来判断网页结点之间是否存在依附关系。
(2)点度中心性分析应用于分析单个结点的权威值的大小,依据是网页被引用的次数。
(3)凝聚子群分析是挖掘出相互之间联系比较紧密的小团体,主要指标是边密度,如果几个结点之间的边的密度比较高,则它们之间的联系就比较紧密。
实验表明,结合三种分析算法,点度中心性分析算法可以较好地挖掘出时下相关主题的权威网页站点,Random Walks和凝聚子群可以较好地挖掘出时下相关主题的权威网页社区,提供给用户比较准确的信息。因此可以把这些方法以适当的方式应用于搜索引擎中。