Web信息搜集相关论文
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性.但由于它对每条出链赋予相同的权值,忽略了网页与主......
URL的存储检索效率是构建大规模分布式信息搜集系统的关键,其决定了系统搜集Web文档的效率.对URL存储检索性能做定量分析,分别得出......
Shark—search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相......