论文部分内容阅读
Blog作为一种新的网络传播方式,迅速兴起和发展,已经越来越受到用户的关注。因此,迫切需要找到一种自动将Blog网页区别于其它web页面的方法,以便针对Blog语料进行内容抽取、对Blog社区进行规律性研究和发现等。本文针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页,初步的实验结果表明,达到了较高的识别正确率。