论文部分内容阅读
Web页面中的主要信息通常隐藏在大量无关的特征中,如无关紧要的图片和不相关的连接,使用户不能迅速获取主题信息,限制了Web的可用性.论文提出一种网页主题内容提取的方法及相应算法,并通过人工判定的方法对来自120个网站的5 000个网页进行了测试和评估.实验结果表明该方法切实可行,可达到91.35%的准确率.