基于视觉语义块的网页正文提取算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:fengpose
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,以及网络信息的爆炸性增长,网页的数量也开始了急剧增加,人们也越来越习惯于借助搜索引擎这一工具来从浩如烟海的互联网上获取自己所需要的信息。然而,通常情况下一张网页并不仅仅包含了用户所需的正文信息,它还通常还有其他各种非正文信息,如导航栏,广告链接,推荐链接等,这类噪音信息的存在,给搜索引擎的效率和准确率带来了极大地干扰,因此,网页正文提取技术也就成为了搜索引擎领域的一个重大课题。本文提出了一种基于视觉语义块的网页正文提取算法,该算法摆脱了现有主流正文提取算法对于网页文本的依赖性,而是从用户视觉角度出发,将网页根据语义特征分割为一个个语义块,然后寻找其中面积最大的语义块,再进而寻找与之结构类似的语义块,通过不断循环查找,最后提取出网页的正文信息。一方面,由于该算法并不依赖于网页文本分布密度,在一些噪音信息同样含有大量文本的网页中也能取得很好的效果,而且还能将正文信息中包含的图片、视频等也一并提取出来,因而提高了算法的健壮性;另一方面,该算法在处理DOM树的过程中,并不需要遍历整棵DOM树来查找目标信息,而只需要对DOM树的叶子结点进行处理,从而节省了查找时间,大大提高了正文提取的效率。本文通过对15个门户网站的300个网页进行了实验分析,其中包含了新闻、博客、论坛、BBS等各类主题性网页。实验结果表明,本文的基于视觉语义块的网页正文提取算法基本可以达到94%以上的提取准确率和召回率。而且由于算法角度的不同,该算法还可以与其他传统基于网页文本的算法相结合,得到更好的效果。
其他文献
美国参议院已通过特朗普提出的税改法案,虽然法案细节尚未敲定,但此次减税的幅度已成为市场焦点。减税方案涉及多方面,包括将企业所得税由35%削减至20%:大幅降低海外美国企业利润汇
<正>金正大(002470):全资子公司香港金正大设立的荷兰公司拟以610万欧元收购EKOMPANY的资产。EKOMPANY是欧洲产能最大的包膜缓控释肥企业,占欧洲包膜缓控释肥企业产能的45%。
今年前两个月,市场出现较大幅度的调整,受此影响,权益类产品业绩普遍表现欠佳。但进入3月份以后,随着诸多利好因素逐步兑现,市场信心也获得提振,股指持续反弹。不过,从最新公布的基金一季报来看,公募基金对后市的看法发生了分歧。  谨慎的基金经理表示,供给侧改革背景下,盈利改善的周期性行业值得关注,但在整体上涨之后,降低仓位防范风险成为首要任务;乐观者则认为近期资金明显受到经济回暖的影响,开启了“全速前进
总结过去5个交易日,恒指整体维持上升趋势,整体大市成交维持超过1000亿元。美国加息符合市场预期加息0.25厘,并再次指出2018年预计加息3次。虽然息率进一步上升,但市场早已预期并
中华绒螯蟹(Eriocheir sinensis)的苗种质量对养殖成功与否及产量高低具有十分重要的作用;形态参数是遗传和外界环境共同作用的结果,也是判定中华绒螯蟹品质的重要指标之一。
本周的市场持续在低位缩量震荡。特别是自4月20日出现的一根中大阴线来看,各大指数围绕着60日均线展开了一个持续的缩量震荡,连续6个交易日了,天天盘中窄幅震荡,同时量能也出现了较大的萎缩形态。  预期这样的横盘震荡将会在短期内被打破,市场将会在五一节后出现一个短期的方向选择。到底是上还是下?因为此处的持续弱势震荡,无法相对准确的判断到底运行的是一个上升周期还是下降周期,所以,笔者只能略倾向性的说,短
本研究结合已有的多氯代二噁英/呋喃(PCDD/Fs)分析方法,建立了多溴代二噁英/呋喃(PBDD/Fs)和PCDD/Fs的同位素稀释高分辨气相色谱-质谱联用(HRGC-HRMS)分析方法。样品抽提液经
<正>泸州老窖(002518):过去老窖旗下产品种类繁杂,价格体系紊乱,使得泸州老窖高端产品形象受损。新领导层上任伊始,推出"砍掉众多开发产品,主抓五大核心品系,力推大单品"的规