基于数据富集区域的Web内容自动抽取

来源 :计算机工程 | 被引量 : 0次 | 上传用户:zhongnanhai10mg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。
其他文献
腐败利益观是腐败主体对于利益的整体认识,是腐败行为产生和蔓延的重要理论基础,其核心思想是个人利益与国家和集体利益的"错位",重要内容是将市场经济种种原则"越位",并凸现
公司治理是内部审计赖以发挥作用的环境,有效的内部审计可以促进公司治理结构的完善,而不同的公司治理模式又决定了内部审计机构的不同设置。
这部短篇名不见经传,架构基本上是线性的,按时间顺序排列,反映的却是极严肃的主题:一切都毫无意义.作品可分三部分:第一段是第一部分;文章最后一段是最后一部分;中间大篇的对
在当前的知识经济时代,企业间的竞争是人才的竞争,如何有效利用和保留企业的知识生产力成为企业日益关注的问题.本文介绍了知识型员工的特点、管理策略和制衡机制,探讨了对知
当前我国邮政储蓄过热.为了维护正常的金融秩序,应改革邮政储蓄管理体制,加强银监局对邮政储蓄的监管力度,促进邮政储蓄健康合规经营.