基于互信息度量的Web信息抽取

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:radcuijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何从纷繁复杂的网页中抽取有价值的信息是信息检索和Web数据挖掘中的重要问题。利用网页集信息所呈现的分布特点,提出基于互信息度量的Web信息抽取方法,它能够自动识别噪声信息并保留关键信息。该方法将网页解析成DOM树,计算叶子节点的互信息值;然后按DOM树结构对叶子节点进行分块聚集,向上递归求得标签<body>的互信息值,并以此作为阈值区分噪声与非噪声。最后与多个国内知名网站上的实验及对比结果证明了该方法的有效性。
其他文献
必须在阅读教学中加强语言训练,使学生获得语文素养。选择语言训练点应体现课文表达特点,符合课标学段要求和单元训练重点,切合学生实际水平。设计语言训练时应遵循"感悟内容
目的分析目前上海市儿童孤独症(ASD)康复机构的现状,为政府相关部门政策制定提供实证依据。方法采用定量与定性相结合的方法对上海市残疾人康复工作办公室46家约定康复机构和
中国古代,交通及通讯的不便决定了人们的安土重迁,但一些不得已的理由却使得一些人行走在路上,于是,对归途的向往就成了一代代游子不变的吟唱。这样,中国古典诗词中便多了许
本文主要介绍了城市轨道车辆用电缆敷设应该注意到的问题与电磁兼容设计时应该遵循的原则。
2015年全球海上风电实现快速发展,产能创纪录,新增达4吉瓦,总产能达11吉瓦。中投顾问最新发布的《2016-2020年中国海上风力发电行业投资分析及前景预测报告》指出,2015年,我国海上
报纸
文章结合深圳奥意建筑工程设计有限公司位于三个不同区域的典型项目,介绍了奥意建筑近年来积极探索超高层建筑设计的实践经验和发展模式。从新农村建设到城市门户,从独立原创到
<正>案情简介李某于2012年2月4日申请仲裁,要求某食品公司支付应订未订书面劳动合同的二倍工资,缴纳社会保险费,支付加班工资等。某食品公司辩称,李某系公司经营所在地的某工
犬瘟热(Canine distemper)、犬细小病毒病(Canine parvovirus enteritis)和狂犬病(Rabies)是三种主要的在全球范围内传播的犬科、猫科动物疫病。目前针对三种疫病唯一有效的
<正>2010年8月15日,由中国抗日战争史学会、中国人民抗日战争纪念馆共同主办、北京中国抗日战争史研究会协办的"纪念中国人民抗日战争胜利65周年学术研讨会"在北京召开。开幕