基于文档对象模型与行块分布算法的网页信息抽取

来源 :情报理论与实践 | 被引量 : 0次 | 上传用户:cenkk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]网页所表达的主要信息通常隐藏在大量无关的结构和内容中,使用户不能迅速获取主题内容,限制了网页资源的可用性,使用信息抽取技术解决了这一问题。[方法]基于文档对象模型(DOM)的信息抽取技术能够简单准确地从网页中提取所需内容,但依靠网页本身结构;基于行块分布算法的技术摆脱网页结构的限制,克服限定数据源的缺点,但需要人工干预,文章结合DOM技术和行块分布算法以及正则表达式,实现网页信息采集与信息抽取。[结论]能够自动准确提取网页信息。[局限]对英文以及结构复杂的网页抽取效果不是很理想,抽取内容仅限于文字
其他文献
江苏省建湖县水产养殖场于1990年开始在亲鱼池套养鳜鱼和乌鳢鱼种。在这几年的套养实践中,有以下几点体会: 一、亲鱼池有丰富的饵料 亲鱼池经常冲注新水,由此将天然水体中的
如何切实加强学校的思想政治工作。开创中学德育新局面。这是当前大家极为关心、积性探索的问题。我们正是带着这个问题。参加了无锡市去年十二月初召开的“中学班 How to
你有没有观察过一片叶子,对它能精确地分成两半惊奇吗?你有没有注意到各种花的花瓣形成完美星形?你有没有注意到某些贝壳和松果螺旋形的生长模式?面对奇妙纷呈的自然界,我们
科学合理的信息资源配置对于创新型湖南建设具有十分重要的保障作用。由于历史和现实的原因,信息资源配置在湖南呈现出配置分布不均、配置效益不高、保障机制不健全等问题,因
2009,奥斯卡迎来第81届盛典,电影《贫民窟的百万富翁》囊括最佳影片、最佳导演、最佳改编剧本、最佳剪辑等八项大奖,成为最大赢家。事实上,从2008年的多伦多电影节开始,在各个电
仁者乐山。这是一座多么雄伟的为官做人的道德丰碑。你看那座座高山,坚硬的磐石是它不屈的脊梁,连绵的山峦是它宽厚的胸膛,深埋的矿藏是它奉献的品格,巍峨的峰岭是它崇高的形
指出了近几年牵引齿轮磨损对牵引电动机(下面简称电机)振动的影响,从实践和理论两方面阐明了牵引齿轮磨损与电机连线和引出线断、压指弹簧断裂、刷架圈松动、抱轴箱紧固螺栓折断
中国文人和茶,有不解之缘。通过茶事,感悟生活的宁静,感悟心灵的自由。在茶香缭绕中,明心见性,创造一角空灵虚静的心境。与茶友对品,体悟到君子之交的冰清玉洁、明月在怀。
文章首先梳理了国内外对语义角色标注技术研究的相关文献,并综述了支持语义角色标注的主要语料资源,从句法分析、特征向量选择以及机器学习3个角度介绍了目前语义角色标注的
中影集团公司成立十周年之际,中国电影艺术研究中心联合中国电影集团召开“中影集团创作格局及产业发展研讨会”,作为中国电影艺术研究中心关于国产电影论坛系列活动之一的该次