【摘 要】
:
互联网以不同的格式为各种用户提供了广泛的有用信息,这就使得从不同的分散WEB信息源一致地抽取信息变得非常困难,因此产生了许多抽取各种WEB信息并存储到关系数据库的系统,
论文部分内容阅读
互联网以不同的格式为各种用户提供了广泛的有用信息,这就使得从不同的分散WEB信息源一致地抽取信息变得非常困难,因此产生了许多抽取各种WEB信息并存储到关系数据库的系统,它们具有不同程度的灵活性和鲁棒性。本文针对特定的事件信息抽取任务,提出了一个无监督的互联网事件信息抽取框架,从互联网众多的事件源网站中抽取各种热门事件。该框架可达到现实事件的较高覆盖率和准确率,具有广泛的通用性,可以应对大量的事件信息提供方。本文首先分析介绍了已有的WEB信息抽取系统,并从不同的角度比较了已有系统的特性,然后针对特定的事件信息抽取任务,根据表格和详情页面两种不同的表现形式,提出了自己的方法:表格页面采用基于平行DOM结构的抽取方法,详情页面采用基于公共分隔字符提取模式的抽取方法,同时针对这两种方法的不足进行了讨论。本文的实验数据来自15个知名的事件发布网站,使用信息抽取系统常用的查全率和查准率做为评测指标。实验中将本文方法的抽取结果与常用的包装器生成算法进行比较,证明了本文方法的有效性以及在详情页面中的抽取质量优于包装器算法,并在绝大多数网站下都取得了不错的效果。
其他文献
在网络和数据库飞速发展的今天,数据的查找愈来愈频繁,数据量亦愈来愈大,采用一种有效的结构来处理这些数据也就显得非常的迫切。在数据表示方面,树型结构因具有分支性和层次
ESB平台己被广泛应用于企业信息化集成中,现有的监控系统却未能同步发展,不能同时监控服务层、服务器层和硬件层,不能实现监控规则动态部署机制,且不能对运行异常场景进行实
随着互联网的飞速发展以及各类新型互联网应用的普及,企业与研究机构面临的数据规模已经高速膨胀到了TB级乃至PB级。近些年来,伴随着内存价格的下降,为了进一步提升大数据处
随着Internet技术的不断发展和应用的日渐广泛,传统的客户机/服务器数据存储服务模式已经难以满足用户高性能、高可靠、高可扩展性的海量数据存储要求。在应用需求的推动之下
近些年,随着市场竞争日益激烈,越来越多的中小型物流企业参与到共同配送联盟中,以提高自己应对外部环境的竞争能力。要建立一个高效的共同配送联盟,需要解决许多问题,其中联
随着网络技术和多媒体技术的飞速发展,多媒体信息的交流变得越来越方便、快捷,人们能够不受时间和空间的限制传送和接收大量的媒体信息,但与此同时,信息的安全问题也面临着新
随着互联网普及和计算机技术的发展,作为下一代分布式计算平台,网格计算越来越得到人们的重视。网格计算中的一个重要问题——工作流调度就是一个很有应用前景的技术。工作流调
可变处理时间的无等待流水调度问题是一类重要的带约束组合优化问题,广泛存在于冶金、塑料、纺织业、化工和半导体等行业。流水调度问题中的可变处理时间通常表现为学习恶化
在中国,癫痫已成为神经科仅次于头痛的第二大常见病,它是一种反复发作的神经性疾病。在所有患者中,约有30%的是抗药性癫痫患者。对于这类患者,采用的治疗手段是通过外科手术
信息化的高速发展是当今时代的特点,但信息化的差异给企业间甚至是企业内部的数据共享带来了意想不到的麻烦——数据异构。异构数据的集成问题已成为计算机技术研究的一个重