【摘 要】
:
在信息化时代,获得信息的途径越来越多。互联网作为信息的载体,在传播效率和信息容量方面都有无可替代的地位。但是随着信息量的增加,用户在互联网上获得真正所需信息的变得越来
论文部分内容阅读
在信息化时代,获得信息的途径越来越多。互联网作为信息的载体,在传播效率和信息容量方面都有无可替代的地位。但是随着信息量的增加,用户在互联网上获得真正所需信息的变得越来越困难。搜索引擎的出现改善了目前的状况,但是用户想要获得专业化的信息仍然不够方便。垂直搜索引擎的出现解决了这一问题。
在垂直搜索引擎中,结构化信息抽取技术是垂直搜索引擎的关键技术之一。基于包装器的信息抽取是信息抽取技术中主要的抽取技术。在包装器生成过程中,需要对网页分析并生成针对该网页的抽取规则。在分析网页时多余的“非主题”信息参与生成抽取规则不仅会影响包装器抽取的效率,而且影响结果的准确性。
本文提出了对原有包装器生成模式的改进。在对MDR算法修改的基础上,直接提取出主题信息,只将主题信息参与构成抽取规则。需要提取主题信息的网页要满足数据密集这个前提,因为在提取主题信息过程中,要把主题信息区域中各条信息的树结构析取出来。通过对整个网页DOM树上同层次的各个节点的比较,将具有相似节点特征的联合节点进行划分,分成若干相似的数据区域,构成抽取各条信息的简单树结构。然后按照包装器抽取规则的提取方法对该树结构提取结构化信息抽取规则。该方法有效地去除了“非主题”信息,只对每条数据信息生成抽取规则。实验结果表明该方法在一定程度上提高了包装器生成的效率和抽取的准确率的召回率。
其他文献
生产与运作管理的核心是车间作业调度问题能否高效地获得优化解,因此,车间调度策略一直是制造业研究的重点之一。有效的调度方法与优化技术的研究和应用,对于制造企业提高生
当前基于文本的检索技术和基于内容的检索技术广泛应用于多媒体资源检索领域。然而,基于文本的检索技术采用手工标注,自动化程度低,标注质量因人而异,不但费时费力,而且难以
众所周知,使用图论来构建网络拓扑结构是建模常见的形式,而且已经被越来越多的学者应用到研究之中。泛圈性和路径嵌入作为衡量网络拓扑结构容错性的一项重要指标,变得越来越
电力变压器是电力系统的枢纽,为保证电力系统安全、经济、稳定运行,电力设备的故障诊断越来越重要。电力变压器作为主要的电力设备贯穿于整个运行过程,起着至关重要的作用。本文根据油浸式电力变压器的特点及故障诊断的原理,采用面向对象技术开发专家系统来解决变压器故障的智能诊断问题。本文介绍了基于关系数据库记录的知识表示形式和基于关系数据库记录的推理机制,设计并实现了变压器故障诊断的知识库,给出了该数据库的表图
本文通过研究现有的Web挖掘中聚类和分类技术的基础上,将一种基于蚁群优化的分类算法应用于Web内容挖掘的页面分类中:并引入一种基于改进的蚁群算法应用于Web使用挖掘的用户事
入侵检测是近几年发展起来的新型网络安全策略,它实现了网络系统安全的动态检测和监控,其智能性逐渐成为研究的热点。本文在介绍入侵检测系统模型和传统检测方法的同时,指出
随着经济全球化的不断发展,企业之间的竞争变得越来越激烈。企业之间的竞争最终归结为产品质量的竞争。本文针对新产品试制和小批量生产存在数据量不足而影响产品质量分析等问题,结合安徽省科技攻关年度重点项目“智能质量诊断控制技术在集成制造系统中的应用基础研究”(项目编号:07021075)以卡尔曼预测理论为基础,尝试使用卡尔曼推理功能来解决小批量生产过程中的用于建模数据不足的问题。本文在分析研究现有小批量及
随着互联网特别是移动互联网的发展,社交网络在人们的日常生活中扮演了非常重要的角色。在过去的若干年里,活跃用户、优质内容的创造者们和传播者们,为Facebook、Twitter、Re
无线传感器网络(Wireless Sensor Networks)由分布在一定区域内的大量传感器节点组成,节点间通过无线通信形成一个自组织的网络,其主要功能是由节点采集物理信息,进行一定处理后
随着计算机图形硬件的快速发展,大型复杂图形应用程序在军事、医疗、航天、制造业和科学研究等领域中的应用日趋广泛。这些应用程序通常具备多个显示通道,提供更高分辨率的画