【摘 要】
:
随着计算机科学技术与互联网的不断发展,在我们的工作和生活中web已变得必不可少。web上信息资源呈几何级数量增长,web已经成为一个巨大的信息资源库,要想准确有效地获取一条
论文部分内容阅读
随着计算机科学技术与互联网的不断发展,在我们的工作和生活中web已变得必不可少。web上信息资源呈几何级数量增长,web已经成为一个巨大的信息资源库,要想准确有效地获取一条想要的信息变得越来越难,如何从web信息资源库中抽取出有用的信息已经成为众多科研工作者研究的课题,web信息抽取技术应运而生。本文在研究现有的web信息抽取技术基础上,结合标准的XML技术,提出了基于XML的web信息抽取技术。本文主要工作有以下几点:1.在研究前人技术成果基础之上,对现有信息抽取技术加以整合和扩展,设计了基于XML的Web信息抽取系统框架模型。2.研究了信息抽取关键技术,阐述了信息抽取工作流程,设计了抽取规则和抽取配置文件的生成方法。最终,实现了Web信息抽取系统的主要功能。3.本文对抽取结果进行分类,采用了朴素贝叶斯理论,设计了一个中文Web文本分类系统模型,该模型隶属于整个信息抽取系统框架模型。4.系统抽取结果是XML数据文档类型,在分析当前数据库存储技术基础上,探讨了将抽取结果经分类后存储到数据库的不同方法。本文设计的基于XML的Web信息抽取系统能够较好的解决web信息抽取问题,实验结果表明,该系统具有较高的召回率和准确率。
其他文献
机器学习、信号、图像处理、计算视觉中会出现高维数据,高维数据不仅增加算法的计算时间和内存需求,同时也因“维数灾难”降低算法的有效性,高维数据中常会潜藏着一个低维结
随着网络的飞速发展以及社交媒体的广泛应用,使得人与人之间的联系尤为密切。这种错综复杂的关系组成一个庞大的社交网络,因此吸引了众多学者致力于复杂网络的研究,从复杂网
本文针对纸质出版物版权认证和保护的需求,对半色调数字水印算法及其在实际应用过程中抵抗硬拷贝攻击的技术进行了研究,提出了行之有效的抵抗硬拷贝攻击的数字水印算法。本文
作为企事业单位政务工作中非常重要的一部分,公文处理耗时耗力,手工处理方式在时效性和正确性方面有着很大的弊端。信息化技术在公文处理方面的应用可以使其工作效率和结果准
由于来自于网络的信息具备信息量大、信息来源复杂等特点,人们在查找自己需要的信息时,已经习惯使用搜索引擎作为信息筛选的工具。传统的主要查询模式有目录查询、关键词查询
追捕逃跑问题是研究多智能体协调与合作的理想平台,在多机器人系统上实现追捕过程具有较大的挑战性,这项研究涉及到动态环境下的实时知识处理、无线通信、多机器人控制与协作
随着微机电系统,无线通信和低功耗嵌入式技术的发展,无线传感器网络在功耗、体积、无线通信等方面得到了很大的发展,使得其具有广泛的应用空间。定位技术作为无线传感器网络
近年来,随着微处理器朝着多核心方向的发展,多核处理器越来越多地应用到了各个不同的领域中。当今多核技术的发展带来了高性能计算发展的新趋势。因此,将多核技术应用到全方
眼部区域瞳孔定位技术,一直是计算机视觉和模式识别领域重要的研究课题之一,其在视野检测、视线追踪、虚拟现实、生物特征识别、智能交通中有着广泛的应用。随着科技的不断进
随着网络技术的飞速发展,数字媒体的共享传递变得十分便捷,随之而来的版权保护等安全问题日益凸显。二维CAD工程图形作为计算机辅助设计的主要载体,在工业设计领域有着广泛应