Deep Web数据集成中的结果抽取及实体识别研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:jjfhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展和Web上信息的快速增加,人们越来越多地依赖搜索引擎来查找所需信息。目前的主流搜索引擎主要依靠爬虫爬行网页上的链接来抓取网页,因此基本上只索引了互联网上的静态页面,而Web上存在大量的在线数据库,这些数据库的信息通过提交查询实时产生,对于主流搜索引擎基本上是不可见的,如何有效利用这些Deep Web数据资源是一个值得研究的问题。在Deep Web数据集成系统中,结果的抽取与实体识别是一个重要环节。由于DeepWeb网站返回的结果页面主要通过HTML文档来展现,不同网站返回的结果页面无论在形式上或在内容上都存在着很大的差异,并且HTML着重于数据的表现而不是数据的描述,因此自动提取其中的数据并进行实体识别是一项比较困难的任务。本文在分析Deep Web网站返回页面及其数据表现形式的基础上,提出了一种基于探测查询来提取Deep Web数据的方法,并根据提取出的数据利用文本相似度进行实体识别。该方法首先选取领域高频词建立查询词库,通过统一接口提交查询词,之后利用所提交的查询词在返回页面中的位置,提取Deep Web网站结果返回页面每个数据的标签结构,并记录其各属性的位置。对于待抽取的Deep Web页面,利用这个标签结构和属性位置实现数据抽取,并将抽取出的数据保存到XML文档。之后利用向量的余弦相似度计算文本相似程度,从而确定两个实体是否匹配。实验表明,该方法具有较高的实体识别准确率。
其他文献
随着互联网和电子商务的飞速发展,互联网为用户提供越来越多的信息和服务,用户在得到便利的同时也不得不面临大量的垃圾信息和无意义数据,即所谓的信息超载问题。面对海量的网络
现代信息技术的发展为教育信息化提供了新的工具和手段。然而,在教育信息化的过程中,信息孤岛现象日益严重,各业务系统间逐步构成了一个庞大的异构环境。而且,大量信息重复出
新型可字节寻址的非易失性存储器(NVM),例如相变存储器(Phase Change Memory,PCM)在低能耗、高密度、就地更新数据等方面拥有很多的优点,但是由于NVM具有读写不对称性特点,即
大数据时代的到来,对人们的生产、生活以及工作和思维都产生着巨大的影响。在海量数据面前,如何将其转换为有价值的信息和知识,是当前一个十分重要且有意义的课题。通过对数
为了解决指令集兼容问题,以及提高程序的执行速度,研究人员开发了跨指令集虚拟机系统、动态二进制翻译系统、动态二进制优化系统以及一些模拟器系统。代码缓存管理是上述系统设
随着大规模连续语音识别的广泛应用,语音的置信度在语音识别技术中发挥了越来越重要的作用。本文对于目前的基于网格的语音识别置信度算法进行了总结和改进,并将改进后的方法
指纹图像增强是指纹识别中的关键技术之一,目前,指纹图像增强算法多采用软件或者是DSP实现。用软件实现图像增强算法存在处理速度慢、难以实现实时处理等问题;而采用DSP实现时,又
眼控鼠标是一种计算机辅助输入设备,可以帮助上肢残疾人士用双眼代替手操作计算机鼠标。在眼控鼠标中高精度的双眼定位算法需要大量计算,难以适应实时控制需要。本文针对这一
在数字控制系统、计算机辅助设计(CAD),计算机辅助测试(CAT)、人工智能(AI)以及可编程控制器等领域的许多问题都可以表示成一系列关于布尔函数的运算,这些运算有赖于布尔函数
在当今社会,图像文件增长速度惊人,如何对这些文件进行有效的分类和管理成为越来越受关注的问题,这一问题的应用背景也很广,包括阻止某些不健康的图片传输,对大量图片的自动