基于Web的实体信息提取和搜索研究

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:huntout
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,互联网中的数据呈爆炸式的增长,因此高效的信息检索技术对于帮助用户获取有用的信息具有重要的意义。目前搜索引擎技术已经取得了很大的进步,能够基本满足用户对信息检索的需求。但是目前搜索引擎技术大部分是基于页面层的搜索,该技术存在固有的缺陷,查询结果是以网页链接的形式返回给用户,用户需要自己寻找信息所在的网页。但是在很多情况下,用户搜索的目标是实体信息,如论文、地名、商品信息等。本文针对实体层的搜索技术进行了研究,在已有的研究成果的基础上,提出了一些新的解决方法。本文的主要工作包括:1、提出了一种基于链接模版树的垂直爬虫技术,通过对目标网站链接进行分析,使用链接模版来归纳需要下载的链接,构建正则链接树来导航爬虫的下载路径,解决了网页中存在的隧道问题。实验中,在开源爬虫Nutch的基础上,以插件的形式实现本文提出的爬虫算法,经过比较,本文提出的方法能够取得较好的召回率和效率。2、提出了一种基于DOM树和XSL的实体信息抽取方法。首先对下载的Web页面进行预处理,通过训练数据提取出网页中实体信息所在的路径规则,然后通过XSL将Web页面中的实体信息转换为XML文件。也对页面中出现多实体提取的情况,提出了相应的解决方案。在单实体提取方法的基础上,先提取页面中的最大数据子树,然后在最大数据子树中提取多实体规则,来实现多实体信息的提取。实验结果表明,本文提出的实体信息提取方法能够有效地提取实体信息。3、提出了适用于实体的索引结构,并对Lucene的评分算法进行了改进。通过对开源全文索引开发包Lucene架构和代码的分析,在文档索引结构的基础上,提出了适用于实体信息的索引结构。对于搜索结果的排序方面,本文对Lucene评分机制进行了改进:计算出实体数据中词语的IDF值,建立实体数据的IDF值数据库;查询过程中,通过词语的IDF值来设定查询语句中不同词语的重要程度,再计算每个实体获得的评分,最后排序输出。通过实验表明,该方法能够获得更好的返回结果。
其他文献
当前计算机木马已成为传播最广泛影响最深远的病毒种类,已成为不法分子获取经济利益的广泛手段之一。然而针对木马检测的技术手段仍不完善,当前主流杀毒软件都已具备较强的木
行业应用是面向政府机构、企事业单位等行业客户提供涉及日常生产经营及管理活动等的移动信息化应用。行业网关是行业应用的主要承载平台,它通过与其他相关网元的密切协作,实
随着社会经济和交通技术的迅猛的发展,在经济发展的带动下,城市交通面临着巨大的压力,人们极大关注这个问题。如果不处理好这个问题,将会影响人们的出行以及城市的交通。因此
互联网和视频的结合产生了网络视频,网络视频以其娱乐性和交互性等优点吸引了更多的人在线收看视频。C/S架构存在单点系统瓶颈,主要体现在服务器的计算能力,存储以及带宽。IP
该系统主要是为了在保留现有远程教育中视频点播技术的条件下,给现有远程教育系统增加视频直播技术和云存储技术,同时支持桌面和移动端实现,使教学过程更加便利。本系统在远
随着计算机技术与非线性滤波理论的不断发展,人眼检测与眼动跟踪已经成为计算机视觉与自动化领域的前沿热点之一。本文研究并分析了现阶段人眼检测与眼动跟踪方法,并在此基础
目前,行人群体行为分析与识别的研究主要集中于多目标检测与跟踪、路径分析(Trajectories Analysis,简称TA)、行人区域密集性分析(Dense Regions Analysis of Pedestrians,简
近些年来,随着嵌入式技术的快速发展,嵌入式软件开发的复杂度越来越高,因此调试在嵌入式软件开发中的作用也越来越大,一款优秀的调试工具可以极大的提高嵌入式软件的开发效率
RFID由于非接触式自动识别、多个标签同时读取、抗干扰性强等多个特点,已经被广泛应用于商品物流管理、物品信息追溯等领域,在物联网的感知层担任着重要角色。由于所需要标识
随着无线通信技术的飞速发展,无线定位技术已经在各个领域扮演了重要角色。近几年,移动互联网催生出了一大批基于位置的服务,使无线定位成为了一个研究热点。为了提高无线定