互联网半结构化信息抽取研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:aibertini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
 本论文以提高半结构化信息抽取方法针对信息数量和信息类型的适应能力为目标,针对上述问题,分别对半结构化文本信息抽取和网页信息抽取展开研究。具体完成的工作可以概括为以下几点: 研究针对半结构化文本信息抽取存在的问题,提出双层级联信息抽取思想。并以此为基础,提出两种信息抽取方法。本文使用具有复杂上下文关系并包含噪声信息的求职简历对这两种方法进行实验。研究采用两种双层级联信息抽取方法,合作开发了简历自动推荐系统-Polaris。。以该系统为平台的测试结果表明,使用两种双层级联信息抽取方法均可以有效实现简历等半结构化文本的信息抽取。研究针对网页信息抽取存在的问题,利用网页结构分析,对基于包装器归纳的网页信息抽取方法进行改进,并提出一种将结构分析与归纳学习相结合的信息抽取方法。以综合结构分析与归纳学习的网页信息抽取方法为技术核心,合作开发了互联网竞争情报智能监测系统-CIS.net。 本文提出基于分类的双层级联信息抽取方法,用于半结构化文本的信息抽取。提出综合HMM与分类的双层级联信息抽取方法,用于结构化文本的信息抽取。提出综合结构分析与归纳学习的信息抽取方法,用于网页信息抽取。该方法利用网页结构分析获得的全局信息生成包装器,有效解决了基于包装器归纳的网页信息抽取方法无法应用网页全局信息的问题。
其他文献
  在Web环境下,中文信息处理对象由少量、规范的例句扩大到大规模、非规范的文本;中文信息处理范围由单个典型的领域扩大到多个开放的领域,这样,词典对分词精度的影响更加突出,
锅炉管壁超温现象是当前火力发电厂普遍存在的问题,被列为电力生产严防的二十五项重大事故之一,它的存在严重影响着锅炉的安全性、可靠性及企业经济效益。通过分析,产生锅炉管壁
与IPv4 相比,IPv6 作为下一代互联网的基础协议,具有很多优势,首先,IPv6解决了IP 地址数量短缺的问题;其次,IPv6 对IPv4 协议中诸多不完善之处进行了较大的改进,其中最为显著
  随着互联网的普及,如何在电子虚拟世界中吸引新的客户,并留住已有客户成为许多电子商务系统的首要任务。推荐系统向用户提供商品信息和建议,模拟商店销售人员向客户推荐商品
随着互联网技术和分布式计算技术的迅猛发展,被业界称为计算机IT技术第三次革命的Web Services技术已逐步显露出巨大商机,软件业正面临着一次最大规模的“洗牌”。Web Servic
从卫星传回的遥感图像上获取卫星遥感器的关键评价指标MTF的变化情况,是目前国际上一个非常活跃的研究课题,对于在轨运行的卫星遥感器的监测和寿命预估,以及后继卫星的研制,有着非常重要的意义。目前,国内在这方面的研究尚处在起步阶段。因此,在本文中将着重介绍如何从卫星遥感图像获取在轨卫星MTF的基本方法及在MTF测评研究中的一些创新应用,其中如何从卫星遥感图像获取在轨卫星MTF的基本方法主要是在借鉴美国N
作为数字产品知识产权保护的一种有效手段,数字水印技术得到了广泛关注,并已成为国际学术界的一个研究热点。本文通过对数字水印技术尤其是认证型水印技术的系统研究,给出了
实时数据库是数据和事务都有定时性限制的一类特殊数据库,主要针对各种时间关键型应用。过程控制是实时数据库一个非常重要的应用场合,它主要处理生产装置、生产过程的控制和
基于Internet的在线视频业务的开发是近年来非常热门的研究内容。在有限带宽的条件下如何实现音频、视频传输的流媒体技术日趋成熟,提供在线VOD服务亦成为某些商业机构的营利
随着互联网技术的快速发展与普及,人类社会已由信息时代进入了大数据时代,传统的计算模式已经不能满足时代的要求,一种新兴的商业计算模型——云计算应运而生,云计算为计算机