Web中文信息抽取技术研究及其在招聘信息系统中的应用

来源 :西北大学 | 被引量 : 0次 | 上传用户：aa284636706

【摘要】

：

WWW的飞速发展使其已成为全球信息传播与共享的重要平台，并成为人们获取信息的主要来源。但是随着信息量的激增，要想从WWW上获取一条有用信息的难度却越来越大。人们期望着一种

【作者】

：

孟伟涛

【机构】

：

西北大学

【出处】

：

西北大学

【发表日期】

：

2007年期

【关键词】

：

Web信息抽取自然语言理解 Spider 命名实体识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

WWW的飞速发展使其已成为全球信息传播与共享的重要平台，并成为人们获取信息的主要来源。但是随着信息量的激增，要想从WWW上获取一条有用信息的难度却越来越大。人们期望着一种理想情况的出现：像查询数据库一样地查询WWW上的信息。Web信息抽取技术正是随着这样的需求而出现并不断丰富的，而各种抽取技术的侧重点不同导致了抽取系统在精确度、可扩展性、适应性方面不能都令人满意。本课题较好地解决了基于自然语言理解的方式在处理半结构化文本时的不足，改进了现有的语言模型，并在此基础上实现了一个Web招聘信息抽取系统——JobHunter。JobHunter的实现如下：首先，构建Spider，“爬行”WWW上的若干招聘网站并抓取网页；然后，由基于自然语言理解的信息抽取模块将Spider抓取的网页抽取成结构化信息并存入数据库；最后，将用户所关注的招聘信息清楚地显示在界面上。由于JobHunter基于自然语言理解方式进行信息抽取，可以从任何类型的网站抽取招聘信息，所以有着良好的可扩展性和适应性。经测试，本系统抽取准确率和召回率都达到70％以上。

其他文献

基于场景和运动特征分类的视频运动事件检测方法

随着网络的快速发展,多媒体文件的数目以指数形式增长。视频本身就是一种多媒体文件,包括图像、文本、语音等多种媒体数据,如何快速地处理视频数据、更好地分析和理解视频中

学位

机器学习场景筛选事件检测距离度量

能量受限的Ad hoc网络路由协议的仿真与研究

移动Ad hoc网络是由一组带有无线通信收发装置的移动节点组成的一个临时、多跳的网络。不需要中央控制设施。网络中的节点既是路由器，又是主机，作为对等实体连接在一起。非相邻

学位

移动自组织网络能量模型路由协议服务质量网络仿真

基于动态再划分的分布式图系统负载优化机制研究

随着计算机及网络技术的飞速发展,越来越多的应用领域需要对大规模图数据进行处理。传统的单机处理模式不能有效地适应大规模图数据计算,因此出现了许多分布式环境下的图处理

学位

分布式图处理运行时负载均衡动态再划分顶点迁移

基于信任网络的评分预测算法研究

随着互联网技术的迅猛发展,信息过载问题越来越突出地呈现在人们面前。推荐系统作为一种重要的信息过滤手段,能够把用户需要的信息智能地呈现到人们面前,为人们提供个性化的

学位

评分预测推荐系统信任网络网络化简蚁群优化

大规模商品分类层次的融合技术研究

学位

智能手机远程控制文件传输方法的研究与应用

随着网络通信技术，移动通信终端设备技术的不断进步，人们可以通过智能手机等手持的移动通信设备远程控制电脑，人们的日常生活变得更加便捷。但是目前现有的各种远程控制方法大都

学位

智能手机文件获取文件传输传输方法网络通信远程控制

基于Struts的eHR架构

随着Internet技术的飞速发展和电子商务的普及应用，世界进入了信息化时代，为企业的发展提供了种种机遇和更为广阔的空间。传统的Web应用开发技术(比如ASP、JSP)，将页面显示、商业逻辑和数据处理大部分都集中在页面代码中，商业逻辑、数据处理和页面显示强耦合，Web扩展维护比较困难，也不利于开发人员分工合作，在大型Web应用开发中愈发显得力不从心。迫切需要一种全新的Web应用设计技术，将页面显示

学位

J2EEStrutseHR组件架构

基于MVC的测试驱动开发研究

测试驱动开发是极限编成的最佳实践之一,采用测试驱动开发,可以获得简单、清晰、高质量的代码,近几年来受到软件开发人员的推崇。Kent Beck作为极限编程的创始人,提出了测试

学位

极限编程测试驱动开发MVC代码生成

轻量级容器的研究与设计

J2EE是整合企业级服务的优秀平台，它结合Java编程的多种优点和过去10多年大中型企业软件开发中的经验，提供了一种基于组件的、以服务为中心的、多层应用的架构。但事实证明，J2EE

学位

EJB轻量级容器控制反转面向切面编程域驱动开发

汽车三包理赔服务及辅助决策系统的研究与实现

近年来，我国汽车行业迅速发展，为了在竞争中立于不败之地，厂家不仅仅重视生产技术的发展，而且对售后服务的重视程度也不断提高，很多大型企业都建立了自己的售后服务体系。三包理赔

学位

汽车产业链协作三包理赔对象持久化数据仓库

Web中文信息抽取技术研究及其在招聘信息系统中的应用

与本文相关的学术论文