Web中文信息抽取技术研究及其在招聘信息系统中的应用

来源 :西北大学 | 被引量 : 0次 | 上传用户:aa284636706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW的飞速发展使其已成为全球信息传播与共享的重要平台,并成为人们获取信息的主要来源。但是随着信息量的激增,要想从WWW上获取一条有用信息的难度却越来越大。人们期望着一种理想情况的出现:像查询数据库一样地查询WWW上的信息。Web信息抽取技术正是随着这样的需求而出现并不断丰富的,而各种抽取技术的侧重点不同导致了抽取系统在精确度、可扩展性、适应性方面不能都令人满意。本课题较好地解决了基于自然语言理解的方式在处理半结构化文本时的不足,改进了现有的语言模型,并在此基础上实现了一个Web招聘信息抽取系统——JobHunter。JobHunter的实现如下:首先,构建Spider,“爬行”WWW上的若干招聘网站并抓取网页;然后,由基于自然语言理解的信息抽取模块将Spider抓取的网页抽取成结构化信息并存入数据库;最后,将用户所关注的招聘信息清楚地显示在界面上。由于JobHunter基于自然语言理解方式进行信息抽取,可以从任何类型的网站抽取招聘信息,所以有着良好的可扩展性和适应性。经测试,本系统抽取准确率和召回率都达到70%以上。
其他文献
随着网络的快速发展,多媒体文件的数目以指数形式增长。视频本身就是一种多媒体文件,包括图像、文本、语音等多种媒体数据,如何快速地处理视频数据、更好地分析和理解视频中
移动Ad hoc网络是由一组带有无线通信收发装置的移动节点组成的一个临时、多跳的网络。不需要中央控制设施。网络中的节点既是路由器,又是主机,作为对等实体连接在一起。非相邻
随着计算机及网络技术的飞速发展,越来越多的应用领域需要对大规模图数据进行处理。传统的单机处理模式不能有效地适应大规模图数据计算,因此出现了许多分布式环境下的图处理
随着互联网技术的迅猛发展,信息过载问题越来越突出地呈现在人们面前。推荐系统作为一种重要的信息过滤手段,能够把用户需要的信息智能地呈现到人们面前,为人们提供个性化的
学位
随着网络通信技术,移动通信终端设备技术的不断进步,人们可以通过智能手机等手持的移动通信设备远程控制电脑,人们的日常生活变得更加便捷。但是目前现有的各种远程控制方法大都
随着Internet技术的飞速发展和电子商务的普及应用,世界进入了信息化时代,为企业的发展提供了种种机遇和更为广阔的空间。传统的Web应用开发技术(比如ASP、JSP),将页面显示、商业逻辑和数据处理大部分都集中在页面代码中,商业逻辑、数据处理和页面显示强耦合,Web扩展维护比较困难,也不利于开发人员分工合作,在大型Web应用开发中愈发显得力不从心。迫切需要一种全新的Web应用设计技术,将页面显示
测试驱动开发是极限编成的最佳实践之一,采用测试驱动开发,可以获得简单、清晰、高质量的代码,近几年来受到软件开发人员的推崇。Kent Beck作为极限编程的创始人,提出了测试
J2EE是整合企业级服务的优秀平台,它结合Java编程的多种优点和过去10多年大中型企业软件开发中的经验,提供了一种基于组件的、以服务为中心的、多层应用的架构。但事实证明,J2EE
近年来,我国汽车行业迅速发展,为了在竞争中立于不败之地,厂家不仅仅重视生产技术的发展,而且对售后服务的重视程度也不断提高,很多大型企业都建立了自己的售后服务体系。三包理赔