论文部分内容阅读
WWW的飞速发展使其已成为全球信息传播与共享的重要平台,并成为人们获取信息的主要来源。但是随着信息量的激增,要想从WWW上获取一条有用信息的难度却越来越大。人们期望着一种理想情况的出现:像查询数据库一样地查询WWW上的信息。Web信息抽取技术正是随着这样的需求而出现并不断丰富的,而各种抽取技术的侧重点不同导致了抽取系统在精确度、可扩展性、适应性方面不能都令人满意。本课题较好地解决了基于自然语言理解的方式在处理半结构化文本时的不足,改进了现有的语言模型,并在此基础上实现了一个Web招聘信息抽取系统——JobHunter。JobHunter的实现如下:首先,构建Spider,“爬行”WWW上的若干招聘网站并抓取网页;然后,由基于自然语言理解的信息抽取模块将Spider抓取的网页抽取成结构化信息并存入数据库;最后,将用户所关注的招聘信息清楚地显示在界面上。由于JobHunter基于自然语言理解方式进行信息抽取,可以从任何类型的网站抽取招聘信息,所以有着良好的可扩展性和适应性。经测试,本系统抽取准确率和召回率都达到70%以上。