论文部分内容阅读
互联网的出现极大地丰富了人们的信息来源。然而由于缺乏统一的组织和管理,人们在浩瀚的信息海洋中却难以找到所需信息。当前各种信息服务技术,如搜索引擎、基于Web Service的服务集成等,要么精度不高、返回结果过多,要么仅局限于提供Web Service接口的信息资源、覆盖范围有限,难以满足人们日益增长的信息需求。鉴于Web上绝大部分信息资源以半结构化形式存在的现状,本文在研究Web信息抽取技术的基础上,提出了一种“基于Web信息抽取的个性化信息服务”框架WINIS(Web INformation extraction based personalized Information Service),主要着眼于传统搜索引擎难于发现、隐藏在Web站点后台数据库中的丰富信息(也称为暗藏网),尝试通过Web信息抽取技术获取该类资源,从而为用户提供个性化的信息服务。基于WINIS,用户无需关心信息的来源和获取的方式,只需描述自己的需求即可简单、高效、快速地获得目标信息。可以将WINIS简述如下:在框架的个性化信息服务层,系统通过定义任务模式来描述和解析用户请求,并提出基于用户目标的个性化结果整合策略。在框架的Web信息抽取层,采用一种基于本体的Deep Web信息抽取方法来获取暗藏网中的信息资源,在保证抽取质量的同时大大减轻了用户负担,有效解决了现有方法中用户负担大、缺少待抽取页面获取过程、抽取结果缺乏语义信息等问题。以WINIS框架为指导,本文构建了E-Planning原型系统并进行了实验分析。分析结果表明,基于WINIS框架的E-Planning系统在信息抽取质量、结果方案生成以及系统扩展性等方面都达到令人满意的结果,从而验证了本文提出的WINIS框架的有效性。