论文部分内容阅读
随着Intenret的快速发展,特别是WWW的飞速发展,网上信息资源越来越丰富,网络已经成为了一个全球最大的分布式的信息库,为信息共享、资源共享提供了一个良好的平台,是人们获得信息的必要途径和重要手段。但是由于网上信息浩繁,具有分布分散、重复性大、动态变化、结构复杂、缺乏统一管理等特点,使得用户根本无法完全了解庞大的、瞬息万变的信息资源。随着大量的信息涌入网络,用户信息的查找与获取也就变得越来越困难,出现了“信息迷失”、“信息过载”等问题。搜索引擎是目前人们进行网络信息检索的主要工具,它在给人们带来很大便利的同时,也日益暴露出许多弊端:关键字匹配的方式检索准确率不高,返回的相关文档过多且重复性高。在这种情况下,传统的基于关键字匹配的搜索引擎已经不能满足用户需求,人们期盼着新的,具有智能处理能力的、结果表示形式更为简洁的新一代搜索引擎的出现。在这种需求的推动之下,本文致力于将自动问答处理技术和Web信息检索技术相结合,以提高现有搜索引擎对信息的智能处理能力,提供更加人性化的人机交互方式,用简洁、准确的答案,自动地回答用户用自然语言提出的问题,帮助人们快速而有效地找到所需的信息。论文在分析了传统问答系统基本架构,以及现有处理方法中存在不足的基础上,展开了面向Web信息的自动问答关键技术研究,提出了以框架语义为语义基础、以本体为知识描述的自动问答技术,并给出了其应用在图书信息领域中的原型系统-网上图书问答系统的系统架构及关键技术的实现方案。论文的主要工作可以概括为以下几点:(1)研究针对Web环境海量、异构的图书信息的批量采集、过滤及标准化描述技术,开发网上图书信息自动采集系统,将分散在多个网站、多个页面的海量的、异构的图书信息自动采集、过滤及标准化描述,提供统一的操作界面、人性化的菜单和功能键,实现不同文件格式的数据共享,达到图书信息获取、存储、搜索、浏览、阅读、输出等实用要求。(2)研究图书信息领域问句浅层语义分析技术,包括语义块的定义及词表建立,语义块的判定规则(搭配)的建立,问句向量的定义、分析及生成等;(3)在传统信息抽取系统研究的基础上,研究基于CFN的信息抽取技术,并将其应用在图书简介中,挖掘图书简介中的语义信息。传统的信息抽取技术处理的均为格式化或半格式化文本,如html、xml或关系数据库等。处理自然语言文本的信息抽取技术研究尚在起步阶段。而我们拥有汉语框架语义知识库这部深厚的语义词典资源,使得我们基于语义的信息抽取技术的实现成为可能。(4)探索领域本体构建技术,结合面向Web的图书元数据描述标准及图书简介概念模型,以七步法为本体构建方法,建立图书信息领域本体。(5)提出了网上图书自动问答系统系统架构。以问答式服务方式,为用户提供全面、可靠、高效率、智能化的信息服务。对于用户输入的自然语言问题,使用已经标注的图书信息语料库,给出符合用户要求的图书相关信息。避免了传统的死板、教条的关键字检索方式,而代以人机对话问答式服务模式,为用户提供灵活的,专业的,个性化的服务。