基于语义的网上图书自动问答系统研究

来源 :太原理工大学 | 被引量 : 3次 | 上传用户:qqqq_eeqg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Intenret的快速发展,特别是WWW的飞速发展,网上信息资源越来越丰富,网络已经成为了一个全球最大的分布式的信息库,为信息共享、资源共享提供了一个良好的平台,是人们获得信息的必要途径和重要手段。但是由于网上信息浩繁,具有分布分散、重复性大、动态变化、结构复杂、缺乏统一管理等特点,使得用户根本无法完全了解庞大的、瞬息万变的信息资源。随着大量的信息涌入网络,用户信息的查找与获取也就变得越来越困难,出现了“信息迷失”、“信息过载”等问题。搜索引擎是目前人们进行网络信息检索的主要工具,它在给人们带来很大便利的同时,也日益暴露出许多弊端:关键字匹配的方式检索准确率不高,返回的相关文档过多且重复性高。在这种情况下,传统的基于关键字匹配的搜索引擎已经不能满足用户需求,人们期盼着新的,具有智能处理能力的、结果表示形式更为简洁的新一代搜索引擎的出现。在这种需求的推动之下,本文致力于将自动问答处理技术和Web信息检索技术相结合,以提高现有搜索引擎对信息的智能处理能力,提供更加人性化的人机交互方式,用简洁、准确的答案,自动地回答用户用自然语言提出的问题,帮助人们快速而有效地找到所需的信息。论文在分析了传统问答系统基本架构,以及现有处理方法中存在不足的基础上,展开了面向Web信息的自动问答关键技术研究,提出了以框架语义为语义基础、以本体为知识描述的自动问答技术,并给出了其应用在图书信息领域中的原型系统-网上图书问答系统的系统架构及关键技术的实现方案。论文的主要工作可以概括为以下几点:(1)研究针对Web环境海量、异构的图书信息的批量采集、过滤及标准化描述技术,开发网上图书信息自动采集系统,将分散在多个网站、多个页面的海量的、异构的图书信息自动采集、过滤及标准化描述,提供统一的操作界面、人性化的菜单和功能键,实现不同文件格式的数据共享,达到图书信息获取、存储、搜索、浏览、阅读、输出等实用要求。(2)研究图书信息领域问句浅层语义分析技术,包括语义块的定义及词表建立,语义块的判定规则(搭配)的建立,问句向量的定义、分析及生成等;(3)在传统信息抽取系统研究的基础上,研究基于CFN的信息抽取技术,并将其应用在图书简介中,挖掘图书简介中的语义信息。传统的信息抽取技术处理的均为格式化或半格式化文本,如html、xml或关系数据库等。处理自然语言文本的信息抽取技术研究尚在起步阶段。而我们拥有汉语框架语义知识库这部深厚的语义词典资源,使得我们基于语义的信息抽取技术的实现成为可能。(4)探索领域本体构建技术,结合面向Web的图书元数据描述标准及图书简介概念模型,以七步法为本体构建方法,建立图书信息领域本体。(5)提出了网上图书自动问答系统系统架构。以问答式服务方式,为用户提供全面、可靠、高效率、智能化的信息服务。对于用户输入的自然语言问题,使用已经标注的图书信息语料库,给出符合用户要求的图书相关信息。避免了传统的死板、教条的关键字检索方式,而代以人机对话问答式服务模式,为用户提供灵活的,专业的,个性化的服务。
其他文献
随着计算机和网络技术的飞速发展,信息安全已经成为信息社会亟需解决的重要问题之一。现代密码学作为信息安全技术的核心,在全球范围内得到了越来越广泛的重视。提供认证性、
协同GIS(Cooperatire GIS,CoGIS)是将CSCW结合到GIS中,支持一组或多组异地的用户,借助计算机及其网络技术,同时共同编辑、设计和决策基于地理信息的任务。协同GIS技术的实质
性能分析与优化一直是计算机研究中的热点。程序中执行时间最长的通常就是很小部分的热点函数和热点指令。性能分析与优化的目的就是要发现程序热点,分析瓶颈原因,选择合适的
立体图像技术的最大特点就是能够再现真实场景中的立体感。随着互联网和多媒体技术的迅速发展,立体图像处理技术逐步应用到三维视频会议系统、远程工业控制、虚拟现实、远程教
随着互联网和信息技术的发展,数据库系统变得越来越复杂,其数据存储规模越来越庞大,管理数据库系统也变得越来越昂贵和繁琐。在传统方式下,主要是依靠系统管理员的手工调节。
肝癌是我国病死率最高的恶性肿瘤之一,现今治疗肝癌的有效手段只有手术切除治疗。但是因为肝脏血管结构的复杂性以及个体肝脏之间的差异性,肝脏手术通常具有非常高的风险性。从
随着信息技术的不断发展,数据库系统的应用日益普及,利用数据库系统实现数据共享,可以使人们的日常生活和工作更加方便、快捷,但同时也给非正当地获取数据库的数据信息提供了
随着计算机技术的发展以及应用需求的变化,操作系统的规模和复杂性不断增加。在进行操作系统设计时,不仅要考虑如何实现操作系统的功能,还要解决可维护性、可扩展性以及可移
时间序列是一类重要的数据类型,广泛存在于金融、事务处理和科学研究等领域中。时间序列挖掘通过对过去历史行为的客观记录分析,提取人们事先不知道的,但又是潜在有用的与时间属