基于语义的网上图书自动问答系统研究

来源 :太原理工大学 | 被引量 : 3次 | 上传用户：qqqq_eeqg

【摘要】

：

随着Intenret的快速发展,特别是WWW的飞速发展,网上信息资源越来越丰富,网络已经成为了一个全球最大的分布式的信息库,为信息共享、资源共享提供了一个良好的平台,是人们获得

【作者】

：

郭浩

【机构】

：

太原理工大学

【出处】

：

太原理工大学

【发表日期】

：

2008年01期

【关键词】

：

问答系统自然语言处理信息抽取本体

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Intenret的快速发展,特别是WWW的飞速发展,网上信息资源越来越丰富,网络已经成为了一个全球最大的分布式的信息库,为信息共享、资源共享提供了一个良好的平台,是人们获得信息的必要途径和重要手段。但是由于网上信息浩繁,具有分布分散、重复性大、动态变化、结构复杂、缺乏统一管理等特点,使得用户根本无法完全了解庞大的、瞬息万变的信息资源。随着大量的信息涌入网络,用户信息的查找与获取也就变得越来越困难,出现了“信息迷失”、“信息过载”等问题。搜索引擎是目前人们进行网络信息检索的主要工具,它在给人们带来很大便利的同时,也日益暴露出许多弊端:关键字匹配的方式检索准确率不高,返回的相关文档过多且重复性高。在这种情况下,传统的基于关键字匹配的搜索引擎已经不能满足用户需求,人们期盼着新的,具有智能处理能力的、结果表示形式更为简洁的新一代搜索引擎的出现。在这种需求的推动之下,本文致力于将自动问答处理技术和Web信息检索技术相结合,以提高现有搜索引擎对信息的智能处理能力,提供更加人性化的人机交互方式,用简洁、准确的答案,自动地回答用户用自然语言提出的问题,帮助人们快速而有效地找到所需的信息。论文在分析了传统问答系统基本架构,以及现有处理方法中存在不足的基础上,展开了面向Web信息的自动问答关键技术研究,提出了以框架语义为语义基础、以本体为知识描述的自动问答技术,并给出了其应用在图书信息领域中的原型系统-网上图书问答系统的系统架构及关键技术的实现方案。论文的主要工作可以概括为以下几点:(1)研究针对Web环境海量、异构的图书信息的批量采集、过滤及标准化描述技术,开发网上图书信息自动采集系统,将分散在多个网站、多个页面的海量的、异构的图书信息自动采集、过滤及标准化描述,提供统一的操作界面、人性化的菜单和功能键,实现不同文件格式的数据共享,达到图书信息获取、存储、搜索、浏览、阅读、输出等实用要求。(2)研究图书信息领域问句浅层语义分析技术,包括语义块的定义及词表建立,语义块的判定规则(搭配)的建立,问句向量的定义、分析及生成等;(3)在传统信息抽取系统研究的基础上,研究基于CFN的信息抽取技术,并将其应用在图书简介中,挖掘图书简介中的语义信息。传统的信息抽取技术处理的均为格式化或半格式化文本,如html、xml或关系数据库等。处理自然语言文本的信息抽取技术研究尚在起步阶段。而我们拥有汉语框架语义知识库这部深厚的语义词典资源,使得我们基于语义的信息抽取技术的实现成为可能。(4)探索领域本体构建技术,结合面向Web的图书元数据描述标准及图书简介概念模型,以七步法为本体构建方法,建立图书信息领域本体。(5)提出了网上图书自动问答系统系统架构。以问答式服务方式,为用户提供全面、可靠、高效率、智能化的信息服务。对于用户输入的自然语言问题,使用已经标注的图书信息语料库,给出符合用户要求的图书相关信息。避免了传统的死板、教条的关键字检索方式,而代以人机对话问答式服务模式,为用户提供灵活的,专业的,个性化的服务。

其他文献

前向安全数字签名技术的分析与研究

随着计算机和网络技术的飞速发展,信息安全已经成为信息社会亟需解决的重要问题之一。现代密码学作为信息安全技术的核心,在全球范围内得到了越来越广泛的重视。提供认证性、

学位

数字签名前向安全盲签名椭圆曲线双线性对

异构协同GIS系统的框架模型和数据索引

协同GIS(Cooperatire GIS,CoGIS)是将CSCW结合到GIS中,支持一组或多组异地的用户,借助计算机及其网络技术,同时共同编辑、设计和决策基于地理信息的任务。协同GIS技术的实质

学位

CoGISCSCW异构GIS系统中间件R树全局空间数据索引

龙芯嵌入式系统的性能分析与优化研究

性能分析与优化一直是计算机研究中的热点。程序中执行时间最长的通常就是很小部分的热点函数和热点指令。性能分析与优化的目的就是要发现程序热点,分析瓶颈原因,选择合适的

学位

代码优化软件流水模拟器性能分析四阶段人工优化

立体图像质量评价方法研究

立体图像技术的最大特点就是能够再现真实场景中的立体感。随着互联网和多媒体技术的迅速发展，立体图像处理技术逐步应用到三维视频会议系统、远程工业控制、虚拟现实、远程教

学位

立体图像质量评价视觉特性支持向量机

数据库负载自适应实时在线聚类算法的设计与实现

随着互联网和信息技术的发展,数据库系统变得越来越复杂,其数据存储规模越来越庞大,管理数据库系统也变得越来越昂贵和繁琐。在传统方式下,主要是依靠系统管理员的手工调节。

学位

聚类算法增量聚类算法基于特征向量的聚类算法基于先验知识的增量聚类算法

肝脏管道参数化建模算法的研究

肝癌是我国病死率最高的恶性肿瘤之一，现今治疗肝癌的有效手段只有手术切除治疗。但是因为肝脏血管结构的复杂性以及个体肝脏之间的差异性，肝脏手术通常具有非常高的风险性。从

学位

肝脏血管计算机体层摄影图像三维模型模糊连接算法

隐私保护数据查询系统的研究与实现

随着信息技术的不断发展,数据库系统的应用日益普及,利用数据库系统实现数据共享,可以使人们的日常生活和工作更加方便、快捷,但同时也给非正当地获取数据库的数据信息提供了

学位

隐私保护查询密文数据最小信息暴露安全散列函数OPES

面向方面软件开发方法在操作系统开发中的应用研究

随着计算机技术的发展以及应用需求的变化,操作系统的规模和复杂性不断增加。在进行操作系统设计时,不仅要考虑如何实现操作系统的功能,还要解决可维护性、可扩展性以及可移

学位

方面贯穿特性关注点分离操作系统模块性

时序数据维归约方法的研究

时间序列是一类重要的数据类型，广泛存在于金融、事务处理和科学研究等领域中。时间序列挖掘通过对过去历史行为的客观记录分析，提取人们事先不知道的，但又是潜在有用的与时间属

学位

时间序列挖掘数据清理相似性度量分段表示时序数据维归约方法

基于语义的网上图书自动问答系统研究

其他学术论文