基于Web的中文自动问答系统的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:z11272037
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动问答系统能用准确简洁的答案回答用户使用自然语言提出的问题,作为一种新的信息获取方式,正受到越来越多的关注。传统的自动问答系统趋向使用结构化或半结构化的封闭式知识库系统,从而存在领域受限、更新滞后等缺点。互联网出现为自动问答系统重新构建知识库提供了新的机会。Web的数据容量趋于无限,并时刻处于动态增长和更新的状态中,这使得它成为非常具有吸引力的知识来源。基于以上背景,本文提出了一个基于Web的中文自动问答系统:WebQA的研究设计策略以及实现方法,以期利用Web丰富的知识库资源,实现基于中文自然语言的自动问答功能。   在问题处理过程中,WebQA利用第三方的词法分析系统ICTCLAS进行分词和词性标注,进而识别出问题关键词和疑问代词。为保证效率并降低实现复杂度,WebQA掘弃了机器学习的方式,而是使用了疑问代词、句式识别结合启发式规则的方法来对问题进行分类。同时利用预定义模板对关键词进行必要的扩展和重写,以形成查询串提交到Web搜索引擎中。在信息检索阶段,WebQA使用成熟的Web搜索引擎产品:Google来进行问题答案检索,并且只对搜索结果中的Google网页片断(GoogleSnippet)进行处理,以避免下载和分析整个网页耗费大量时间。在答案处理阶段,WebQA再次利用ICTCLAS识别出命名实体,找到备选答案,并创造性地建立了一个基于事实的答案评价模型。在该模型中,备选答案的信度分值量化为支持该答案的事实的信度与相关度的乘积。而在事实的相关度计算上,WebQA引入并改进了已有的数据驱动的计算模型,结合统计概率的方式对事实与问题的相关度进行综合评价。最后,WebQA还使用一个简单的、预定义的阀值,对答案进行聚类操作,以便正确回答列表型提问。   实验结果表明,本文设计提出的WebQA自动问答系统在回答句法简单、基于事实的提问时,具有良好的召回率和正确率,可对原有的知识库有限、面向特定领域的传统中文问答系统起到重要的辅助和补充作用。
其他文献
随着网络技术的日益发展,VOIP的增长非常迅速,标准化程度也得到进一步的提高。SIP会话初始协议以其特有的本质博得了众多厂商的青睐,获得了广泛的支持。另一方面,Internet的蓬勃
机械臂是一种成功的并且被广泛应用的机械装置,它同时也被广泛地应用在机器人领域。工业上的组装、焊接、高温铸锻等繁重工作,很多都用机械臂辅助人工作业,减轻了劳动强度,提
模型驱动架构(MDA)是一个软件开发框架,是继CORBA、UML之后由OMG推出的重要的软件开发方法学。OMG对MDA的构想是将软件系统的开发行为提升到对更高的抽象层级的关注,通过模型的
当前,随着计算机网络技术的发展,人们对网络通信的功能需求呈现出多样化的趋势。通信业界提供的解决方案也随之逐渐完备化,细密化,能够覆盖哪怕是很细微的用户需求的变化。过去数
基本农田是按照一定时期人口和社会经济发展对农产品的需求,依据土地利用总体规划确定不得占用的耕地。监督管理作为基本农田保障性研究的一项基础性工作,主要方式采用普查登
土地的合理利用是区域经济、社会和生态等因素的综合体现,土地利用优劣程度以及未来发展趋势直接影响到经济的发展、生态环境变化和人们的日常生活。随着科学技术的飞速发展,
网格计算是一种正在迅速发展的计算基础设施,它将分布的计算资源组织起来协同解决复杂的科学计算与工程应用问题。网格中的节点具有高度的自治性和地理上的分散性,网格中的资
随着现有互联网的飞速发展,网格作为一种信息社会的网络基础设施,利用互联网把分散在不同地理位置上的多个资源全面连通和统一分配、管理及协调起来。其优势在于不但数据处理能
70年代初期,在Jeliski-Moranda提出第一个软件可靠性模型后,有关软件可靠性的研究就一直是软件工程领域的热点问题。经过近几十年的研究和发展,软件可靠性和软件可靠性工程的
电信企业在发展,电信运营支撑系统也在发展,目前国内的运营商已经基本完成了以数据仓库技术为基础的经营分析系统的建设,实现了企业级的数据整合和集中。于是,市场向电信运营商提