基于相关短语挖掘的问句复述研究

被引量 : 0次 | 上传用户:samsam1005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线问答系统在成为人们答疑解惑工具的同时也积累了海量的问句答案对,形成了一个内容丰富的知识库。基于网络中海量的真实问答对的问句检索和自动问答系统逐渐成为研究热点。然而,用户在线提出的问题中有50%以上的问句是非事实类的复杂问句。复杂问句的信息需求包括实体或事件之间的关系,基于专业领域知识的复杂过程等。对于这类问句,问答系统很难找到与其同义的问句,因此,发掘与复杂问句中的主题、概念和事件等同义和相关的信息,对于复杂问句的语义理解、问句检索和答案抽取都有重要意义。本课题提出了一种基于统计的挖掘专业领域相关短语集合的方法,来解决复杂问句的复述问题。基于网络中的海量问答对,课题的研究工作主要包括:(1)提出一个自动建立问句复述语料库的方法:基于相似答案所对应问句为相似问句的假设,采用统计语言检索模型,在同一语义类别下抽取相似问句对,并建立问句复述组;(2)提出一个基于概念相关短语挖掘的复述抽取算法:使用手工建立的问句关键字模板确定问句的中心,并过滤疑问类别特征来抽取问句的内容;根据短语同现率生成初始的短语同现列表,并通过语义相关的传递性扩充短语同现列表,修正相关性权重,最终形成相关短语集合;(3)在金融领域自动问答系统的查询扩展模块中进行了验证,并与传统的搜索引擎技术,商用搜索引擎和基于统计机器翻译模型的相关词抽取方法比较,检索返回结果的精度最多可提高6.32%,系统性能达到了实用效果。本课题的成果可用于信息检索、信息抽取、自然语言生成等研究工作,具有广阔的应用前景。
其他文献
目的:研究藏药人参果的化学成分。方法:采用减压硅胶柱色谱、中压反相ODS柱色谱、Sephadex LH-20凝胶柱色谱、半制备高效液相色谱和高压快速制备色谱等手段等方法分离纯化,并
本文在归纳和梳理修订后的《中华人民共和国政府信息公开条例》对税务部门信息公开工作提出的新要求的基础上,从税务工作实践层面综合分析税务部门开展政府信息公开工作可能
运动性疲劳的恢复,是为了运动员的身体机能的恢复效果和运动寿命的延续而衍生出来的,它是运用到了多学科知识,从而得以发展,并且促进体育运动恢复的方法与措施的进步与发展。
疲劳是人类机体复杂的生理心理变化过程,属于人体机能自然的自我保护机制,可以分为两种:生理疲劳和心理疲劳,分别指体力或脑力到达一定阶段时出现的正常生理现象。人体疲劳的
通过对三峡大学研究生进行症状自评量表(SCL-90)测评,为其建立心理健康档案,分析其心理健康水平的总体特征、性别特征和城乡差异特征,并在此基础上提出干预对策,为高校研究生心理健
美国证券交易委员会(SEC)在1934年的《证券交易法》中,对证券经纪交易商的提出净资本要求;1975年SEC采取新的“统一净资本规则”;1997年SEC首次允许利用数学模型进行净资本计
<正>2002年《中华人民共和国职业病防治法》(简称《职业病防治法》)实施以来,卫生部先后发布了《职业病目录》、《职业健康监护管理办法》、《职业病诊断与鉴定管理办法》、
随着时光的流逝,随着教龄的增长,我们被困在快节奏的生活牢笼当中,日复一日,变得缺乏激情、耗尽朝气。渐渐地,我们的心灵趋于麻木,我们的灵感趋于枯竭,我们对待教育工作的态
动画变形是动画艺术中一种常见的重要手段。本文在总结动画界对动画变形艺术的研究成果的基础上,系统地论述了动画变形的几个原则,划分了动画变形的几种类型,探讨了动画变形