基于语义树的语句相似度和相关度在问答系统中的研究

被引量 : 0次 | 上传用户:xkd19890528
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着虚拟现实技术、多媒体技术、计算机网络技术的快速发展,人们越来越需要准确、高效的信息检索方式,帮助他们在海量的数据中查询感兴趣的数据信息。问答系统通过问句识别分析、数据库查找,返回答案给用户,是一种非常有效的信息检索方式。但目前的问答系统基本上都是与上下文无关的,即对于结构不完整的语句无法准确的识别,因此本文基于此进行研究。本文主要的研究内容有:(1)研究交互对话中省略句的构成,总结一般性语句的省略部分。将完整结构语句进行自定义成分划分。(2)研究如何识别语句省略情况,将省略的部分补充起来。并提出基于语句相关度的补充算法计算补充完整后的语句与前面语句的相关程度,进一步确定补充的成分是否合理。(3)通过对语句进行自定义划分建立语义树,用来存放数据库中的语句,研究基于语义树的语句相似度算法来对问答系统的答案进行抽取。本文的创新点有:(1)对完整结构的语句进行成分划分,提出“核心特征词”、“属性特征词”、“一般性特征词”的概念,将完整性语句划分为“核心特征词”、“属性特征词”、“一般性特征词”、“疑问词”的组合。(2)提出基于语句相关度的补充算法,将结构不完整的当前语句根据前面语句的“核心特征词”、“属性特征词”、“疑问词”进行成分补充。这里的缺省主要是“核心特征词”、“属性特征词”和指代。补充后的语句要与前面语句群根据其相关程度进行渐进式的语句相关度算法。(3)通过“核心特征词”、“属性特征词”、“一般特征词”的关系,建立语义树,语义树的兄弟表示同级、并列关系,语义树的父亲-孩子表示包含、指向、修饰关系。通过语义树查找相关度算法计算,得到与当前问句最匹配的数据库的语句。通过实验证明,本文对于结构不完整的语句具有较好的恢复语句能力,而且语义树的相似度算法对于问答系统也有较高的准确率。
其他文献
我国商品价格改革的经验教训表明,放开对价格的计划管制与确立价格的市场形成机制必须协调一致,改革应有破有立、审时度势、稳步推进。当前我国虽然已经放开了对贷款利率的管
<正>一、盘盈存货既节税又降低所得税风险。(风险等级★★★)情景回放:税收检查小组在检查某工业企业时,发现该企业连续几年管理费用占比都较大,但2009年度的管理费用出现赤
<正>美化电视新闻的标题要做到形式与内容的统一。从形式上看,电视新闻受画面制约,一般都是单行题,与报纸常见的多行题相比,电视新闻追求标题美的局限性很大。电视新闻标题的
<正>野生地被植物适应性好、管理上较为粗放,降低了养护成本,减少施用化学除草剂对土壤及空气造成的污染,符合节约型园林、低养护景观的发展趋势。同时,一些野生地被植物颜色
物流企业对于风险的管理具有关键的作用,只用真正提高了物流企业的风险驾驭能力,才能使得委托方真正信任物流企业,为物流企业赢得良好的信誉。对于物流企业的风险管理能力,业
<正>与平面媒体相比,电视这种立体的电子媒介以声画兼具的特性见长。但笔者认为,在日益激烈的媒体竞争中,电视新闻要想获得更大的优势,必须提高自身的"综合实力",尽快改变目
通过实验室实验研究,综合分析选取的4个典型煤样的一氧化碳、乙烯、乙烷等气体的检出温度,对比指标气体优选原则,综合分析了东欢坨煤矿实验检出气体。实验表明,东欢坨矿一氧
随着互联网的普及与迅速发展,新的经济模式——共享经济应运而生。共享经济的典型市场是互联网租车服务,这也是率先实现共享经济模式的市场之一。本文我们着重于目前市场上的
<正>一、房地产企业未按规定结转已销开发产品计税成本,被税务机关追征税款并依法加征滞纳金。(风险等级★★★)情景回放:税务管理员小张在对房地产企业的专项评估中发现,某
“能源乃国家之大事,存亡之道。”随着改革开放,中国经济取得了快速发展,但与此同时,对传统能源的依赖越来越大。由于传统能源具有不可再生性,且对于环境资源的破坏也日益严