基于信息需求的社区问答答案总结

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jym956
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,社区问答门户网站作为新兴的一种知识共享平台给问答系统带来了新的契机,为问答系统提供大量可用的问句及相应的答案信息。因其具有的交互性和开放性的特点,使它能够很好的满足用户的信息需求。大量的在线社区问答门户应运而生,其中包括百度知道,搜搜问问,天涯问答等等。用户获取知识的这一新手段,说明了传统搜索引擎仅仅基于关键词的查询方式已经不能满足用户准确快速搜索自己信息的需求。社区问答门户允许用户通过发帖的形式进行提问,提问内容中可以包括问题的内容以及对问题上下文语境进行补充的问题描述,所有用户都可以对这个问题进行回答,提问者也可以从答案中选择一个作为最佳答案。然而,由于用户对自己想要获取的信息领域并不熟悉,用户可能无法很好的组织自己的查询语言来帮助自己得到想要的信息需求。因此本课题将用户查询问句在社区问答门户上进行一个扩展,同时扩展的还有它们的问题描述信息和答案信息。将包含各种不同信息需求的问题集与答案集进行协同聚类,获得与用户查询问句相关的各个方面的信息需求。在不同的问题描述(上下文信息)之下的同一问题,它们产生的答案极可能是完全不同的。例如对于问题“如何买手机?”,当问题描述是“我应该到哪里去买”和“怎样才能买到便宜的”时,用户想要得到的信息需求是迥异的。为了解决这个问题,在协同聚类模型中引入了以问题描述为基础的约束条件。同时,社区问答回答者所提供的答案质量良莠不齐,有时在提供有用信息的同时可能附加了无用的信息甚至是错误的信息。这样高冗余的信息,难以应用于问答系统之中。本课题收集答案中的文本特征以及非文本特征,建立答案排序模型,通过协同聚类后的簇中排序好的信息来进行答案总结。大量的答案集中必然会包含有较多的重复信息,而这些回答可能存在表述上的区别而无法通过简单的相似度计算来进行检测。这样,本课题建立一种答案相似检测模型,通过层次多分类器投票的方法,来检测答案中存在的重复信息,并进行去除,最终得到正确的答案总结。
其他文献
启动子序列模式的建模与发现是基因表达与调控组织特异性模式发现的核心。研究表明,综合多个模式发现工具的结果覆盖度较高,但是需要消除冗余。目前,在消除模式冗余中缺乏变长模
随着信息技术和网络技术的迅速发展,各类复杂系统的规模和复杂程度也在急剧增大,用MAS(Multi-Agent System,MAS)的理论和技术研究其网络结构和信息传播现象引起越来越多的关注和
随着计算机系统规模的迅速增大,系统设计实现的正确性问题越来越严峻。形式化方法的出现,成为了解决该问题的一个重要手段。它运用数学方法的特点相比于传统的模拟和测试具有更
随着上千种生物基因组测序工作的完成和研究者们对于基因组功能研究的不断深入,人类对于生命的认知已经进入了后基因组时代。探索基因表达的调控方式已经成为当下科研工作者
随着处理器制造工艺尺寸的缩小,处理器的设计规模越来越大,设计的复杂度随之增加,大规模的设计对处理器的功能验证提出了挑战。据统计,功能验证会占据设计周期60%-80%的时间,如何
近年来,随着计算机图形学的发展,三维人脸重建成为当前的研究热点之一;目前,三维人脸在影视、游戏、教学、医疗等领域有着广泛的应用,在人们的生活中越来越普及;经过多年的研究,研究
综合模块化航空电子(IMA)系统以其高度灵活、易于重用等特点,为越来越多的新一代飞行器所采用。IMA系统实现了资源的共享与重用。然而在现有的IMA系统中,任务与资源大多采用静
随着科技的进步,现代摄像技术和设备越来越便捷和先进,互联网中图片数目成爆炸式增长,用户对图片检索的需求也越来越大,而传统的检索技术依赖于文本检索,由于视觉特征和文本信息之
本课题的研究内容“味精生产中分批补料嵌入式控制系统的研究”是国家科技支撑项目“年产10万吨味精清洁生产技术集成(应用)示范项目”的一个子课题。谷氨酸发酵是一个典型的
随着科技的发展、社会的进步,求解约束优化问题的方法层出不穷,其中进化算法在复杂的搜索空间中表现出了强大的竞争力,已成为求解约束优化问题的重点研究方向。其中差分进化算法