面向网络社区问答对的语义挖掘研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gsoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0技术的飞速发展带来了互联网中的用户生成内容(User-generatedContents, UGC)的规模的不断增长。作为一种新的网络信息资源,高质量的用户生成内容的研究和应用价值正逐渐显现,针对其开展的采集和挖掘工作具有非常重要的意义。由问题和其答案组成的问答对是用户生成内容的典型代表,是用户之间以互联网为媒介的知识分享行为的直接产物,因而由大量用户生成的问答对组成的问答资源是人类知识以网络文本为载体的体现形式之一,同时也蕴含着人类在通过网络进行交流过程中的语言规律。因此无论对于问答系统的构建还是自然语言处理研究来说,优质的问答资源都具有举足轻重的地位。网络社区(如社区型问答系统、在线论坛等)为互联网用户提供了信息交流的平台,用户在其中的知识交流和分享活动多是以提问和回答的形式进行的,因此网络社区中蕴含着大量的问答对资源。网络社区中存在数量可观的描述型问答对,这种问答信息的价值在于其有助于弥补现有自动问答系统在复杂问题上的不足,从而提高自动问答系统的整体表现。然而由于网络社区中的知识分享并不存在义务性,有价值的问答信息往往混杂在大量的无意义信息之中,因此对于问答知识库的构建研究来说,从包含着大量噪声信息的网络社区内容中自动识别和抽取问答信息是一个具有挑战性的任务。本文主要研究面向网络社区问答对的语义挖掘中的关键问题。面向网络社区问答对的语义挖掘研究不仅包含基于语义关系的社区问答对自动识别,同时也包括利用问答对中蕴含的语义知识进行问答信息的生成及融合等任务。具体地,本文的主要内容包含以下4个方面。问题和答案之间的语义相关度计算是社区问答对语义挖掘中的核心问题。网络社区中的问答信息是一类典型的短文本信息,词语特征的极度稀疏和同现词语信息的不足是致使问答语义相关度计算方法有别于传统文本相似度计算的主要因素。本文在考察了短文本语义相关度计算的特点和难点的基础上,提出了基于深度学习模型的问答语义相关性量化方法,并根据网络社区中问答对的语言特性给出了两种不同架构的深度学习模型。面向问答社区和论坛话题语料的最佳答案识别实验表明,本文提出的深度学习模型能够有效提高问答语义相关度计算的准确率。以社区的结构和社会化信息为基础的非文本特征在问答资源挖掘中的应用已经比较普遍,但目前常用的非文本特征主要来源于观察所得的经验规律,这些特征为答案识别模型提供的信息往往不够明确,因而不利于识别准确率的进一步提高。为了得到对论坛答案识别更具指示能力的信息,本文提出了论坛话题的段落划分策略,并基于话题段落划分的结果提取了一组新的非文本特征,进而给出了以话题段落特征为基础的最佳答案识别方法。实验结果表明,段落特征有助于提高论坛答案信息识别方法的准确率,同时基于段落特征的答案识别方法的整体表现也优于常见的经典方法。在来源于网络社区的问答资源中得到与词语语义关联相关的统计信息,并将这种知识应用于问题的自动生成任务中,从而为面向更广泛数据源的问答资源挖掘提供支持,这是基于统计模型的问句生成研究的根本出发点。目前主流的问句生成技术通常采用基于句法分析和人工编写的句式转换规则的方法实现,因而对描述型答案的适应性不足,且在面对大规模网络文本时的效率较低。本文系统性地提出了基于统计模型的问句生成任务,并给出了基于深度置信网络的问句核心词语生成模型,从而能够根据指定的文本信息自动预测相应问题的主要内容,再根据简单的模板将生成的核心词语组织成问句。实验表明基于深度置信网络的问句生成模型能够较好地适应面向复杂描述性文本的问句生成任务。在社区型问答系统中同一个问题可能对应多个正确的答案,对这些答案的内容进行摘要和融合往往比机械地选出一个最佳答案更有意义。答案摘要是提高问答资源质量的有效手段,也是问答信息语义挖掘研究的集中体现。本文从答案集合主题信息的角度入手对答案文摘的实现策略进行了讨论。针对已知答案集合主题信息的情况,本文提出了基于自适应最大边缘相关模型的文摘方法;在主题信息不足的条件下,本文提出了基于原信息重建和子主题生成思想的两种不同的答案文摘算法。实验部分采用基于准确度和冗余度的文摘质量评价体系对上述文摘方法进行了评测及对比分析。
其他文献
针对当前数字专用集成电路设计中的验证瓶颈,提出了一种基于SystemC电路行为建模与测试控制技术的专用集成电路验证方法,并应用到网络调度芯片的具体验证实验中.实验数据表明
<正>在中国规模最大的反渗透污水处理厂,太原钢铁集团的水处理厂中,陶氏超滤组件SFP-2860再次证实了其作为反渗透系统预处理的优异性。太原钢铁集团有限公司是世界上最大的钢
Mashup是一种在已有的Web服务基础上通过按需混搭和服务组合快速构造新应用的方式。随着智能手机、平板电脑等移动终端的普及,个人计算机用户经常需要通过个人计算机以及各种
<正>己内酰胺(简称CPL)是重要的有机化工原料之一,主要用于生产尼龙6工程塑料(占90%)和合成纤维(锦纶)。尼龙6树脂用作汽车、船舶、电子电器、工业机械和日用消费品的构件和
便利店作为满足顾客便利性、应急性需求的零售业态,起源于美国,在日本和台湾得到了迅速发展,经过一系列系统革新,其特点被发挥到极至。20世纪90年代,便利店在我国大陆地区起步,随后
IPO抑价现象与热销市场和新股长期弱势并称为IPO市场的三个“不解之谜”,普遍存在于各个资本市场,其中新兴经济体股票市场上的IPO抑价现象尤为显著,作为最大的新兴经济体股票
东正教是俄罗斯精神的基础和核心.在长期的历史发展中,东正教对俄罗斯民族性格产生了质的影响,俄罗斯性格的极端性、矛盾性、神秘性都可以在东正教中找到源头.宗教性是俄罗斯
近年来,由于国际、国内经济、金融环境的复杂多变,我国货币政策也在不断相机调整。深入剖析我国货币政策的传导渠道,对分析货币政策的影响力和有效性大有裨益,这将有助于提高
介绍了邻、对苯二酚的主要用途、市场需求、生产工艺。重点介绍了苯酚羟基化法合成邻、对苯二酚的先进工艺及其催化剂的开发进展。指出国内外对苯酚羟基化法合成邻、对苯二酚
<正>电视胸腔镜已在胸外科临床上已广泛应用,因其具有创伤小、恢复快、痛苦轻、符合美容等优点,目前广泛应用于普胸外科各类疾病的手术治疗。食管良性肿瘤传统开胸手术是典型
会议