论文部分内容阅读
Web2.0技术的飞速发展带来了互联网中的用户生成内容(User-generatedContents, UGC)的规模的不断增长。作为一种新的网络信息资源,高质量的用户生成内容的研究和应用价值正逐渐显现,针对其开展的采集和挖掘工作具有非常重要的意义。由问题和其答案组成的问答对是用户生成内容的典型代表,是用户之间以互联网为媒介的知识分享行为的直接产物,因而由大量用户生成的问答对组成的问答资源是人类知识以网络文本为载体的体现形式之一,同时也蕴含着人类在通过网络进行交流过程中的语言规律。因此无论对于问答系统的构建还是自然语言处理研究来说,优质的问答资源都具有举足轻重的地位。网络社区(如社区型问答系统、在线论坛等)为互联网用户提供了信息交流的平台,用户在其中的知识交流和分享活动多是以提问和回答的形式进行的,因此网络社区中蕴含着大量的问答对资源。网络社区中存在数量可观的描述型问答对,这种问答信息的价值在于其有助于弥补现有自动问答系统在复杂问题上的不足,从而提高自动问答系统的整体表现。然而由于网络社区中的知识分享并不存在义务性,有价值的问答信息往往混杂在大量的无意义信息之中,因此对于问答知识库的构建研究来说,从包含着大量噪声信息的网络社区内容中自动识别和抽取问答信息是一个具有挑战性的任务。本文主要研究面向网络社区问答对的语义挖掘中的关键问题。面向网络社区问答对的语义挖掘研究不仅包含基于语义关系的社区问答对自动识别,同时也包括利用问答对中蕴含的语义知识进行问答信息的生成及融合等任务。具体地,本文的主要内容包含以下4个方面。问题和答案之间的语义相关度计算是社区问答对语义挖掘中的核心问题。网络社区中的问答信息是一类典型的短文本信息,词语特征的极度稀疏和同现词语信息的不足是致使问答语义相关度计算方法有别于传统文本相似度计算的主要因素。本文在考察了短文本语义相关度计算的特点和难点的基础上,提出了基于深度学习模型的问答语义相关性量化方法,并根据网络社区中问答对的语言特性给出了两种不同架构的深度学习模型。面向问答社区和论坛话题语料的最佳答案识别实验表明,本文提出的深度学习模型能够有效提高问答语义相关度计算的准确率。以社区的结构和社会化信息为基础的非文本特征在问答资源挖掘中的应用已经比较普遍,但目前常用的非文本特征主要来源于观察所得的经验规律,这些特征为答案识别模型提供的信息往往不够明确,因而不利于识别准确率的进一步提高。为了得到对论坛答案识别更具指示能力的信息,本文提出了论坛话题的段落划分策略,并基于话题段落划分的结果提取了一组新的非文本特征,进而给出了以话题段落特征为基础的最佳答案识别方法。实验结果表明,段落特征有助于提高论坛答案信息识别方法的准确率,同时基于段落特征的答案识别方法的整体表现也优于常见的经典方法。在来源于网络社区的问答资源中得到与词语语义关联相关的统计信息,并将这种知识应用于问题的自动生成任务中,从而为面向更广泛数据源的问答资源挖掘提供支持,这是基于统计模型的问句生成研究的根本出发点。目前主流的问句生成技术通常采用基于句法分析和人工编写的句式转换规则的方法实现,因而对描述型答案的适应性不足,且在面对大规模网络文本时的效率较低。本文系统性地提出了基于统计模型的问句生成任务,并给出了基于深度置信网络的问句核心词语生成模型,从而能够根据指定的文本信息自动预测相应问题的主要内容,再根据简单的模板将生成的核心词语组织成问句。实验表明基于深度置信网络的问句生成模型能够较好地适应面向复杂描述性文本的问句生成任务。在社区型问答系统中同一个问题可能对应多个正确的答案,对这些答案的内容进行摘要和融合往往比机械地选出一个最佳答案更有意义。答案摘要是提高问答资源质量的有效手段,也是问答信息语义挖掘研究的集中体现。本文从答案集合主题信息的角度入手对答案文摘的实现策略进行了讨论。针对已知答案集合主题信息的情况,本文提出了基于自适应最大边缘相关模型的文摘方法;在主题信息不足的条件下,本文提出了基于原信息重建和子主题生成思想的两种不同的答案文摘算法。实验部分采用基于准确度和冗余度的文摘质量评价体系对上述文摘方法进行了评测及对比分析。