论文部分内容阅读
自动问答系统是自然语言处理领域的一个重要研究方向,旨在让用户用自然语言进行提问并获得答案。基于常问问题集的问答系统,将用户的常问问题和与之相应的答案组织起来,所给定的答案更加准确、高效。一直以来,如何获取高质量的海量常问问题集数据是该类系统的发展瓶颈,而目前互联网中存在着数以千计的人工客服,每天产生数以十万计的人工客服数据,为基于常问问题集的问答系统提供了新的发展机遇。本文以某游戏交易平台的23万人工问答语料为数据基础,以该平台在线自动客服系统为应用背景,主要做了以下几方面工作:首先,本文设计了一套完整的基于常问问题集的问答原型系统。在本文所设计的系统的框架内,综合运用中文分词、命名实体识别、中文词性标注、句法分析、关键词提取、信息检索、相似度计算法等相关技术与算法,为在海量数据上实现基于常问问题集的问答系统提供了一套完整的解决方案。然后,本文重点对基于常问问题集问答系统中的核心模块——问句相似度计算模块进行了详尽的研究与分析。通过对几种传统相似度计算方法的比较,结合本文的实际应用背景,总结出运用传统相似度计算方法解决本文所处理问题时的缺陷与不足。在研究与分析的基础上,本文从权重调整、同义词扩展、词汇对齐、依存句法分析等几个角度提出了详细的改进方案,并引入线性模型,使用Pranking算法对本文所研究的多种相似度计算方法进行特征融合,进一步提升系统性能。最后,本文通过实验,对前文的理论分析的正确性和本文提出的改进算法的有效性进行验证。对于效果较差的相似度计算方法,本文进行了进一步的错误分析,提出了进一步的改进方案。本文提出了一套完整的基于常问问题集的系统框架,并对问句相似度部分做了重点研究,得到了一些成果,但也存在一定的问题,如:在同义词扩展的过程中,存在大量的一词多义现象,给相似度计算带来了新的噪声,应进一步进行词义消歧工作;使用依存句法分析技术会大大降低系统的响应时间等。