论文部分内容阅读
随着微博、微信公众号等新媒体的崛起,网络数字媒体代替了报纸等传统纸质媒体成为人们发布和获取信息的主要渠道。而互联网的高速发展和各种移动终端设备的流行,又带来了网络中的电子文本信息的爆炸式增长。如何从海量的文本信息中快速获取到有效信息已成为社会各界普遍关注的问题,而自动文本摘要技术正是解决这一问题的核心。自动文本摘要技术不仅能提高信息获取效率,更是对话系统、舆情分析等诸多上层应用的支撑技术,拥有广阔的应用前景。目前的自动文本摘要技术主要存在以下问题:(1)在面向短文本的生成式摘要技术中,生成的摘要词语混乱重复、无法生成词表外词、模型在训练时产生退化;(2)在面向长文本的抽取式摘要技术中,抽取的句子不够通顺连贯;(3)在对模型技术的落地上,高精度的自动文摘开放系统较少,缺乏分布式摘要模型方向上的落地实践。针对以上问题,本文进行了关于长短文本的摘要技术研究和大数据环境下文本摘要模型的探索、研究与实践。主要工作有:(1)设计并实现了一种新的短文本生成式摘要模型HCRPGN(Highway Condition Radom Pointer-Generator Network,高速条件随机指针生成网络):使用CRF(Conditional Random Field,条件随机场)层缓解了生成词混乱重复的问题;设计了指针生成机制,基本解决了00V(Out Of Vocabulary,未登录词)问题;构造基于Highway架构的信息通路,避免了深层网络的退化。从而使HCRPGN网络模型在三项基本ROUGE指标上均提升了 3%。(2)探索、研究并实现了一种长文本抽取式摘要的新模型—TextRank+CNN+VAE融合模型。通过创新性的将图像领域的变分自编码器思想应用于文本摘要,构建文本改写模型,并使之与TextRank无缝衔接,解决了抽取式摘要语句不通顺问题。(3)研究了分布式、海量数据环境中的自动文本摘要系统的落地与优化。使用Redis构建分布式爬虫加快数据获取速度,使用参数服务器构建分布式GPU集群加快模型运算速度,使用CPU集群对数据预处理和后处理提高系统的并行化。论文研究所形成的系统最终在阿里巴巴公司的“神马搜索”部门实际运行。