面向新媒体的自动文本摘要系统研究与实现

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:zcat16
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博、微信公众号等新媒体的崛起,网络数字媒体代替了报纸等传统纸质媒体成为人们发布和获取信息的主要渠道。而互联网的高速发展和各种移动终端设备的流行,又带来了网络中的电子文本信息的爆炸式增长。如何从海量的文本信息中快速获取到有效信息已成为社会各界普遍关注的问题,而自动文本摘要技术正是解决这一问题的核心。自动文本摘要技术不仅能提高信息获取效率,更是对话系统、舆情分析等诸多上层应用的支撑技术,拥有广阔的应用前景。目前的自动文本摘要技术主要存在以下问题:(1)在面向短文本的生成式摘要技术中,生成的摘要词语混乱重复、无法生成词表外词、模型在训练时产生退化;(2)在面向长文本的抽取式摘要技术中,抽取的句子不够通顺连贯;(3)在对模型技术的落地上,高精度的自动文摘开放系统较少,缺乏分布式摘要模型方向上的落地实践。针对以上问题,本文进行了关于长短文本的摘要技术研究和大数据环境下文本摘要模型的探索、研究与实践。主要工作有:(1)设计并实现了一种新的短文本生成式摘要模型HCRPGN(Highway Condition Radom Pointer-Generator Network,高速条件随机指针生成网络):使用CRF(Conditional Random Field,条件随机场)层缓解了生成词混乱重复的问题;设计了指针生成机制,基本解决了00V(Out Of Vocabulary,未登录词)问题;构造基于Highway架构的信息通路,避免了深层网络的退化。从而使HCRPGN网络模型在三项基本ROUGE指标上均提升了 3%。(2)探索、研究并实现了一种长文本抽取式摘要的新模型—TextRank+CNN+VAE融合模型。通过创新性的将图像领域的变分自编码器思想应用于文本摘要,构建文本改写模型,并使之与TextRank无缝衔接,解决了抽取式摘要语句不通顺问题。(3)研究了分布式、海量数据环境中的自动文本摘要系统的落地与优化。使用Redis构建分布式爬虫加快数据获取速度,使用参数服务器构建分布式GPU集群加快模型运算速度,使用CPU集群对数据预处理和后处理提高系统的并行化。论文研究所形成的系统最终在阿里巴巴公司的“神马搜索”部门实际运行。
其他文献
地方交易所作为地方政府批复的第三方平台机构,经过了前期快速发展的阶段,目前正进入强监管期,业务合规、风险防范成为各地方交易所重点关注的方向,也是地方交易所健康发展的
通过非共价键相互作用组装而成的π-共轭超分子组装体,因其对外界刺激诸如化学、机械力、光照、蒸气等具有独特的响应性,已被广泛应用于有机光电、生物成像、光催化以及信息
<正>十大差错分别是:将“像”错为“象”,这在电视字幕中出现最多;将丙戌年的“戌”字,错成“戍”字,这在大量的台历挂历中出现;将神舟六号的“舟”字,错成“州”字,众多报纸
永磁同步电机(PMSM)具有功率密度大、结构简单、效率高、可靠性好等优点,在以电动汽车、舰船电力推进、高速铁路为代表的新型电力牵引技术中具有广阔的应用前景。开绕组结构
一个问题的条件数是衡量当原始数据发生微小变动对该问题解的影响.在本文中,不论矩阵A和BT是否列满秩,我们都将通过不同的范数对多右端最小二乘问题min ‖AXB-D‖F的解以及残
西方哲学自其诞生之日起,不但具有鲜明的"爱智慧、尚思辨"的特征,而且具有"爱自由、尚正义"的品格。哲学与政治既有内在相关的一面,又存在着相互对立的一面。在现代西方社会,哲学
矩形基础受垂直均布荷载作用下,地基土中任一点的附加应力虽然可以通过角点法和应力叠加原理求得,但是除了矩形角点下各点计算较容易外,其余的点计算均较繁琐;矩形基础受垂直三角
专家表示,自今年初创设常备借贷便利以来,央行通过综合运用常备借贷便利和公开市场操作两大类货币政策工具管理流动性,已取得明显成效。尤其是二季度末,在货币市场受多种因素叠加
报纸
<正>教育部、卫生计生委、中国残联等7部委共同发布的《特殊教育提升计划(2014-2016)》,从"进一步保障残疾人受教育权利"的高度提出了提升特殊教育水平的任务、措施和组织领
会议
2011年,社会对企业行为的关注似乎格外突出。3&#183;11日本大地震和海啸引发的福岛核电站核泄露事故将企业责任置于舆论的风口浪尖;3&#183;15“瘦肉精”问题曝光,引起消费者对猪