论文部分内容阅读
近年来,随着社交媒体的飞速发展,针对社交媒体内容的评论自动生成技术有希望产生巨大的社会和商业价值,因此该技术引起了工业界和学术界越来越多的关注。面向社交媒体的评论自动生成工作是指借助于目前流行的深度学习技术、自然语言生成技术、数据挖掘技术等,通过构建高性能的算法赋予机器和人类一样能够进行语言理解和语言表达的能力,模仿人类的语言习惯对社交媒体内容进行评论。目前,针对社交媒体内容的评论自动生成工作处于发展的初始阶段,具有较大的研究价值。先进的社交媒体评论自动生成技术不仅可以辅助个人轻松维护复杂的社交媒体关系,而且能够帮助组织机构进行新商品在社交媒体平台的推广,还能够帮助政府更好的进行社会舆情引导,维护社会的长治久安。但是,当前社交媒体评论自动生成工作同样面临诸多的挑战,主要包括以下几点:(1)如何通过建模的方法,赋予机器模拟不同社交媒体用户语言风格的能力;(2)在给予机器情感极性的情况下,机器如何按照指定的情感进行评论生成,而且能够在生成的评论中体现和指定情感极性一致的情感倾向;(3)目前该领域缺乏能够支持模型训练的大规模的数据集。以上挑战都严重制约了面向社交媒体评论自动技术的发展。因此,为了解决上述问题,我们提出面向社交媒体的个性化和情感化评论自动生成系统,简称CRobot。针对用户个性化建模问题,我们提出了基于情感感知的用户个性化建模方法,从多源异构社交用户数据中挖掘用户个性的潜在特征表示。为了进一步提高评论生成过程中算法在情感极性和用户个性上的表达,在模型的训练过程中,我们提出了一种细粒度判别机制,分别从语言流畅性、文本逻辑关系、情感化和个性化四个方面来约束模型,以期实现高质量评论文本的生成。由于目前尚无支持该工作的大规模数据集,本文中我们基于Twitter平台自主构建了一个大规模数据集并将其开源,简称DAZE,该数据集包含6763条推文以及由153664个用户创建的1461713条评论。通过大量的实验证明,CRobot在主观和客观评估方面分别超过了现有的几个最新的方法。