基于LeakGAN的诱饵文档生成研究与实现

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:huangyi101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
诱饵文档作为黑客常用的网络攻击载体,主要包含两部分:文档内容和植入的病毒或木马。诱饵文档内容能否吸引被攻击者是诱饵文档攻击的关键。一般来说,诱饵文档内容构建的方式有两种:一种是人工伪造诱饵文档,费时费力,但迷惑性高,吸引力强,攻击成功率高;另一种是搜集相关的网络资源构建诱饵文档,方便快捷,但迷惑性差,吸引力弱,攻击成功率低。具备较强吸引力和迷惑性的诱饵文档不仅能成功对被攻击者实施攻击,而且能在被攻击者之间广泛传播,扩大攻击的范围。目前为止,快速构建这类高质量诱饵文档的研究还未有进展。本文提出了基于LeakGAN模型的诱饵文档内容生成方法解决诱饵文档构建问题。作为新的长文本生成模型,LeakGAN模型结合了层次强化学习和生成式对抗网络,在中文短文本、英文长文本方面文本生成效果不错,但缺乏中文长文本方面的应用研究工作,同时现有LeakGAN模型存在两个可以优化的方向:收敛速度和文本生成质量。本文分析并优化了 LeakGAN的网络结构,并通过相关实验验证了优化版LeakGAN网络结构的有效性。在收敛速度方面,LeakGAN的生成器基于长短期记忆网络,训练迭代过程中存在内部协变量位移现象,导致网络层数越深收敛速度越慢。所以在训练过程中本文对激活函数的输入数据做批标准化操作,固定输入数据的均值和方差,保持迭代过程中输入数据分布的一致性。实验结果表明,在EMNLP2017WMT英文数据集和搜狗体育新闻中文数据集上,相比原模型,优化版LeakGAN模型的收敛速度分别提升了 11.50%、6.61%。在文本生成质量方面,LeakGAN的判别器基于卷积神经网络,在池化层阶段向生成器反馈高维特征信息指导文本生成过程获得高质量文本,但是反馈信息没有经过进一步的筛选,相关的语法结构和语义信息不足,并不能有效指导生成器。所以本文在判别器的卷积层前后加入自注意力机制,对输入数据和卷积后提取的特征图从语义和语法结构方面进行关键信息筛选,同时自注意力机制可以灵活的捕捉全局和局部的联系,丰富反馈信息中语法结构和语义信息,从而获得高质量的特征信息来指导生成器生成更高质量的文本。实验结果表明,在EMNLP2017 WMT英文数据集和搜狗体育新闻中文数据集采用的BLEU评价指标上,优化版LeakGAN 分别得到0.684、0.481 最好的 BLEU-4评分。本文对LeakGAN模型结构进行了优化,并通过生成实例分析,得出优化版LeakGAN的生成内容质量能满足诱饵文档构建的质量需求,为诱饵文档构建问题提供了一种解决思路。
其他文献
不平衡数据集主要是可以分为类间的不平衡和类内不平衡。类间不平衡指的是不同类别之间的样本数目差别较大;类内不平衡是指在某一个类别的内部,不同部分的数据分布成不同的簇(Cluster),不同的簇之间样本数目差距较大的情况。因为大多数的传统的机器学习方法默认使用的数据样本相互之间是平等的,并且假设其数据量是相对平衡的,所以数据集不平衡问题的最根本难点是样本的不平衡性往往会显著地影响大多数机器学习方法的性
近几年随着人工智能技术的高速发展,人脸表情识别在智能安防、测谎、智慧医疗、互联网教育等领域出现了广泛的应用场景。由于人们通过面部表达情感的方式不同,很难通过人工设计和选择特征的方法高效的获取人脸面部表情的特征分布,因此目前基于深度卷积神经网络自动提取面部表情特征的方法在人脸表情识别中发挥出越来越大的优势。人脸表情识别任务在计算机视觉领域一直是一个充满挑战的问题,由于人们个体情绪表达的差异性和不受控
边界元法作为一种数值方法,因其计算量小、精度高而得到了发展。边界元法能够自动满足无穷远处边界条件,不用进行人工截断,无需施加人工边界,处理无限域问题具备先天优势。有
物体位姿估计在计算机视觉、增强现实及机器人等领域具有非常重要的地位。现有位姿估计算法依赖于物体先验信息,如形状、大小,以及物体的运动轨迹。当没有先验信息时,采用相
推荐系统能够挖掘出用户可能感兴趣的内容,一定程度上缓解信息过载问题。在推荐系统中利用社交网络信息不仅符合真实场景中用户对于物品的选择过程,同时能够缓解推荐系统中普
随着社会的发展与科技的进步,人们在生活中遇到的许多科学、经济和工程问题呈现多极化、非线性、强约束、高维度、难以建模等特点,传统的优化算法已经很难求得问题的最优解,因此,寻求一种有效并且高效的优化方法用于解决更加复杂的优化问题至关重要,目前也成为了众多学者的研究热点。群智能优化算法作为元启发式算法的一个重要分支,因为其较强的自适应性以及在解决复杂优化问题上所表现出来的优势,受到了众多学者的青睐。教与
随着计算机网络规模不断扩大,传统的IP网暴露出越来越多的问题,如:IP地址资源耗尽、路由表急速膨胀、服务质量得不到保证等,这些导致网络可靠性和安全性急速下降。增加成本可以提高网络的可靠性和安全性,但这会导致网络资源效率低,用户费用高,从而使网络性价比很低。与此同时,网络中新兴业务的发展和新型应用的出现对网络提供带宽的能力提出越来越高的要求。20世纪90年代,国际电信联盟提出下一代网络的概念来解决这
在数字经济蓬勃发展的背景下,一些大型商业网站、金融服务系统等常常面对高并发、高访问量的服务场景。负载均衡技术的出现使得系统在处于这种恶劣的环境下依然可以平稳运行。市场上的负载均衡服务厂商很多,既有硬件厂商也有云服务提供商。诸如F5这种专业的负载均衡硬件产品,虽然性能强悍、运行稳定但是造价同样不菲。性能上稍逊色一些的软件负载均衡不但可以帮助用户应付恶劣服务场景更加有助于消减成本。软件负载均衡中较为有
非线性环形镜锁模光纤激光器是一种基于光纤结构等效可饱和吸收体的被动锁模光纤激光器。非线性环形镜锁模光纤激光器易于实现全光纤全保偏化,具有低成本、结构紧凑和抗干扰
近些年来,软件众包因为其将项目发布到互联网上,开放式利用大众的群体智慧进行软件开发的特点,在工业界和学术界受到了广泛关注。如何帮助用户挑选合适自己的项目,是众包的关