论文部分内容阅读
随着大数据时代的到来,保障用户的信息安全成为目前的研究热点。信息隐藏是信息安全领域的重要技术之一。该技术通过将秘密信息嵌入到在公开信道传输的数据中,使其不易被攻击者察觉。由于文本具有较高的编码性,且是人们日常通信及发表观点时使用最为广泛的载体,基于文本的信息隐藏吸引了研究者的关注。受益于深度学习神经网络的飞速发展,将神经网络与信息隐藏相结合成为探索新方法的一个重要分支。基于上述研究背景,本文对基于文本自动生成的信息隐藏方法展开相关研究,主要工作如下:首先,数据集的预处理。神经网络模型依赖于其强大的自我学习能力,因此,需要构建含有大量自然文本的数据集。本文选用评述性文本数据集——影评数据集、正式性文本数据集——新闻数据集以及非正式性文本数据集——推特数据集作为神经网络的训练集,以此构建参数适配的神经网络模型。数据集预处理包括替换字母大小写、删除特殊符号和过滤web链接等,消除文本在自动生成过程中的干扰因素。其次,设计秘密信息嵌入与提取算法。本文选用统计语言模型马尔可夫模型和神经网络模型循环神经网络作为文本生成模型进行对比分析。马尔可夫模型具有与自然语言生成过程所匹配的元结构。循环神经网络能够将文本映射到高维语义空间,通过语义分布的异同进行特征提取与分析,具有良好的文本生成效果。二者均可在生成过程中构建候选池,并对池中单词进行哈夫曼编码,依据秘密信息比特流生成隐写文本,实现秘密信息的嵌入。在秘密信息提取时,发送者和接受者需具有相同的训练集或生成模型,依据实际接收的当前发送字对文本中包含的秘密信息进行提取。结果表明,本文提出的基于文本自动生成的信息隐藏方法具有可行性和有效性,且生成的隐写文本语义连贯,具有很高的隐蔽性。基于循环神经网络生成的隐写文本具有更高的隐蔽性,适用于非正式性文本;基于马尔可夫模型生成的隐写文本具有更高的隐藏容量,适用于正式性文本。最后,提出了候选池自收缩机制。考虑到不同的词语具有不同的敏感度,改进方法在构建候选池的过程中引入困惑度计算。在哈夫曼编码之前,需计算候选池中每个单词与前文的困惑度,根据预设困惑度值对候选池进行筛选;筛选过后的单词组成新的候选池,再进行哈夫曼编码。结果证明,改进的方法可以生成更加通顺流畅的隐写文本,但牺牲了较小的隐藏容量。