论文部分内容阅读
在互联网时代,网络广告已然成为了极具有价值的广告媒体之一。对海量的互联网广告信息进行识别是大数据分析中十分重要的内容。然而,网络广告在迅猛发展的同时,由于广告监管和广告从业人员素质等问题,使大量的网络违规广告层出不穷、屡禁不止。因此,对互联网广告进行有效的监管有着重要的现实意义。为了更加智能化的对网络广告中违规描述进行识别,论文从网络广告中两类常见的违规情况出发,提出了两种算法,它们能够对网络广告内容中违规描述进行自动识别。本文的主要工作如下:1.对网络广告中可能存在的违规词语进行识别。针对网络广告数量巨大,难以采用人工方式逐条监管与审查的问题,提出了一种基于违规词库识别广告违规词语的方案。首先依据新修订的《广告法》提取违规种子词汇,再利用同义词扩充种子词汇和语义相似度过滤扩充词汇,得到网络广告违规词库。然后,基于自然语言的规则,在字符串匹配的基础上,结合上下文语义信息识别网络广告中的违规词。实验的结果表明,本方法能有效的识别网络广告中的违规词,可以有效辅助网络广告的监管,具有很好的应用潜力。2.对网络广告中可能存在的违规描述语句进行识别。针对网络广告文本较短以及语义缺失等问题,提出利用Google开发的深度学习工具Word2vec和长短时记忆神经网络模型LSTM的识别方法。首先考虑到传统文本表示方法易造成数据表示稀疏及维度灾难问题,采用Word2vec对网络广告进行包含语义的词向量、句向量表示。然后对于向量化后的文本,采用专门处理序列化数据的长短时记忆神经网络LSTM模型进行网络广告违规语句判定。最后,实验结果表明,本方法能够有效识别网络广告违规语句,特别是对违规广告语句中字形相似、词语语义相似的违规类型识别准确率高。本文提出的两个方法能有效地识别网络广告中的违规词和含违规描述的违规语句,为智能识别网络广告中的违规内容奠定良好的基础,可以在一定程度上减轻执法人员的工作负担,对构造一个值得消费者信任的网络广告市场环境有积极的意义。