论文部分内容阅读
随着互联网的高速发展,各类社交网络产品正不断改变着人们的生活方式。微博作为这些产品中的佼佼者,进一步促进了个人与世界的交互。然而微博产品的无门槛准入机制也招致了大量水军散播的不良信息和用户无责任的恶意言论,它们不仅对各年龄段微博使用者的身心造成了影响,更危害着整个网络环境甚至是社会秩序。为了净化网络环境、促进和谐的网络语言生活方式的建设,需要落实对微博信息的监管工作,而对于不文明微博的自动识别则是监管工作中的重要环节。若要实现不文明微博的自动识别,应对微博帖进行不文明倾向的分类。本文的工作主要包括以下两大部分:第一,本文提出了不文明微博语料库的构建方法。由于没有合适的微博语料库来开展研究,特别是缺少一定规模的不文明的微博帖,本文通过调用腾讯微博API下载公共时间线的微博,提取其中的用户种子,并以用户种子为基础获取大规模的用户信息及用户微博文件。针对微博数据中一些对研究毫无意义的微博帖,定义了筛选规则对其进行剔除。另外为了抽取潜在的不文明微博帖,建立了不文明种子词表来匹配一部分可能具有不文明倾向的语料,便于后续研究工作。最后,对微博数据文件进行解析即可索引式地构建不文明微博语料库。第二,本文提出了不文明微博帖的自动识别方法,它的核心问题是微博短文本的分类。我们选择使用朴素贝叶斯分类器作为分类模型,结合基于字的二元语言模型思想对文本进行切分以提取关键的不文明特征。在完成语料人工标注后,进行朴素贝叶斯分类器的训练及分类应用。由于在真实网络环境中不文明微博所占比例未知,引入了正反样例比来动态调整训练集与测试集中不文明微博与非不文明微博的比例,直到分类准确率达到局部最优。对于本模型不能识别的不文明缩写等内容,在前一步的基础上又建立了不文明缩写词表,实现了基于缩写词的不文明微博识别方法,识别效果得到了进一步改善。最后,本文列举说明了不文明微博帖自动识别系统在微博舆情监测中的应用。