不文明微博帖的自动识别方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:wangrong2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,各类社交网络产品正不断改变着人们的生活方式。微博作为这些产品中的佼佼者,进一步促进了个人与世界的交互。然而微博产品的无门槛准入机制也招致了大量水军散播的不良信息和用户无责任的恶意言论,它们不仅对各年龄段微博使用者的身心造成了影响,更危害着整个网络环境甚至是社会秩序。为了净化网络环境、促进和谐的网络语言生活方式的建设,需要落实对微博信息的监管工作,而对于不文明微博的自动识别则是监管工作中的重要环节。若要实现不文明微博的自动识别,应对微博帖进行不文明倾向的分类。本文的工作主要包括以下两大部分:第一,本文提出了不文明微博语料库的构建方法。由于没有合适的微博语料库来开展研究,特别是缺少一定规模的不文明的微博帖,本文通过调用腾讯微博API下载公共时间线的微博,提取其中的用户种子,并以用户种子为基础获取大规模的用户信息及用户微博文件。针对微博数据中一些对研究毫无意义的微博帖,定义了筛选规则对其进行剔除。另外为了抽取潜在的不文明微博帖,建立了不文明种子词表来匹配一部分可能具有不文明倾向的语料,便于后续研究工作。最后,对微博数据文件进行解析即可索引式地构建不文明微博语料库。第二,本文提出了不文明微博帖的自动识别方法,它的核心问题是微博短文本的分类。我们选择使用朴素贝叶斯分类器作为分类模型,结合基于字的二元语言模型思想对文本进行切分以提取关键的不文明特征。在完成语料人工标注后,进行朴素贝叶斯分类器的训练及分类应用。由于在真实网络环境中不文明微博所占比例未知,引入了正反样例比来动态调整训练集与测试集中不文明微博与非不文明微博的比例,直到分类准确率达到局部最优。对于本模型不能识别的不文明缩写等内容,在前一步的基础上又建立了不文明缩写词表,实现了基于缩写词的不文明微博识别方法,识别效果得到了进一步改善。最后,本文列举说明了不文明微博帖自动识别系统在微博舆情监测中的应用。
其他文献
近年来,随着网络的大量普及以及各种技术的快速发展,互联网上的信息呈爆炸性增长。人们要在网上快速查找自己想要的资料越来越困难,搜索引擎的出现为解决这一难题提供了方便。 
关联规则一直是数据挖掘领域中一个研究热点,被广泛的应用于各个领域。随着web2.0时代的到来,特别是以用户为主导产生互联网内容的社交网络的兴起,数据积累呈现出指数级的增
随着虚拟现实和计算机动画的发展以及游戏领域的需要,树木在风中摆动的模拟已成为研究热点。至今,在树的建模以及树木在微风中的运动方面,已有很多研究。但树木在强风作用下
随着生物学技术的迅猛发展,生物数据正在以几何数量级的速度增长。利用已知的生物网络和多源生物数据找到致病基因,对于了解疾病的发病机制、研发新型药物、制定精准医疗方案
光纤传感技术是伴随着光纤制造技术和光通讯技术的发展而逐步形成的。分布式光纤温度传感系统是专门为大范围多点温度测量的应用而设计的。它可以测量长达数公里的传感光纤沿
学位
嵌入式内存数据库(Embedded Main-Memory Database,EMMDB)是一种能够构建及应用于嵌入式系统或者设备之上的,采用内存数据库(Main-Memory Database,MMDB)结构组织形式的小型
在现实社会网络中存在着许多关系数据,这些数据集合由不同类型的实体构成,实体之间广泛地存在着复杂的链接关系,对这些链接信息的挖掘可以为我们提供关于这个社会网络更丰富更准
学位
Web服务作为一种新兴的Web应用模式,是一种崭新的分布式计算模型,同时也是Web上数据和信息集成的有效机制,目的是要解决异构平台上的数据和应用的整合与共享问题。因为传统的基
近年来,无线Mesh网络(Wireless Mesh Network,WMN)在无线通信领域备受瞩目,它是一种多跳无中心结构的不需要固定网络基础设施的网络,具有自配置、自组织、自管理、自愈、高容量、
无向双环网络是计算机互连网络的一类重要拓扑结构,广泛应用于计算机局域网和各种并行处理结构.本文第2章给出了一些带参数的紧优、次紧优无向双环网络无限族.对给定的正整数n