网络舆情分析中短文本分类和聚类的研究

来源 :中原工学院 | 被引量 : 0次 | 上传用户:lwhxtq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着互联网的普及应用,互联网已经成为影响人们工作和生活的一种新媒介。越来越多的人们更愿意通过互联网提供的各种平台表达个人情感、表达自己对国际形势、政府政策以及社会事件等的态度和观点。因此,互联网已经是舆情传播主要媒介。为了防止网络舆情对社会治安造成负面影响,必须及时掌握网络舆情动态,并适时加以导控。在对网络舆情进行分析过程中,文本分类和文本聚类是自然语言处理中两种重要的技术。网络上的文本数据中短文本的数量相当大,因此,研究短文本分类和聚类很有必要。目前,对长文本分类的研究很多,但是专门针对短文本分类的研究很少,也没有真正适合短文本分类的算法。   针对以上问题,本文首先介绍了文本分类和聚类以及短文本分类的研究现状,分析文本分类和聚类的流程,挖掘其关键技术,并对文本聚类算法做了测试。其次,基于对长文本分类的研究,提出利用长文本语料库作为训练集,形成“词典”,并对特征项权重计算公式TF-IDF做了改进。然后,将改进的简单向量距离算法(Rocchio)和改进K最近邻居分类算法(KNN)相结合形成新算法,利用该算法对短文本实现分类。   最后,为了能够将改进的短文本分类算法投入应用,本文对新算法做了测试,并设计了网络舆情分析系统,给出了信息采集模块、短文本分类和文本聚类模块的流程设计。
其他文献
随着全球范围内分布式系统发展进程的加快及其构造的日趋复杂,越来越多的失效现象层出不穷,严重威胁着系统的高可用性。失效检测作为保障分布式系统高可用性的核心技术之一,
槽填充(Slot Filling)任务是TAC(Text Analysis Conference)会议于2009年提出的KBP(Knowledge Base Population)评测任务的主要组成部分。作为问答系统和信息抽取中关系抽取
伴随着人们日益增长的多媒体需求,多媒体技术有了突飞猛进的发展。而多媒体技术最核心的部分—视频编解码技术同样也得到了快速的发展。AVS是我国自主研发的音视频编解码标准
与国内典型的报名系统不同,跨境招生报名系统具有用户类型多、用户交流所用语言不统一、系统性能受国际出口带宽限制、系统支撑平台复杂等诸多特点,在此诸多特点下,跨境招生
高血压是严重影响我国居民身心健康的疾病,但是目前我国的医疗卫生条件并不能跟上高血压患者的就医需求,存在“看病难、看病贵”等诸多问题,因此国家大力地推进医疗信息化建
聚类是数据挖掘的主要技术之一,也是学术界研究的热点问题,并在各个领域的数据分析中起到重要作用。聚类边界的识别有助于提高聚类结果的准确性和揭示聚类所具有的特性,对它
信息技术的发展使数据得到了爆炸性的增长,这些来自互联网及生活中的数据往往存在着紧密的关联性,图作为一种广泛应用的数据结构,非常适合用来描述这些具有紧密关联性的数据,这些
随着计算机技术的不断发展,计算机软硬件系统已经深入渗透到实际生活中的各个领域,若这些系统一旦出错,将给人类带来不可承受的损失,所以,安全问题已经逐渐成为人们的重点关
近年来,中国奶牛养殖业快速发展,黑龙江省的奶牛养殖业已经具有很大的规模,且呈逐年上升趋势。多数奶牛场尚缺乏有效的监测管理机制,当奶牛在养殖场饲养过程中,出现生理异常或走失
车辆图像检索是智能交通系统的重要组成部分,车辆检索在高速公路服务区、停车场等场所以及在停车场智能管理、高速公路自动收费、道路监控、超时停车检测等方面有着非常好的应