【摘 要】
:
随着互联网技术的飞速发展和使用人群的快速增加,越来越多的人群通过互联网来表达自己观点。尤其是大学生使用互联网更加的频繁,互联网已经成了大学生表达他们意见的主要载体
论文部分内容阅读
随着互联网技术的飞速发展和使用人群的快速增加,越来越多的人群通过互联网来表达自己观点。尤其是大学生使用互联网更加的频繁,互联网已经成了大学生表达他们意见的主要载体。在本文中,对网络舆情的理论、网络舆情信息的收集、网络舆情数据的预处理、网络舆情数据的分析和常见的文本聚类算法进行了全面的描述和分析。首先,研究了基于高校论坛的网络舆情信息采集和数据预处理技术。通过对高校论坛网站的数据获取方式的分析,提出了基于AJAX的动态网页获取技术。同时根据高校论坛的网页的结构信息,设计了基于DOM技术的网页清洗方法。采用盘古分词系统提供的API,对抓取的数据进行中文文本分词。传统的聚类算法通常是建立在通过词频建立文本向量来计算文本间的相似度的基础上,忽略了文本间具有潜在的语义关联的可能性。而且,传统的聚类算法因为是以词频来构建空间向量,维度过高,计算结果不够准确。鉴于以上的缺陷,本文提出了基于结合LDA主题模型和空间向量模型来计算文本的相似度的聚类算法。LDA主题模型是一个文本潜在主题的概率生成模型,可以解决文本之间语义的关系,同时,LDA主题模型具有强大的降维能力,可以提高聚类结果的准确度。本文提出的基于LDA主题模型和空间向量模型相结合来计算文本相似度的聚类算法,不仅解决了传统的文本聚类的深层语义信息丢失的问题,同时解决了LDA主题模型因为过分降维使得维度过低,从而使得文本区分能力不够的问题。依靠上述的研究成果,本文设计高校网络舆情分析原型系统的总体架构和各个功能模块,并通过VS2010进行开发实现,验证了本文的研究成果。
其他文献
目的探讨四神丸合乌梅丸治疗溃疡性结肠炎临床疗效及不良反应,分析其在临床上的应用价值,用以指导临床用药。方法选取2010年8月—2012年4月来该院治疗的溃疡性结肠炎患者134
紫花苜蓿属于豆科,蝶形花亚科,是世界上广泛种植的优良牧草,也是我国种植面积最大,分布最广的人工牧草,苜蓿适应性强、营养丰富、品质优良,茎叶中含有丰富的蛋白质、矿物质、
图案是一利主要用于装饰性目的和作用的艺术形式,也是一门范围和内容及其宽泛的艺术形式,本文主要是截取了图案艺术中的一个独特的表现方式——时装图案来做为研究对象,其装
痛经是妇科临床常见疾病之一,是影响妇女生活、工作学习和身心健康的常见多发病。本病多由肝气郁结,或感受风寒,或由气血不足,而致经血运行不畅而发生的小腹疼痛,祖国医学认
目的研究与探讨隐形义齿在牙列缺损修复中的临床应用效果。方法选取126例于2011年4月—2013年4月期间在我院进行隐形义齿修复牙列缺损的患者。按照Kennedy分类进行分组,采取
对于《阿Q正传》反映出鲁迅对辛亥革命失败批判的观点,逐渐受到反驳。在小说中,鲁迅对辛亥革命的批判主要是从思想启蒙、改造国民性的角度出发的,辛亥革命只是作为一般革命的
《史记》《左传》对郑庄公记载各异,二者除史料记载有差,郑庄公形象也有本质不同。通过《史记》《左传》对比,太史公不仅在记叙手段和描写方法上对郑庄公有所偏爱,得出全新"
<正> [病例60] 患者58岁,女,初诊于1974年11月。病历:既往症有葡萄胎,肾炎、膀胱炎、血清肝炎等。主诉手足剌痛,麻木,从肩向下肢麻木感传下来。1961年患子宫病而接受手术,摘
流浪儿童问题是世界各国都存在的社会问题。随着我国社会的全面转型,流浪儿童问题也日益突显。流浪儿童问题的解决是一个系统工程,需要从立法、执法、司法以及社会多方面共同
对腐败一词的不同认识导致了人们对高校学术腐败的认知差异。高校学术腐败的判定应以客观事实为依据,以行政权力和学术权力的滥用为标准。学术教育的缺失、功利化的浮躁心态