基于刻面分类的网络群体事件主题聚类研究

来源 :江苏科技大学 | 被引量 : 1次 | 上传用户:youyouwoyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着我国经济与文化的快速发展,我国的社会经济结构进入了一个急剧变革的转型时期。庞大的网络群体与社会经济矛盾交织在一起,加上“互联网+”行动计划的推动,使得近年来我国网络群体事件呈现数量多、规模大、主题和背景复杂的趋势。网络群体事件的频繁发生,已经严重影响到甚至危害了社会秩序的稳定和人民群众的安宁,同时也得到了政府相关部门的高度重视。有效地对网络群体事件进行监控,关键在于快速及时地获取网络群体事件的主题信息。主题聚类是目前实现主题识别的主要技术,如何利用主题聚类技术从繁杂的网络信息中获取网络群体事件的主题,已然成为国内外众多学者研究和探索的热点。本文针对网络群体事件的主题聚类进行了研究,主要工作包含以下两个方面:(1)首先研究并改进了新闻网页文本的关键词提取方法。传统的文本关键词提取方法主要基于词汇的词频特征,而网页文本与普通文本在文本形式上存在差异,因此利用传统的关键词提取方法提取网页文本关键词时效果不理想。本文在基于词频特征的关键词提取方法基础上,通过分析网页文本的特点,结合词汇的词性特征、位置特征和词共现特征等信息,并给予每个特征信息适当的调整参数,形成了多种特征组合的词汇权重计算公式,并依据此公式进行新闻网页文本的关键词提取。(2)针对传统的基于向量空间模型的文本聚类算法存在的数据高维稀疏、缺乏语义信息的问题,本文提出了基于刻面分类和潜在语义分析(LSA,Latent Semantic Analysis)的文本聚类算法。首先引入刻面分类思想,将文本特征词汇划分为主题性刻面和描述性刻面,选取主题性刻面包含的特征词汇构建词汇-文本矩阵,降低了矩阵的维度和稀疏程度;然后利用LSA方法将高维的特征空间投射到低维的潜在语义空间中,不仅进一步缩小了词汇-文本矩阵的规模,而且能更好的挖掘网页文本的语义信息。最后结合网页文本数据集进行了主题聚类实验论证,验证了基于刻面分类和LSA的网络群体事件主题聚类算法聚类结果的准确性和高效性。
其他文献
实时系统与人们的生活联系越来越密切,它被广泛应用于工业控制,网络传输,多媒体处理,以及军事等领域。对实时系统的研究最初围绕单处理器平台进行;随着多处理器技术的诞生,以
人脸识别是模式识别领域中一个相当困难又具有重要理论价值和实际应用价值的研究课题,在身份鉴别、人机交互和视觉监控等领域有着巨大的应用前景。本文主要研究了人脸识别系
关联规则挖掘过程中频繁项集(Frequent Itemset,FI)的求解是关联规则挖掘的基础和前提,也是关联规则挖掘中最耗时的一步。降低候选项集的数量是减小开销的最好手段。由于最大
在图像处理技术中,图像分割和图像匹配的研究一直深受人们重视,二者的应用领域极其广泛。利用分割技术能够获得图像中指定目标的形状或者轮框描述,为下一步进行目标识别打下
随着Web技术的发展和人们对Web使用的要求越来越高,传统的交互方式一方面使用户觉得难以使用、体验感太差,另一方面也不利于开发人员进行开发和维护。所以当Web2.0概念被提出
随着柴油车保有量的大幅增加,NOx和柴油车颗粒物PM(Particulate Matter)排放呈现明显的上升趋势,对生态环境破坏严重,加强柴油车尾气排放检测、控制大气污染刻不容缓。自由加
随着科技的飞速发展,专利作为衡量技术创新的重要指标也备受关注,科研机构和企业对专利信息的挖掘越发重视。尽管专利文献已经按照特定方法进行了详细的分类,但是专利文献的非结构化特性和专利数据量的爆炸式增长决定了通过传统的基于统计分析的方法难以挖掘深层的信息,而通过文本挖掘技术对专利文本进行分析处理又呈现出算法扩展性不足、数据处理平台处理能力受限等问题。大数据的兴起为专利数据的分析带来了新的机遇,将大数据
随着互联网技术的飞速发展,SOA、Web2.0和Ajax等web新技术的日益成熟,SaaS的应用逐渐普及。SaaS按需订购的模式,受到了中小型企业的追捧。各大软件厂商看到了SaaS领域的巨大
语音端点检测的目的是从包含语音的一段信号中确定出语音的起点和终点,是语音信号处理的前端操作,在语音增强、语音编码、语音识别等领域得到广泛应用。语音端点检测方法有基
随着社会老龄化问题的突显以及空巢老人家庭数量的不断增加,各种突发心脑血管疾病已成了威胁人生命的最重要原因之一。如果能够及早发现和及早治疗,绝大多数患者可以转危为安