BBS短文本聚类技术研究

被引量 : 0次 | 上传用户：Hollan720

【摘要】

：

高校BBS论坛信息内容与学校日常工作、校园学生活动密切相关,其信息不仅丰富而且更新速度很快,但是各BBS站点的结构划分比较复杂而且混乱,如何有效地组织并利用这些资源信息

【作者】

：

朱文焕

【发表日期】

：

2009年期

【关键词】

：

短文本聚类短文本重构技术近邻传播算法初始聚类中心选择

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

高校BBS论坛信息内容与学校日常工作、校园学生活动密切相关,其信息不仅丰富而且更新速度很快,但是各BBS站点的结构划分比较复杂而且混乱,如何有效地组织并利用这些资源信息涉及到短文本处理的相关技术研究。BBS帖子作为短文本的一种主要表现形式,其聚类研究具有很大的意义。借助于BBS短文本聚类分析,可以从一堆无标签的信息中发现未知话题,作为话题识别与跟踪的预处理阶段,也可以根据话题的走向对BBS的舆论导向进行正确的导引,而且研究真实环境语料下的BBS短文本聚类,对于短文本聚类技术的研究具有非常大的理论意义。短文本具有独特的语言特征,导致其处理技术不同于传统文本的自然语言处理。单条短文本一般长度都非常短,样本特征非常稀疏,很难准确地抽取有效的语言特征;短文本实时性特别强,数量异常庞大,对短文本处理技术提出了比常规文本处理技术更高的效率要求;短文本语言表达简洁,错误拼写、不规范用语和噪音比较多,给短文本处理技术带来了更大挑战。因此,短文本聚类技术的发展相对缓慢。本文提出了短文本重构的思想,主要是通过主题相关信息抽取、噪声处理和水帖过滤将BBS下的一条线索内的帖子重构为一篇文档,从而达到扩充文本内容和特征的目的,以解决短文本的稀疏性。本文采用的K-means算法是聚类分析中一种被广泛应用的启发式划分方法,具有简单、快速的优点。然而这种算法对初值敏感,不同的初值常导致不同的聚类结果,没有良好的稳定性,且容易陷入局部最优而非全局最优的不良结果。本文采用近邻传播Affinity Propagation算法对其初始聚类中心进行选择,从而克服了算法对初始聚类的敏感问题。实验表明,通过短文本重构技术构造数据集并且对K-means算法的初始聚类中心选择进行改进后,短文本聚类取得了良好的效果。

其他文献

论我国商品房预售制度中预购人权益的法律保护

商品房预售制度起源于香港,对我国内地房地产市场的发展起到了重要作用。对房地产开放商来讲可以起到融资的作用,据有关资料统计表明,在我国房地产开发资金中,预售款已占房地

学位

预售制度预售合同契约自由预告登记

基于SOPC的嵌入式系统设计

由于嵌入式系统越来越复杂,SOPC技术能够实现硬件和软件的协同开发,SOPC和RTOS结合构成通用开发平台加速嵌入式系统的开发过程,成为嵌入式系统设计一个新的方向。

会议

嵌入式系统SOPCIPRTOS

特殊灯芯绒前处理工艺

特殊灯芯绒，如仿平绒类灯芯绒、涤棉类灯芯绒、竹棉类灯芯绒、粘棉类灯芯绒、麻棉类灯芯绒、彩棉灯芯绒和霜花灯芯绒等，由于纤维的组织规格差异，其前处理工艺与常规灯芯绒存在很

期刊

前处理工艺过程灯芯绒织物

大连海关缉私情报信息管理系统规划

大连海关缉私局成立十年以来,破获的走私犯罪案件数量、抓获的犯罪嫌疑人数量都有着大幅的增长。情报工作在缉私办案中的地位和作用日益凸显,所担负的职责更加繁重,任务更加

学位

海关缉私管理信息系统系统规划

武士道论考

关于如何定义日本的武士道,这恐怕不单单是学术上所引人关注的研究课题。何为武士道,以一般理论阐述,就是在日本幕府时代,武士必须遵守的封建道德。从明治时代一直到第二次世

学位

武士道论忠义道德自我性

涉诉信访的现状、成因及对策

涉诉信访是目前困扰法院工作、影响社会稳定的一大难题。近年来,虽然对解决涉诉信访问题进行了诸多改革的尝试,但涉诉信访的形势却更加严峻,信访要求常常超出司法的范畴,信访

学位

涉诉信访困境消解

我国海关服务型行政模式研究

建设服务型政府是我国行政体制改革的目标之一。笔者通过分析服务型政府的研究现状,引入深刻影响当代政府治理和行政管理的“新公共服务”理论,提出在海关构建以服务型政府管

学位

海关服务型行政模式

千斤顶顶举法测量轴承负荷的影响因素

船舶轴承负荷测量结果，是检验轴系校中质量的重要标准，《钢质海船入级规范2006》要求对轴系安装后，一般应对轴系校中结果进行实测验证。通过现场检验与理论结合，对现场轴承负荷测

期刊

校中计算顶举系数液压千斤顶

水下爆炸载荷作用下海洋结构物动态响应的数值模拟

舰船的生命力是舰船的重要性能指标之一,水下爆炸的破坏力对舰船等水中结构物构成了严重的威胁。由于水下爆炸的各种特性,水下爆炸的研究别具吸引力。人们采用各种方法对其进

学位

水下爆炸鞭状运动损伤研究

嘉峪关供电公司内部审计环境识别与评估研究

现代公司治理中,内部审计已经被人们公认为影响公司治理的一个重要因素,内部审计、外部审计、董事会以及高层管理人员被认为是有效公司治理的四大基石,在公司管理体系中起到

学位

内部审计环境识别评估

BBS短文本聚类技术研究

与本文相关的学术论文