一种改进的短文本层次聚类算法

来源 :信息工程大学学报 | 被引量 : 0次 | 上传用户：UltraSparc

【摘要】

：

互联网上存在着海量蕴含丰富信息的短文本数据,由于短文本存在特征稀疏、用语不规范的特点,使用传统的聚类算法效果较差。提出了一种使用词向量表示特征并结合关键词提取的短

【作者】

：

李天彩席耀一王波张佳明

【机构】

：

信息工程大学

【出处】

：

信息工程大学学报

【发表日期】

：

2015年6期

【关键词】

：

短文本聚类词向量关键词提取 short texts clustering word vector keyword extraction

【基金项目】

：

国家社会科学基金资助项目（4BXW028）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网上存在着海量蕴含丰富信息的短文本数据,由于短文本存在特征稀疏、用语不规范的特点,使用传统的聚类算法效果较差。提出了一种使用词向量表示特征并结合关键词提取的短文本聚类算法：定义特征权重计算公式,计算类簇中特征的权重,得到类簇的关键词;使用Skip-gram模型训练得到的词向量计算关键词之间的语义相似度进而得到类簇的相似度实现聚类。在4个数据集上进行的实验结果表明文章的方法效果优于传统的聚类算法,宏平均较次优结果分别提高了22.3%、24.9%、2.9%和34.4%。

其他文献

通用技术应注重学科实践性

通用技术是2007年陕西省高中课改增设的一门新学科，是新课改的一个亮点，它是一门立足实践的课程，主要是以学生亲手操作、亲历情景、亲身体验为基础，注重“做中学”和“学中做”，强调通过设计、制作和试验等活动获得技术实践体验。但是受高考应试教育的影响，造成学校对通用技术重视不够，课时开设不足；但又在高中学业水平考试的压力下，课程又必须讲完。因此，教学中形成了教师赶进度、满堂灌，学生死记硬背的现象，脱离了

期刊

实践体验新学科技术通用2007年亲身体验应试教育陕西省

一种基于UOV方案的改进多变量签名方案

提出了一种改进的UOV签名方案。改进方案不仅保持了原方案计算高效的特性，同时能够抵抗针对原方案的攻击。

期刊

多变量公钥密码UOV签名方案秩攻击Grobner基XL方法multivariate public-key UOV signature scheme

基于Kademlia的僵尸网络命令定向发布机制

近年来出现的CXPST攻击等新型攻击,需同时对多个目标实施精确打击以达到大规模网络瘫痪效果,这对实施攻击的僵尸网络提出了同时向不同僵尸节点发布不同命令的要求.已有的命令

期刊

僵尸网络命令定向发布机制精确打击Key生成botnet directional command-release mechanism precis

一种改进的短文本层次聚类算法

其他学术论文