一种基于频繁词集的短文本特征扩展方法

来源 :东南大学学报(自然科学版) | 被引量 : 0次 | 上传用户:liuandhll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决向量空间模型(VSM)对短文本内容表示能力不足的问题,提出了一种基于频繁词集的特征扩展方法.定义了单词间的共现关系和类别同向关系,通过计算单词集的支持度和置信度,挖掘出具有相同类别倾向的频繁词集,并将其作为短文本特征扩展的背景知识库.对于短文本中的每个原始单词,从背景知识库中查找包含有该单词的频繁词集,将其作为扩展特征加入原特征向量中.搜狗语料集上的实验结果表明,置信度和支持度对背景知识库的规模有较大的影响,但是扩展过多的特征存在冗余性,对分类效果没有进一步的提升.基于频繁词集构建的短文本背景知识库可以作为有效的扩展特征;当训练文本数较为有限时,特征扩展对支持向量机SVM的分类效果有显著的提升.
其他文献
《李苞通阁道》摩崖石刻,碑文两行(可辨十六字),记述魏元帝景元四年(263)荡寇将军李苞领工修褒斜道之事。该摩崖石刻虽寥寥数言,却是简明朴素的记实之作。它基本反映了当时修
研究了普洱茶中游离态的香气成分的分析方法,分析了不同渥堆阶段目标成分的变化趋势及原因。试验首先采用标准物质及GC-MS对普洱茶中游离态香气成分进行了定性分析,在此基础上,
目的:调查持续非卧床腹膜透析(continuous ambulatory peritoneal dialysis,CAPD)患者综合营养情况,并进行相关影响因素分析。方法:56例CAPD患者按透析龄分为透析龄
随着人工交互技术的发展,手势作为一种自然、直观、易于学习的交互方式曾为了研究热点。随着传感器技术的不断提高,基于数据手套的手势识别技术得到了广泛的应用。本文在国内
深入学习贯彻党的十九大精神,提高党政办公室服务能力和水平是我们的使命。本文从高职院校党政办公室服务现状、提升服务水平的办公室对策、提升服务水平的个人改变三个方面
传统的诸如BP神经网络等学习方法训练时需要设置大量的参数,并且容易产生局部最优解。极限学习机(Extreme Learning Machine,ELM)可以随机选择输入权重以及隐藏层偏差且不需要
《幼儿园教育指导纲要》指出:"家庭是幼儿园重要的合作伙伴。"发挥好家长资源,将幼儿园教育和家庭教育联结在一起,将对幼儿的成长起到至关重要的作用。笔者以家园互访为切入
产品组合决策是企业最重要的决策之一。目前大部分企业都是利用传统的成本方法做决策,通过边际收益来决策产品的生产优先顺序。随着科技和经济的发展,现代企业的成本结构已经
(接上期)(八)供电安全性和稳定性作为超高层建筑,安全性必然是供电系统设计所需要格外注意的地方,其次是供电可靠性。配电系统的设计上,需考虑多回路供电及备用发电机组的配
随着娱乐经济的发展,电视的娱乐化时代的到来,新闻节目、纪实节目、综艺节目、娱乐节目、大众歌会、广场文艺、以及庆典、晚会等等层出不穷,且在众多节目的激烈竞争中都取得了相