基于维基百科的短文本处理方法

来源 :河北师范大学 | 被引量 : 5次 | 上传用户：sbt200905

【摘要】

：

随着即时通讯和互联网技术的普及,多元化社交体系逐步形成,短文本数据量与日俱增,如何处理大量的短文本数据尤为重要。短文本具有内容简短,特征稀疏等特点,普通文本分类方法

【作者】

：

罗燕

【出处】

：

河北师范大学

【发表日期】

：

2016年01期

【关键词】

：

词频统计维基百科短文本词义消歧特征扩展

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着即时通讯和互联网技术的普及,多元化社交体系逐步形成,短文本数据量与日俱增,如何处理大量的短文本数据尤为重要。短文本具有内容简短,特征稀疏等特点,普通文本分类方法并不适用于短文本,短文本分类成为目前的研究重点与难点。国内外学者对短文本分类的研究主要集中在短文本处理与分类算法改进两个方面。论文主要从短文本处理方面入手,对短文本词义消歧、特征扩展进行研究,最后利用常用的文本分类算法对处理后的短文本进行分类。鉴于维基百科具有数据全面、语义丰富等特点,论文将其作为外部知识库,提出基于维基百科的短文本词义消歧方法与特征扩展方法,解决短文本中的一词多义问题与特征稀疏问题,有效提高了短文本分类性能。主要工作如下:1)提出基于词频统计的TF-IDF算法针对传统TF-IDF(Term Frequency-Inverse Document Frequency)算法关键词提取效率低下及准确率欠佳的问题,提出基于词频统计的TF-IDF算法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律与传统TF-IDF算法相结合,提出基于词频统计的TF-IDF算法——TFIDFWFS(TF-IDF Algorithm Based on Word Frequency Statistics)。采用中、英文文本实验数据集进行仿真实验,结果表明,在文本关键词提取中,TFIDFWFS在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效降低关键词提取的运行时间。2)提出面向维基百科的TFIDFWFS算法针对TFIDFWFS算法未考虑维基百科页面特点的问题,提出面向维基百科的TFIDFWFS算法,选择最具代表性的特征词来表示维基百科词条。首先,结合维基百科文本结构特点,提出基于文本结构加权的TF方法;其次,结合锚文本信息特点,提出基于锚文本加权的TF方法;然后,结合类别信息特点,提出基于类别信息加权的TF-IDF方法;最后,将维基百科页面特点与TFIDFWFS算法相结合,提出面向维基百科的TFIDFWFS算法——W-TFIDFWFS(Wikipedia Oriented TF-IDF Algorithm Based on Word Frequency Statistics)。采用中、英文维基百科数据集进行仿真实验,结果表明,在对维基百科页面进行关键词提取时,W-TFIDFWFS在查准率、查全率及F1指标上均优于TFIDFWFS算法,可比较准确地计算特征词权重,有效提取维基百科页面核心信息。3)提出基于维基百科的短文本词义消歧方法针对短文本中的一词多义问题,提出基于维基百科的短文本词义消歧方法——STWSDMW(Short Text Word Sense Disambiguation Method Based on Wikipedia)。首先,从维基百科消歧页面中获得待消歧词的消歧候选集合;其次,获得短文本中无歧义特征词对应的维基条目标题集合;然后,计算每一个消歧候选词的相似度得分函数值;最后,选择相似度得分值最大的消歧候选词作为最终的消歧结果。选取中、英文短文本实验数据集进行验证,实验表明,采用STWSDMW方法对短文本进行词义消歧可有效提高短文本分类性能。4)提出基于维基百科的短文本特征扩展方法针对短文本特征稀疏,导致短文本分类准确率低下的问题,提出基于维基百科的短文本特征扩展方法——STFEMW(Short Text Feature Extension Method Based on Wikipedia)。首先,对短文本中每个特征词进行词义消歧;其次,获取每个特征词对应的维基页面的向量表示;最后,选择维基页面中权重最大的前k个特征词,将其扩展到短文本特征项集合中。选取中、英文短文本实验数据集进行验证,实验表明,采用STFEMW方法对短文本进行特征扩展可有效提高短文本分类性能。

其他文献

高职计算机网络课程教学创新的实践探究

近年来,经济的高速发展带来了计算机网络的快速发展,随之而来的是计算机网络应用人才需求紧缺,高等职业教育中普遍开设了计算机网络专业。本文对高等职业教育计算机网络专业

期刊

高职计算机网络课程教学创新的实践

汉密尔顿的“第二春”2013 F1匈牙利大奖赛

从披上‘三叉星’战袍的那一刻起，汉密尔顿就面临着一个新的开始。曾经的辉煌属于那段叫做‘迈凯轮’的记忆，而现在的他，需要新的成绩来证明自己，一个冠军奖杯无疑是最好的方式。

期刊

轿车车型品牌性能

试论技工学校学前教育舞蹈教学特色化创新的必要性

舞蹈课程作为技工学校学前教育专业课程体系的重要架构,在培养学前教育专业技能型人才方面发挥着重要作用。目前,很多技工学校学前教育专业的舞蹈教学仍是大量地复制学前教育

期刊

技工学校学前教育舞蹈教学特色化创新必要性

饶斌人生三部曲

风雨中探寻真理　　饶斌，1913年出生于东北吉林，家境的衰落，民族的危难让他自幼便目睹了风雨飘摇中旧中国的苦难，13岁时，举家迁往天津。在南开中学读书时，饶斌开始接触进步同学，接受进步思想。“九一八”事变后，饶斌忍痛离开家乡，进入上海同济医学院读书，期间积极参与抗日救亡运动。“七七”事变之后，饶斌毅然弃笔从戎，投身于抗日洪流之中。同年9月，饶斌光荣地加入了中国共产党，在严酷的斗争环境下，成长为一名

期刊

人生共产主义旧中国医学院风雨读书

基于培养学生证据意识的高中化学教学探索——以比较CH4与NH3稳定性的系统研究为例

通过“证据推理”核心素养培养学生思维逻辑的严密性,从标准热力学数据、键能、离解能等角度,阐述甲烷与氨气的热稳定性反常现象的原因,丰富和发展氢化物稳定性判断的方法。

期刊

高中化学证据意识稳定性

初中化学教学中学生化学实验素质的培养要求

初中化学课程中,实验是其最为基本的方法与手段,学生不仅能通过化学实验获得与化学相关的知识,同时也能对学生化学实验素质加以培养。基于此,本文主要针对如何在初中化学教学

期刊

初中化学化学实验实验素质

福建莆田沿海水下遗珍赏

<正>莆田沿海地区的水下考古调查始于2006年,水下考古调查队当时曾在湄洲湾海域发现几处沉船遗址,由于时间所限,未能展开进一步调查。2008年5—6月,对2006年发现的沉船遗址开

期刊

考古调查分布范围白釉碗水下考古福建莆田

基于维基百科的短文本处理方法

其他学术论文