论文部分内容阅读
随着即时通讯和互联网技术的普及,多元化社交体系逐步形成,短文本数据量与日俱增,如何处理大量的短文本数据尤为重要。短文本具有内容简短,特征稀疏等特点,普通文本分类方法并不适用于短文本,短文本分类成为目前的研究重点与难点。国内外学者对短文本分类的研究主要集中在短文本处理与分类算法改进两个方面。论文主要从短文本处理方面入手,对短文本词义消歧、特征扩展进行研究,最后利用常用的文本分类算法对处理后的短文本进行分类。鉴于维基百科具有数据全面、语义丰富等特点,论文将其作为外部知识库,提出基于维基百科的短文本词义消歧方法与特征扩展方法,解决短文本中的一词多义问题与特征稀疏问题,有效提高了短文本分类性能。主要工作如下:1)提出基于词频统计的TF-IDF算法针对传统TF-IDF(Term Frequency-Inverse Document Frequency)算法关键词提取效率低下及准确率欠佳的问题,提出基于词频统计的TF-IDF算法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律与传统TF-IDF算法相结合,提出基于词频统计的TF-IDF算法——TFIDFWFS(TF-IDF Algorithm Based on Word Frequency Statistics)。采用中、英文文本实验数据集进行仿真实验,结果表明,在文本关键词提取中,TFIDFWFS在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效降低关键词提取的运行时间。2)提出面向维基百科的TFIDFWFS算法针对TFIDFWFS算法未考虑维基百科页面特点的问题,提出面向维基百科的TFIDFWFS算法,选择最具代表性的特征词来表示维基百科词条。首先,结合维基百科文本结构特点,提出基于文本结构加权的TF方法;其次,结合锚文本信息特点,提出基于锚文本加权的TF方法;然后,结合类别信息特点,提出基于类别信息加权的TF-IDF方法;最后,将维基百科页面特点与TFIDFWFS算法相结合,提出面向维基百科的TFIDFWFS算法——W-TFIDFWFS(Wikipedia Oriented TF-IDF Algorithm Based on Word Frequency Statistics)。采用中、英文维基百科数据集进行仿真实验,结果表明,在对维基百科页面进行关键词提取时,W-TFIDFWFS在查准率、查全率及F1指标上均优于TFIDFWFS算法,可比较准确地计算特征词权重,有效提取维基百科页面核心信息。3)提出基于维基百科的短文本词义消歧方法针对短文本中的一词多义问题,提出基于维基百科的短文本词义消歧方法——STWSDMW(Short Text Word Sense Disambiguation Method Based on Wikipedia)。首先,从维基百科消歧页面中获得待消歧词的消歧候选集合;其次,获得短文本中无歧义特征词对应的维基条目标题集合;然后,计算每一个消歧候选词的相似度得分函数值;最后,选择相似度得分值最大的消歧候选词作为最终的消歧结果。选取中、英文短文本实验数据集进行验证,实验表明,采用STWSDMW方法对短文本进行词义消歧可有效提高短文本分类性能。4)提出基于维基百科的短文本特征扩展方法针对短文本特征稀疏,导致短文本分类准确率低下的问题,提出基于维基百科的短文本特征扩展方法——STFEMW(Short Text Feature Extension Method Based on Wikipedia)。首先,对短文本中每个特征词进行词义消歧;其次,获取每个特征词对应的维基页面的向量表示;最后,选择维基页面中权重最大的前k个特征词,将其扩展到短文本特征项集合中。选取中、英文短文本实验数据集进行验证,实验表明,采用STFEMW方法对短文本进行特征扩展可有效提高短文本分类性能。