基于词向量和主题向量的文本分类算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zenghui_yan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,我们每天面对着越来越多需要处理的文本信息。如何从海量的文本信息中提取出所需要的目标信息,从而给人们更好的服务与体验是我们面临的一项主要挑战。文本分类算法则是完成这项挑战中的一项重要技术。文本分类作为一项基础技术,已经涉及到图书馆智能化管理、新闻个性化推荐、文本情感分析、文本信息过滤等方面,这些应用使人们的生活更加便捷。本文在分析原有的文本分类技术的基础上,发现原有算法的不足,从而提出了一种新的文本特征提取框架,主要工作内容如下:(1)分析了词向量算法可以计算词语间相似度,将其引入到文本分类特征提取中有利于构建更优秀的特征,选择了性能和速度都更优秀的Word2Vec词向量计算算法。但是词向量无法解决一词多义问题,而且词向量只表示了上下文词语关系,缺少文本全局信息。本文提出了一种将主题与词向量计算结合的方法,得到了与词向量类似的主题向量。因为相同的词语可能具有不同的主题向量,并且主题向量是一种全局级别的信息。将主题向量和词向量结合的方法,在改善了一词多义问题的同时引入了全文信息。(2)一些文本特征提取方法直接使用词向量累加或者类似的低维度特征方法。这种低维的特征对表达字典维度巨大的文本特征不利,抛弃了高维向量空间模型对文本分类问题的优势。文本提出了一种保留向量空间模型的Adaptive-means聚类算法,这种自适应聚类算法将词向量与主题向量结合,使得在文本中含义相近的词语聚为一类,从而在最终文本特征表达时相似的词语对特征贡献相同。本文还利用n-gram增加上下文信息,以及对短文本特征进行扩展,得到最终的文本特征。(3)本文利用两种新闻数据集对算法进行验证,并将本文算法的结果与其它已有算法进行比较。验证了利用词向量和主题向量表示文章特征的优势,同时验证了这种高维的向量空间模型得到的特征与低维度特征相比的优势。最后对实验中参数选择进行了分析,得到了参数选取的一般性方法,最终确定了一套文本分类方案,为项目后续的新闻推荐工作提供分类结果。
其他文献
在过去的几十年,RFID技术获得了飞速的发展,如今它的应用已经扩展到工业生产和电子消费的各个领域。RFID已经成为了IT产业的一个重要组成部分。防碰撞技术的研究对射频识别技
目前,移动通信行业发展迅速:一方面,多输入多输出(MIMO: Multiple Input Multiple Output)技术备受重视;另一方面,能源消耗和环境压力增长,带来了一个新的理念—“绿色通信”
测井是石油勘探开发的重要环节,是科学、经济、合理地开发油田的重要手段。   测井电缆通信系统是测井系统的关键组成部分,完成将井下仪器采集的数据实时准确传输给地面计算
随着互联网的发展普及,越来越多的消费者通过各种论坛、微博等平台浏览产品信息以做出购买决策,同时分享自己的产品使用感受,这种现象在智能手机领域尤其明显。对手机品牌商
玻璃容器的传统检测方法(人工检测)已无法与现代生产相适应。机器视觉检测技术拥有检测速度快、误差小和非接触检测等优点,作为现代生产条件下的一种专业的检测技术是非常实用的
认知无线电技术是解决开放频谱资源匮乏与专用授权频谱利用率低下之间矛盾的有效手段,它在避免对授权用户产生干扰的同时,机会式地使用授权频谱,从而提高无线频谱资源的利用
随着社会的发展及人类的进步,人们对于各种电信业务的需求越来越丰富,传统的电信承载网已逐渐不能适应各种新兴业务的要求,IP承载网逐渐成为下一代承载网发展的方向。IP承载
文章研究了认知频谱共享系统的容量优化技术。从介绍认知无线电技术基本概念出发,通过对分级频谱共享系统进行建模分析,阐述了动态频谱共享对提高频谱效率的重要意义;接着探讨了
面向21世纪高等教育的人才培养,必须服务于国家的经济建设和科技发展,符合社会和市场对人才的需求。因此,研究型、创新性人才培养成为世界一流高校人才培养的共同目标,使实践
随着科研管理信息化的持续发展,各类科研数据在近年来迎来了井喷式地增长,随之而来的是对数据分析的急切需求,而传统的人工分析方式和半自动化的管理工具已经无法有效地处理