混合Embedding在文本分类中的研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:betterman_swp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着word2vec算法的出现,Embedding技术在文本分类中得到了很好的应用,但是Embedding同时也存在着它的不足。在传统的Embedding算法中,一个词可以通过嵌入的词向量进行表达,但是这个词向量无法覆盖这个词的所有含义,这个是由于word2vec这个算法的训练逻辑造成的。所以,为了克服和一定程度的上进行修正或者对Embedding的词向量信息进行增加,本文提出了混合Embedding的方法。本文采用了三种不同语料库预训练的Embedding对混合Embedding进行研究。不同的语料库一定程度上克服了词向量单一表示的问题,从一定程度上理解,可以把词向量的多种含义进行捕捉。混合Embedding主要操作方法有两种,一种是对于不同预训练的预料的词向量进行堆叠操作,通过扩大词向量的维度来增加Embedding的有效信息。第二种方式是采用了了预训练词向量线性融合的方式,通过词向量的量的融合来一定程度上增加Embedding的有效信息。文中实验主要介绍了通过词向量堆叠的方式,通过对预训练的Embedding进行两两堆叠,在相同的神经网络架构下面,混合Embedding很有效的提升了模型的评价指标F1-score和AUC数值。
其他文献
江苏、安徽、浙江和上海位于我国的东部,频临东海,自古以来就是旱涝灾害的多发地与常发地。本文以旱涝史料为基础,将现代气候分析方法、数据挖掘方法引入旱涝时空分析中,对旱
近年来,常常有人遇到各种突发状况,导致心脏骤停而猝死。据不完全统计,全球每年约有600万人因心脏骤停而猝死,其中我国因心脏骤停而猝死人数将近60万。胸外按压作为基本的紧
随着科学技术的快速发展以及人工智能时代的到来,脑电信号(Electroencephalogram,EEG)的应用领域日益壮大。近年来,EEG中的P300成分以其成分特征鲜明、无需预先训练等优点成
概率论与数理统计在物理、化学、工程、生物、经济、社会等领域应用广泛。本文综合应用数理统计、最优化方法、机器学习等理论,开展行程时间估计问题的研究。交通行程时间是
微纳光子器件的研究涵盖微米及纳米尺寸上光信号的产生、调制与探测等各个方面。微纳光纤作为一种典型的微纳光学基础结构,具有低的传输损耗、大比例的倏逝场、小的弯曲半径
传统的协同过滤推荐算法使用用户的历史数据进行推荐,容易面临数据缺失和稀疏等问题。基于模型的协同过滤算法大大缓解了这些问题,矩阵分解协同过滤算法就是其中之一,同时,结
商业信用融资是一种被企业普遍采用的低成本的融资方式(Schwartz,1974;Smith,1987;Cunningham,2004),一定程度上效缓解了企业的融资约束,促进了企业的发展,对国民经济的发展
随着现代化通信技术的发展和知识经济时代的到来,为推动美国制造业转型、适应信息化时代的社会变革、解决社会就业问题、培养具有创新精神与创造能力的下一代,美国国内近年来
集成电路设计与制造工艺的飞速发展使得特征尺寸越来越小,尤其是进入纳米级工艺之后,电路的阈值电压进一步降低,集成的晶体管数目持续增长,软错误率急剧上升。而缓存系统是宇
Fano谐振具有尖锐不对称的响应谱线,来源于离散态与连续态在一定相位条件下的叠加混合,是在光学传感、光学调制、非线性光学等领域中具有竞争力的应用选择。长期以来,对于单F