【摘 要】
:
随着网络时代的发展尤其是在在线社交的推动下,短文本数据逐渐成为一种主流的文本形式。与传统的文本形式相比,短文本的文本长度较短而数据规模大,因而高维稀疏问题是在进行
论文部分内容阅读
随着网络时代的发展尤其是在在线社交的推动下,短文本数据逐渐成为一种主流的文本形式。与传统的文本形式相比,短文本的文本长度较短而数据规模大,因而高维稀疏问题是在进行短文本数据挖掘时首先要面临的挑战。其次短文本包含的语义信息较少且信息存在歧义等问题,导致传统的文本挖掘方法通常难以高效、准确地完成分类任务。因此,如何进一步压缩文本的特征维度,拓展文本原有语义信息,提高短文本表示与分类性能成为短文本挖掘领域的研究热点。本文针对短文本的高维稀疏问题开展分类方法研究,其主要工作如下:(1)针对短文本数据的高维稀疏问题,提出一种基于标记哈希特征降维的短文本分类方法。该方法首先对待处理的短文本进行预处理,采用改进的jieba-fast多线程分词来划分词组,同时去除停用词等提高文本表示性能;其次,为降低海量短文本的高维问题,使用标记的哈希映射方法将高维短文本映射至固定维度的向量空间中,以稀疏矩阵的形式存放文本内容,并对可能产生歧义的文本加以区分。最后,采用随机森林作为分类模型进行预测。实验结果表明:所提方法在短文本分类准确度上表现优异,同时在硬件消耗和模型准确度上取得了良好的平衡。(2)针对短文本语义信息少导致文本表示效果差的问题,提出一种基于层次聚类和LSTM的模糊语义拓展短文本分类模型。首先,采用Skip-Gram训练数据集词向量,在词嵌入空间中进行层次聚类,聚类中心矢量根据语义相似度与外部语料库的词向量进行模糊匹配,得到包含语义信息的文本表示。进而,引入LSTM进行高层特征提取,同时导入Stochastic-pooling池化层提取全局特征并进一步降维,最后连接softmax层输出分类结果。实验结果表明:该方法能够有效补充短文本的语义信息,并输出较高准确度的分类结果。
其他文献
随着社会经济的持续发展,人口老龄化已成为我国今后相当长一段时间内所要面临的基本国情。山东省作为农业大省,乡村老年人口众多,乡村老年教育支持体系的建设与完善是保证顺
水稻作为我国最主要的粮食作物之一,种植地域广泛、单产高、总产量大。“十二五”期间,我国农业机械化水平稳步提高,水稻收获环节的机械化率达到90%以上,联合收获机保有量高达173.9万台。随着农艺技术(“超级水稻”、“高效化肥”等)的提高,水稻单产逐年上升;新兴家庭农场的发展,也使水稻正向规模化(每块田10-15亩)生产,市场对大喂入量联合收获机的需求越来越大。清选装置是联合收获机的“消化系统”,清选
“培养担当民族复兴大任的时代新人”这一育人目标,是在新时代的历史方位上,党和国家对“培养什么样的人”这一根本问题的深刻回答,明确了教育坚持服务中华民族伟大复兴的重
为解决长庆油田油气井直井(定向井)压裂改造施工过程中火力射孔作业耗时较长、高压井下钻风险大、特殊区域火力射孔作业受限等影响生产效率的实际问题,结合常规水力喷射压裂
正交频分复用系统具有抗干扰能力强、抗衰弱能力强、频谱利用率高等优点,因而在无线电信息传输方面有着广泛的应用。但是在当前OFDM技术的发展中,也存在着一个重要的瓶颈问题
本文研究MIMO双向中继协作通信系统中不可靠中继网络的安全问题。在中继通信网络中,中继所连接的各个节点具有不通的安全等级。为了能转发所有节点的信息,中继节点的安全许可
我国是油菜大国,无论是种植面积还是产量均位居世界前列。为了方便筛选角果不易炸裂的油菜品种,本文对油菜角果的抗裂角性表征方法进行研究分析。以随机碰撞法为基础,研制了油菜角果抗裂角性碰撞检测装置,分析了油菜角果的含水率、尺寸大小对角果抗裂角性的影响,并与悬空压裂法进行对比分析。针对油菜联合收获机田间作业时割台损失率高的问题,本文结合油菜的生物特性,对割台拨禾轮的运动轨迹和工作参数进行了分析及优化,设计
超宽带天线在通信系统中有着重要的运用,其中一种典型的设计形式即为加脊喇叭天线,这种天线被广泛地应用于生活的许多方面,例如:车载雷达、数字通信、测量测距以及安检成像系
大规模MIMO(Massive Multiple Input Multiple Output)技术是蜂窝无线通信系统的关键技术之一,采用大规模天线阵列技术使蜂窝系统的信道容量显著提升。两阶段预编码技术是一
数字化改革是浙江立足新发展阶段、贯彻新发展理念、构建新发展格局的重大战略举措,是全面深化改革的总抓手。春节上班后,全省数字化改革大会和全省人大数字化改革工作推进会