【摘 要】
:
随着互联网的高速发展,网络上出现越来越多的非法信息,比如色情、暴力、毒品等信息,如何检测出这些非法信息成为当下重点研究问题。非法信息分类属于自然语言处理中的文本分类任务,但是与传统的文本分类相比,网络搜索query文本存在着噪声多、长度短、新词多等特点,所以如何构建出高效的文本表示模型和文本特征提取模型是一个研究的重点。文本分类技术涉及到自然语言处理、数据挖掘等领域的许多技术。影响文本分类准确度的
论文部分内容阅读
随着互联网的高速发展,网络上出现越来越多的非法信息,比如色情、暴力、毒品等信息,如何检测出这些非法信息成为当下重点研究问题。非法信息分类属于自然语言处理中的文本分类任务,但是与传统的文本分类相比,网络搜索query文本存在着噪声多、长度短、新词多等特点,所以如何构建出高效的文本表示模型和文本特征提取模型是一个研究的重点。文本分类技术涉及到自然语言处理、数据挖掘等领域的许多技术。影响文本分类准确度的因素有许多,包括文本的预处理、文本特征表示、特征选择以及分类器的选择和优化等。传统的文本表示方法,如布尔模型、向量空间模型,存在数据稀疏和维数灾难等问题。为了进一步挖掘文本中隐藏的信息,出现了基于神经网络的分布式向量表示方法,如word2vec,这种分布式向量仅仅包含了词的语义信息,忽略了词的属性信息,同时这种特征提取方法忽略了文本的结构信息。基于上述的研究,做了如下工作:(1)对文本特征表示模型进行了改进,提出了集成多种特征的文本表示模型(LMCW)。该方法首先利用word2vec工具在搜索query数据集上训练出包含语义信息的分布式词向量,接着使用词汇的互信息对词向量加权,同时再利用word2vec工具在维基百科数据集上训练出分布式字向量,接着利用先验知识和词汇的属性抽象的表示出文本信息,最后对三种向量进行集成拼接,形成包含语义信息、词汇属性信息以及外部信息的向量。通过在SVM分类器上的测试,验证了模型的有效性。(2)在方法(1)的基础上提出了两种文本特征提取方法:基于LMCW与Transformer的文本特征提取模型(LMCWT)和基于LMCWT和CNN的文本特征提取模型(LMCWT-CNN)。LMCWT模型在LMCW文本特征表示方法的基础上,通过Transformer编码器对搜索query文本提取上下文信息,训练出包含语义信息、词汇属性信息、外部信息的向量以及上下文信息的特征向量。基于LMCWT和CNN的文本特征提取模型在LMCWT模型所表达的特征向量基础上,通过引入CNN网络提取搜索query文本的结构信息,从而学习到文本局部信息,实现了从多个层次、多个角度对文本进行了特征提取。通过在搜索query数据集上的测试,LMCWT-CNN模型与其它分类模型相比,分类效果有较大提升,且比LMCW模型更进一步提升了文本分类的准确度。
其他文献
随着军民融合进程的推进和知识经济的兴起,国防工业企业不仅要承担国防建设的任务,维护国家安全,还要在市场竞争中保持优势,保证企业的可持续性发展。这就要求国防工业企业具
南京师范大学随园校区是金陵女子大学旧址,采用了中国传统宫殿式的建筑形式,融入了西方建筑理念,代表了 20世纪初中国教会大学所倡导的中西合璧式建筑新样式,具有重要的历史和艺术价值。本文通过文献搜集与实地走访的方法,对南京师范大学随园校区民国建筑的历史沿革、布局、现状等方面进行了梳理和总结。从历史沿革看,随园校区内的民国建筑始建于1922年,风雨百年,经历了国际安全区设立,日军占领、复校、新中国成立等
TFT LCD(Thin Film Transistor Liquid Crystal Display,薄膜晶体管液晶显示器)是由具双折射性的液晶和具半导体特性的薄膜晶体管元件组成的显示器件。TFT LCD的生产工艺复杂且对制程精度、环境要求高,导致生产成本高,若生产中有不良产生将导致生产出的产品无法销售而造成大量损失。本论文通过科学的分析方法和精密的解析手法,对亮点不良进行分析,确定亮点的发生原
在二冷的喷雾冷却过程中,雾滴特性对冷却效果有显著的影响,在一定范围内雾滴粒径越小、数目越多,雾化效果就越好,这不仅能够提高传热效率,同时更有利于铸坯表面温度均匀。准确的获得气雾射流雾滴的粒径大小和分布,是研究气雾流场的关键。为实现对气雾雾滴粒径的检测,克服其雾滴粒径小、浓度大且不能正向拍摄等问题,提出了气雾射流雾滴粒径的光学成像识别方法,并对气雾射流在不同工况下的平均粒径和粒径分布进行了研究。开展
局部感受野、参数同享和池化方式的引入,使得卷积神经网络结构更加简略清晰,拟合参数更少,并且具有对抗数据集扭曲,平移,转动的特性。常规图像分类方式需要预先根据不通过任务不同数据集以人工或半人工形式提取特征,而卷积神经网络相反,是端到端的自主进行层次化的特征提取,因此具有更高的识别率和更广泛的实用性。卷积神经网络的涌现极大激励了计算机视觉和模式识别算法模型的更新换代,也鞭策了科研人员对图像分类识别算法
冷冻胚胎技术属于人类辅助生殖技术的一种,是现阶段最为成熟的生育手段。随着体外受精——胚胎移植、冷冻胚胎技术的广泛使用和快速发展,其本身所涉及的生命价值和伦理道德问题逐渐暴露并增多。这些纠纷的解决离不开法律的规制,但在目前,我国缺少专门针对人体冷冻胚胎的立法保护,就冷冻胚胎的法律属性和地位来说,也并没有一个较为清晰的定义。冷冻胚胎的权利归属问题也是众说纷坛、意见不一。本文以冷冻胚胎的典型案例为切入点
基于身份的加密(Identity-Based Encryption,IBE)中,所有收件人都可以使用属性集来标明身份。它允许发件人加密数据,而无需通过知道收件人的身份信息来查询公钥证书。发件人的加密数据存放在云端,同时制定好相应的访问控制策略。发件人并不关心谁将会访问加密数据,因为只有对应的属性集满足相应的访问策略的来访用户才能进行解密。访问控制策略和公钥系统的集成有效地提高了访问控制能力。基于身
特发性肺纤维化(idiopathic pulmonary fibrosis IPF)是间质性肺纤维化疾病,其病因不明、发病率高、难诊断、难治疗。病理改变集中在肺泡上皮细胞减少、肺泡塌陷、变形及残存组织连接、间质细胞增生、纤维化形成。现代研究表明IPF的机制研究与上皮-间质转化(epithelial-mesenchymal transition,EMT)假说有关,EMT可在起始阶段开启纤维化,亦可在
近年来,人工智能研究因数据量的增加与计算能力的提升在图像识别、自然语言处理、自动驾驶、智能家居、机器人等应用领域发展迅速,研究者们提出了各类优秀的人工智能算法,如支持向量机、决策树、卷积神经网络、循环神经网络、深度森林、深度强化学习等。深度强化学习是一种结合了深度学习与强化学习理念的算法,自其被提出起,就因其强大的学习能力被许多研究者视为实现通用人工智能的关键。强化学习算法最早出现于自动控制研究中
2015年7月到2017年6月,由万科公司与“宝能系”展开的股权争夺事件在资本市场上产生了巨大反响。目前我国上市公司治理模式还不是很完善,很多上市公司股权结构存在问题,导致这些公司同样面临着股权争夺的风险。因此,围绕万科公司股权争夺所产生的一系列事件进行分析,会使人们对于股权争夺对财务绩效影响问题产生更多的关注和思考。股权实则是企业的控制权,企业管理制度不健全、股权结构不集中等因素都可能引起股权争