【摘 要】
:
随着互联网的快速发展,以微信、QQ、贴吧、博客、微博等为主要代表的新型社交媒介的使用,使人类活动已经离不开虚拟世界网络环境。互联网短文作为这些社交媒介产生数据的主要
论文部分内容阅读
随着互联网的快速发展,以微信、QQ、贴吧、博客、微博等为主要代表的新型社交媒介的使用,使人类活动已经离不开虚拟世界网络环境。互联网短文作为这些社交媒介产生数据的主要表现形式,如何从其中获取有效信息且掌控其信息热点是自然语言处理研究的重点内容。而文本分类技术作为信息获取的主要方式之一,在文本信息处理中有着重要的地位。在过去几年中,深度学习在图像处理、语音识别方面取得了很好效果,但在文本信息处理方面应用较少。因此,本文以互联网短文分类为应用背景,使用深度学习的卷积神经网络方法进行了分类研究。具体研究内容如下:(1)针对中文互联网短文特点,提出了一种基于卷积神经网络的互联网短文分类方法,该方法由数据预处理、特征处理、分类识别等模块组成。首先在数据预处理模块中,本文对分词、去噪声进行了优化,并使用Word2vec词向量和TF-IDF值构造文本特征矩阵。接着在特征处理模块中,使用了不同池化的不同类型的卷积神经网络处理文本低级特征。最后在分类识别模块中,使用softmax函数进行了文本分类识别操作。通过实验表明,使用Word2vec词向量和TF-IDF值末尾叠加方式构造文本特征矩阵,在最大池化下的动态卷积神经网络对该矩阵进行处理,可以得到比较好的互联网短文分类效果。(2)使用上述卷积神经网络的分类方法与KNN、SVM、DBN等文本分类方法进行互联网短文的两级分类实验。在建立一个有效的类别体系之后,抓取整理符合实验要求的数据。在相同的数据条件下,通过互联网短文本的两级分类实验,得出了本文的卷积神经网络的分类方法能够有效性的进行互联短文分类,相比其他方法分类效果更加稳定性。
其他文献
在以机械磁盘为存储介质的计算机系统中,数据读写操作的效率和可靠性将直接影响整个计算机系统的性能和稳定性。为了在存储介质的读写速度、容量以及成本价格方面做出权衡,现代
随着网络技术的飞速发展,特别是P2P技术的普及,数字媒体的复制和传播变得更加容易,相应的媒体内容的版权保护问题变得更加复杂,因此迫切需要更为先进的数字版权保护技术来加强节
日志型文件系统保证了在服务器宕机时能够通过日志进行快速的文件系统一致性检查和恢复,因此被广泛使用。但文件系统日志存在对文件系统性能,尤其是写性能造成了一定的影响。而
随着云计算时代的到来,越来越多的数据被放在云端统一向用户提供相应的服务,如何保证数据实时在线、可服务已经成为一个重要的研究方向。目前,服务高可用性的研究仍处在初级阶段
由于RDF(Resource Description Framework)数据具有表达灵活,数据交换方便等优点,其数据量在以惊人的速度增长。传统的RDF数据存储系统或以关系数据库为存储后端,或以本地存储方式
光盘认证系统是网络认证服务思想的一个实现案例,它给红光高清播放机提供了通过网络认证获取音视频光盘播放密钥,并且按次计费的服务。在此基础上,扩展的网络认证服务器实现了更
随着互联网的迅速发展和信息技术的广泛应用,由网络产生的数据量越来越庞大,而联机分析处理作为存储和分析数据的主要技术,需要存储与处理的数据量也相应的成倍增长,同时要面对巨
目前医学研究人员进行数据分析的主要流程存在诸多弊端:(1)特征挑选的过程主观性强自动化程度低,难以挑选出最优组合特征;(2)对于非线性公式,难以做到得出准确的分类回归公式;(3)仅使用S
当前网络中存在着诸多以SYN(SYNchronize)洪泛攻击为代表的分布式拒绝服务攻击行为,严重影响了网络的正常运作。尽管在现有SYN洪泛攻击早期检测的基础上,研究人员在SYN洪泛攻击的
以用户手指触摸交互屏实现人机互动的触控交互模式,因其更自然、直接的操作体验,成为近年来人机交互领域研究的热点。目前常用的触摸屏主要依赖于电阻、电容、电磁感应和其它内