文本表示算法的研究和应用

来源 :北京邮电大学 | 被引量 : 14次 | 上传用户:aiyouxizhiwojian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表示算法的研究意义重大。目前常用的两种文本表示算法是以词袋模型为代表的统计语言模型和概率神经语言模型,然而统计语言模型和概率神经网络为代表的文本表示算法都有不足之处:统计语言模型简单,但向量空间的维度太大,后续计算复杂度太高;概率神经语言模型得到的特征向量质量好,向量的压缩率高,但模型本身复杂,参数多,模型本身的计算复杂度太高。本文主要对基于词向量的文本表示模型进行改进。基于词向量的文本表示模型的好坏依赖于词向量的质量,词的分布式表示优于词的one-hot表示,所以可以通过将词的one-hot表示替换成词的分布式表示来改善文本表示模型的质量。首先是对词袋模型的改进。词袋模型可以看成是用词的one-hot表示相加来表示文本向量,模型改进方向:(1)用词的分布式表示相加表示文本向量;(2)在一的基础上进一步用汉字的分布式表示相加表示文本向量。这样做的效果:(1)可以进行有效地降低数据维度,降低后续计算的复杂度;(2)可以省去分词环节,有效降低模型的复杂度。其次是对Crepe模型的改进。该模型对中文数据的处理是将中文文本转化成拼音,然后对每个英语字符采用one-hot表示,最后将文本矩阵输入CNN网络。模型的改进是获得每个汉字的分布式表示,组成文本矩阵,输入到CNN网络进行特征学习。改进后的效果:(1)CNN网络的输入数据维度降低;(2)模型的训练时间大幅下降。最后,论文对改进的词袋模型做了一个实现:关于评论的情感预测的演示系统。
其他文献
随着德国提出的工业4.0和中央提出的2025年工业强国战略,我国的工业化程度将逐步提高。随着注塑机行业的发展,市场环境更加复杂多变,产品供应商越来越繁多,市场竞争日益激烈
本论文对虎皮楠生物碱daphenylline、三萜类天然产物malabanone A以及海绵烷二萜polyrhaphin D和marginatone进行了合成研究,主要包括以下三章:第一章海绵烷二萜的合成研究进
影响区域创新的两大重要因素分别是区域创新投入,和区域之间的创新空间溢出。事实上,创新资源和要素的空间分布极不平衡,大部分区域无法仅依靠自身投入来增强区域创新。在创
工业生产中较为传统的采样方式是均等时间间隔的均匀采样,即单采样率系统采样,而单采样率系统理论已经非常成熟,但是在现代工业的生产过程中,都会涉及到多种传感器的配合使用
5G作为下一代移动通信技术,需要在现有的基础上大幅度提升传输速率、系统容量并且降低通信时延,保证传输可靠性。在当前可用频谱资源日趋紧张的情况下,大容量MIMO技术能够有
作为老百姓亘古不变的期盼,平安是各级地方政府必须提供的最基本的公共产品,更是民生需求最基本的体现。要想实现乡村振兴工作,首要做好平安建设,平安建设是乡村振兴的重要保障。当前,我国基层面临各种治理问题和矛盾危机,突出表现为自然资源短缺、人居环境条件恶化、基层公共事务衰败、基层公共服务短缺等诸多问题。因此,需要加大平安建设投入力度,采取更加主动、积极的方式维护社会和谐稳定,才能够实现全面深化改革,更好
青岛基层组织建设经验丰富,叫响全国的“莱西经验”就是以加强村级党支部的领导核心为重要内容,新时期深化拓展莱西经验,需要不断加强村级党支部的引领和带动,而党支部的作用发挥如何关键在人,即党员干部的先锋模范、带头作用的发挥。新形势下,需要不断探索运用新方式、新手段加强对党员干部的教育,为农村党支部培养靠得住、顶得上的好干部。《2019—2023年全国党员教育培训工作规划》中要求创新运用信息化手段,推动
随着移动互联网的兴起,社交网络的发展如火如荼,在国内,以微信、新浪微博为代表的社交产品开始占用人们越来越多的碎片化时间。微博的两种社交规则使其成为一个具有信息集散
纹理图像中重复纹理元素的提取是指将组成纹理图像的具有相同或相似特性的重复单元(即纹理元素)的数据结构提取出来。重复纹理元素提取的目的是识别纹理图像中具有相似视觉特
跨语言层次分类体系匹配是为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类的一项任务。它是实现跨语言知识共享与融合的重要途径,也是