基于词分布的文本表示研究

来源 :苏州大学 | 被引量 : 5次 | 上传用户:yangpengjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表示研究是自然语言处理领域基础的研究课题之一。词是文本中基本的语义单元,传统的词表示方法无法全面反映其所蕴含的语义信息,针对特定的自然语言处理任务,研究者们需要精心设计词的特征表示,以提升系统性能。近年来,随着设备计算能力不断增强,深度学习方法兴起,研究者们通过神经网络模型训练出词的分布式表示。词的分布式表示具有较强语义表达能力,可以反映词之间语义上的联系。本文主要研究如何利用词的分布式表示加强对文本内在语义的表达。主要研究内容分为如下几个方面:(1)本文基于词的分布式表示,提出对传统文本表示模型进行改进的方法。该方法采用词扩展策略,对文本的表示特征进行扩展。与传统基于词典进行词扩展不同,本文基于词的分布式表示挖掘词之间的语义关系,不需要借助专家构造的词典,只需要对大规模无标注文本进行训练即可。实验表明改进后的文本表示在文本主题相关度判断上的优势。(2)本文基于词扩展后的文本表示模型,提出一种对文本进行主题偏移分析的方法。将学生作文看成对题目进行文本表示的过程,分析某篇作文是否存在主题偏移问题。基本思路为:首先,通过中心向量法自动选取作文集合中的范文;然后,基于词扩展后的文本表示模型计算每篇作文与范文的相似度;最后,将相似度与偏移阈值进行对比,从而判断该作文是否跑题。为了提升主题偏移分析的效果,本文提出一种基于作文集合发散度动态生成偏移阈值的方法。实验结果表明,相较于设置固定阈值,动态生成阈值的方法有着更好的主题偏移判断效果。(3)本文基于词的分布式表示,提出一种对评论文本进行层次表示的方法。本文分析了现有方法的不足,提出利用“层次化属性词+情感词”进行表示。本文重点研究属性词的自动挖掘和层次化表示方法。首先,利用词的分布式表示和上下位关系矩阵挖掘种子词相关的属性词集合;然后,借助知识库和先验知识构建属性词之间的层次关系;最后,本文提出一个混合模型对层次关系进行补充。整个过程只需要少量人工参与。实验结果表明,上述方法能够有效的挖掘种子词相关的属性词,并对属性词进行层次化表示。基于此,本文实现了一个用户评论层次表示系统。
其他文献
工作流模型可以清晰的描述业务流程,而且随着信息技术的进步,其应用范围也越来越广,对工作流模型的科学评价也越来越成为必要。然而,传统工作流管理系统通常只是严格按照工作
时间序列是指将某种现象某一个统计指标在不同时间上的数值按时间先后顺序形成的序列。由于真实系统或现象的内部通常会受到多种因素的影响,从而导致输出的时间序列具有许多
随着互联网的盛行,主流的在线社交媒体取得了突飞猛进的发展,而微博在这些在线社交媒体中表现出了更加突出的发展态势。微博已经吸引了海量的用户,人们在微博上分享自己的观
近些年来,随着计算机技术、网络技术、信息技术的高速发展以及电子产品成本的急速下降,企业的信息化得以空前的施展,信息化使得企业在发展过程中积累了不少数据。市场环境变
随着互联网技术的广泛发展,互联网已经成为目前世界上最大的信息资源库。在互联网信息空间中如何快速、准确、全面的找到自己想要的信息已经成为21世纪互联网技术的一大难题
随着多核计算机的日益普及,大规模科学与工程计算、事务处理与商业计算的需求,以及数据挖掘应用领域的不断扩大,基于多核平台的线性方程组数值求解算法和大数据量数值关联规
文本分类中特征选择的目的是通过从原始特征集合中去除分类无关特征和冗余特征,以减少文本特征向量维数,提高分类的效率和精度。传统文本特征选择方法通常引入特征之间的条件
遥感技术的发展,使我们能够获得极其丰富的信息,尤其是近几年来高分辨率遥感影像的出现更扩大了对自然界观察的视野。但是面临的挑战是如何处理和应用这些数据,使之能转变为急需被应用的信息。高分辨率遥感影像表现出地物更多的信息诸如光谱、形状、纹理以及上下文等。尽管卫星遥感数据分类技术有了长远的发展,但是对于高分辨率遥感影像来说,利用单一传统的分类方法不仅会导致分类精度降低,而且也会造成空间数据大量冗余、资源
数字图像处理方法的研究源于两个主要应用领域:其一是为了便于人们分析而对图像信息进行改进;其二是使机器自动理解识别而对图像数据进行存储、传输及显示。将分数阶微分用于
薄层色谱法(Thin-Layer Chromatography,简称TLC)具有设备和操作简单,展开时间短,检验灵敏度高等优点,是微量样品快速分离和定量分析的重要方法。在石油化工中,原油和有机抽