基于词向量的中文分词方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:walger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们对计算机自动化和智能化的渴望,人工智能的发展和研究应运而生。自然语言处理作为人工智能的重要研究方向之一,在对语言处理的高效性和准确性方面有很大的发展和提高空间。进行自然语言处理的头等任务,就是对语句进行分词处理。在世界上主流的自然语言中,由于中文句子的词汇没有像英文句子中对单词使用空格以示区分,所以对中文词汇的处理和识别具有很高的难度。并且中文具有一词多义和句子歧义等现象,这些都是中文分词面临的问题和挑战。传统分词模型中的词汇表示维度过大,使模型受限于维度灾难,传统模型需要人工设计特征模板,耗费大量人力和时间。此外,传统的词汇表示方法忽略了词汇之间的影响和关联,导致词汇鸿沟的产生,所以将传统方法用于分词标签预测时,模型的效率比较低。目前,采用基于词向量的神经概率语言模型进行中文分词,有效避免了词汇鸿沟和大量人工标注所浪费的时间,然而在算法的高效性和对语义的有效利用等方面,仍然有较大的提升空间。通过对国内外分词的历史和发展现状进行研究,学习和探索相关理论知识,确定了本文算法的研究方向,本文的主要工作如下:根据中文的形态学特点,利用偏旁部首含有的语义特征,提出一种含有中文偏旁部首信息的词向量表示方法,利用本文的词向量表示方法,同时结合字符的上下文信息,利用神经网络结构建立中文词向量表示模型,通过模型的训练得到一组含有丰富语义信息的词向量,将庞大的数据映射到维度较小的向量空间。这组词向量表示能够大幅度减少传统算法的计算量,从而提高算法效率。提出一种基于神经网络的中文分词模型,利用训练得到的词向量,作为模型的输入特征,提高分词结果的准确率。此外,该分词模型针对分词任务中的歧义问题,提出一种词汇边界的歧义处理方法。设计分词模型的训练算法,然后根据分词模型计算出的分词标签矩阵,得出模型预测的分词结果。进行对比实验,分别验证本文的词向量优化方法和中文分词模型的效果,分析实验结果并论证本文算法的优势。
其他文献
社交网络、网络购物与人们生活日益密切,人们通过网络购物占日常购物的比重在逐日增加。商家为了增加网络中销售额开始在社交网络使用博客、微博等方式推广自己的产品,同时人
偏振光导航是一种新型的自主导航方式,其具有不向外辐射能量、抗干扰性强、定向误差不随时间累积等特点。偏振光导航不仅可以与里程计组合组成自主导航系统,也可以与GPS,MIMU
多智能体系统由于其工作效率高、潜在应用领域广泛等优点,受到了越来越多国内外专家学者的关注,针对多智能体系统的研究也已经成为控制研究领域的一个重要分支。而对多智能体
轨迹数据记录了用户移动行为,富含重要的时空信息,具有巨大挖掘价值。轨迹数据正成为各行各业争夺的重要资源,如何充分发挥轨迹数据中蕴含的丰富知识,是数据挖掘研究领域的前
在测控领域中,测试对象复杂、测试参数众多,对测试速度、测试精度要求较高;传统的单机单参数手工测试已不适应生产力的发展,要求能够对被测对象进行自动化测试与控制。为满足
近年来,随着无线局域网研究的深入和移动通信技术的发展,正交频分复用技术凭借其频谱利用率高、系统复杂度低、带宽扩展性强等特点,在4G组网、WLAN中广为使用。随着智能手机
在几十年以前,就已经有人提出了逐次逼近型的模数转换器结构(即SAR ADC),但是近些年人们对它的关注度越来越高。这是因为同其他ADC相比,SAR ADC的芯片面积小,结构简单,模拟模块
通信信号调制分析技术是非合作通信领域的关键技术,在电子侦察、通信对抗、频谱监测等方面有着重要的应用价值。经典的通信信号调制分析研究大多假设环境噪声服从高斯分布,但
轨迹数据对于智慧城市和“互联网+”建设有着重要作用,然而轨迹中包含了大量的个人隐私,对轨迹数据集的发布进行隐私保护刻不容缓。差分隐私作为一种定义规范、理论基础坚实
随着科技的进步,当今社会的信息量正在以爆炸的趋势增长,因此需要对这些大量的数据进行挖掘,为社会生活乃至国家发展找出有价值和有意义的相关知识。于是,产生了数据挖掘这一