论文部分内容阅读
随着人们对计算机自动化和智能化的渴望,人工智能的发展和研究应运而生。自然语言处理作为人工智能的重要研究方向之一,在对语言处理的高效性和准确性方面有很大的发展和提高空间。进行自然语言处理的头等任务,就是对语句进行分词处理。在世界上主流的自然语言中,由于中文句子的词汇没有像英文句子中对单词使用空格以示区分,所以对中文词汇的处理和识别具有很高的难度。并且中文具有一词多义和句子歧义等现象,这些都是中文分词面临的问题和挑战。传统分词模型中的词汇表示维度过大,使模型受限于维度灾难,传统模型需要人工设计特征模板,耗费大量人力和时间。此外,传统的词汇表示方法忽略了词汇之间的影响和关联,导致词汇鸿沟的产生,所以将传统方法用于分词标签预测时,模型的效率比较低。目前,采用基于词向量的神经概率语言模型进行中文分词,有效避免了词汇鸿沟和大量人工标注所浪费的时间,然而在算法的高效性和对语义的有效利用等方面,仍然有较大的提升空间。通过对国内外分词的历史和发展现状进行研究,学习和探索相关理论知识,确定了本文算法的研究方向,本文的主要工作如下:根据中文的形态学特点,利用偏旁部首含有的语义特征,提出一种含有中文偏旁部首信息的词向量表示方法,利用本文的词向量表示方法,同时结合字符的上下文信息,利用神经网络结构建立中文词向量表示模型,通过模型的训练得到一组含有丰富语义信息的词向量,将庞大的数据映射到维度较小的向量空间。这组词向量表示能够大幅度减少传统算法的计算量,从而提高算法效率。提出一种基于神经网络的中文分词模型,利用训练得到的词向量,作为模型的输入特征,提高分词结果的准确率。此外,该分词模型针对分词任务中的歧义问题,提出一种词汇边界的歧义处理方法。设计分词模型的训练算法,然后根据分词模型计算出的分词标签矩阵,得出模型预测的分词结果。进行对比实验,分别验证本文的词向量优化方法和中文分词模型的效果,分析实验结果并论证本文算法的优势。