论文部分内容阅读
词的表示问题是自然语言处理中的关键问题之一。词的表示方法是否适当,直接影响着句法分析、语义表示和理解等任务的建模方法,也影响着信息检索、问答系统等应用系统的准确性和鲁棒性。特别是当面临大规模真实中文数据时,词的数量大,词表示方法的好坏直接影响着系统的运算效率和性能。本文将目前已有的一些中文词的表示策略归纳为三类:传统的0-1表示、基于潜在语义信息的分布式的表示以及基于神经语言模型的分布式表示。0-1表示是中文信息处理中使用最为广泛的表示。很多基于最大熵、CRF模型等的汉语组块分析系统便是直接采用0-1表示来形式化词的特征,这种表示虽然简单,但是形成的特征矩阵维度非常高,容易导致特征稀疏。为了弥补这一缺点,后两种表示策略将词表示成一个低维的实值向量。区别在于,基于潜在语义信息的分布式的表示主要是借鉴一些矩阵分解技术,而基于神经语言模型的分布式表示则是直接将词表示向量看作是神经网络中的一个隐层。本文主要关注基于神经网络的词表示方法及表示学习。深入探究了Bengio(2003)提出的神经语言模型具体在汉语词的表示学习中的实现过程。在山西大学500万汉语分词语料上学习得到了汉语词的和字的分布式表示矩阵,并进行了理论和表示向量数值特征上的分析。结果表明,矩阵中实值表示的数值范围随着表示学习算法迭代次数的增加而增加,这与Turian(2010)得到的英文词表示学习中的现象是一致的。本文从理论上初步分析了这一现象的原因,并给出了表示矩阵无界的一个充分条件。本文研究了词的义项与向量表示之间的关系。选取了中文和英文中的一些具有不同义项的典型词,将它们的实值向量表示绘制成不同指标的直方图。通过分析,本文初步认为义项越多的词,对应的直方图的“峰”可能越多。并且,在汉语和英文中均表现出类似的现象。为了体现基于潜在语义的分布式的词表示与基于神经语言模型的分布式词表示的区别。本文分别在两种表示上进行词的聚类实验。我们给出几个典型汉语词的前10近邻词,聚类结果表明,基于神经语言模型的分布式词表示的词聚类效果要明显优于基于潜在语义的分布式的表示。本文在汉语基本块边界识别任务上对比分析了词的0-1表示以及基于神经语言模型的分布式词表示对模型性能的影响。在[-2,2]窗口使用0-1词特征的基本块边界识别模型中,边界识别的F值为38.72%;而上述模型中词特征替换为分布式词特征后,边界识别的F值提高到70.51%;将表示矩阵进行尺度变换后,边界识别的F值提高到70.74%。在使用词特征[-2,2]+词性特征的模型中,使用词的0-1特征与分布式表示特征,边界识别的F值分别达到82.35%和85.90%。这表明,词的分布式表示对汉语基本块边界识别任务是有积极作用的。