汉语词的分布式表示学习研究

来源 :山西大学 | 被引量 : 4次 | 上传用户:OMG168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词的表示问题是自然语言处理中的关键问题之一。词的表示方法是否适当,直接影响着句法分析、语义表示和理解等任务的建模方法,也影响着信息检索、问答系统等应用系统的准确性和鲁棒性。特别是当面临大规模真实中文数据时,词的数量大,词表示方法的好坏直接影响着系统的运算效率和性能。本文将目前已有的一些中文词的表示策略归纳为三类:传统的0-1表示、基于潜在语义信息的分布式的表示以及基于神经语言模型的分布式表示。0-1表示是中文信息处理中使用最为广泛的表示。很多基于最大熵、CRF模型等的汉语组块分析系统便是直接采用0-1表示来形式化词的特征,这种表示虽然简单,但是形成的特征矩阵维度非常高,容易导致特征稀疏。为了弥补这一缺点,后两种表示策略将词表示成一个低维的实值向量。区别在于,基于潜在语义信息的分布式的表示主要是借鉴一些矩阵分解技术,而基于神经语言模型的分布式表示则是直接将词表示向量看作是神经网络中的一个隐层。本文主要关注基于神经网络的词表示方法及表示学习。深入探究了Bengio(2003)提出的神经语言模型具体在汉语词的表示学习中的实现过程。在山西大学500万汉语分词语料上学习得到了汉语词的和字的分布式表示矩阵,并进行了理论和表示向量数值特征上的分析。结果表明,矩阵中实值表示的数值范围随着表示学习算法迭代次数的增加而增加,这与Turian(2010)得到的英文词表示学习中的现象是一致的。本文从理论上初步分析了这一现象的原因,并给出了表示矩阵无界的一个充分条件。本文研究了词的义项与向量表示之间的关系。选取了中文和英文中的一些具有不同义项的典型词,将它们的实值向量表示绘制成不同指标的直方图。通过分析,本文初步认为义项越多的词,对应的直方图的“峰”可能越多。并且,在汉语和英文中均表现出类似的现象。为了体现基于潜在语义的分布式的词表示与基于神经语言模型的分布式词表示的区别。本文分别在两种表示上进行词的聚类实验。我们给出几个典型汉语词的前10近邻词,聚类结果表明,基于神经语言模型的分布式词表示的词聚类效果要明显优于基于潜在语义的分布式的表示。本文在汉语基本块边界识别任务上对比分析了词的0-1表示以及基于神经语言模型的分布式词表示对模型性能的影响。在[-2,2]窗口使用0-1词特征的基本块边界识别模型中,边界识别的F值为38.72%;而上述模型中词特征替换为分布式词特征后,边界识别的F值提高到70.51%;将表示矩阵进行尺度变换后,边界识别的F值提高到70.74%。在使用词特征[-2,2]+词性特征的模型中,使用词的0-1特征与分布式表示特征,边界识别的F值分别达到82.35%和85.90%。这表明,词的分布式表示对汉语基本块边界识别任务是有积极作用的。
其他文献
语际影响(CLI),又称语言迁移,指由目标语言与其他此前习得语言(可能不充分习得)之间相似性和差异性引起的语言影响。语际影响理论认为,语言之间的相似性会促进第二语言习得,
2008年‘5.12’汶川大地震诱发斜坡地质灾害在空间分布上表现出了明显的高程效应和岩性效应。本文采用上硬下软和上软下硬两种典型岩性组合斜坡模型,完成了1:100比尺的振动台
目的分析老年急性心肌梗死患者的临床特征。方法回顾性分析夏邑县第二人民医院心内科2011年3月至2012年6月收治的76例老年急性心肌梗死患者的临床资料。结果老年急性心肌梗死
TD-LTE网络的技术特性和业务定位对网络深度覆盖提出了更高的要求,与此同时,高频段的频率资源、建筑物密集的商务区等目标覆盖场景又极大增加了深度覆盖的难度。本文基于TD-L
由于流入黄河河口的水资源不足和人类活动的影响,黄河三角洲淡水湿地出现了面积萎缩、生态退化,生物多样性锐减等严重生态环境问题,严重威胁黄河三角洲的生态系统稳定以及生
目的:甘麦大枣汤抗焦虑作用及作用机制的相关研究。方法:以小鼠为研究对象,应用高架十字迷宫复制焦虑动物模型,从行为学角度观察性别、体重、测试时间等因素对小鼠高架十字迷
目的比较阿托品、长托宁作为麻醉前用药对患者血流动力学的影响。方法选择行择期手术、ASAⅠ~Ⅱ级的中老年患者60例,随机分为A组(长托宁0.5 mg)和B组(阿托品0.5 mg),每组30例,
语序是现代汉语重要的语法手段之一,也是汉语作为第二语言教学的难点之一。在对越汉语教学的过程当中,我们发现越南学生把越南语翻译成汉语时经常出现语序方面的偏误。本文在