论文部分内容阅读
在自然界和人类社会中,幂律现象普遍存在,成为复杂系统的涌现性的体现之一。人们不断地发现更多的幂律现象,同时也一刻没有停止寻找幂律现象的形成机制和本质特性。语言,作为人类最伟大的发明之一,因其重要性和复杂性,历来备受关注和研究.语言,作为一个复杂系统,已经不仅仅是语言学家们的研究对象。它已经走出语言学的范畴,成为数学家,物理学家,计算机学家们的新宠。语言中词频分布的幂律现象更是引起世界各国学者的研究兴趣,实证数据获得不断扩充,文本生成的本质规律及终态的幂律分布的形成机制也一直不断在探索、改进。
本文从复杂系统的研究方法出发,以中文和英文为例,统计得到语言中的诸多幂律现象。同时,建立文本生成模型,模拟并解析模型,从而深入分析诠释语言中存在的规律。
在语言的幂律现象中,Zipf定律无疑是声名最大,最受关注的定律。f∝γ-α,这个代表式的形成机制,成为世界上很多学者孜孜以求的结果。然而通过实证研究,发现中文与英文等西文的统计规律不尽相同,出现了以秦代为分界线的不同的统计规律。秦代以前,汉字服从Zipf分布,秦代以后就偏离Zipf分布。但是,现代汉字的词语的频数分布与英文是一致的。分析汉字的历史得知,汉字在秦代以前表现活跃,不断有新字产生。而秦代以后,常用汉字基本保持稳定,新字较少。但是,新词语不断被创造出来。与中文不同,这些年来,英文单词随着人类社会的发展在不断被新创出来。考虑到这样的差别,认为字符集规模的增长对文本词频幂律分布至关重要。考察人类写作特点,对字符的选择不是完全均等概率,而是有一定的偏好,所以,偏好选择也可能是导致文本词频幂律分布的必不可少的因素。通过参考平均场理论和主方程方法,基于上述两个因素,建立模型,理论解析得到频数幂律分布。实证研究,计算机模拟结果和理论解析结果达到一致,从而证明系统规模增长及偏好选择是语言幂律形成的两个缺一不可的条件。
语言系统实则可以被看做符号系统。那么,就可以把文本看做是一串串符号序列,而不是一个个有特定意义的单词或短语。建立N-元统计模型进行实证统计。发现:1)在有限长度的文本情况下,随着N增长,英文文本的字符集规模环比增长速度服从Boltzmann分布,中文服从Logistic方程;2)在N-元较短时(N<6),语言的修正香农熵的取值小于1,表明语言符号序列是有意义的序列组合,不是完全随机序列。随着N的增长,熵值逐渐增大,直到达到1,表明较长的N-元组合的意义甚微,是随机出现的;3)随着N增长,N-元组合的统计结果逐渐趋于幂律分布。
从人类动力学角度来看语言系统,研究字(或词)出现间隔的分布。分别从群体和个体两个层面对中文和英文进行考察。实证发现,中英文个体不满足幂律分布,而群体却符合幂律。具体讲之,英文字母及单词个体更趋向于指数分布,而群体却满足幂律分布。中文情况与英文又略有不同。汉字个体服从Logistic方程,汉字群体服从幂律分布;有些中文词语服从幂律,有些更符合Logistic方程,但中文词语总体上满足幂律分布。
通过以上的实证及模型,发现语言中有大量值得研究的幂律现象,有待进一步做出合理阐释,从而为语言处理,语言学习,语言应用等服务。