语言中频数及间隔统计特征研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:efanest
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然界和人类社会中,幂律现象普遍存在,成为复杂系统的涌现性的体现之一。人们不断地发现更多的幂律现象,同时也一刻没有停止寻找幂律现象的形成机制和本质特性。语言,作为人类最伟大的发明之一,因其重要性和复杂性,历来备受关注和研究.语言,作为一个复杂系统,已经不仅仅是语言学家们的研究对象。它已经走出语言学的范畴,成为数学家,物理学家,计算机学家们的新宠。语言中词频分布的幂律现象更是引起世界各国学者的研究兴趣,实证数据获得不断扩充,文本生成的本质规律及终态的幂律分布的形成机制也一直不断在探索、改进。   本文从复杂系统的研究方法出发,以中文和英文为例,统计得到语言中的诸多幂律现象。同时,建立文本生成模型,模拟并解析模型,从而深入分析诠释语言中存在的规律。   在语言的幂律现象中,Zipf定律无疑是声名最大,最受关注的定律。f∝γ-α,这个代表式的形成机制,成为世界上很多学者孜孜以求的结果。然而通过实证研究,发现中文与英文等西文的统计规律不尽相同,出现了以秦代为分界线的不同的统计规律。秦代以前,汉字服从Zipf分布,秦代以后就偏离Zipf分布。但是,现代汉字的词语的频数分布与英文是一致的。分析汉字的历史得知,汉字在秦代以前表现活跃,不断有新字产生。而秦代以后,常用汉字基本保持稳定,新字较少。但是,新词语不断被创造出来。与中文不同,这些年来,英文单词随着人类社会的发展在不断被新创出来。考虑到这样的差别,认为字符集规模的增长对文本词频幂律分布至关重要。考察人类写作特点,对字符的选择不是完全均等概率,而是有一定的偏好,所以,偏好选择也可能是导致文本词频幂律分布的必不可少的因素。通过参考平均场理论和主方程方法,基于上述两个因素,建立模型,理论解析得到频数幂律分布。实证研究,计算机模拟结果和理论解析结果达到一致,从而证明系统规模增长及偏好选择是语言幂律形成的两个缺一不可的条件。   语言系统实则可以被看做符号系统。那么,就可以把文本看做是一串串符号序列,而不是一个个有特定意义的单词或短语。建立N-元统计模型进行实证统计。发现:1)在有限长度的文本情况下,随着N增长,英文文本的字符集规模环比增长速度服从Boltzmann分布,中文服从Logistic方程;2)在N-元较短时(N<6),语言的修正香农熵的取值小于1,表明语言符号序列是有意义的序列组合,不是完全随机序列。随着N的增长,熵值逐渐增大,直到达到1,表明较长的N-元组合的意义甚微,是随机出现的;3)随着N增长,N-元组合的统计结果逐渐趋于幂律分布。   从人类动力学角度来看语言系统,研究字(或词)出现间隔的分布。分别从群体和个体两个层面对中文和英文进行考察。实证发现,中英文个体不满足幂律分布,而群体却符合幂律。具体讲之,英文字母及单词个体更趋向于指数分布,而群体却满足幂律分布。中文情况与英文又略有不同。汉字个体服从Logistic方程,汉字群体服从幂律分布;有些中文词语服从幂律,有些更符合Logistic方程,但中文词语总体上满足幂律分布。   通过以上的实证及模型,发现语言中有大量值得研究的幂律现象,有待进一步做出合理阐释,从而为语言处理,语言学习,语言应用等服务。
其他文献
在世界能源紧张和环境污染日益加剧的情况下,对于太阳能的利用已经越来越受到人们关注,而光伏发电作为太阳能利用的主要方式,对其的研究已经越来越受到重视。光伏发电控制系
当前社会的快速发展伴随着极大的能源消耗,能源和环境问题已经日益突出。开发利用清洁的可再生能源已经势在必行。太阳能是当前世界上最清洁同时具有大规模开发利用前景的可再生能源之一,世界各国都在积极发展太阳能。光伏水泵系统经过几十年的发展,已经成为太阳能应用领域的一个重要分支,其巨大的社会效益和经济效益使得光伏水泵获得越来越多的关注。本文采用异步电机作为光伏水泵驱动电机,详细介绍了该系统的主电路、控制电路
自抗扰控制技术是由韩京清研究员开创的一种实用的控制系统非线性综合方法.它主要包括:非线性跟踪微分器(TD)、扩张状态观测器(ESO)、非线性PID(NLPID)、最优非线性PID(ONLPID)、自抗
本文的研究重点集中在MIMO系统的相关性,重点研究了空间衰落MIMO的相关模型和以及相关性对MIMO最优合并系统性能的影响。为了研究空间相关的MIMO系统,本文首先从信息论角度研
本文在以Tsallis熵为基础的非广延统计理论框架下,研究均匀重力场中理想费米气体的广义热统计性质。以广义费米-狄拉克分布为出发点,得出了理想费米气体的总粒子数、总能量以及
本文通过对荣华二采区10
期刊
本文以人工神经网络为工具,加入了神经生物学中的突触可塑性、突触抑制、不应期等微观机制,建立了具有联想记忆功能的神经计算模型.以汉字认知作为案例,对汉字音、形、义间的联
生态系统是一个由能量流驱动的复杂适应系统。生态系统中的各个物种通过由捕食关系形成的能量流构建了复杂的生态网络。能量流是由生态网络的结构决定的,同时在长时间的达尔
学位
股票价格泡沫是金融理论和实务领域一直关注的问题。股市泡沫是诱发泡沫经济的重要因素,因此对股市泡沫程度的测量和泡沫过程及状态的认定具有重大意义。它能使管理者和各市场
近来一些关于高频数据的非参数波动的实证研究表明,金融资产价格普遍存在跳跃现象,这与传统的资产价格服从连续时间路径的经典假定不一致。跳跃对资产配置和风险管理是非常重要