论文部分内容阅读
认知语言学指出语境就是为理解说话者真正的意图所依靠的上下文,环境、整体情景以及交谈人之间的关系。文本语境简单的说就是文本的上下文,理解句子必须结合局部上下文和全局上下文两个方面。目前许多证据显示人类是用语义联系和上下文的帮助来分析与理解文本的。然而,目前机器分析文本所采用的模型往往忽略语境对文本理解的影响,其原因在于文本语境的生成是一个复杂的心理过程;而度量文本语境在文本理解中的作用又与认知过程的主观感受密切相关。目前,机器生成的高质量的文本语境需要手工参与(如OWL),而自动生成的文本语境会丢失太多的信息(如VSM),且机器无法对文本语境的认知感受进行度量。为了让机器能够自动生成文本语境,并拟人化地定量分析文本认知过程中文本语境的复杂度和信息量,本文基于认知经济原则、人类概念学习的复杂度、以及最大关联理论,对文本语境的生成和度量展开研究。1.本文分别讨论了局部、全局和领域文本语境的生成:1)利用模糊认知图来实现局部文本语境的生成;2)利用局部文本语境的叠加特性来生成全局文本语境;3)通过局部文本语境的约简来生成领域文本语境。该研究可较好地解决文本语境生成的多层次、多粒度的问题。2.在多层次文本语境的生成过程中:1)本文提出的文本语境生成方法具有直观性、可叠加性和可分解性,因此符合文本理解过程中语境的动态演化特性;2)提出局部文本语境对全局文本语境贡献的计算方法,从而可有效地在文本语境的生成过程中获取与存储全局和局部语境之间的语义关系;3)基于统计学的方法对领域文本语境生成的有效性进行评价,使机器生成的领域文本语境能合理而有效地表达该领域内的知识。3.基于认知经济原则中能量和信息量的关系,提出文本语境的度量应该从复杂度和信息量两个方面展开研究:1)基于人类概念学习的复杂度,提出度量文本语境的复杂度的方法,从而可使机器方便地计算文本语境在文本认知过程中的作用;2)基于认知语言学中的最大关联理论,提出文本语境信息量的度量方法,从而可使机器对文本认知的主观感受进行定量的度量。4.为验证文本语境复杂度和信息量度量的正确性,采用了语言学和认知科学的观点:1)验证实验用定量计算代替传统的定性分析,因此可为基于机器的文本分析和理解提供认知科学的理论和方法;2)通过计算文本语境的复杂度和信息量来模拟人的文本阅读过程,度量人的文本阅读体验,从而一定程度上为机器实现了一种拟人化的文本分析方法。5.由于寻找最大文本语境信息量的句子队列是NP难的组合优化问题,而信息量的计算复杂度是O(n~2),文本语境的复杂度计算更是NP难的问题。所以,本文从三个方面对文本语境的度量进行了优化和简化:1)通过遗传算法解决了文本语境信息量度量中寻找最佳句子排列的优化问题;2)提出最大文本语境信息量的近似计算方法,文本语境信息量的计算复杂度从( )O n 2降低到O ( n );3)分析了文本语境信息量和复杂度之间的关系,为在实际问题中的选取合理的度量方法提供依据。本文的文本语境生成方法能获取多个层次的文本语境,并从认知科学的角度对文本语境的复杂度和信息量进行度量。本文的研究可以为文本语境的生成和度量提供新的方法与思路;通过结合传统语义分析方法和认知科学的原理为基于机器的文本理解提供理论支持,同时可为大规模网络环境的应用提供技术支持,从而可为Internet的广告推送、e-Business的商品推荐、网络问答系统的构建、e-Science中的知识服务、以及网络文本片段的自组织和Web智能浏览提供一种新的方法。