论文部分内容阅读
该文从方法论上较系统的研究和探讨了自然语言处理技术在不同场合的应用.论文内容分为两大部分,第一部分是关于自然语言理解的方法论,其中详细介绍了基于全信息理论的自然语言理解方法的基本原理,指出全信息自然语言理解方法的特色是把"基于规则"和"基于统计"两种方法有机地结合起来,增强对自然语言的理解能力.第二部分是在对全信息自然语言理解方法论深刻领会的基础上,将理论付诸实践的过程.当前网络信息技术飞速发展,自动文摘和文本过滤等网络智能业务日益成为人们关注的焦点.而要想真正提高这些智能业务的智能化程度,就必须借助自然语言处理技术的强有力支持.我们以全信息自然语言理解的方法论为指导,对自然语言理解技术在这两个领域的应用进行了研究和探索.取得的成果包括:(一)采用有效的语义、语用信息表示方法,将机械文摘方法和统计文摘方法有机地纳入全信息自然语言理解的框架,实现了一个基于机器学习的"近似理解型"的自动文摘系统.(二)深入研究了自动文摘的评测问题,借鉴机器翻译中的自动评测方法,对文摘进行了基于内容的评测实验.(三)提出一种文摘语料库的自动标注方法,通过对文本的意义段划分、句子间的冗余和指代关系识别,实现了一个行之有效的文摘语料库标注工具.(四)从语法、语义和语用三个层面对文本内容过滤问题进行了深入地分析,采用统计粗分和规则细分相结合的方法,在全信息自然语言理解的框架下,实现了网络信息安全监控目标下的文本过滤和倾向识别.(五)在文本倾向识别的研究中,运用基于常识的情感推理机制,进行了自然语言深层理解方面的大胆尝试.