汉语切分标注和句法分析一体化模型研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zhjkkcd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究目标便是构造一个汉语分词、词性标注和句法分析的一体化模型,该模型通过加强汉语切分标注和句法分析之间的联系,以增强其处理能力;由于考虑到汉语中的未登录词会极大地影响汉语处理系统的性能,本模型同时考虑了未登录词的识别;此外,该模型又保留了很好的可扩展性,为今后采取更复杂的消歧策略及未登录词识别策略奠定了基础。 首先,提出了一个汉语分词和词性标注的一体化模型,该模型引入了词长信息作为新的统计特征,在一定程度上改善了切分标注的性能。其次,设计了在切分标注模型中整合未登录词识别的方法,并对中文人名识别、中文地名识别及外国译名识别进行了实验。最后,设计句法分析模块。切分标注模块为句法分析提供特定的输出模式,并同时产生句法分析所需要的统计数据和词汇特征;句法分析则采用特定的文法体系和分析算法对切分标注的输出进行分析。 作者在模型思想的基础上,实现了一个实验系统,以验证一体化模型的可行性。为了对该系统进行客观、公正的评价,本文的最后一部分为一体化模型建立了一套特有的评测体系,并给出在此体系下实验系统的评测数据。在这些实验数据的基础上,对一体化模型今后的发展作进一步的展望。
其他文献
学位
随着分布式异构数据库应用的日趋广泛,进行分布式异构数据库数据同步技术的研究具有重要的意义。本文在简要介绍了分布式异构数据库和数据同步的概念和研究现状后,阐述了应用面
随着互联网的发展,网络上的信息量骤增,网络上也存在着各种内容非法的信息以及各种威胁网络安全的攻击入侵行为。所以,网络安全问题越来越突出。为了解决日益严重的网络安全
随着电子技术的不断发展,嵌入式系统越来越广泛应用于控制、消费、通讯等电子产品,并且随着数字信号处理与人机交互界面等相关技术的不断成熟,嵌入式多媒体应用数量也迅猛上
仪表(控制器)是自动控制系统的重要组成部分,它可以把从传感器输出的模拟量,经过A/D变成数字量输出到CPU,通过某种自动控制数学模型计算出一系列的输出控制被控对象。仪表(控
网络安全已成为制约信息化发展的瓶颈,作为解决这一问题的关键技术-入侵检测,已成为学术界关注的热点问题之一.大部分入侵并不是独立的,而是按照它的攻击次序相互联系在一起,
动力系统是一种强有力的数学工具,有着广泛的应用,对它的研究是当前自然科学的前沿领域。计算机视觉中已经有一些对动力系统的研究,但多数是借用自动控制领域中的线性动力系统模
将网格技术有效地应用到复杂分布式仿真应用系统中,可以有效地降低仿真应用系统的开发费用和开发周期。为了能充分利用网格中的各种资源,为基于网格技术的分布式仿真系统设计一
本文探讨了目前几种成熟的技术,如:Web爬虫、Web数据抽取、Web服务等,然后将它们整合后设计出一套针对软件更新管理的应用系统。本文首先主要是对整个系统的设计思想进行详尽地
为解决Internet上对于普通的用户日益严重的“信息迷失”和“信息过载”问题,智能信息检索和个性化信息服务成为当前信息服务研究的重点。作为其基础,一方面要研究如何应用人工