基于统计的汉语自动分词与词性标注歧义消解方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：sea37

【摘要】

：

该文从汉语自动分词和词性标注的歧义消解这一基本问题入手,进行了统计方法框架下汉语自动分词和词性标注一体化模型的探索.具体的讲,该文从以下几个方面进行了研究:1对歧义

【作者】

：

陈鄞

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2003年期

【关键词】

：

汉语自动分词词性标注歧义消解隐马尔可夫模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

该文从汉语自动分词和词性标注的歧义消解这一基本问题入手,进行了统计方法框架下汉语自动分词和词性标注一体化模型的探索.具体的讲,该文从以下几个方面进行了研究:1对歧义问题,该文在考察了一阶隐马尔可夫模型(HMM)常见的分词词性标注错误及其分布规律的基础上,提出了一种改进的汉语自动分词和词性标注一体化模型.其基本思想是,对于发射概率,将信息的来源从传统一阶HMM只考虑当前词节点的信息,扩展到该节点前面的l个词的词性信息和前面k个词的词形信息.另外,对于词性转移概率的计算,也从原先的二元文法上升到三元文法.由于引入了更多的上下文信息,该模型具有较高的精确率.2针对上述模型在实际应用中的数据稀疏现象,该文采用了适当的方法进行数据平滑,进一步提高分词词性标注的精度.具体来说,对于三元词性转移概率和发射概率,采用线性插值方法进行平滑,对于其中的参数λ,采用了一种无需训练而直接根据一元、二元、三元对的同现次数来确定的方法.3针对汉语分词过程中数词的识别和转换问题进行研究,通过对汉语数词进行详细的分析,探索出一种自动识别和翻译汉语数词的方法,通过换算,将各种形式书写的数词自动转换成统一的格式.然后系统分析了实际应用中的二词分词歧义问题,并探讨了二词分词歧义的处理策略.最后,综合运用该文所研究的各种方法,实现了一个支持多部用户词典的、基于多步处理策略的汉语自动分词词性标注系统.

其他文献

一个基于模型转换的界面开发工具的设计与实现

随着移动互联网应用的迅猛发展，作为应用开发中重要一环的界面开发面临着越来越突出的一些挑战:如何对界面进行全面而有层次的描述，以应对越来越繁杂的界面应用需求;如何复用其

学位

界面开发模型转换跨平台移动互联网虚拟呈现设备

北京市商业银行网络管理系统和应用系统平台移植

根据北京市商业银行网络现状和信用卡系统的特点,该文作者提出了网络管理系统和信用卡系统升级改造的方案,并具体负责将信用卡系统从现在的PC Server的SCO Unix环境移植到AS/

学位

信用卡系统商业银行网络管理系统网络监控系统

粗糙集与信息颗粒原理在数据库理论中的应用研究

粗糙集理论是八十年代初由波兰数学家Z.Pawlak提出的一个分析数据的数学理论,粒化计算是近年来新兴的一个软计算方法.该文以粗糙集理论和信息颗粒、粒化计算理论为基础,对粗

学位

粗糙集信息系统约简核粗糙分解算子粗糙函数依赖冗余因子聚类分析信息颗粒信息粒度粒化计算位表示

基于P-树的关联规则挖掘及在遥感图像数据分析中的应用

关联规则挖掘最早由Agrawal、Imielinski和Swami于1993年提出.1994年,R.Agrawal和R.Srikant提出了有名的Apriori算法.随后,人们提出了大量有关关联规则的算法,很多属于Aprior

学位

关联规则TIFF位图象P-树频数

信息交换技术在黑龙江省电子政务中应用的研究

在世界各国,电子政务都一直被列为"信息高速公路"的五个应用领域之首.电子政务是经济与社会信息化的基础.政府作为国家组成及信息流的"中心节点",在社会信息化的进程中起着重

学位

电子政务XMLWeb服务

名片OCR识别知识后处理

该文针对日文名片自动录入设计了一套实用的OCR识别知识后处理系统.该文在对日文名片的特点进行分析的基础上,提出了基于名片内容的识别算法.并对常用的OCR知识后处理算法进

学位

名片识别OCR知识后处理统计语言模型TF.IDF算法

RADIUS网关及实现技术研究

本文的研究是以解决网络安全中特定业务领域的特定应用为出发点，尝试研制一种新型安全网关。它是通过编程将RADIUS客户端嵌入到该网关中，并且通过Netfilter提供的接口编程将Lin

学位

RADIUS网关RADIUS网关Netfilter认证与授权访问控制记帐

无人值班变电站后台监控系统的设计

无人值班变电站后台监控系统是利用计算机技术、通讯技术对在线运行的变电站设备进行实时监测的自动化系统.他集继机继电保护,测量、控制、远程通讯于一体,对变电站进行全方

学位

SCADASCADA分散控制结构分散控制结构实时数据库实时数据库多线程多线程虚拟网络虚拟网络

SIPNAT相关问题及一种SIPNAT解决方案的设计与实现

SIPNAT问题是SIP消息及媒体流能否顺利穿越NAT的问题.所以SIPNAT问题严重阻碍了基于SIP的VoIP技术在有NAT设置的城域网和企业网中的推广应用.为解决这一问题,作者对SIPNAT相

学位

VoIPSIPSDPNATSTUN

任务驱动的分布式群体协作过程的设计与实现

随着互联网的兴起，互联网上的分布式群体协作也开始流行。人们通过发起和参与各种协作任务完成了很多事情，比如很多的开源软件由广大程序员通过互联网协作完成，比如维基百科这样

学位

任务驱动分布式群体协作互联网协作最优任务分配遗传算法petri网

基于统计的汉语自动分词与词性标注歧义消解方法研究

与本文相关的学术论文