基于统计的汉语自动分词与词性标注歧义消解方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sea37
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文从汉语自动分词和词性标注的歧义消解这一基本问题入手,进行了统计方法框架下汉语自动分词和词性标注一体化模型的探索.具体的讲,该文从以下几个方面进行了研究:1对歧义问题,该文在考察了一阶隐马尔可夫模型(HMM)常见的分词词性标注错误及其分布规律的基础上,提出了一种改进的汉语自动分词和词性标注一体化模型.其基本思想是,对于发射概率,将信息的来源从传统一阶HMM只考虑当前词节点的信息,扩展到该节点前面的l个词的词性信息和前面k个词的词形信息.另外,对于词性转移概率的计算,也从原先的二元文法上升到三元文法.由于引入了更多的上下文信息,该模型具有较高的精确率.2针对上述模型在实际应用中的数据稀疏现象,该文采用了适当的方法进行数据平滑,进一步提高分词词性标注的精度.具体来说,对于三元词性转移概率和发射概率,采用线性插值方法进行平滑,对于其中的参数λ,采用了一种无需训练而直接根据一元、二元、三元对的同现次数来确定的方法.3针对汉语分词过程中数词的识别和转换问题进行研究,通过对汉语数词进行详细的分析,探索出一种自动识别和翻译汉语数词的方法,通过换算,将各种形式书写的数词自动转换成统一的格式.然后系统分析了实际应用中的二词分词歧义问题,并探讨了二词分词歧义的处理策略.最后,综合运用该文所研究的各种方法,实现了一个支持多部用户词典的、基于多步处理策略的汉语自动分词词性标注系统.
其他文献
随着移动互联网应用的迅猛发展,作为应用开发中重要一环的界面开发面临着越来越突出的一些挑战:如何对界面进行全面而有层次的描述,以应对越来越繁杂的界面应用需求;如何复用其
根据北京市商业银行网络现状和信用卡系统的特点,该文作者提出了网络管理系统和信用卡系统升级改造的方案,并具体负责将信用卡系统从现在的PC Server的SCO Unix环境移植到AS/
粗糙集理论是八十年代初由波兰数学家Z.Pawlak提出的一个分析数据的数学理论,粒化计算是近年来新兴的一个软计算方法.该文以粗糙集理论和信息颗粒、粒化计算理论为基础,对粗
关联规则挖掘最早由Agrawal、Imielinski和Swami于1993年提出.1994年,R.Agrawal和R.Srikant提出了有名的Apriori算法.随后,人们提出了大量有关关联规则的算法,很多属于Aprior
在世界各国,电子政务都一直被列为"信息高速公路"的五个应用领域之首.电子政务是经济与社会信息化的基础.政府作为国家组成及信息流的"中心节点",在社会信息化的进程中起着重
该文针对日文名片自动录入设计了一套实用的OCR识别知识后处理系统.该文在对日文名片的特点进行分析的基础上,提出了基于名片内容的识别算法.并对常用的OCR知识后处理算法进
本文的研究是以解决网络安全中特定业务领域的特定应用为出发点,尝试研制一种新型安全网关。它是通过编程将RADIUS客户端嵌入到该网关中,并且通过Netfilter提供的接口编程将Lin
无人值班变电站后台监控系统是利用计算机技术、通讯技术对在线运行的变电站设备进行实时监测的自动化系统.他集继机继电保护,测量、控制、远程通讯于一体,对变电站进行全方
SIPNAT问题是SIP消息及媒体流能否顺利穿越NAT的问题.所以SIPNAT问题严重阻碍了基于SIP的VoIP技术在有NAT设置的城域网和企业网中的推广应用.为解决这一问题,作者对SIPNAT相
随着互联网的兴起,互联网上的分布式群体协作也开始流行。人们通过发起和参与各种协作任务完成了很多事情,比如很多的开源软件由广大程序员通过互联网协作完成,比如维基百科这样