【摘 要】
:
自然语言处理技术是一门融语言学、计算机科学、数学于一体的科学,它包含词法分析,语法分析和语义分析等几个部分。中文自动分词是中文语言处理的最关键的环节所在。在这一领域
论文部分内容阅读
自然语言处理技术是一门融语言学、计算机科学、数学于一体的科学,它包含词法分析,语法分析和语义分析等几个部分。中文自动分词是中文语言处理的最关键的环节所在。在这一领域有国内外有很多的研究成果,也有很多的算法实现,目前来说分词算法主要分为机械分词,统计分词以及基于理解的分词三大类。本文将基于词典的机械分词与基于概率论的统计分词相结合,提出了一个混合分词系统,即基于信赖度和潜力的中文分词处理系统。
本文阐述了机械分词领域与统计分词领域的基础理论、发展与研究成果,介绍了词典模块的生成,采用基于词条抽取和某些基于后缀数组的方法,从大量的语料库中获取一定量的词条与词频信息,并储存在Berkeley DB这一数据库中作为词典使用。使用本文提出的基于信赖度与潜力的分词算法对经过预处理的待切分文本进行处理。评价一个分词系统性能主要有三个方面的数据:分词准确度,召回率以及调和度。经实验证明,本系统在这三个方面都令人满意,准确度达到了约93.5%,召回率接近90%,调和度达到了0.91。对遇到的一些问题进行总结和分析,对需要改进和添加的功能进行补充,以便以后的研究者对系统不足的地方进一步地完善。
其他文献
当今的信息时代,信息交互愈加频繁,XML已经成为信息表示和数据交换的标准。随着大量XML信息的出现,XML数据的处理也逐渐成为人们关注的焦点,由此衍生出XML数据处理的两大研究方向
随着高校招生规模的不断扩大,高考招生录取工作的信息化程度要求越来越高。普通高校招生考试作为全社会关注的焦点,有必要采取一种新的方式加以变革。信息技术的飞速发展,使这种
随着网络时代的蓬勃发展,软件的规模逐渐扩大,软件开发的复杂程度也越来越高,随之而来的就是软件质量和安全性的问题。软件质量和安全性的问题的突出表现就是软件错误。软件
随着软件的规模变得越来越庞大,大量的软件数据随之产生。为了从这些数据中挖掘出感兴趣的知识,帮助软件开发者更好地理解和维护软件,数据挖掘正在被广泛地应用到软件行为分
无线局域网是伴随着计算机网络和无线通信技术的发展而产生的,它具有低成本、强扩展性、可移动性及易于有线网络整合等优点已成为商业网络的重要组成部分。但是,由于无线电波
随着信息技术的快速发展,互联网已经成为我们日常生活中的一部分,是用户获取信息的重要手段,也为用户提供了一个快捷方便的资源共享的资源平台。互联网上蕴涵了极为丰富的、
本文详细分析了混沌序列密码的基本原理、方法和特点。重点研究混沌序列密码系统设计,并针对典型Logistic模型密码系统设计出一种添加了随机迭代步长的混沌序列。之后在混沌
在人类的日常交际中,人们往往会通过不同的手势表达自己的思想,手势在人们的生活中起着非常重要的作用。正因如此,手势交互也成为人机交互领域的热点问题,人们一直致力于研究
5G网络(The 5th Generation Networks)被预言即将进入人们的日常生活,频谱资源的有限性成为影响无线电技术发展的关键因素。带有认知功能的动态频谱分配策略为提高无线资源的
信息技术和网络技术的快速发展为多媒体数据(音频,静态图像,视频等)的存储和传播提供了极大的便利,提高了信息表达的效率和准确性。与此同时,这种便利性也使数字多媒体信息易