一种改进的最大匹配中文分词算法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:mirowtg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最大匹配算法包括正向最大匹配和逆向最大匹配两种算法,是中文分词领域的基础性算法,目前被广泛应用于众多领域。文中在详细分析了最大匹配算法的优缺点的基础上,提出了一种改进的最大匹配分词算法。改进算法在分词前先对词库进行了规范化预处理,分词时由汉字检索到该字开头的词组,再按词组长度由长到短的顺序使用传统最大匹配算法检索词库。目的是解决传统方法匹配效率低下和不能切分长词的问题。经算法分析结果表明,改进的算法较传统的最大匹配算法高效,分词能力更强。
其他文献
通过PASS M0设备在洛阳电网中的两个设计应用实例,阐述PASS M0设备在变电站改造工程中所具有的优势。与新建变电站相比,变电站改造工程不仅受限于原设计方案,还需要考虑施工
<正> 4、比较恶劣的故障,从图13~16和图18~20所示的低压缸前、后轴振动波形和频谱图中看出:前、后轴振动波形均发生了波形的截断,频谱图上均出现了1/iω的低次谐波成份(i=2)。
<正>在中学物理学习中,物理公式是最基本的工具,但是有很多学生并不能准确理解其物理意义,而是简单地将物理公式按照数学公式理解和使用,结果造成很多错误.其实,数学意义和物
从RGB颜色空间入手,在对目前使用较为广泛的几种RGB色差度量公式进行分析对比的基础上,总结出RGB颜色色差的3个基本规律,提出颜色分量的重要程度这一概念。并根据颜色分量的
由于新材料的快速涌现 ,加工制造工艺的不断发展 ,以及过程工业的复杂性 ,使得过程装备制造业对新材料的响应相对滞后 ,为了促进新材料在过程装备上的应用和面向过程工业的开
上市公司财务造假现象并不是中国特有的现象,而是一个国际性的问题,从美国的安然、世通到日本的奥林巴斯等公司的财务丑闻都充分说明了这一点
随着电子商务的不断普及,也刺激着物流行业的发展壮大,一件商品的利润很大程度上被物流运输商赚取了,经营者不仅要考虑商品本身的价值,更需要考虑运输的费用。我国电子商务企
清初墨尔哲勒氏新满洲考述麻晓燕,那晓波清入关前,努尔哈赤、皇太极在统一东北边疆的过程中,曾对当地各部族普遍以村屯或氏族为单位实行编户管理制度。入关以后,清政府出于填补东
<正>换股中的特殊性税务处理最终既不会多缴税,也不会少缴税。但是在实践中,它可以递延纳税,如果再考虑到股息红利所得免税的话,其优点与一般性税务处理相比,节税效果明显随
分析了传统的基于马尔可夫随机场图像分割算法收敛速度慢和固定加权等缺点,提出了一种基于简化马尔可夫随机场的红外图像快速分割算法。该算法首先对红外图像极大似然初始分