基于渐进式丰富词典的分词方法研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：liangsfr

【摘要】

：

由于现代社会飞速发展,一些新的名词不断出现,在已有的字符串匹配的分词方法中,大部分的词典是固定的,如果出现新的词,那么就不能被正确识别出来.由此该文提出了渐进式丰富词

【作者】

：

杨柳袁方霍亮

【机构】

：

河北大学,河北大学,保定金融高等专科学校

【出处】

：

计算机工程与应用

【发表日期】

：

2006年32期

【关键词】

：

渐进式丰富词典字符串匹配分词方法统计分词方法 enriching dictionary gradually the matching method the

【基金项目】

：

河北省科技攻关计划项目（05213573）,河北省教育厅科研计划项目（2004406）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于现代社会飞速发展,一些新的名词不断出现,在已有的字符串匹配的分词方法中,大部分的词典是固定的,如果出现新的词,那么就不能被正确识别出来.由此该文提出了渐进式丰富词典的分词方法,把那些不能正确分出来的字符串,利用统计词频的方法记录下来,如果词频达到一定阈值,就可以把它认为是新词,可以把它加入到词典中,使得词典动态的增加.实验证明,该方法在保证分词速度不受影响的基础上,可以提高分词的精度.

其他文献

一种基于校园网的分布计算网格模型的实现

网格计算利用互联网将分散在不同地理位置的高性能计算机组织成一个“虚拟的超级计算机”，从而实现计算资源共享和降低计算成本。基于校园网的网格计算模型CCrid以校园骨干网

期刊

网格计算校园网GLOBUSSETI@homeC_GridGrid computing campus LA N Globus SETI@hom

基于Linux的IP网络数据包发生器的设计与应用

目前进行网络性能测量所得到的只是一个基于模型的估计值，与其实际值有一定的误差，针对这个问题，设计了一个基于Linux的参数可控的网络数据包发生器，阐述了该数据包发生器的设计

期刊

数据包发生器IP网络LINUX网络性能packet generator IP network Linux network performan

一种基于矩阵的动态频繁项集挖掘算法

频繁项集的生成是关联规则挖掘中的关键问题,提出了一种基于上三角项集矩阵的动态频繁项集挖掘算法.当事务数据库和最小支持度发生变化时,本算法只需重新遍历一次上三角项集

期刊

数据挖掘关联规则频繁项集上三角项集矩阵Data Mining association rules Frequent Itemsets Uppe

基于神经网络的炼油厂常压蒸馏350℃含量预测

常压塔四线350℃馏出含量是炼油厂常压蒸馏生产过程的重要质量指标,它与常压炉出口温度等多个变量之间存在严重的非线性关系,而且无法实时在线用仪表直接测量.论文提出了基于

期刊

蒸馏塔350℃含量预报神经网络径向基函数distillation tower350℃ fractionpredictionneural netw

XML结构完整性约束的研究

XML的结构完整性约束用来表示元素之间或路径之间的结构关系,它们在XML查询优化中有着举足轻重的作用.提出了基于元素的结构完整性约束和基于路径的结构完整性约束的概念,定

期刊

结构完整性约束排他性包含必需性包含路径蕴涵路径互斥路径同现structural integrity constraintexclusive inc

面向自动句法分析的“V＋V”结构歧义研究

词类知识的粗糙和不完备是影响自动句法分析的一个重要因素。论文以“V＋V”结构序列为切入点．彻底按照词的句法功能对动词进行分类，句法功能完全相同才给以相同的标记。这样可以

期刊

知识表示句法歧义歧义消解knowledge representationsyntactic ambiguitydisambiguating

基于渐进式丰富词典的分词方法研究

其他学术论文