【摘 要】
:
由于现代社会飞速发展,一些新的名词不断出现,在已有的字符串匹配的分词方法中,大部分的词典是固定的,如果出现新的词,那么就不能被正确识别出来.由此该文提出了渐进式丰富词
【机 构】
:
河北大学,河北大学,保定金融高等专科学校
【基金项目】
:
河北省科技攻关计划项目(05213573),河北省教育厅科研计划项目(2004406).
论文部分内容阅读
由于现代社会飞速发展,一些新的名词不断出现,在已有的字符串匹配的分词方法中,大部分的词典是固定的,如果出现新的词,那么就不能被正确识别出来.由此该文提出了渐进式丰富词典的分词方法,把那些不能正确分出来的字符串,利用统计词频的方法记录下来,如果词频达到一定阈值,就可以把它认为是新词,可以把它加入到词典中,使得词典动态的增加.实验证明,该方法在保证分词速度不受影响的基础上,可以提高分词的精度.
其他文献
网格计算利用互联网将分散在不同地理位置的高性能计算机组织成一个“虚拟的超级计算机”,从而实现计算资源共享和降低计算成本。基于校园网的网格计算模型CCrid以校园骨干网
目前进行网络性能测量所得到的只是一个基于模型的估计值,与其实际值有一定的误差,针对这个问题,设计了一个基于Linux的参数可控的网络数据包发生器,阐述了该数据包发生器的设计
频繁项集的生成是关联规则挖掘中的关键问题,提出了一种基于上三角项集矩阵的动态频繁项集挖掘算法.当事务数据库和最小支持度发生变化时,本算法只需重新遍历一次上三角项集
常压塔四线350℃馏出含量是炼油厂常压蒸馏生产过程的重要质量指标,它与常压炉出口温度等多个变量之间存在严重的非线性关系,而且无法实时在线用仪表直接测量.论文提出了基于
XML的结构完整性约束用来表示元素之间或路径之间的结构关系,它们在XML查询优化中有着举足轻重的作用.提出了基于元素的结构完整性约束和基于路径的结构完整性约束的概念,定
词类知识的粗糙和不完备是影响自动句法分析的一个重要因素。论文以“V+V”结构序列为切入点.彻底按照词的句法功能对动词进行分类,句法功能完全相同才给以相同的标记。这样可以