面向文本知识管理的自适应中文分词算法

来源 :重庆大学学报:自然科学版 | 被引量 : 0次 | 上传用户:w198911154
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统字典匹配分词法在识别新词和特殊词处理方面的不足,结合2元统计模型提出了面向文本知识管理的自适应中文分词算法——SACWSA。SACWSA在预处理阶段结合应用有限状态机理论、基于连词的分隔方法和分治策略对输入文本进行子句划分,从而有效降低了分词算法的复杂度;在分词阶段应用2元统计模型,结合局部概率和全局概率,完成子句的切分,从而有效地提升了新词的识别率并消除了歧义;在后处理阶段,通过建立词性搭配规则来进一步消除2元分词结果的歧义。SACWSA主要的特色在于利用"分而治之"的思想来处理长句和长词,用局
其他文献
关于中国是否属于亚细亚生产方式的论争,早在20世纪二三十年代就开始了。在30年代后期为了反对日本的反动言论,国内学者大多不承认中国属于亚细亚形态的社会。改革开放后,特
针对常用的波形评价参数(normalized correlation coeffiient,NCC)和变化趋势参数来描述振荡波形畸变情况的不足,利用数字化测量中不同离散波形对应时刻的微分的比值越趋于1波形
当前,医院的药品销售收入约占全部业务收入的百分之五十,然而,药品管理却是医院管理的薄弱环节,我
随着我国科技与经济的快速发展,现阶段我国人民日益增长的物质文化需要逐渐增大,近些年又由于乡村与城镇的大力发展,城乡改造使人民对住房的需求大大增加。在大量的需求下,房
粉碎“四人帮”后,邓小平重新恢复工作。由于国务浩繁,邓小平休息和运动的时间相对减少,为了保持健康的身体和旺盛的精力,邓小平在同志们和家人的劝说下,决定到黄山一游。  登山之前,邓小平对安徽省的负责同志提出三点要求:第一,不要妨碍群众游览;第二,省委同志不要来陪;第三,不准特殊化。起初,为了安全起见,保卫人员还是想悄悄控制一下上山游客的人数。邓小平发现后,便说:“要让群众上山,不要搞得戒备森严。” 
采用热分析法对不同组成的LiOH—LiNO3二元体系进行研究,绘制了具有最低共熔点的该二元体系T-x相图,该体系的最低共熔点为175.7℃.利用低共熔混合物LiNO3-LiOH为锂盐,与前驱体球形
对采用X射线衍射测量微球覆层厚度的方法进行研究,首先在建立微球X射线衍射数学模型的基础上,利用1组已知厚度和X射线衍射线积分强度的标样,用计算机模拟求解的方、法,得到微球衍
为了直接高效利用低温烟气余热驱动制冷,对不同热流密度、不同浓度溴化锂水溶液竖管内层流降膜蒸发的传热性能进行了实验研究。结果表明,降膜传热系数随溶液进口浓度升高而减
通过GIS(Geographic Information System)分析功能和熵权计算,研究公路生态环境质量问题。采用压力—状态—响应概念框架模型和专家咨询相结合的方法确定公路生态环境评价指标,对各评价指标进行无量纲化处理后,利用熵理论计算评价指标的权重,并建立公路生态环境质量评价模型。在RS(Remote Sensing)和GIS支持下,分析青海省某公路生态环境现状,借用MATLAB工具计算
以复合材料在电子封装方面的应用为目标,选择粒径大约为4μm的Al2O3、AlN和SiC颗粒,采用挤压铸造法方法制备了颗粒体积分数为40%的3种铝基复合材料。研究表明,所制备的复合材