基于Trie树的词语左右熵和互信息新词发现算法

来源 :现代电子技术 | 被引量 : 0次 | 上传用户:sam_rao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于大量新词的出现,使得中文文本分析产生了较大的困难,因此新词发现成为目前中文自然语言处理中的热点和难点问题。为此,文中提出了一种基于Trie树的词语左右熵和互信息新词发现算法。先根据成词规则,筛选掉文本中的停用词和非中文字符,将每个字与其右邻的字组成二元组;然后利用左右信息熵和互信息进行成词概率的计算,根据计算到的成词概率和词频筛选出新词;并且设计了三个实验,验证了算法的有效性和可行性。实验结果表明,该新词发现算法成词准确率较高,比其他新词发现算法时间效率有较大的提高,对于中文分词结果的优化起到重要的作
其他文献
LS型螺旋输送机是为替代原GX型老产品进行的新系列设计,由北京起重运输机械研究所负责.芜湖起重运输机器厂、百色矿山机械厂、合肥运输机械厂和太原重机学院参加组成联合设
植株生长可能受到土壤酸度的不利影响。除了 pH 较低自身的不利影响外,在酸性土壤上高浓度游离 Al 和 Mn,以及 S、Ca、Mg 元素的缺乏均影响植物正常生长。抑制依赖于根瘤固
<正> 钙素作为植物的必需元素之一,在植物营养生理和抗病生理中占有重要地位。一般双子叶植物比单子叶植物需要更多的钙(Loneragan等,1968)。植物体内钙的含量对真菌病害的感
食品,或者说食物,是人类赖以生存的三大要素之一。食品从种植/养殖至加工再到我们餐桌上的不断变化就是人类不断脱离蒙昧走向文明的重要标志。1900年,以巴黎绿(一种不纯的亚砷酸铜
稻田养鱼,始于中国。考古学家从出土文物考证中证实,我国陕西的汉中县、勉县,四川的峨嵋县,在距今1700年前的东汉时期,已开始稻田养鱼。浙江青田县记载:"明洪武24年,市有田鱼
在介绍了恰当方程与积分因子的概念以及相关定理的基础上,通过对积分因子的研究,给出了一类微分不等式的证明,并给出了Picard定理唯一性的另一种证明方法。
本文在对环境成本界定的基础上,对环境成本性质进行了讨论;并进一步对利用环境成本调整GDP的几个问题进行了思考。
党的十九届四中全会审议通过的《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》(以下简称《决定》)中指出我国国家制度
报纸
随着汽车工业的发展,人们对汽车乘坐舒适性和安全性的要求日趋提高。为保证紧急时刻乘客能顺利逃生,从车窗玻璃安装方式的角度考虑,设计了一种新的客车自动破窗装置,以弥补传
目的:探讨透明防水敷贴和棉质敷贴对预防锁骨下静脉置管(SVC)感染的效果。方法:160例胃肠外科行SVC的患者,根据SVC时使用敷贴分为棉质敷贴组(M组)和透明防水敷贴组(T组),两组又根据换