多语种网络文本快速新词抽取

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:lele
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用.本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序.
其他文献
本文主要针对ADSP-BF533的内部存储器的访问方式进行了讨论,介绍了系统的内存管理机制,提出用Mem DMA的方式对指令存储器进行迂回访问,描述了DMA的相关寄存器并给出其设置的
搜索日志中人名识别一直是日志挖掘中的一个重点和难点,其结果好坏直接关系搜索引擎的检索效率和准确率。由于分析了长文本中人名识别方法在搜索日志中使用存在很多困难与不
“十一”长假才过没多久,“九九”重阳又至。古时重阳人们登高饮酒插茱萸;现在重阳,又被赋予了揖蠢辖谟的意义。今年正巧是第20个敬老节,单位特别给我们这些家里有七旬老人的职工
期刊
前几年周星驰主演的《行运一条龙》风靡一时,同时,也让许许多多的内地人知道了“港式茶餐厅”这个名字。电影中的场景总是有着飘香的葡式蛋挞和港式奶茶。朴实的装修透着亲切,斑
在人们的日常生活中和生产活动中,安全管理和品质管理日趋重要, 提高PS意识作为一种新兴的管理理念和手法,被越来越多的企业所采用,无论是作为一种工作态度还是一种生活习惯
斯拉夫蒙古文是蒙古国现行的文字,又称为西里尔蒙古文或新蒙古文.蒙古文词干和词缀包含着大量信息,斯拉夫蒙古文词切分是斯拉夫蒙古文信息处理众多后续工作的基础.该文尝试了
有想过新自DIY一份甜蜜礼物给自己心爱的人吗?这家位于武夷路的手工巧克力店是个不错的选择。
古欧的神迹相传古希腊神话中的众神之神宙斯被阿革诺耳国王的女儿欧罗巴的美貌深深吸引,化身为一头白色的神牛把美丽的欧罗巴带到了一片大陆上,在那片美丽但还没有被开垦的陆地