网络维吾尔文判别及其文本长度下界的探讨

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:longer9568
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98%。经过错误分析,发现错误判别的文本主要集中在论坛和微博客中,这些文本有效字符数太少,语言特征不充分。最后作者计算了四种语言真实网络文本中的所有公共子串,并对文种判别所需要的最短字符串长度进行了分析。
其他文献
经过20多年的发展,高校广播电视编导专业已经为我国广播电视行业培养了大批优秀的人才。随着社会经济的发展,传统的广播电视编导专业的教学模式已经难以适应社会的发展需求。
大学生就业问题已经成为全社会关注的焦点,高校团组织应主动拓展工作范围,在服务大学生就业工作方面做出积极探索,如通过调查研究,加强与用人单位的联系、提高大学生的综合素质、
本文介绍了内容教学法(CBI)教学理念及其理论依据,所遵循的基本原则,基本要素及教学模式。《英语:基础模块》是在中等职业学校英语教学改革中出现的具有时代特点的新教材,其设计是
建设学习型党组织对党校图书馆的服务工作提出了新的要求,党校图书馆要通过转变服务意识、开展主动服务和互动式服务、提供分类服务和定题服务、开放信息化服务、提高队伍建