基于N-Gram模型的蒙古语文本语种识别算法的研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:hjzc800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。
其他文献
商代的巫医交合和医疗俗信宋镇豪中国的医学有着悠久的历文在商代能识不小疾病的病原因,根据发部位或病所在,仔细区分出许多病患种类.不少学者诈有精细的论述,庸赘言。我们所注意
国际标准化组织(ISO)正式颁布的ISO9000:2000中,提出了"过程方法"(Process Approach)的质量管理原则.过程方法可以推广应用到企事业单位、研究机构、商行、社团等"组织",它可
以10W低压汞灯(特征谱线波长,λ=253.7nm,简称UVC)作为光源,硫化钠的水溶液作为反应介质,进行了UVC直接分解硫化氢制氢反应(简称UVC-H2S-H2)的研究.考察了反应介质中硫的存在形式
课程有广义和狭义之分。课程评价是对学校课程进行的价值判断,研究课程评价的特性可以更好地把握课程评价的实质。我国现行的广义高等职业教育课程评价体系已体现出宏观评价
习惯所认为的军民鱼水关系在实质的物质关系上并不存在,军民之间是竞争关系。与军民关系相比,鱼水关系反而更有可能存在于文人政府与民众之间。在物质关系层面,军民关系的亲
<正>老张爱吃豆制品,豆浆豆腐豆干什么的,他都能自己制作。他知道豆制品是好东西,他以及他家人都经常食用。他也自信自己对豆制品相当了解,可作为资深糖友的他在一次糖友活动
目的建立玄蓝咽喉炎颗粒中黄芩苷和芍药苷的测定方法。方法采用双波长HPLC法,色谱柱:SHIMADZU VP-ODS(5μm,250 mm×4.6 mm);流动相:甲醇-0.05 mol·L~(-1)磷酸二氢钾溶液(38
实验教学是能源类等工科专业课程的重要与必备环节,然而,对于实验教学质量,特别是学生的需求及其实践能力、操作能力,学校并没有形成规范的考核办法与体系。为满足社会对应用
房价不断攀升、市民居住困境是现代都市的普遍痼疾,也是阻碍城市经济文化发展的主要瓶颈。覆盖全面、机制严密的住房保障制度是解决这一问题的根本途径。本文选取中国北京和
本文采用索氏浸提法从漆树籽核中提取漆籽油,研究浸提时间及混合溶剂对出油率的影响,并对得到的漆籽油进行理化性质测定。研究结果表明,用石油醚作为溶剂时,60℃浸提9h,出油