基于K-最近距离方法的哈萨克语文本分类系统的设计与实现

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:moon818882003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文利用K-最近距离算法对哈萨克语文本进行分类,通过统计词频信息和语言信息相结合的方法选择特征,实现了一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频,还利用了特征的集中度、分散度,经过训练和统计对每一类哈萨克语文本形成特征的权重向量,然后根据K-最近距离算法判断测试文本的所属类别,实验结果表明此方法可行。
其他文献
汉字是学习汉语的有利工具。通过学习汉字主要可以培养形象思维、综合思维、类推思维和审美思维,这些思维又反过来影响并促进汉语的学习。
笔者以自己所在院校为例,从招生的逐渐萎缩现象入手,从学科意识(学科意识淡薄)、教学安排(课程设置有偏差、教学内容针对性差、师资力量匮乏)和就业前景分析原因,将独立学院对外汉语专业发展的现状做个浅显剖析,并针对以上原因提出对策,希望能改变这个专业目前的尴尬地位。
为了适应汉语国际推广的新形势,解决对外汉语教师严重匮乏的问题,我们开设了对外汉语专业,而国务院学位委员会于2007年4月又决定设置汉语国际教育硕士专业学位,以培养对外汉语教学专门人才。但是,如果我们不在对外汉语教学人才的“就业”问题上采取有效的改革措施,而只在“培养”上下功夫,则其成效不容乐观,因为造成如今对外汉语教学师资奇缺的症结并不在对外汉语教学方面的人才匮乏或相关专业硕士的缺少,而在于现行对
@@各类句子之间的关系有亲疏之分,其中疑问句和感叹句之间存在着内在的联系。最突出的一点是,很多疑问手段转化成了感叹句的标记,不论是现代汉语、古代汉语还是其他语言,都有这方面的大量例证。迄今为止学界关于四类句子的研究是极度不平衡的,而感叹句的研究是最薄弱的一环。
@@从语用平面分析,“被”字句是以主题所表示的事物为视角进行叙述的,即述题叙述该主题事物“受到”(遭受/承受)某种动作及其结果。“被”字句句式的语用意义最概括的表述就是表示“被动”(或“受动”)态,就是强调客体事物的“被动性”(或“受动性”),强调该事物“受到”(某人或某物所发出的)某种动作情状或在某种动作作用下发生某种结果情状(变化、移动、损失等)。“被”字句是现代汉语中典型的被动句。
@@2003年10月新修订的《普通话水平测试大纲》(以下简称《大纲》)颁布,全国部分省、直辖市和自治区根据《大纲》制定了在本省、市、区范围内的实施细则条款。江苏省于2004年10月1日起正式实施新《大纲》,《江苏省普通话水平测试评分细则(试行)》(以下简称《评分细则》)也同时启用,该《评分细则》“根据教育部2003年10月10日颁布的《普通话水平测试大纲》,结合江苏省普通话培训测试的实际情况,制定
普通话水平测试是普通话水平测试员凭耳朵主观感受应试人发音状况的主观性语言测试,因而,对于测试员的语音感知能力及语言分辨能力有较高要求。测试员听力水平的高低,对测试效度有着直接的影响。通过对50名测试员进行纯音测听,我们发现高频听力损失者在“j、s、z、c”会出现较高频率的误判现象,而通过语音图谱的分析进一步证实高频听力损失的测试员难以听清部分声母的发音。据此,我们总结出高频听力损失者容易混淆的字,
本文以汉蒙统计机器翻译系统为研究对象,介绍了基于混淆网络和PageRank的Nbest重排序方法。不同于以多个翻译系统为输入的系统融合技术,本文充分利用了单一系统的Nbcst输出。在单一系统Nbest基础上构建基于TER词对齐的混淆网络,然后通过PageRank排序算法输出最终的翻译结果.该方法利用了词级别的TER词对齐的混淆网络生成更多新的候选翻译选项,将最佳翻译结果的搜索问题视作网页间的PR值
本文介绍了电子政务的概念及其内蒙古电子政务的发展现状,分析了电子政务在内蒙古发展中存在的问题,并提出了发展对策。
维、汉双语远程教学系统是符合国际Unicode代码标准的,基于Internet TCP/IP协议的,能够同时支持含维吾尔文和汉文的多语种复杂文字信息的双语化多媒体远程教学系统,该系统具有维吾尔文与汉文双语界面的自动切换,双语文本显示与传输,师生双语对话,以及多媒体课件实时录制与传播,屏幕共享,电子举手与电子教鞭等功能,从而解决了传统课堂教学在时间、空间和语言上的制约问题,大大扩展了教学规模,实现名