基于信息增益的中文术语抽取

来源 :中文教学现代化学会 | 被引量 : 0次 | 上传用户:kcsj001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语具有特定的领域特征,即在专门的领域里大量出现,而在通用领域内出现的机率较小.基于此特性,本文提出了基于信息增益的术语抽取算法.将术语抽取的过程看成是文本分类的特征选取过程.通过对比专业领域与通用领域的文档,抽取出两类文档中信息增益较大的特征词作为术语.实验表明,该方法取得了令人满意的结果.
其他文献
本文主要考察"白白、长长、大大、高高、好好、紧紧、绿绿、慢慢、轻轻、深深、圆圆、远远、静静、安安静静、干干净净、高高兴兴、漂漂亮亮、辛辛苦苦、急急忙忙、平平安安"20个形容词重叠式.根据《中国汉语水平考试大纲》、《现代汉语重叠形容词的用法例释》、韩国学生的中介语语料库以及汉语教材,确定它们为韩国学生常用的形容词重叠式.通过对韩国学生习得偏误分析,对韩国学生在形容词重叠式习得的过程中习得的重叠式,不
本文以作文中的产出性词汇为切入点,利用留学生汉语中介语语料库,从词汇层面对留学生的二语写作进行尝试性的研究。通过对词汇层面的5大项、25个小项的影响变量进行相关性研究,发现总字数、不计重复的字数、总词数、不同字所占的比例、甲级字、甲级词与作文的得分有高相关性。
本文先从研究内容、研究方法和研究材料三方面来梳理汉语中介音的研究现状,并进一步讨论此领域的发展趋向与自然口语语料库的建立。
C.TEST的听后完成笔记是一个新题型,是C.TEST在题型创新方面做出的一个新尝试,也是C.TEST的一个特色和亮点。这个题型最大的特点是要考查考生对语言能力的综合运用,而不是主要考查某一单一语言技能。同时,这个题型不仅对考生来说是个比较困难的语言测试任务,对命题员来说也是一种挑战。利用HSK动态作文语料库,为汉语测试的命题工作提供技术支持,则是一次非常难得的创新,开辟了HSK动态作文语料库的新
本文从语料库与语言测试的内涵及关系出发,探索、分析基于计算机的语料库应用于对外汉语测试的理论依据,并提出基于汉语母语语料库实现对外汉语测验的具体构想。
在本文中,先概述了怎样从语料库中挖掘语言学知识,然后再讲怎样从语料库中挖掘非语言学知识。文章着重指出,在当前语言学战略转移的关键时刻,应当把基于语料库的经验主义方法与基于规则的理性主义方法结合起来。这是当前语言学战略转移的正确方向。
本文概述了小型口语语料库的建立过程,其意义在于可对不同水平、不同国别的学生围绕同一话题的口语表达进行对比研究;可对某一偏误类型在外国学生口语表达中的表现进行计量研究;通过调查分析,可了解某个国别、某个水平的外国学生口语表达的特点与弱点;并根据研究结果,可对口语教材的编写等提出有针对性的修改意见。
笔者从篇章的七个特征之一的衔接性入手,分析了30个以英语为母语的外国学生口语语段表达的一些偏误现象。随着汉语学习的深入、交际层次的提高,语篇教学不容忽视。语篇的教学涉及到词语、句式的选择与应用、句子衔接、语段组织、语体风格转换、言语策略等诸多方面。在实际教学中,教师不仅要重视词汇和语法点的训练,而且也要重视以上各个方面的训练,这样长此以往才能真正提高学生的语篇表达能力。
本研究拟采用由北京语言大学研制的“HSK动态作文语料库”作为研究语料,运用横向研究方法对韩国学生汉语“不”和“没(有)”否定结构的习得顺序进行考察,探讨习得顺序成因与制约因素,并指出习得顺序研究对教学与教材编写的启示。
属性词是现代汉语中一个比较有争议的词类,本文在探讨属性词研究必要性的基础上将《现代汉语词典》(第5版)中所有的属性词建成数据库,深入分析其语法、语义特点.通过定量分析,发现吕叔湘先生提出的属性词的七个语法特点中有六个并不符合,特别是76.11%的属性词前面都可以加"很".根据所得结论,文章最后着重从对外汉语方面阐释了该库的用途.