论文部分内容阅读
[摘 要]通过研究课堂教学辅助和全文检索技术的基础上,提出适合藏语文课堂教学的实用检索技术的方法,本文中依次讨论了目录检索、数据库字符串匹配检索、基于分词和数据库匹配的全文检索方法。
[关键词]教学辅助系统,分词,全文检索
中图分类号:G633.3 文献标识码:A 文章编号:1009-914X(2015)45-0248-02
1.引言
目前,各种各样的教学辅助工具,无论是应用程序、分布式,还是混合型的系统都给教师教学和学生自学带来了极大便利,但这些教学辅助工具的功能依然不能满足课上和课下的教育教学任务。尤其是信息检索技术只局限于高校的数字图书馆以及相关网站中,未在日常课堂教学系统中充分运用该技术。随着教育信息化不断地建设和发展,绝大多数中小学配有多媒体、电子白板教学设备的,然而也同样很少利用检索技术。因此在研究教学辅助系统时,借助多媒体或网络技术支撑的教学环境,适当引入检索技术,能提高课堂教学效率和质量。
2.适合辅助教学的信息检索
信息检索不仅可运用在数字图书馆、专家系统、网络搜索引擎等,还可以在具体课堂教学当中使用检索技术。针对中小学藏语文课堂教学,除了通常以图文并茂、动画、视频等方式呈现的多媒体教学外,信息检索的教学系统也能为师生提供混合型学习方式。因目前互联网坏境、网络资源呈现杂乱、不稳定、不文明等现象,所以适合课堂教学的资源可缩小到具体的教学知识点中,不会出现因搜索到与课文知识无关或者其他不良信息,而中断课堂教学,因而能够方便、高效地进行辅助教学。
3.信息资源及检索类别
对于网络上的信息进行分析,藏文网站的信息虽然日渐增多,但适合藏语文学科教学的内容仍然偏少,因此通过教师选择、收集和制作的适合藏语文课堂辅助教学的信息资源,具有可靠、成熟、知识系统全面等优点,其类别可分为以下两种:
3.1印刷型出版物,经过人工录入和整理、以文本、图片格式存储在计算机中,如:“教科书、教辅、课外读物、科普读物、少量文集和专著”。
3.2电子出版物,将已有的图、文、声、像等集为一体的电子出版物进行整理,并储存在计算机中,如:“电子书、音频、视频、动画等”。
4.检索技术模块:
检索技术基本分为目录检索、关键字全文模糊检索和基于分词的全文检索,目录检索是以直接访问数据库文件,并在人机交互界面以树状的形式呈现。基于分词的全文检索是对藏文文档进行自动分词、分句并以建立倒排文档的数据结构基础上,进行关键词检索的方式。
4.1目录检索
以人工方式搜集信息,并将信息置于事先确定的分类框架中。提供目录浏览服务和直接检索服务。目录的用户界面基本上都是分级结构,主界面提供最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别并在另一个窗口显示其内容,如“以小学藏语文课本为例,可以按照年级分6大类,每类可分上下册,每册分若干单元,单元再分若干课文,”的分级检索,数据质量相对较高,保证了查准率。以小学藏语文为例,可以将其电子出版物作为目录检索对象,进行分级向下检索,检索成功并以PDF或其他电子书格式呈现,方便教师在课堂上结合电子白板进行教学。目录检索模块如(图1)所示:
4.2关键字全文模糊检索
利用Like模糊检索是一个按全表扫描的过程,把文档存储在数据库字段中,如(表1)中查找content字段含有关键字“”时,可以使用SQL 语句 SELECT ID FROM Subject1 WHERE 内容 LIKE %% ,查找成功后,向主界面显示Content 中的、标题(课名)、以及册数。若随着信息量增大后,检索效率明显地会下降。
4.2基于分词的全文检索
4.3.1分词
教学资源大部分是以文本的形式进行存储,因此对文档进行分词是信息检索的首要任务,也是难点所在。目前,各大院校及科研机构对于分词技术的研究很广,有基于字符串正和逆两种匹配法,概率统计分词法、字符串匹配和概率统计相结合的藏文分词法等,藏文与汉文的分词法基本思路相同,但藏文因有其特殊性,在分词过程中涉及紧缩词还原等问题。如:“”文本的中“”不能分成一个词,因为“”是文法中的属格,如果将“”直接分开,由于“”后面未根后加字,则“”是不规则s的词。按常规分词结果应是“”,所以需要将“”还原成“”。具体分词过程则不一一累赘。
4.3.2 数据库索引
通过对文档文本自动分词后,再进行句子边界识别和自动切分,切分出来的句子存入数据库Segmented Tense字段中,未处理的原句子存入Unsegmented Tense,课文名存入 Title ,册数存入Level。如表2 :
4.3.3检索模型
4.3.3 倒排索引
对文档中的藏文字串进行切分,并把切分出来的词语在文档中出现的位置进行计算后,将该位置信息和词频信息、以及所属文档编号加入到词索引库中,建立成倒排索引。倒排列表表示可以表示为:>, n表示单词在n个文档中出现,d 为文档的编号(ID), fi 为单词在文档d中出现的词频(FreIndex),是单词出现在某个文档中的位置列表(PosiIndex).
如:
4.3.4检索流程
结束语
近年来藏语文教学辅助工具还止步于多媒体课件,而国内和国外已从单一的多媒体课件转变到基于积件思想的辅助系统,因此从藏语文课堂教学的实际出发,运用实用的检索技术,能为今后教学辅助系统的开发奠定基础。
参考文献
[1]才智杰. 藏文自动分词系统中紧缩词的识别[J].中文信息学,2009,23(1):36-37
[2]范士勇.肖胜刚等.基于分词索引的全文检索技术介绍.电脑知识与技术,数据库及信息管理
[关键词]教学辅助系统,分词,全文检索
中图分类号:G633.3 文献标识码:A 文章编号:1009-914X(2015)45-0248-02
1.引言
目前,各种各样的教学辅助工具,无论是应用程序、分布式,还是混合型的系统都给教师教学和学生自学带来了极大便利,但这些教学辅助工具的功能依然不能满足课上和课下的教育教学任务。尤其是信息检索技术只局限于高校的数字图书馆以及相关网站中,未在日常课堂教学系统中充分运用该技术。随着教育信息化不断地建设和发展,绝大多数中小学配有多媒体、电子白板教学设备的,然而也同样很少利用检索技术。因此在研究教学辅助系统时,借助多媒体或网络技术支撑的教学环境,适当引入检索技术,能提高课堂教学效率和质量。
2.适合辅助教学的信息检索
信息检索不仅可运用在数字图书馆、专家系统、网络搜索引擎等,还可以在具体课堂教学当中使用检索技术。针对中小学藏语文课堂教学,除了通常以图文并茂、动画、视频等方式呈现的多媒体教学外,信息检索的教学系统也能为师生提供混合型学习方式。因目前互联网坏境、网络资源呈现杂乱、不稳定、不文明等现象,所以适合课堂教学的资源可缩小到具体的教学知识点中,不会出现因搜索到与课文知识无关或者其他不良信息,而中断课堂教学,因而能够方便、高效地进行辅助教学。
3.信息资源及检索类别
对于网络上的信息进行分析,藏文网站的信息虽然日渐增多,但适合藏语文学科教学的内容仍然偏少,因此通过教师选择、收集和制作的适合藏语文课堂辅助教学的信息资源,具有可靠、成熟、知识系统全面等优点,其类别可分为以下两种:
3.1印刷型出版物,经过人工录入和整理、以文本、图片格式存储在计算机中,如:“教科书、教辅、课外读物、科普读物、少量文集和专著”。
3.2电子出版物,将已有的图、文、声、像等集为一体的电子出版物进行整理,并储存在计算机中,如:“电子书、音频、视频、动画等”。
4.检索技术模块:
检索技术基本分为目录检索、关键字全文模糊检索和基于分词的全文检索,目录检索是以直接访问数据库文件,并在人机交互界面以树状的形式呈现。基于分词的全文检索是对藏文文档进行自动分词、分句并以建立倒排文档的数据结构基础上,进行关键词检索的方式。
4.1目录检索
以人工方式搜集信息,并将信息置于事先确定的分类框架中。提供目录浏览服务和直接检索服务。目录的用户界面基本上都是分级结构,主界面提供最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别并在另一个窗口显示其内容,如“以小学藏语文课本为例,可以按照年级分6大类,每类可分上下册,每册分若干单元,单元再分若干课文,”的分级检索,数据质量相对较高,保证了查准率。以小学藏语文为例,可以将其电子出版物作为目录检索对象,进行分级向下检索,检索成功并以PDF或其他电子书格式呈现,方便教师在课堂上结合电子白板进行教学。目录检索模块如(图1)所示:
4.2关键字全文模糊检索
利用Like模糊检索是一个按全表扫描的过程,把文档存储在数据库字段中,如(表1)中查找content字段含有关键字“”时,可以使用SQL 语句 SELECT ID FROM Subject1 WHERE 内容 LIKE %% ,查找成功后,向主界面显示Content 中的、标题(课名)、以及册数。若随着信息量增大后,检索效率明显地会下降。
4.2基于分词的全文检索
4.3.1分词
教学资源大部分是以文本的形式进行存储,因此对文档进行分词是信息检索的首要任务,也是难点所在。目前,各大院校及科研机构对于分词技术的研究很广,有基于字符串正和逆两种匹配法,概率统计分词法、字符串匹配和概率统计相结合的藏文分词法等,藏文与汉文的分词法基本思路相同,但藏文因有其特殊性,在分词过程中涉及紧缩词还原等问题。如:“”文本的中“”不能分成一个词,因为“”是文法中的属格,如果将“”直接分开,由于“”后面未根后加字,则“”是不规则s的词。按常规分词结果应是“”,所以需要将“”还原成“”。具体分词过程则不一一累赘。
4.3.2 数据库索引
通过对文档文本自动分词后,再进行句子边界识别和自动切分,切分出来的句子存入数据库Segmented Tense字段中,未处理的原句子存入Unsegmented Tense,课文名存入 Title ,册数存入Level。如表2 :
4.3.3检索模型
4.3.3 倒排索引
对文档中的藏文字串进行切分,并把切分出来的词语在文档中出现的位置进行计算后,将该位置信息和词频信息、以及所属文档编号加入到词索引库中,建立成倒排索引。倒排列表表示可以表示为:
如:
4.3.4检索流程
结束语
近年来藏语文教学辅助工具还止步于多媒体课件,而国内和国外已从单一的多媒体课件转变到基于积件思想的辅助系统,因此从藏语文课堂教学的实际出发,运用实用的检索技术,能为今后教学辅助系统的开发奠定基础。
参考文献
[1]才智杰. 藏文自动分词系统中紧缩词的识别[J].中文信息学,2009,23(1):36-37
[2]范士勇.肖胜刚等.基于分词索引的全文检索技术介绍.电脑知识与技术,数据库及信息管理