基于语料库方法的数字化《说文》学基础资源构建

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:leolee19820604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为信息科学与传统汉语言文字学的交叉课题,数字化《说文》学研究有着两方面的意义:一是希望为传统汉语言文字学提供现代人易于理解与接受的数字化研究方式,达到继承与发展并重的目的;二是希望利用现代计算机技术对《说文》中蕴含的汉字形音义规律进行挖掘与阐释,以建立形式化的汉字系统模型。无论哪一方面都离不开底层基础资源的支持。 本文依据现代语料库建设方法与思路,选定3部具有代表性的《说文》学典籍作为首批数字化语料,遵循传统《说文》研究特点,以其“9353”个正篆为纲,采用关系数据库形式构建了初具规模的数字化《说文》学语料库;并分别从汉语拼音及对应楷字的部首笔画与笔画笔顺三个角度建立“9353”正篆的“字目”索引,以方便语料的检索与阅读。语料的应用程度取决于其加工深度。本文从《说文》著述体例出发,通过语料切分与标注,将原文的线性说解转化为小篆属性的结构化描述,即反映《说文》原旨的基本知识库,以便于《说文》研究者对原文各项知识点的提取、类聚与分析。 《说文》中蕴含了丰富的汉字构形、声韵与词义知识,构建数字化的《说文》专家知识体系离不开这三类子知识库的支持。本文以汉字构形学理论为依据,利用《说文》中的字形说解义例,对“9353”个正篆的直接构件进行了自动拆分与功能分析,并由此构建《说文》小篆的初始构形知识库,为小篆构形系统的计算机分析奠定了操作基础。 《说文》思想的系统性不仅在于其结构上的规律,更在于其内容上的联系,即通过不同用意的说解字建立小篆形音义间的网状关系。鉴于计算机缺乏人在识别汉字时的兼容性,本文对数字化《说文》中的汉字进行了编码认同与别异,并根据其形体与使用关系建立了《说文》用字的三维字库,以保证利用计算机系联《说文》时的全面性与准确性。 本论文作为教育部民俗典籍文字研究中心重点项目“数字化《说文解字》教学、研究系统设计与开发”的基础子课题,除上述研究外,更重要的是在研究过程中规划出数字化《说文》学研究的总体框架,并为后续课题的研究与开发提供一整套可操作的流程、规范、标准、方法或思路,以期实现整个项目的可持续发展。
其他文献
经济的高速发展和城市化进程的加快,使我国城市交通基础设施承受着巨大的压力,同时低效率利用和管理技术落后又加剧了交通设施短缺造成的困难,因此发展智能交通系统的意义非
编译器是将高级语言源程序翻译转换成低级语言目标程序的系统软件,是软件开发的一种基础支撑工具,它的正确性直接影响到应用软件的可靠性,因此需要通过大量的测试工作来保障
软件过程工程包括过程建模、过程分析、过程例化、过程运作、过程度量和过程评估与改进,对过程合理性验证的研究一直是软件过程分析的一个主要研究内容。   软件过程是一个
无线移动技术和嵌入式计算技术的发展,激发了人们对普适内容服务的需求,人们希望“在任何需要的时间和地点、通过任何客户设备获得内容服务”。这同时也引发了人们对普适内容
随着计算机处理能力的快速发展及科学理论的空前爆发,使得计算材料科学对社会发展产生了越来越大的影响。相场方法是进行中尺度模拟的重要方法,在计算材料科学中被广泛应用。相
随着互联网技术和应用的快速发展,新一轮的软件危机日益深化,高效、可靠的软件生产开发模式重又成为国内外学术界和工业界研发的热点,以软件复用为基本特征、以软件产品线及
将P2P技术和视频点播应用相结合是当前研究热点之一,当前在Internet上提供视频点播服务(VideoonDemand)普遍的问题在于数据源(sourceServer)的负载过大,导致系统扩展性不佳,不能
网络教育资源种类繁多,形态各异。如何有效管理这些教育资源以使其为教育和教学所用,已经成为远程教育研究领域的一个重要课题。传统教育资源管理方式下,由于教育资源缺少统一的
近年来,随着移动设备数量和应用类型的急剧膨胀,传统互联网的结构和功能日趋复杂,网络设备在不断加入的复杂协议之后变得臃肿不堪。于是软件定义网络(SDN)应运而生。SDN通过把原
审计系统是安全操作系统的重要组成部分,系统中与安全相关的活动均应进行审计。基于内核的审计系统具有无法旁路和强制记录的性质,能够全面而详实的记录系统中各种操作的相关信