论文部分内容阅读
作为信息科学与传统汉语言文字学的交叉课题,数字化《说文》学研究有着两方面的意义:一是希望为传统汉语言文字学提供现代人易于理解与接受的数字化研究方式,达到继承与发展并重的目的;二是希望利用现代计算机技术对《说文》中蕴含的汉字形音义规律进行挖掘与阐释,以建立形式化的汉字系统模型。无论哪一方面都离不开底层基础资源的支持。
本文依据现代语料库建设方法与思路,选定3部具有代表性的《说文》学典籍作为首批数字化语料,遵循传统《说文》研究特点,以其“9353”个正篆为纲,采用关系数据库形式构建了初具规模的数字化《说文》学语料库;并分别从汉语拼音及对应楷字的部首笔画与笔画笔顺三个角度建立“9353”正篆的“字目”索引,以方便语料的检索与阅读。语料的应用程度取决于其加工深度。本文从《说文》著述体例出发,通过语料切分与标注,将原文的线性说解转化为小篆属性的结构化描述,即反映《说文》原旨的基本知识库,以便于《说文》研究者对原文各项知识点的提取、类聚与分析。
《说文》中蕴含了丰富的汉字构形、声韵与词义知识,构建数字化的《说文》专家知识体系离不开这三类子知识库的支持。本文以汉字构形学理论为依据,利用《说文》中的字形说解义例,对“9353”个正篆的直接构件进行了自动拆分与功能分析,并由此构建《说文》小篆的初始构形知识库,为小篆构形系统的计算机分析奠定了操作基础。
《说文》思想的系统性不仅在于其结构上的规律,更在于其内容上的联系,即通过不同用意的说解字建立小篆形音义间的网状关系。鉴于计算机缺乏人在识别汉字时的兼容性,本文对数字化《说文》中的汉字进行了编码认同与别异,并根据其形体与使用关系建立了《说文》用字的三维字库,以保证利用计算机系联《说文》时的全面性与准确性。
本论文作为教育部民俗典籍文字研究中心重点项目“数字化《说文解字》教学、研究系统设计与开发”的基础子课题,除上述研究外,更重要的是在研究过程中规划出数字化《说文》学研究的总体框架,并为后续课题的研究与开发提供一整套可操作的流程、规范、标准、方法或思路,以期实现整个项目的可持续发展。