当编程大牛爱上语言学

来源 :大学生 | 被引量 : 0次 | 上传用户:long520liang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  2013年11月,一张阿里星计划的 HR面试结果截图在网络上疯传,引起许多大学生的惊叹。虽然主人公低调回应,截图上的信息部分并不准确,不希望被大肆宣传,但仍挡不住众多大学生对于主人公——郭家宝的IT水平的惊叹。然而这一位IT大牛,不仅在编程领域成绩斐然,他对和计算机编程似乎毫无联系的汉语音韵、字形字体也有相当专业的研究。带着对语言学深沉的热爱和希望将其发扬光大的信念,他借助了自己高超的编程技术,用代码实现理想,用程序传播信念。
  当编程大牛爱上古典音韵
  韵典网是郭家宝大学时期开发的音韵查询系统,这款汇集了《广韵》《中原音韵》《洪武正韵》《分韵撮要》和《上古音系》的查询系统,为很多语音学研究者、爱好者提供了极大的便利。使用其中的“高级检索系统”,你输入任一字词后,能迅速获得从以上不同词典的网络版摘取下的读音、简单解释、范例等信息。这个查询网站设计得大方、简洁,查询得到的信息清楚、全面,搜索过程更是高速便捷。创建韵典网的背后是郭家宝多年积累的语音知识和搜索技术的完美结合。
  郭家宝从小就有一大爱好——看字典。高中时他在书店第一次看到王力编纂的《汉语史稿》,便挪不开脚步了,从此一头扎进古汉语学研究的汪洋大海。别人看《新白娘子传奇》看的是许仙与白蛇的爱情,郭家宝则专注于台湾演员对台词的吐字发音上。比如,第38集中,许娇娘道:“你娘我怀胎十月哺(pu)乳三年,千辛万苦风里来云里去,辛辛苦苦养下你这个不孝的畜生。早知道你这样子,我就不要生下你了。”这个“哺”字就属于异音字。在台湾念“pu”,在大陆发音为“bu”,被郭家宝归为“异音集”。在这剧中郭家宝发现了数千个与自己所学发音不同的字词,查阅资料后,从50集连续剧中,他整理出189个字“异音字”和“错音字”,并把整理结果列在了博客中。
  大一起,郭家宝选修了赖静如老师语言学的课程,他开始系统地接触语言学研究的学术方法。在其他课上,郭家宝看见老师用着一个笨拙的输入工具,效率极其低下,他问老师为什么不学习一下国际音标输入法?可以又快又准地录入。老师说太麻烦了,不想学,而且安装输入法很麻烦,换一台电脑就要重装,还需要管理员授权。于是,郭家宝编制了一个更简易的国际音标输入工具。
  郭家宝学习了很多语言学家、历史学家在音韵方面的理论,比如王力、高本汉、郑张尚芳、绍荣范。光学理论还不解渴,郭家宝想实际接触活着的、更实际的例证。
  郭家宝在假期跟随清华大学中国语言文学系的赵丽明老师,参加了川滇少数民族语言考察项目。他负责将查访到的少数民族(比如普米族和一些藏族支系)的语言记录、整理出来。郭家宝很兴奋,“原来世界上还有这么多稀奇的语音!原来我所学的那些发音是真的、实实在在存在的!”随即一声叹息,“只可惜,不少部族的语言只有部落里几百个老人会,比如‘月亮’,他们的发音是‘ximi’,这种发音方式是气流从舌头两边经过。可等他们过世以后,这样的语言也许就灭绝了。”深入少数民族腹地,他慢慢缕出自己对古汉语的看法。郭家宝认同一万年前汉语藏语是同源的,汉语表意,音不断变化;藏语表音,从藏语或藏族支系发音或可推测古汉语语音。再根据分子人类学、考古学中DNA比对结果、人类迁徙历史等等,郭家宝认为川滇等现今闭塞地区的古老语言实在是珍贵的语言学研究的活化石。
  除了自己研究古汉语,郭家宝也乐于跟一群志同道合的师友讨论。他希望他们的研究能够部分复原古汉语,明白古代人如何说话,明白李白怎么读诗,明白唐诗为何有绝句、律诗等规则。郭家宝发现曹操曹植父子在押韵方面相差极大,他打趣道:“曹操就是上古汉语末端的代表,曹植便是中古汉语开端的代表吧。”上古汉语没有去声,音韵区分依靠于类似于现今欧洲语言韵尾的变化。比如“俄”与“饿”这两个字,在上古汉语中,后者比前者多一个类似于轻辅音s的韵尾。而加入了平仄四声的中古汉语,使得人们读出的诗句有抑扬顿挫的效果,十分好听。
  郭家宝对于古代至现代汉语音韵的探索,一部分出于从小以来内心的热爱,另一部分则源于传承、推崇中国古汉语文化的使命感。他清楚,开发“韵典网”、利用大量课余时间一个假期一个假期地扑在钻研古汉语上,并不能如在IT巨头里的实习那样,给他带来相应的经济回报,但他就是深深地沉浸在中国传统音韵文化的世界中,寻得一方天地。他在自得其乐的同时,不仅给中国汉语音韵学的爱好者、研究者的工作带来极大的便利,也感染着身边的人。在他的博客关于汉语学的互动中,大家讨论得很热闹,一位来自台湾的研究者还邀请郭家宝一起进行专业性汉语研究。
  OpenCC——汉字的简繁转换系统
  郭家宝在汉字的简体繁体转换方式方面,也有令人惊喜的成果。OpenCC(Open Chinese Convert)堪称国内第一个开源的汉语词汇简繁转换系统,可以兼容Windows、Linux、Mac等多种操作系统平台。因其开源的特性,OpenCC这一简繁转换系统在大量的网站、输入法和应用程序中被广泛使用,例如知乎上的文艺输入法RIME、微信上的豆瓣机器人、新浪网国际版的繁体字系统等等。
  词源充实、信息丰富、功能完善的OpenCC背后,是郭家宝整理出的20万简繁词汇对应表。这方面工作的难点在于,有深厚繁体字功底的语言学研究者,不会用编程手段将自己的研究程序化,而擅长编程的IT精英对汉字简繁体系知之甚少。
  开发、维护OpenCC很困难,繁体汉语十分复杂,语言学的专业性极强,需要郭家宝小心翼翼求证。让他遗憾的是,因为时间有限,他没有更多的精力用于更加深入、全面地学习和探究博大精深的祖国语言体系。下一个阶段,郭家宝会将代码写得更好,为用户提供更多的功能,同时进一步扩充繁体字的数据库。
  郭家宝在IT学生界被称为“BYvoid大神”,因为他建立了名为BYvoid的博客,分享自己在各类IT公司面试的情况、开发的工程或是在世界各地旅游的见闻。这个博客也成为许多语言学爱好者的聚集地,大家一起探讨专业知识。
  无论是做编程,写博客,做语言学网站,还是做开源的汉语繁简转换系统,郭家宝认为只要热爱,去做就够了,别考虑更多其他的。郭家宝喜欢与所有感兴趣的人共同分享自己高技术的研究成果,“我的热爱,吸引和点燃更多人的热爱”。这个表面上有点木讷少言,略显刻板的理工男,在跟我们谈诗论道时神采飞扬。当他激情地用中古汉语音韵朗诵《将进酒》时,可爱又可敬。
其他文献
秘书、警卫、管家向本刊讲述2013年12月26日是毛泽东诞辰120周年纪念日。在他老人家离开我们37年后,人们以各种方式纪念他。但是,除了敬仰和追忆,这些年来,也出现了一些以讹
口语表达能力是语文素养的重要内容之一,是语文应用能力的重要体现。然而,受应试教育的影响,农村学生的口语表达能力令人担忧。造成这一现象的原因很多,所以,就这个问题进行