基于词表规则与语句上下文消歧的汉字简繁转换

来源 :计算机时代 | 被引量 : 0次 | 上传用户:tashon123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要: 在简繁汉字转换的处理中,一对多汉字消岐和避免分歧词过度转换是两大难题。构造一对多词表、通用词表、分歧词表,并在词表中加入转换的限制性规则,根据候选词最前或最后的一个字能否与相邻字另外组词,可对该词的有效性进行判断。使用词表中的规则对当前语句上下文进行匹配,综合分析名词、动词、量词和姓氏、词频等属性,从而实现消岐和转换的智能化。据此实现了一个简繁转换系统,实践证明这是一个行之有效的解决办法。
  关键词: 简化字; 繁体字; 分词; 词对照表; 上下文
  中图分类号:TP311          文献标识码:A     文章编号:1006-8228(2021)09-22-04
  Abstract: One-to-many Chinese character disambiguating and avoiding excessive conversion of divergent words are two difficult problems in the conversion of simplified and traditional Chinese characters. One-to-many word list, common word list, divergent word list are constructed, and the restrictive rules of conversion are added to these word-lists. The validity of the candidate word can be judged according to whether the first or last character of the word can be combined with the adjacent word to form another word. The rules in word list are used to match the current sentence context, and the attributes of noun, verb, quantifier, and surname and word frequency are analyzed comprehensively, so as to realize the intelligence of ambiguity cancellation and conversion. With this method, a simplified and traditional Chinese character conversion system is realized, which proves its effectiveness.
  Key words: simplified Chinese character; traditional Chinese character; word segmentation; word-list; context
  0 引言
  簡繁汉字间的转换是客观需求。我国在1956年进行了文字改革,并且以法律形式对汉字的使用进行规范。在海外,新加坡、马来西亚采用与大陆相同的简化汉字,而在台湾、香港、澳门等地区则沿用繁体汉字。几十年来,两岸三地在汉字编码、字形标准、习惯用法等方面都存在着很大的区别。随着海内外交往不断增多,许多文件、信函、书籍等需要在简体与繁体之间进行转换,相关的转换系统也有很多。
  1 现有简繁转换系统存在的一些问题[1]
  1.1 编码没有覆盖足够的汉字
  早期的简繁转换系统只是在简体GB码与繁体BIG5码之间进行转换,由于GB汉字集仅有6763个字,BIG5有13053个字,在GB与BIG5的映射中存在大量的缺字、漏字。简体GBK包含了繁体BIG5所有的汉字,但只是汉字的一个子集。而一些号称支持Unicode的系统也仅支持基本字符平面,其他字符平面的汉字被忽略了,如“”字。
  1.2 只处理简繁汉字一对一的转换
  一些转换系统构造一个简化字与繁体字的一一对应表,不考虑“一简对多繁”和“一繁对多简”的情形,只是简单地采用其中一个字而忽略其他候选字,于是在转换一对多汉字时就会出现如“头發”、“树乾”、“干隆”这样的错误。
  1.3 一对多处理不能很好地消岐
  由于汉字简化时将多个字归并为一个字,如“斗”和“鬥”都简化为“斗”,“后”与“後”都并为“后”,仅凭单字本身无法确定转换的目标字,需要借助更大的语言单位(如词)来甄别,这是目前简繁转换亟需解决的关键问题。
  1.4 未能很好地遵循目标中文标准、规范或习惯
  繁体字虽然在台湾、香港、澳门及海外华人社区广泛使用,但也存在一些细微的差别。如“线”对应的繁体字,台湾为“線”,港澳为“綫”,类似的字还有如表1。
  一些系统将“坝”字转为“垻”,“说”字转为“説”等,而“垻、説”均非台湾所用规范字。再就是在外来词方面要么没有处理,要么转换的结果未如人意,如将“贝克汉姆去了老挝”转为“碧咸去了寮国”,而“碧咸”是“贝克汉姆”的香港音译,在台湾地区的译法则是“贝克汉”。
  2 简繁一对多转换的消岐思路
  2.1 以一对多词表为基础
  字的转换异常在于简繁汉字之间存在“一对多”的问题[2]。部分简化字对应两个、三个甚至四个繁体字;反之亦然。仅凭单字本身不能够做出备选汉字的选择,必须依赖于字所处的环境。词可以帮助确定备选字,如将“发射”中的“发”转换为“發”,而将“头发”中的“发”转换为“髮”。简繁一对多词表(如表2、表3)的建立是简繁转换的关键,这依赖于对《简化字总表》、词典和语料的分析研究[3]。   2.2 使用通用词表来判断词的有效性
  通过一对多词表来比对是基础,假如词表中无相应的词,转换就可能失败。词的比对一般依赖于词的划分,但分词处理也会带来一些问题[2],如“我出去看了一出戏”,设分词结果为“我/出去/看/了/一/出/戏”,后边的“出”字被分解为单字,使得“一出”这样的词无法比对成功。所以我们换一个思路,不进行分词处理,而对候选词前后字进行组词判断,再根据词频判断词的有效性。如“今天必须发一批货物”,“须”字与前一个字“必”构成了词“必须”,从而将候选词“须发”排除掉,这也是一种解决问题的简便方法。
  2.3 根据规则分析语句上下文
  2.3.1 单字形式
  一对多汉字并非总是以词的形式出现,当它呈现出单字形式时,如“他理了发”,就需要根据字所处的语句上下文进行判断[4]。通过标点符号得到该字所处语句,然后利用如下规则进行匹配:
  ? 发.*货、理.*发 可匹配语句中如“发了很多货”、“理了个发”。
  ? 发*货、理*发 起始结束字串可以交换,既包括上一条规则,也可匹配“货发了没有”、“发是小明帮我理的”。
  2.3.2 相同词
  采用词表也存在难以确定候选字的情况,如“散发”,既可为“花儿散发着芳香”,也可为“风儿吹着我的散发”,前者是“發”,后者是“髮”。类似的相同词还有很多[5],如表4所示。
  根据词所在语句的上下文进行判别,增加以下规则:
  ? 發 地散发,散发(出)|(着)|(了)#
  ? 髮 的散发,裸|袒|赤|披|簪|带|衣|被|服|装|身|肩|足|脚|跣|头|舌?散发,散发*沐|卧|坐|眠|归|吹|歌|吟|抚|弄|邀|醉|饮...
  转换规则中的符号“|”表示或的关系,“散发(出)|(着)|(了)#”意味着比对“散发出”、“散发着”、“散发了”三个字串,符号“#”来表示比中即认可此“发”-“發”对应关系。“?”、“*”表示短句或句子,这样便可以处理“跣足散发”、“人生在世不称意,明朝散发弄扁舟”这样的字串了。
  2.3.3 词性分析
  根据相同词对应的词性不同,可依据前后字进行区分。动词前可以加上“地”,后面可以跟着“出”、“着”、“了”,而名词的前后均可加上“的、之”等。
  量词可作为数量单位。在一对多汉字中可作量词的有“斗、发、个、出”等,如这些字前有“一二三四五六七八九十百千万几两”等数字,则可以作出判断。可用符号标示此规则,如“#斗”。
  姓氏的处理是一大难题。“于、余、沈、钟”等一对多汉字也是常用姓。可对历史上的名人建立词表,但把所有姓名收录是不现实的。因为姓名常常作为主语或宾语,所以如果这些字位于句子开头或结尾位置、且不够成词组,那么可推定为姓氏;再就是现代汉语中常称呼“老于”、“小钟”等,在一篇文章中同一姓名往往会出现多次,可据上下文进行判断。
  2.3.4 词频、优先级与默认值
  遇到一对多汉字时,要综合考虑转换规则、词频、优先级、默认值等情况,判断相应的候选字。以“太阳一出来,我就出去看了出精彩的电影,忘了出股票了。”为例,“出”可对应繁体字为“出、齣”。在词表中可定义转换规则如下:
  ? 出 出口,出去,出来,出风头,鱼贯而出,情人眼里出西施,…
  ? 齣 #出,这出,出.*电影,…
  根据使用频度及组词数量,转换为“齣”的情形远少于“出”,因此“出”为默认值。第一个“出”字,首先比中“齣”的规则“#出”,然后在“出”中比中词“出来”,那么选择哪一个呢?我们规定词的优先级高于规则,因此转换结果为“出”;而第四个“出”字都没比中,则取默认值“出”。
  3 分歧词的处理
  六十几年来,两岸在外来词、科技术语、外国地名人名的翻译及一些习惯用词方面存在着很大差异,如表5所示。
  建立分歧词对照表,化学元素单字和标点符号可以简单地直接转换。
  3.1 分歧词处理中的常见问题
  首先是分词问题。必须把词从语句中分离出来,如“精武门源自霍元甲的精武体育会”,不能将“门源”转换为“亹源”。因为“源”与后面的“自”可以组成“源自”一词,所以对两个字构成的分歧词均应通过与前后字的组词分析其有效性,方法参考2.2节。
  其次是单、双向问题。一些词的转换是单向的,如繁体转简体时可将“朋馳”转换为“奔驰”,可简体转繁体将所有的“奔驰”都转换为“朋馳”,就会闹出如“車在公路上高速朋馳”的笑话。再如繁体“塔克辛”可以转为“他信”,然而简体“他信不信?”就不一定能转换为“塔克辛不信?”。
  不管分词还是单、双向处理都是为了解决過度转换问题。在IT术语中,“宏”通常与“巨集”相对应,如“宏病毒”-“巨集病毒”、“宏汇编”-“巨集组合”等等,可是将“宏伟”转换为“巨集偉”就错了。又如非洲国家“贝宁”对应繁体“貝南”,但不能将央视主持人撒贝宁转为撒貝南;“信息”所对应繁体中文一般为“資訊”,但“工业与信息化部”则不宜进行转换。诸如此类的还有:軟體動物-软件动物,近卫文麿-親衛文麿,月球质量-月球品質等。
  3.2 修改词表结合上下文进行分歧词条件限定
  在分歧词表加入限制性条件,程序通过对词所在语句上下文分析,判断是否进行转换。如:
  ? 他信 塔克辛 >麦格塞塞奖|泰|政|华|政治|抗议|+·|·+|+总理|总理+
  ? 软件 軟體 <-动物
  ? 贝宁 貝南 >撒-
  ? 信息化 資訊化 >-部
  ? 近卫 親衛 +军|+师|+旅|+团|+队
  ? 质量 品質 ~物体|物质|重力|势能|物理|星|天体|太阳|地球|月球|分子|原子   符号意义如表6所示。
  如规则“>撒-”表示繁体“貝南”可直接转简体“贝宁”,而简体“贝宁”转繁体时,如前一字为“撒”,则不进行转换;“~物体|物质”表示当语句中出现“物体”、“物质”时,不进行“质量-品質”的转换。
  4 简繁转换系统的实现与测试
  系统分为分歧词处理、一对多汉字处理和一对一汉字转换三个层次,简繁或繁简转换的处理过程是相似的。据此实现的简繁转换系统将UNICODE、GBK和BIG5编码的文本先转为UTF8编码,然后再进行处理。
  系统转换的结果令人满意。使用一些繁体语料在字级别的转换中,经繁-简、简-繁转换后,比较繁体原始文件与转换结果,完全相同的汉字占97%左右,考虑到原始语料中使用异体字的情况,正确率应该更高,分歧词也能较好地转换出来。使用3.3GHz的CPU进行简繁转换速度约为26K汉字/秒。
  5 结束语
  简繁转换是中文信息处理的重要课题。该问题一方面在于简繁之间存在一对多现象,另一方面在于两岸在外来词、专业术语、外国人地名等翻译和一些习惯用词方面存在差异,解决问题的关键是如何消岐、避免分歧词过度转换。本文提出了依据词表和语句上下文进行语义分析,通过规则进行约束的方法,能更准确地进行转换。当然,自然语言非常复杂,生活中的一些语句甚至人也会理解错误,因此偶尔转换出错也属正常。本系统对现代文较为有效,对古文还需语料库的支持,改进方向是不断完善词表及规则,進一步提高转换正确率。
  参考文献(References):
  [1] 戴红亮.汉字简繁文本智能转换系统中语言学问题分析[J].辽宁师范大学学报(社会科学版),2016.3:115-120
  [2] 庞祯军,姚天财.基于对照表以及语义相关性之简繁汉字转换[J].计算机工程与应用,2015.51(4):115-119
  [3] 沙宗元,沈亮.《通用规范汉字表》与《简化字总表》简繁汉字对比分析[J].中国文字学报,2017.
  [4] 徐志学.不作简化偏旁用的简化字简繁、繁简非对称现象分析[J].三峡论坛(三峡文学·理论版),2018.5:48-55
  [5] 王同亿.高级汉语词典[M].海南出版社,1996.
其他文献
在铁路隧道地段弹性支承块式无砟轨道施工中,经常出现道床板基面植筋不牢固,弹性支承块和挡块方向装反,道床板伸缩缝嵌缝板不居中、不垂直,道床板坡面积水,套靴外露高度不足2
北京新世界地下过街通道上穿新建地铁7号线车站,施工中遇到既有线临时横通道结构,需要破除施工。全面分析了上穿既有地铁7号线车站及下穿重要地下管线的一级安全风险源的施工重点与难点,阐述了施工筹划过程和主要施工方法,介绍了监理在施工全过程的严格管控内容,总结了沉降不超标且工程安全可控的经验和今后亟待改进的工作方法,以期为类似工程积累施工经验。
紫外光固化法是一项非开挖修复新技术,在城市排水管网综合治理中得到了广泛应用。基于盘溪河流域水环境综合整治工程利用紫外光固化法技术对管径小于600 mm的排水管道进行非开挖修复治理,介绍了紫外光固化法技术在水环境综合整治工程应用中的原理、特点及施工与验收要点。CIPP拉入式紫外光固化法在水环境综合整治工程的成功应用,对非开挖修复技术的提高与推广具有重要意义。
摘 要: 传统的矩阵分解图嵌入模型由于不对大量未知关系建模,其性能面临着很大的挑战性。为了提升矩阵分解模型的性能,提出了一种基于负采样技术的矩阵分解模型NEG-MF。该模型能够从跳数大于6的邻居节点中进行负采样,以降低模型生成图嵌入时对于负样本的偏差。在DBLP数据集上做的大量实验结果表明,相比其他的基线方法,基于NEG-MF的推荐算法在学术合作关系推荐问题上的性能有明显地提升。  关键词: 矩阵
多功能爬架具有搭设灵活、使用便宜、安全、工期短、成本低、环保、适应性强等优点,在城镇建筑施工中得到了推广与应用。简述多功能爬架搭设要点和提升系统安装要点的管控,分析爬架升降系统的同步性和安全性,以及爬架的其他安全防范措施。实践表明,多功能爬架的应用,不仅能大量减少钢管脚手架、安全网、竹架板等周转材料的使用,而且能降低高空搭设外架的危险程度,还能降低超高垂直运输费用,可取得十分显著的经济效益。
盾构施工技术是现阶段地铁隧道施工的重要工法之一.不良地质条件会引发盾构出现问题,如果处置不当将会导致严重事故.采用土压平衡盾构进行地铁隧道掘进时,喷涌问题的出现将导
为今后取消临近地铁侧基坑的分坑施工,提出了长距离钢支撐伺服系统成套技术。通过采用格构柱钢管结构体系、多功能组合节点、自平衡抗隆沉装置、高性能液压系统和控制系统的手段,成功实现了围护变形有效控制的目标。对该技术的应用情况和施工过程中的管理措施进行总结分析,为类似的工程提供参考。
摘 要: 为了解决传统数据清洗工具面对海量数据时复杂度高、效率低的问题,设计实现了流式大数据数据清洗系统。利用分布式计算技术清洗数据,以解决性能低的问题。该系统由统一接入模块、计算集群和调度中心三部分组成,实现了多种数据源的统一接入,分布式处理,并通过Web界面进行清洗流程的交互式配置。实验结果表明,面对海量数据的时候,流式大数据数据清洗系统的性能强于传统的单机数据清洗,提高了清洗效率。  关键词
安全质量监督机构与监理单位同为工程安全质量监督的主体,在工程的监督工作中发挥着不可替代的作用,是保证工程安全质量得到有效控制的根本之一,安全质量监督机构能使监理单位的监督行为更加规范化、制度化,监理单位能使安全质量监督机构的监督工作目的性更清晰、流程更加简迅便捷,在此基础上,安全质量监督机构可与监理单位积极配合,创新工程监管手段,提升现行模式阶段下安全质量监督工作,减少工程安全质量事故的发生。通过对安全质量监督工作的分析,从安全质量监督机构与监理单位的互动配合、工程安全质量问题的处理等几个方面对提高建筑工
摘 要: 影响大数据人才就业收入的因素纷繁复杂,难以确定其关键影响条件,影响了潜在从业者的就业选择以及从业人员的自我提升方向。针对这一社会热点问题,建立基于信息熵的机器学习模型-分类决策树,分析影响收入的关键因素,进而提出一种基于Keras搭建的新型高精准率神经网络收入分类模型。该模型能够精准地确定影响大数据人才收入的主要因素,为大数据行业相关人员提供从业指导与帮助。  关键词: 大数据; 信息熵