Blog

关于非一一对应简繁字的若干问题 — 转载

关于非一一对应简繁字的若干问题

陈明然

转载:http://www.huayuqiao.org/DOC9400/9405.htm

1. 术语使用 1. 简化字:指中华人民共和国国务院于1956年公布,中国文字改革委员会、文化部、教育部 1964年3月7日 联合颁布的《关于简化字的联合通知》中所规定,并由国家语言文字工作委员会于 1986年10月10日 重新发表的《简化字总表》(以下简称《总表》) 中的2235个简化汉字。 2. 繁体字:指《简化字总表》中2235个简化(体)字所对应的简化以前的字形。 3. 沿用字:《总表》以外的汉字1。 4. 规範汉字:简化字集合和沿用字集合的并集2。 5. 非一一对应简繁字:指一个简化字(或者一个繁体字)对应于两个或者两个以上繁/简体字的汉字集合。 6. 一对多简繁字:指一个简化字对应于两个或者两个以上繁/简体字的汉字集合。 7. 一对多繁简字:指一个繁体字对应于两个或者两个以上简/繁体字的汉字集合。 2. 非一一对应简繁字字组数探究 本文严格以《总表》和《一异表》为研究依据,不承认《总表》以外的类推简化字,并且不考虑字形上的微小差别,即平常所说的“新旧字形”,如字头上的“丷”和“八”;以台湾国语推行委员会《国字标準字体宋体母稿》及香港教育学院《常用字字形表》(2000年修订本) 为参照,在冯寿忠3、莊泽义4、周勝鸿5、苏培成6、张书岩7、连登岗8、杨蓉蓉9;李牧10、冯霞11;胡双宝12;香港《语文建设通讯》编辑部13 等研究成果的基础上,进行归纳整理,得出的结论是:非一一对应简繁字总数为192组;其中同时兼有一对多繁简字属性的有8组。分列如下: (一) 192组一对多简繁字 肮 骯、摆擺襬、板闆、币幣、辟闢、表錶、别彆、卜蔔、才纔、蚕蠶、忏懺、厂廠、柽檉、冲衝、虫蟲、苁蓯、丑醜、出齣、达達、担擔、胆膽、当噹當、党黨、灯 燈、邓鄧、籴糴、敌敵、淀澱、吨噸、冬鼕、斗鬥、垩堊、恶惡噁、发發髮、范範、丰豐、奋奮、复複復、干乾幹、赶趕、个個、巩鞏、沟溝、谷穀、刮颳、广廣、 柜櫃、号號、合閤、后後、胡鬍、划劃、怀懷、坏壞、还還、回迴、汇匯彙、伙夥、获獲穫、机機、几幾、积積、极極、家傢、虮蟣、价價、茧繭、荐薦、姜薑、胶 膠、洁潔、借籍、仅僅、尽盡儘、惊驚、旧舊、据據、卷捲、忾愾、克剋、垦墾、夸誇、块塊、亏虧、困睏、腊臘、蜡蠟、累纍、里裏、离離、漓灕、篱籬、历歷 曆、隶隸、怜憐、帘簾、了瞭暸、猎獵、灵靈、岭嶺、芦蘆、卤鹵滷、录錄、箓籙、虑慮、么麼、霉黴、蒙矇濛懞、弥彌瀰、蔑衊、面麵、柠檸、泞濘、凭憑、苹 蘋、扑撲、仆僕、朴樸、启啟、气氣、千韆、签簽籤、迁遷、秋鞦、曲麯、确確、扰擾、洒灑、舍捨、声聲、沈瀋、胜勝、圣聖、术術、松鬆、苏蘇囌、台臺檯颱、 坛壇罎、昙曇、叹嘆、体體、听聽、涂塗、团團糰、洼窪、袜襪、万萬、芜蕪、系繫係、吓嚇、纤縴纖、咸鹹、宪憲、向嚮、须須鬚、旋鏇、痒癢、样樣、叶葉、邺 鄴、医醫、佣傭、踊踴、优優、忧憂、犹猶、邮郵、余馀餘、吁籲、郁鬱、御禦、园園、愿願、云雲、芸蕓、运運、杂雜、脏髒臟、折摺、征徵、症癥、只隻衹、制 製、致緻、钟鐘鍾、众衆、种種、朱硃、烛燭、筑築、庄莊、准準。 (二) 8组一对多繁简字 乾 (干/乾)、夥 (伙/夥)、藉 (借/藉)、瞭 (了/瞭)、麼 (么/麽)、餘 (余/馀)、摺 (折/摺)、徵 (征/徵)14。 3. 非一一对应简繁字问题的解决办法 目前为止,学界对非一一对应简繁字的调整,归纳起来有不做调整,依靠计算机简繁汉字转换软件解决问题、全部恢復相关繁体字、部分恢復相关繁体字、全部或者部分恢復相关繁体字以后再酌情简化其中部分字等四种意见。 本文否定依靠计算機简繁汉字转换软件解决问题这一观点。电脑本身是没有思维能力的,它是严格按照人预先设定的程序进行工作的。把希望寄托於计算機技术水平的提高,试图依靠转换软件解决问题,是行不通的。用这个办法,永远无法把简繁转换的準確率提高到100%;即使是提高到99.99%,这最後的萬分之一还是要通过人工甄别来解决。在一萬个字中找一个别字,简直是大海捞针!会使我们的文字处理效率降到多麽低下的程度!另一点就是,为提高转换软件的準確率而投入的研发经费将肯定是一个天文数字;而目标的实现又将是遥遥无期;这意味着巨额科研经费的浪费和计算機简繁转换的长期混乱。 汉民族社会的语言是极其豐富的,是任何语料库都无法穷尽的;再次,随着社会的发展和人们生活内容的变化,大量新语彙不断涌现,而需要投入巨大的人力物力来制作的语料库却不可能时时更新15。 冯寿忠教授曾经指出: 大家都把注意力投向了软件方面,企图通过软件的不断改进,彻底消灭简繁转换的文本错误,最常见的办法就是采用词语转换。这種做法理论上就存在先天不足,因 为,词语是语言系统中最活跃的因素,吐故纳新的频率比较快,任何词典都不能穷尽所有的新生词语,而计算機软件则不能随时改进;如果解决了文字的一一对应问 题,就可以一劳永逸,因为任何词语都是用单字组成的16。 詹鄞鑫 教授也指出: Office 2000 以上的 Word 软件虽然有智能化的繁简字转换功能,能在一定程度上根据上下文作出相应的用字选择,但其转换是以预先设定的词彙搭配为前提的,凡设定之外的搭配就无能为力。在实际应用中,还有大量汉字是没有词彙搭配语境的。例如表示说话义的‘云’,以及汉字举例,字典的字头等。这点成为计算機汉字自动化处理提高效率的一个瓶颈问题17。 胡双宝 先生以大量的例证说明了计算機完全正确地进行简繁转换的困难。他指出,要使计算機正确进行简繁转换,“实际上是要从不同角度‘教’会电脑各種各样的本事,也就是要针对每一组字的不同情况规定若干条件。而情况常常是难以穷尽的,这时候想到这些情况,不知道什麼时候又可能出现别的情况。‘已有情况’也并不容易搜罗齐尽。”“社会文化生活中的实际情况是,知道可能混淆的混淆不了,不知道可能混淆的常常会混淆。”18 这里列出 胡 先生所举众多例证中的3个: 例1. 白居易《秦中吟·歌舞》中的诗句“秦城岁云(雲)暮,大雪满皇州”中“云/雲”,不容易根据条件确定是“云”还是“雲”。 例2.“市里”是指市政府大院或者某城市里 (裏) 面,还是指和“公里”相对的长度单位“市里 (里)”?“海里”是指“海里 (裏) 面”还是长度单位“海里 (浬)”? 例3.“制表”是帝王的命令(制)和臣子的奏章(表)的连称, 还是“制(製)造钟表”?“编制”是指“制(製)定规划”还是“人员编制(制)”? 本文倾向于部分取消非一一对应简繁字之间的简、繁对应关系,恢復这部分繁體字的规範字地位。这里的“部分”,有两種解读: 一種是根据各相关字组中的原简化字是不是在现代通用字範围内这一尺度,把非一一对应简繁字分成两部分。只取消简化字属于现代通用字的这部分字组内简繁字之间的对应关系,恢復相关繁體字的规範字地位。例如“板/闆”就属于这種情况。本文把这一方案称作“局部调整方案”。 另一种是按二字组和三字及三字以上字组把相关字组分为两部分。取消全部二字组以及归入异體字处理的各组内简繁字的简、繁对应关系,恢復相关繁體字的规範字地位。三字及三字以上的字组有26组,按各组中的简化字是否是古已有之分别处理: 1.“当當噹、尽盡儘、弥彌瀰”3组中的“当當、尽盡、弥彌”是3对异體字19,宜归入异體字处理,即把“当、尽、弥”定为正字,把“當、盡、彌”作为异體字淘汰;取消“当噹、尽儘、弥瀰”这3对简繁字每对内部的简繁对应关系,恢復“噹、儘、瀰”3字的规範字地位; 2.“复複復、干幹乾、了瞭暸、卤鹵滷、蒙矇濛懞、台臺檯颱、团團糰、系繫係、只隻衹”9组29字,均古已有之,而且每组中各字字义有别,宜取消每组内部的简繁对应关系,恢復“複復、幹乾、瞭暸、鹵滷、矇濛懞、臺檯颱、團糰、繫係、隻衹”20个原繁體字的规範字地位; 3.“余馀餘”字组中,取消“余餘”二字的简繁对应关系,保留“馀”做“餘”的简化字; 4.“摆擺襬、恶惡噁、发發髮、汇匯彙、获獲穫、历歷曆、签簽籤、苏蘇囌、坛壇罎、纤縴纖、须須鬚、脏臟髒、钟鍾鐘”13组,根据一对一的原则,保留“摆擺、恶惡、发發、汇匯、获獲、历歷、签簽、苏蘇、坛壇、纤縴、须須、脏臟、钟鍾”13对字的简繁对应关系,取消“摆襬、恶噁、发髮、汇彙、获穫、历曆、签籤、苏囌、坛罎、纤纖、须鬚、脏髒、钟鐘”13对简繁字的简繁对应关系,恢復“襬、噁、髮、彙、穫、曆、籤、囌、罎、纖、鬚、髒、鐘”13字的规範字地位。 这样,这26组三字或者三字以上的字组中的简化字,除个别不属于现代通用汉字(如读 qíu 的“团”、同“西”的“卤”)外,绝大多数都可以得到保留。 本文把这一方案称为“全面调整方案”。 考虑到当今计算機已经在包括出版业在内的所有汉字处理领域的普遍应用,建议还是全面调整为好。不能把解决非一一对应简繁字问题,僅僅看成是为了解决当代两岸四地交流的需要。由于简化字和繁體字将长期并存,就是在大陆内地,也有不少场合需要进行简繁、繁简转换,比如古文、历史、考古、中醫藥等领域的教学和研究;古籍和辞书的出版等。“文字用于记录语言不仅要使人们克服空间上的障碍以利交际,还应该使人们克服时间上的障碍以了解历史,也使将来的人们了解现在和古代。”20 还有需要特别指出的一点是:文字记錄语言的便利性要求,必须以不影响记錄的準確性为前提。 192组非一一对应简繁字中有22组《总表·第二表》中的字组,归入异體字处理的“尔爾、杀殺、网網、与與”4组字中有“尔爾、与與”2组,对这些字组的调整,会涉及《总表·第三表》中的相关字组。涉及的字组有以下74组: 蛊蠱、㳠澾、闼闥、挞撻、哒噠、鞑韃、挡擋、档檔、裆襠、铛鐺、谠讜、傥儻、镋钂、迩邇、弥彌瀰、祢禰、玺璽、猕獼、泼潑、废廢、拨撥、䥽鏺、邝鄺、圹壙、扩擴、犷獷、纩纊、旷曠、矿礦、㧟擓、讥譏、叽嘰、饥饑、机機、玑璣、矶磯、虮蟣、鞯韉、浕濜、荩藎、烬燼、 赆贐、漓灕、篱離、沥瀝、坜壢、苈藶、呖嚦、枥櫪、疬癧、雳靂、棂欞、鹾鹺、箓籙、滤濾、摅攄、泞濘、拧擰、咛嚀、狞獰、柠檸、眝矃、忾愾、饩餼、跹躚、柽檉、蛏蟶、莸蕕、屿嶼、欤歟、芸蕓、昙曇、叆靉、叇靆。 这74组中,“弥彌瀰、机機、虮蟣、漓灕、篱離、箓籙、泞濘、柠檸、忾愾、柽檉、芸蕓、昙曇”等12组已经在192组内;“蛊蠱、迩邇、祢禰、玺璽”4组每组中的两个字是异體关系21,宜归入异體字处理,也即把“蛊、迩、祢、玺”作为正字,把“蠱、邇、禰、璽”作为异體字淘汰;其馀58组如何处理?也是需要考虑的问题。是不是可以考虑对这些字组不做变动,将其从《总表·第三表》移到《总表·第一表》中。 另外,“坝壩、购購、饥饑、识識、铁鐵、药藥、钥鑰、证證、钻鑽”9组虽然是一对一的简繁字组,但是由于存在“垻、 、飢、 、鉄、葯、鈅、証、鉆”9个形近字,容易因表外类推而引起错觉和混乱,也需要予以调整。可供选择的调整方法有两个:一个办法是取消各组两字之间的简繁对应关系,停止使用“坝、购、饥、识、铁、药、钥、证、钻”9个简化字;另一个办法是把“坝、购、饥、识、铁、药、钥、证、钻”调整为“垻、 、飢、 、鉄、葯、鈅、証、鉆”9字的类推简化字。自然,不管采用哪種办法,都需要恢復“壩、購、饑、識、鐵、藥、鑰、證、鑽”9个字的规範字地位。两種办法的利弊,需要权衡。本文倾向于前一種办法,因为采用第二種办法会改变“坝、购、饥、识、铁、药、钥、证、钻”这9个简化字长期以来所承载的字义,多多少少会带来这9个字使用上的混乱。 由上所述,调整的简化字,最多为175个(192减去26再加9)。 恢 復非一一对应简繁字集合中相关繁體字的规範字地位以后,要不要再酌情简化其中笔画较多的部分字?这個问题还有待讨论。如果再简化一部分字,会产生新的汉字 字形,所有用作汉字处理的计算機里的汉字字模库都要进行更新,汉字编码字符集也需要修订;还有一個问题就是字模库和字符集更新修订以后,以前由计算機产生 的汉字文本如何使用?如果这部分字不简化,单字的笔画数確实较多,就是从计算機处理的角度来讲,有些字显示在屏幕上和打印在纸上都不够清晰;另外,字表内 部也不统一。这個问题,需要有关部门和汉字信息处理的相关管理部门、字库公司等协同研讨解决。 4. 调整非一一对应简繁字的现实可行性 目前微型计算機普遍使用的操作系统 Windows XP、Windows 7 等版本,都能够支持 GBK《汉字扩展内码规範》,而 GBK 已经包含了192组非一一对应简繁字中的所有繁體字;另一方面,现在已经有许多输入法支持 GBK。Windows XP 中自带的“全拼”输入法,就是支持 GBK 的;这篇文章里的所有繁體字,除了“ ”22 字, 都是用一種称作“古文五笔”的输入法打出来的。这就是说,取消非一一对应简繁字的简繁对应关系以後,只需要对现有汉字处理软件中的简繁转换功能作相应调 整,在近期内,今古、两岸、四地以及全球华人之间汉字文本的无障碍交换就可以在所有安装了中文操作系统的计算機上实现!让人费解的是,这样的好事,要犹豫拖延再三,却把希望寄托在旷日持久、耗资巨大且前景渺茫的转换软件功能的改善上面。 笔者估计,不同意调整非一一对应简繁字的人士,可能是出于以下两点考虑:一是担心引起社会上文字使用的混乱;二是担心恢復这部分繁體字的规範字地位不利于鞏固汉字简化的成果。实际上,这两種担心都是没有必要的,对这部分字的调整是完全可行的。调整的175字 (192组减去26组再加9组) 只占2235个简化字的7.83%,根本动摇不了整个简化字體系的地位;又由于调整後恢復为规範字的这部分繁體字几千年来本来就一直存在,社会对其有一定的认知度,取消这些简繁字之间的对应关系以後,再辅以相应的措施予以宣传贯彻,社会的适应期是不会太长的,完全可以避免出现文字使用上的混乱。实质上,调整非一一对应简繁字,正是为了从根本上结束计算機简繁文本转换方面存在的混乱状况; 是为了增强简化字的“持久的生命力”,得到在包括文言古籍在内的更廣泛范围内的使用23;也使得简化字比较容易被港澳台民众以及海外华侨接受;是在信息化条件下对《总表》的完善;是对汉字简化成果的鞏固;而不是相反。

Over 95% of our clients recommend our language services to others


Copyright © CCJK Technologies Co., Ltd. 2000-2017. All rights reserved.
TOP