Blog

Word“中文简繁转换”存在的问题与解决对策 — 转载

Word“中文简繁转换”存在的问题与解决对策

转载:http://lshude.blog.163.com/blog/static/262715520091121103544743/

(在第12次书同文学术研讨会上宣读的论文)



摘要:由于目前两岸四地还没有实现“书同文”,在相互的文字交流中就要不断地进行汉字简化字和繁体字的转换。使用电脑书写的人群,普遍借助于微软公司(Microsoft)文字处理软件Word中的“中文简繁转换”这一功能。因为不是所有的简体字繁体字都是一一对应的,汉字中还存在相当一部分的“非对称简繁字”,加之软件设计本身的某些缺陷。在中文简繁字转换的过程中就出现了诸多的问题,给我们的文字交流带来不便。 本文以大量具体例证,从多个角度指出Word软件“中文简繁转换”存在的问题,并提出了几点解决的对策。

关键词:word软件;中文简繁转换;  问题;  对策

1. 导言

随着两岸四地(大陆、台湾、香港、澳门)的政治、经济、文化交流的日益发展和扩大,文字的交流也越来越频繁,而且数量也越来越大。尽管人们呼吁书同文已经多年,专家学者研究书同文也有十几个年头了(周胜鸿 2003),但是,到目前为止,两岸四地尚未实现书同文。而且,在可以预见的将来,书同文的实现,还有很长的一段路要走。 虽 然使用简化汉字是我国的语文政策,但是由于目前的现实状况,大陆使用的是简化字,而港澳台使用的是繁体字,而且这种状况还会长期存在。因此,在大陆同胞与 港澳台同胞交流的过程中,必然要面对汉字简繁转换的问题。例如,笔者参加过两届“两岸四地翻译与跨文化交流研讨会”,其中一届在大陆的清华大学举行,要求 所有与会者都要提供论文的简化字版,大陆以外的学者要把他们用繁体字写的论文转换为简化字;另一届是在台湾的辅仁大学举行,与会者的论文要用繁体字。大陆 学者一般都是用简化字书写,这就涉及一个中文简繁字转换的问题。从转换的目的看,简繁转换大体可以分为简转繁和繁转简两种;从转换的操作界面来说,则有人 工界面和电脑界面两种。人工界面的简繁转换,不管是简转繁,还是繁转简,都可以通过学习获得有关的知识。 用电脑进行写作的人,通常是使用Microsoft Word提供的 “中文简繁转换”功能来实现汉字简繁转换。Word 是美国微软公司的一个文字处理器应用程序。现在一般使用的版本是Word 2003(下面简称Word),这个版本通过具有高影响力的图形进行有效的交流。在Word 的图标栏中有一个名为“中文简繁转换”的图标( 简  /  繁 ),通过点击这个图标来实现简化字与繁体字的相互转换。 2. 基本状况

2.1 对称的简繁字——转换正确 因为汉语具有悠久的历史和丰富的文化内涵,加之数量巨大,所以在对汉字进行简化的过程中,没有能够做到,或者说不可能做到,简化字和繁体字一一对应。在《现代汉语通用字表》所收录的7000个通用字中,根据1964年文字改革委员会出版的《简化汉字总表》,简化汉字共有2238个(因“签”,“须”两字重见,实际为2236字)。在这两千多个简化汉字中,绝大多数的简化字和繁体字是一一对应的,称之为“对称的简繁字”。Word 中的“中文简繁转换”功能,对这部分对称的简繁字来说,一般是不成问题的,能做到正确转换。例如: (简)语言→(繁)語言      (繁)語言→(简)语言 (简)对称→(繁)對稱      (繁)對稱→(简)对称 (简)苏联→(繁)蘇聯      (繁)蘇聯→(简)苏联 (简)实践→(繁)實踐      (繁)實踐→(简)实践 (简)由上海炎黄文化研究会汉字书同文专业委员会和汉字书同文研究学术沙龙联合举办的第十二次汉字书同文学术研讨会,决定于2009年8月1日—3日在秦皇岛市举行。本次研讨会的主题是“非对称繁简字”研究。欢迎海内外专家学者和各界朋友参加;欢迎各位赐寄论文。我们将在今冬明春编辑出版会议论文集《汉字书同文研究》第八辑。 (繁)由上海炎黃文化研究會漢字書同文專業委員會和漢字書同文研究學術沙龍聯合舉辦的第十二次漢字書同文學術研討會,決定於2009年8月1日—3日在秦皇島市舉行。本次研討會的主題是“非對稱繁簡字”研究。歡迎海內外專家學者和各界朋友參加;歡迎各位賜寄論文。我們將在今冬明春編輯出版會議論文集《漢字書同文研究》第八輯。 以上摘自“上海炎黄文化研究会汉字书同文专业委员会·汉字书同文研究学术沙龙”于今年3月1日发的会议通知。原文共147个汉字,其中含有47个简化字(包括重复出现的),这些简化字基本都是简繁对称的。由Word 进行自动简繁转换后,这47个简化字全部准确无误地转换为繁体字。需要注意的是,在电脑上输入汉字一般默认的字体是宋体,转换后默认的字体是台湾的PMingLiu(明柳)。 2.2非对称简繁字——固定词语中转换基本正确 在总数为2238个简化字中,有117组(此说根据冯寿忠先生的《“非对称繁简字”对照表》)的简化字与原来的繁体字不是一一对应的。习惯称为“非对称简繁字”。它包括两种类别:一类是“一简对多繁”,一类是“一繁对多简”。而绝大多数是“一简对多繁”,而“一繁对多简”数量较少(根据陈明然先生的统计有10组)。这里主要论述“一简对多繁” 的转换问题。在论述前,我们先看几组“一简对多繁”的例子:
序号 简体 繁体 例证
1 發展   發怒   出發  奮發圖強
頭髮     令人髮指    千鈞一髮
2 必須   須臾  無須
鬍鬚   鬚眉   觸鬚
3 歷史    經歷    歷歷在目
農曆    曆書   曆法
4 面貌    鐵面無私    千人一面
麵包   麵湯   蕎麥麵
5 系統    外語系   太陽系
關係   難脫干係
聯繫    維繫
从上表我们可以看出,这类“一简对多繁”的情况,主要是一个简化字对应两个繁体字,少数情况是一个简化字对应三个繁体字。 Word 对这部分汉字的简繁转换,在它们处于固定词语的情况下,总体来说是能正确地进行转换的。例如: 签  → (簽,籤): (简) 签名  签署  签收;   牙签   标签  求签  抽签儿 (繁) 簽名  簽署  簽收;   牙籤   標籤  求籤  抽籤兒 赞 →(贊,讚) (简) 赞助   赞成   大使馆参赞; 夸赞  盛赞  赞美诗  赞不绝口 (繁) 贊助   贊成   大使館參贊; 誇讚  盛讚  讚美詩  讚不絕口 发  →(發,髮) (简)借题发挥   先发制人;      怒发冲冠   削发为尼 (繁)借題發揮   先發制人;      怒髮衝冠   削髮為尼 历 →(歷,曆) (简)夏文史先生是著名的历史教授,生于一九一九年农历三月五日。 (繁)夏文史先生是著名的歷史教授,生於一九一九年農曆三月五日。 须 →(須, 鬚) (简)书同文是21世纪必须实现的目标。 ——周有光 (繁)書同文是21世紀必須實現的目標。 ——周有光 (简)老人雪白的长长胡须飘洒在胸前,一派道骨仙风,煞是好看。 (繁)老人雪白的長長鬍鬚飄灑在胸前,一派道骨仙風,煞是好看。 (简)在学校召开的“落实科学发展观”座谈会上,九十高龄的夏教授的出席,特别引人注目。他一头银发,目光炯炯,端坐在主席台上。轮到他发言时,他先捋了捋胸前的胡须,以他特有的语言风格,反复强调了科学发展观的重要性。最后,用一句“我再重复一遍:必须坚持科学发展观,绝不动摇!”结束了发言。 (繁)在學校召開的“落實科學發展觀”座談會上,九十高齡的夏教授的出席,特別引人注目。他一頭銀髮,目光炯炯,端坐在主席臺上。輪到他發言時,他先捋了捋胸前的鬍鬚,以他特有的語言風格,反復強調了科學發展觀的重要性。最後,用一句“我再重複一遍:必須堅持科學發展觀,絕不動搖。”結束了發言。 在以上这段文字中,“发”,“台”,“复”和“须”这4个简化字都是“一简对多繁”的。但是它们出现在“发展,发言,银发,主席台,反复,重复,胡须,必须”这样的固定词语中,Word 基本能正确地对它们进行简繁转换。 根据以上例证,我们可以把在固定词语中,Word进行简繁转化的功能概括为:“有路标,能走对”。 3. 存在的问题

3.1 转换错位 当“一简对多繁”的简化字不是出现在固定词语中,Word 有时就不能正确地把“一简对多繁”的简化字,转换成我们所需要的它对应的那个繁体字,而转换成我们并不需要的,它所对应的另一个繁体字。也就是说,出现了转换错位的现象。主要有以下两方面的原因造成转换错位。 3.1.1 信息不清 因为需要转换的简体字不是包含在固定词语中,而是处于某些临时性的搭配中,或是孤立的一个字,没有语境的制约,换句话说,就是提供的信息不清。这时Word 就辨认不清,转换中就会出现错位的情况。例如: (简)轮到他发言时,他先捋了捋胸前的长须,以他特有的语言风格…… (繁)輪到他發言時,他先捋了捋胸前的長須,以他特有的語言風格…… 因为“长须”不像“胡须”那样是一个固定的词语,所以Word发生了转换错位,本来应该转换成“鬚”,而转换成“須”。 (简)刘唐左耳畔发际间有一片红记,生出几绺红头发,故人送绰号“赤发鬼”。 (繁)劉唐左耳畔發際間有一片紅記,生出幾綹紅頭髮,故人送綽號“赤發鬼”。 这个短句中有3个简化的“发”字,它们对应的繁体字都是“髮”。通过Word 转换后,只有第二个是我们需要的,是正确的。第一个和第三个都转换成它对应的另一个繁体字“發”。原因很明显,就是因为,“头发”是固定词语。而“发际”和“赤发”是临时搭配。Word 不能辨认,所以出现了转换错位的情况。 3.1.2 前后干扰 有时,某个独立的简化字碰巧与它前面或后面的某个字构成一个固定词语,这时Word 就会错误地按照那个词语来转换这个简化字,其结果自然是转换错位。例如: (简)孙维系外语系的教授,毕业于天津外国语学院;孙干系中文系教授,毕业于南开大学;孙伟系哲学系教授,毕业于…… (繁)孫維繫外語系的教授,畢業于天津外國語學院;孫干係中文系教授,畢業于南開大學;孫偉系哲學系教授,畢業于…… 三个“系”字对应的繁体字都应该是“系”,但由于第一个受前面“维”字的干扰,第二个受前面“干”字的干扰。Word 误以为是“维系”和“干系”两个词,所以,发生转换错位。 再如: (简)夏文史教授有两个儿子,老大叫夏历文,老二叫夏历史。历文性格外向,历史性格内向。 (繁)夏文史教授有兩個兒子,老大叫夏曆文,老二叫夏曆史。曆文性格外向,歷史性格內向。 这个句子中的4个简化字“历”对应的是同一个繁体字,或为“歷”,或为“曆”。但是一个受“历”字前面的“夏”字的干扰,转换成“曆”,另一个受后面的“史”字的干扰,转换成“歷”。结果夏教授两个儿子有了“曆文”,“曆史”和“歷史”三个名字。 3.2 不该转换而转换 汉字简化的方法之一是同音代替。 把读音相同的一组字,取最简单的一个,字意由简化字代替。如,后(後、后)、干(幹、乾、干)、云(雲、云)台(颱、臺、台)等。有时在没有一个语境的情况下,Word 会把本来没有繁体形态的字,转换成它同音代替的那个繁体字。例如: (简)秦桧唆使万俟卨向宋高宗诬陷岳飞拥兵不救、放弃阵地。最后岳飞被处死。……今岳飞坟前有万俟卨的铁铸跪像。 (繁)秦檜唆使萬俟卨向宋高宗誣陷嶽飛擁兵不救、放棄陣地。最後嶽飛被處死。……今嶽飛墳前有萬俟卨的鐵鑄跪像。 “万俟”是一复姓,其中的“万”字没有繁体字形;同样“岳”作为姓氏也没有繁体字形。而Word 却把这两个本不应该转换的简化字转换成它们同音代替的另一个繁体字,实属自作多情。再如: (简)算命先生给他们两个的八字批的是“干支不合”。第二天,小芹娘就对小芹说:“你与拴柱干不符支不合,不能成婚。” (繁)算命先生給他們兩個的八字批的是“干支不合”。第二天,小芹娘就對小芹說:“你與拴柱幹不符支不合,不能成婚。” 句中有两个“干”字,意思都是“天干”,都不应该转换。因为前一个包含在“干支不合(符)”这个常见词语中,所以没有转换;而第二个是孤立的,被错误地转换成它代替的另一个毫不相干的繁体字“幹” 3.3 词语变形 我们使用的Word 文字处理器中的繁体字字形是PMingLiu(明柳)字体,它是台湾通行的字体。字体实际上代表了一种符号系统,而这种符号系统又与语言文化相关。由于两岸的长期隔绝,汉语词汇的发展也出现了一些细微的差异,特别是新兴的或外来的词汇,有些有所不同。在使用Word 进行简繁转换中,有的词语被转换成完全不同的词语。例如: (简)前缀——(繁)首碼           (简)词组——(繁)片語 (简)激光——(繁)鐳射           (简)公元——(繁)西元 (简)这个公司产品的质量比你们的好。 (繁)這個公司產品的品質比你們的好。 (简)每年的12月25日,是基督教徒纪念耶稣诞生的日子,称为圣诞节。 (繁)每年的12月25日,是基督教徒紀念耶穌誕生的日子,稱為耶誕節。 (简)大连交通大学信息工程学院于2002年7月经辽宁省教育厅批准正式成立。是由大连交通大学和大连阳光世纪教育产业投资有限公司共同举办的独立学院。 (繁)大連交通大學資訊工程學院於2002年7月經遼寧省教育廳批准正式成立。是由大連交通大學和大連陽光世紀教育產業投資有限公司共同舉辦的獨立學院。 尽管这种词语变形的情况不是太多,但也给Word 的使用者造成许多麻烦。 4. 解决对策

4.1 提高智能 从以上的例证可以看出,有些简繁字转换的准确程度与这个字的语境复杂性紧密相关。所以提高Word 智 能化程度是避免转换错误的基本对策。使其增强对语境的判断能力,从对个别字,固定词语的判断,提高到对语言片段,乃至整个语篇的判断。此外,还要提高对词 性,词义的判断能力。“非对称简繁字”中,有一类是按照不同词性相互对应的。此类简繁字的特点是在它们作不同词性用时,对应不同的简化字形或者繁体字形。 最典型是简化字“斗”,作动词,对应的繁体字是“鬥”;作名词,对应的繁体字是“斗”。这类“一简对多繁”的简化字有近10组。如果Word 能对简繁字做出词性判断,仅此一项改进,就会大大减少差错率。 4.2 扩大词库 有些简繁字动态组词能力很强,能临时生成许多词语。如“面”字,在表示“食物、粉末”义项时,对应的繁体字形是“麵”; 在表示其它义项时,对应的繁体字形是“面”。而含有“面”的词语非常之多,如“面粉”,“面积”,“佛面”,“后面”,“牛肉面”,“担担面”,“面 谈”,“会面”等等,可以说是无法穷举。而其中很大部分,是不会收入词库的词语中。这也是简繁转换出现错误的一个重要原因,Word 可以通过扩大自己词库的方法,减少简繁转换中的错误。 4.3 精心校对 基于目前的现状,Word 用户还得靠自己来纠正“非对称简繁字”在转换中造成的错误。首先是要熟悉这些“非对称简繁字”,把它们烂熟于心。如果是短小的文档,在Word自动转换后,进行认真校对,对其中的转换错误,再进行人工转换。如果是长的文档,而且某些“一简对多繁”汉字反复出现,这时,可以用自己规定的符号或数码来代替这类汉字,Word自动转换后,再使用菜单栏中“编辑”里面的“替换”功能,把所有的符号和数码一次性转换为所需要的汉字,然后再精心校对。这样既可以避免转换错误,又可以节省时间。

5. 结语 Word 中 文简繁转换中的问题由来已久,是长期困扰两岸四地交流的一个瓶颈,这种汉字的简繁转换不知浪费了多少资源,精力和时间。许多专家学者为此提出了种种有益的 建议和解决办法。但是,在两岸四地没有实现书同文之前,再好的策略也只能是临时的,局部的,是治标不治本的。而最彻底,最根本的解决策略是实现两岸四地的 书同文。一旦两岸四地实现书同文,这个问题就随之烟消云散,不复存在。

Over 95% of our clients recommend our language services to others


Copyright © CCJK Technologies Co., Ltd. 2000-2017. All rights reserved.
TOP