作为翻译公司,经常听到公司有同事说到翻译文档编码的问题,这里和大家一起探讨网页编码的国际化和本地化的一些基础知识,希望能给大家在平时工作中得到帮助。

Web网页,有时候需要针对不同地区的用户,显示不同的数据格式,如一个B2C网上商店,当美国客户要访问网站时,网站中的商品的价格应显示为美元单位,方便客户查看,另外网站页面显示的日期、网页语种编码等地区化特征也应该根据客户所在的地区做自动的调整,这里就会涉及到网页的字符集和编码的原理,在网页或数据库中乱码的解决方案,以及将不同的字符编码转换为同一种编码的处理方法。

由于软件开发的历史原因,最初的软件只有英文版本,根据需要,作者再把软件界面和文档翻译成不同国家、地区的语言版本。但是由于实现翻译的途径、翻译的工作效率、翻译的可重用性等因素各不相同,使翻译工作面临很大困境,为了方便将软件翻译成不同语言的版本,就需要一套翻译规范和通用工具,就导致了“国际化”机制的出现。

字符集与编码经常出现在一起,有时候会被混为一谈,它们的确很相似,但它们之间实际上是名词和动词的区别:字符集是将人类使用的自然文件映射到计算机内部二进制的表示方法,是某种文字和字符的集合,如GB2312字符集;而编码是idui这种字符集的编码方式。目前,我们使用的计算机操作系统,无论是Windows或Linux/UNIX系统均支持不同字符集的编码和显示。

下面介绍几个常用到的字符集:

  1. ASCII字符集
  2. ISO-8859字符集,ISO 8859是在ASCII编码基础上制定的编码标准,包括以下几种字符集
    • Latin-1(西欧语言)
    • Latin-2(非Cyrillic的中欧和东欧语言)
    • Latin-3(南欧语种)
    • Latin-5(土耳其语言)
    • Latin-6(北欧和波罗地语言)
    • 8859-5(Cyrillic西里尔语言)
    • 8859-6(阿拉伯语言)
    • 8859-7(希腊语言)
    • 8859-8(希伯来语言)
  3. ANSI编码
  4. GB2312与GBK编码
  5. Unicode字符集
    • UTF-8字符集
    • UTF-16字符集
    • UTF-32字符集

如何正确使用文本编码呢?下一篇会和大家细谈文件编码如何识别,如何修改。