翻译行业里面很多文件都是扫描件,当接到客户这类型文件的时候,第一个要做的就是统计字数去报价。怎么做?难道要一个一个手动去数数?当然不是,用OCR。这次要说的就是统计字数的相关。

案例一,图片文字混搭的word文档,客户整理资料的时候部分的文本框是从扫描件中截取,现在想做成都可以编辑的状态并且翻译。因为页面数目太多,不可能一个一个图拷贝出来再OCR,这样很耗时间。于是利用acrobat的word插件,在word里面选择打印,用PDF打印,生成一个PDF,再使用ABBYY FineReader进行PDF 转doc。从而生成doc。

案例二,加密PDF的转换,很多PDF都是可编辑状态,因为加了密,所以导致无法拷贝文字,这时候需要做的是去解密,推荐使用Advanced PDF Password Recovery,常规情况下直接解密,同样的道理,很多word文档加密也是同样的处理。一个大原则是,假如能在PDF中直接拷贝文字的话,尽可能在PDF中拷贝文字。

关于PDF直接转的疑惑,大家都知道用acrobat来反向转换PDF成doc,但实际上不同版本会造成效果不一样,有时候是因为生成PDF的版本太高,当反向的时候,会出现不对齐等的现象。所以有可能的话尽量装最新版本的acrobat,例如现在的acrobat_X_Pro_10.1.0,转换出来的doc连页眉和页头都不会丢失。而且对得很工整。

用ABBYY_FineReader转换扫描图片的时候,有时候出现歪斜的现象,可以用画图工具进行旋转,用辅助线对齐。对于表格。ABBYY_FineReader中有表格辅助生成工具。一般来说,直接用ABBYY_FineReader来读取文字的时候会出现辨别不正常的现象(PS:经常有这种情况),假如单纯要统计字数,这点或许没什么,但当真正要翻译的时候,在这个源文档阶段能做到最完美会给后来的翻译之类带来方便,当然了ABBYY_FineReader也有页面旋转功能,看个人喜好了。

个人建议,不同的扫描位置或者批次排列不一样的扫描件分开用ABBYY_FineReader处理。因为这容易造成混淆,差不多的扫描件才用相同的设置,例如语言,选择扫描语言的时候,当然选择的语言越少准确率越高,常规设置:简单的化学式; 繁体中文; 数字; 英语; 例如这样,数字是必须的,其他的按实际文档语言来选择。

再有一个的简单方法foxit,就是福昕PDF阅读器,用之打开PDF,可以对部分文档型的PDF文档进行另存为TXT文件,这个方法的好处是,不用安装adobe之类的比较大型的PDF阅读或处理工具。当然了,这个只是偏门的方法,提供参考而已

总之,OCR工具很多,PDF转DOC方法也多种多样,我所用的只是我自己常用的方法,并不一定就是最好用的。