PDF to DOC经验小议


翻译行业里面很多文件都是扫描件,当接到客户这类型文件的时候,第一个要做的就是统计字数去报价。怎么做?难道要一个一个手动去数数?当然不是,用OCR。这次要说的就是统计字数的相关。
案例一,图片文字混搭的word文档,客户整理资料的时候部分的文本框是从扫描件中截取,现在想做成都可以编辑的状态并且翻译。因为页面数目太多,不可能一个一个图拷贝出来再OCR,这样很耗时间。于是利用acrobat的word插件,在word里面选择打印,用PDF打印,生成一个PDF,再使用ABBYY  FineReader进行PDF 转doc。从而生成doc。
案例二,加密PDF的转换,很多PDF都是可编辑状态,因为加了密,所以导致无法拷贝文字,这时候需要做的是去解密,推荐使用Advanced PDF Password Recovery,常规情况下直接解密,同样的道理,很多word文档加密也是同样的处理。一个大原则是,假如能在PDF中直接拷贝文字的话,尽可能在PDF中拷贝文字。
关于PDF直接转的疑惑,大家都知道用acrobat来反向转换PDF成doc,但实际上不同版本会造成效果不一样,有时候是因为生成PDF的版本太高,当反向的时候,会出现不对齐等的现象。所以有可能的话尽量装最新版本的acrobat,例如现在的acrobat_X_Pro_10.1.0,转换出来的doc连页眉和页头都不会丢失。而且对得很工整。
用ABBYY_FineReader转换扫描图片的时候,有时候出现歪斜的现象,可以用画图工具进行旋转,用辅助线对齐。对于表格。ABBYY_FineReader中有表格辅助生成工具。一般来说,直接用ABBYY_FineReader来读取文字的时候会出现辨别不正常的现象(PS:经常有这种情况),假如单纯要统计字数,这点或许没什么,但当真正要翻译的时候,在这个源文档阶段能做到最完美会给后来的翻译之类带来方便,当然了ABBYY_FineReader也有页面旋转功能,看个人喜好了。
个人建议,不同的扫描位置或者批次排列不一样的扫描件分开用ABBYY_FineReader处理。因为这容易造成混淆,差不多的扫描件才用相同的设置,例如语言,选择扫描语言的时候,当然选择的语言越少准确率越高,常规设置:简单的化学式; 繁体中文; 数字; 英语; 例如这样,数字是必须的,其他的按实际文档语言来选择。
再有一个的简单方法foxit,就是福昕PDF阅读器,用之打开PDF,可以对部分文档型的PDF文档进行另存为TXT文件,这个方法的好处是,不用安装adobe之类的比较大型的PDF阅读或处理工具。当然了,这个只是偏门的方法,提供参考而已
总之,OCR工具很多,PDF转DOC方法也多种多样,我所用的只是我自己常用的方法,并不一定就是最好用的。

Need a translation service?

Please enter your personal details and we will contact you shortly

Words translated by CCJK

146,096,379

We are Certified

Our Client Satisfaction

rating for previous quarte

4.00

Over 95% of our clients recommend our language services to others

Copyright © CCJK Technologies Co., Ltd. 2000-2017. All rights reserved.
TOP