批量处理00004——CAJ转PDF(djvu,doc,txt)-caj文件怎么打开

批量处理00004——CAJ转PDF(djvu,doc,txt)

目前,caj转pdf比较好的一种方法是使用虚拟打印机,安装后用CAJViewer打开caj文件,点击打印,打印机名称中选择虚拟打印机,确定打印,即可导出pdf格式文件。

下面我们比较caj的4种具体类型和3种虚拟打印机。

caj下载的文件可以分为4种具体类型,即联网的文字版,本地的文字版,联网的扫描版,本地的扫描版。其中,联网版的后缀为.caa,本地版的后缀为.caj,联网版须联网才能打开,大小通常为1kb。本地的文字版的大小要远小于本地的扫描版,我们这里不讨论将扫描版转成文字版的方法,因为目前OCR的识别率还不够,特别是语言文字类的论文。

笔者试用的3种虚拟打印机为TinyPDF,Foxit Reader PDF Printer,Adobe PDF。TinyPDF可在官网下载,要使用Foxit Reader PDF Printer可下载Foxit 阅读器,使用Adobe PDF则可以下载Adobe Acrobat。现在我们来测试3种虚拟打印机转换文字版的本地的文字版和本地的扫描版。

转换本地的文字版,测试文本2.63mb,194页。

Tiny,用时245秒,169mb,清晰度高,扫描版

Foxit,用时295秒,48.8mb,清晰度中,扫描版

Adobe ,用时667秒,57.3mb,清晰度中,扫描版

可以看到和Adobe比较,Foxit在用时,大小方面都占优,因此两者之间一般都会选择Foxit。但Tiny和Foxit之间各有千秋,Tiny清晰度更高,Foxit转换出的文件更小,因此可以选择使用。这3种虚拟打印机的问题是转换出来的都是扫描版,但是目前没有找到可以转换成文字版pdf的虚拟打印机。

转换本地的扫描版,测试文本17.0mb,301页。

Tiny,用时470秒,245mb,清晰度高,扫描版

Foxit,用时515秒,72.6mb,清晰度中,扫描版

因为Adobe不占优,因此只测试了Tiny和Foxit,在转换扫描版时的四项指标和转换文字版时基本一样,各有优劣,可以选择使用。

使用策略分析

如果对一般使用者而言,直接根据需求选择Tiny和Foxit即可。但如果是对本地文档整理者来说,则要考虑更多因素,因此我们先考虑最理想化的情况,就可以知道需要考量的选择因素。最理想的情况是,所有caj和caa文件都能批量地、速度较快地、等图像质量地、类文件大小地转换到pdf格式,因此选择因素为批量、速度、图像质量、文件大小。

  • 批量、速度

从重要性上,图像质量和文件大小比批量和速度重要,而Tiny和Foxit在速度上是差不多的,作为虚拟打印机,两者都没有批量功能(当然也可以借助其它软件部分达到自动功能)。但是我们考虑到目前caj格式的文件数量并不太多,caa格式的极少,所以批量的重要性减弱。所以这两个因素也可以部分忽略。

  • 图像质量、文件大小

图像质量和文件大小是挂钩的,由于转换后的pdf大小较原caj文件急剧增加(前述Tiny对caj的转换增加为64倍大小),而且转出的文件一律变为扫描版,因此图像质量和文件大小不得不考虑。假如caj文件较少的话,可以考虑Tiny转换为高清晰度pdf(pdf阅读时软件一般不会出现卡顿情况),坏处是浪费了硬盘空间、复制到移动端阅读不便、破坏了一般pdf文件大小和内容多少的关联判断、损失了原文字版(不过好在文字版本身转化的扫描版利用OCR再识别的效果较好)。假如caj文件较多,可以考虑Foxit转换为一般清晰度pdf,相较Tiny转换的前3种坏处的影响减少,但是阅读感受降低一些(没有十分清晰),而且同样损失了原文字版。caa格式极少,而且需要联网,所以建议全部转换为本地pdf。目前,99pdf等在线工具提供了表观上的无损压缩服务(压缩率最高为原文件10右)。假设确实如此,则可以都使用Tiny转换,再使用该类压缩服务(一般是收费的)。

  • 总结

从目前的虚拟打印机来看,对本地文档整理者来说,没有十全的将caj转化为pdf的方法,因此考虑是否要统一文档格式为pdf本身这个问题也是要先考虑的。格式统一的好处也是显而易见的,视觉上的统一、相关应用软件的统一、文件整理的优势(如重复文件)等。而caj的保留则能节省空间、保留文字版等。因此对要求较高的本地文档整理者,在必须统一文档格式的前提下,比较妥当的做法是:使用Tiny转换,再使用高压缩率的表观无损压缩,同时对caj、caa中的文字版在pdf文件信息中标注,以便在需要时再次下载原caj、caa文件。

djvu格式的文件可以使用DjvuToy转换为PDF。

doc格式的文件可以安装WPS,选择另存为pdf即可。

txt格式的文件可以先拷贝到doc文件中再用WPS转换,或者利用在线工具转换(如 http://www.pdfdo.com/txt-to-pdf.aspx)。


下期再见

推荐阅读