在日常工作中,尤其是从事文字处理工作的朋友们或者有此需求的朋友们应会遇到PDF文档转成WORD问题,对于文字存储格式的PDF文档来说,一些常规的转换软件就可以完成,像PDF阅读软件都自带这种功能。但是对于文字存储在图片上,而由图片生成的PDF文件,如何把文字转换出来为我所用呢?由于我不擅长此工作,在初次处理时还是颇费一些周折。今天把我总结的转换过程分享出来,希望能帮助有需要的朋友。
我使用的转换软件是汉王OCR 转换软件(版本8.1.4.16),打开汉王OCR(见图一),在导航栏里点击“打开图像”按钮,弹出下图二,选择要转换的PDF文件,点击PDF转换为TXT文件按钮,弹出图三窗口,默认当前状态,直接点击确定,于是汉王软件会自动把PDF文件进行分页处理(见图四),会把PDF文档的每一页拆分成一个独立PDF文件,新生成的一系列pdf文件默认存储到我的文档C:\Users\dell\Documents\My Hwdoc Files\HWPDFOCR80\IMAGE(见图五),全选新生成pdf文档,然后点击“开始识别”按钮(见图六),弹出图七窗口,软件开始进行识别,识别完成后打开C:\Users\dell\Documents\My Hwdoc Files\HWPDFOCR80\OUTPUT文件夹(见图八),转换完成的TXT文件存储在此文件夹下。每个新生成PDF文件对应一个TXT文件,你可以打开任何一个TXT文件,文字辨识率是很高的,至此,一篇图片格式存储文字的PDF文档成功转换为可以自由编辑的TXT文件,大功告成!希望对你有所帮助!