|
近来,本人在编辑刊物的过程中,需要刊登一位职工的传记文章。找到原作者的时候,底稿已经找不到了。三年前,这名职工的传记被其他报纸刊发,不过被制作成了pdf文件,使用复制再粘贴,内容都成了乱码。
为此,本人在网上查找了相关资料,大多建议是使用有关的软件进行转换,比如SolidConverterPDF、pdf2word等,本人使用后发现仍然是乱码(这里指的是包含图片的复杂页面,单纯的文字版面没试过)。另外,看到一篇文章是《妙用“百度硬盘” PDF转DOC格式无乱码》也没有成功。最后看到一篇《攻无不克的pdf转doc》的文章,经本人试验后,感觉效果很好,这里以此文章为思路,进行详细说明。
一、需要用到的软件。
1、Adobe Acrobat 8 Professional
2、汉王文本王
当然,不需要安装扫描仪即可,这也是一个好处。
二、具体操作
本人曾经想走一个捷径,使用ps打开pdf文件转换成jpeg图片,但是没成功,呵呵。
1、安装完所需的软件后,使用Adobe Acrobat打开pdf文件,然后另存为jpeg格式。
2、使用汉王文本王,打开转换后的jpeg图片,点击分析(这个地方就看出,我说的使用ps另存后的图片和用Adobe Acrobat另存后的图片区别了。使用ps转换的图片,分析出的只有几个区块,而使用Adobe Acrobat的却有十多个区块。本人猜测可能是ps打开pdf后经过了栅格化的影响。)
3、分析完毕后,就可以使用识别了,这时候就会看到我们所需要的文本已经出现了。复制到doc或者其他办公软件即可进行编辑使用了。
三、总结
经过这样的程序,转换后的文本错别字很少。
当然这个思路还不一定很完善,如果有哪位高手有其他更方便快捷的办法,请发帖供大家分享。 |
|