sdjnxsy 发表于 2008/6/19 08:36:59

Pdf转doc(可编辑文本)攻略

近来,本人在编辑刊物的过程中,需要刊登一位职工的传记文章。找到原作者的时候,底稿已经找不到了。三年前,这名职工的传记被其他报纸刊发,不过被制作成了pdf文件,使用复制再粘贴,内容都成了乱码。
为此,本人在网上查找了相关资料,大多建议是使用有关的软件进行转换,比如SolidConverterPDF、pdf2word等,本人使用后发现仍然是乱码(这里指的是包含图片的复杂页面,单纯的文字版面没试过)。另外,看到一篇文章是《妙用“百度硬盘” PDF转DOC格式无乱码》也没有成功。最后看到一篇《攻无不克的pdf转doc》的文章,经本人试验后,感觉效果很好,这里以此文章为思路,进行详细说明。
一、需要用到的软件。
1、Adobe Acrobat 8 Professional
2、汉王文本王
当然,不需要安装扫描仪即可,这也是一个好处。
二、具体操作
本人曾经想走一个捷径,使用ps打开pdf文件转换成jpeg图片,但是没成功,呵呵。
1、安装完所需的软件后,使用Adobe Acrobat打开pdf文件,然后另存为jpeg格式。
2、使用汉王文本王,打开转换后的jpeg图片,点击分析(这个地方就看出,我说的使用ps另存后的图片和用Adobe Acrobat另存后的图片区别了。使用ps转换的图片,分析出的只有几个区块,而使用Adobe Acrobat的却有十多个区块。本人猜测可能是ps打开pdf后经过了栅格化的影响。)
3、分析完毕后,就可以使用识别了,这时候就会看到我们所需要的文本已经出现了。复制到doc或者其他办公软件即可进行编辑使用了。
三、总结
经过这样的程序,转换后的文本错别字很少。
当然这个思路还不一定很完善,如果有哪位高手有其他更方便快捷的办法,请发帖供大家分享。

ari7878 发表于 2008/7/10 17:57:37

软件名称:ScanSoft PDF Converter V1.0
软件大小:16.4MB
软件类型:共享软件
应用平台:Windows 98/NT/2000/XP/2003
支持Word版本:MS Word 97/2000/2002/2003
下载地址 http://wcarchive.cdrom.com/pub/scansoft/T&B-PDFConverter-R07-US-Cnet.exe

下载PDF Converter后,解压,执行AutoRun.exe,直接进行安装,安装完成后不须任何设置,它会自动整合到Word中。当我们在 Word中点击“打开”菜单时,在“打开”对话框的“文件类型”下拉菜单中可以看到“PDF”选项(图1),这就意味着我们可以用Word直接打开PDF 文档了!


adobe acrobat 7.0中已经带有PDF转WORD文档的功能,而且对保持原格式支持良好。采用该软件,打开一份PDF文件,然后“另存为”word文档即可。在Baidu中输入“adobe acrobat 7.0注册下载”搜索即可找到破解版的adobe acrobat 7.0下载。
另外,可以用ScanSoft PDF Converter效果也不错。solid converter PDF也可以。
这三个软件我都实际用过,对中文支持好些的还是adobe acrobat 7.0。但对格式支持好点的是ScanSoft PDF Converter。
这几个软件都可以在Baidu里搜索到注册版,你都可以安装试用,对不同文件转换的效果略有不同,根据你的PDF文件中图片多少选用最合适的软件即可。

[ 本帖最后由 ari7878 于 2008/7/10 17:27 编辑 ]

ari7878 发表于 2008/7/10 18:31:01

我试用另外一个软件,英文的,免费的

转了三个文件,
两个帮助文件,只转出一点点杂乱的图片。
另外转的一个“医学集成·20061006”,除了前几页(共247页)质量不怎么好,其他都不错。图片也转出来了。不足的时候页尾有广告。


呵呵 如果我有其他的更好的 再来告诉你~~
页: [1]
查看完整版本: Pdf转doc(可编辑文本)攻略