大家好，怎么把PDF格式的文件转换成TXT文件

电扇 · 发表于 2008/3/1 19:22:46

大家好，怎么把PDF格式的文件转换成TXT文件，想把中医书籍转成TXT格式的，可以在手机里看，那样文件可以变小，主要是书的内容，PDF格式的文件的书皮，那些彩色图案可以不要，主要是文字，大家说说，大家是怎么做的，用什么软件，什么方式，

wohlj · 发表于 2008/3/1 20:27:22

第一种方法：用SnagIt工具进行文字提取。

首先使用SnagIt的文字捕捉功能将文字提取出来。SnagIt当前版本为7.02，大小为8903KB，下载地址可以在http://www.skycn.com/soft/2290.html 找到，汉化补丁可以在http://www.skycn.com/soft/2291.html 找到。启动SnagIt，选择菜单“输入/区域”，选择菜单“工具/文字捕获”，然后我们打开要捕捉的文件窗口，按下捕捉快捷键，选定捕捉区域即可捕捉到文字。

接着用相应工具重排文字。此时我们发现提取的文字可能会有很多空格或段落错乱等现象，而且字号、字体等不合自己的心意。这时我们可以用熟悉的WPS或Word软件进行重新编排。我们以WPSOffice2003为例看看如何对付提取后文章的编排。

用WPSOffice2003打开提取文章；然后选择“工具”菜单下的“文字”/“段落重排”，这时你会看到提取文章重新进行排版；接下来选择“工具”菜单下的“文字”/“删除段首空格”命令，使得文章的每段参差不齐的行首空格被删除；再选择“工具”菜单下的“文字”/“增加段首空格”，文章变为正常的书写格式；提取文章一般都留有空段，为删除这些空段，继续选择“工具”菜单下的“文字”/“删除空段”命令，这时文章完全变为我们所要的形式；用你熟悉的界面任意编辑文章吧。

第二种方法：用屏幕截图然后让OCR软件识别。

打开带有文字的图片或电子书籍，翻到你希望提取的页面，点击键盘上的打印屏幕键（PrintScreen）进行屏幕捕获；打开Windows自带的画图工具，将刚才捕获的屏幕截图，粘贴进去，保存为一个.bmp文件；接着打开刚才保存的文件，在编辑器中进行修正，根据你所要提取的文字进行裁剪，尽量去除不要的部分；最后启动OCR软件，在OCR中打开刚才保存的修改文件，进行文字识别，然后可随心所欲进行编辑。

qwwz-zry · 发表于 2008/3/1 20:59:12

实在不行,有专门的将pdf的文件转成word的软件,再贴到txt里去吧

yiyiyaya · 发表于 2008/3/1 21:29:09

这个问题分2种情况：
1、如果pdf文件里面的内容是图像，比如扫描书形成的pdf文档，那就只能用OCR软件去识别，效果不会太好。

2、如果是文字的，那从网上下载个pdf 转txt格式的软件转就可以了。
怎么看是那种格式的，通常扫描出来的文字边缘比较毛糙。

电扇 · 发表于 2008/3/2 09:57:52

就是那种扫描书形式的PDF文件，难以处理，怎么做啊，我找了半天，很厂时间了，都没有找到，请大家说说，详细点，尤其是1、如果pdf文件里面的内容是图像，比如扫描书形成的pdf文档，那就只能用OCR软件去识别，效果不会太好。，，，，这个方法说点详细点，谢谢大家

juzhuo · 发表于 2008/3/18 17:23:43

[介绍使用Microsoft Office 2003识别超星格式（其它图像格式电子文档相同）一法：使用超星自带的文字识别模块识别的乱码很多，本文使用Microsoft Office 2003识别，效果不错。具体说明如下：Microsoft Office 2003安装后生成一个名为Microsoft Office Document Image Writer的打印机，将超星文件打印到此打印机中会生成一个文件，可以用Microsoft Office Document Imaging直接打开，然后点工具→使用OCR识别文本→“页面范围”选所有页面，即开始识别，识别完毕后点工具→将文本发送到Word，一切OK，还能保持文档格式，不用删多余的换行符了。]

		自动登录	找回密码
密码			立刻加入

大家好，怎么把PDF格式 的文件转换成TXT文件

相关帖子

大家好，怎么把PDF格式的文件转换成TXT文件