OCR:如何把扫描版pdf转变成文字版?

OCR :如何把扫描版pdf 转变成文字版?

2011-07-31 11:28:39

我经常在阅读扫描格式pdf 的时候,把它们抓取为文字格式,当然得是好书。可能有朋友不清楚ocr ,它就是把文字从图像中识别抓取出来。文字版pdf 的好处就是便于传播、引用,视觉上清晰,具有更大的处理空间,乃至可以二次制作,比如出于手机什么的阅读需要。但是,ocr 过程中的文字识别率不会是100%,需要进一步校对,所以在这个意义上粗制滥造的文字版pdf 还不如扫描原版的价值。

我分享自己的一点ocr 经验,也是想更多的朋友制作文字版好书,也因为很多的朋友不熟悉ocr 。

ocr软件很多,这里只根据自己的经验进行推荐,而忽略其他。

首先说单页pdf 的ocr

这种单张图片式的文字抓取我强烈推荐JOCR 。JOCR 的优点是免费绿色轻量(绿色就是不需要安装),体积小到几乎不可思议的不到100kb 。然后不可想象的是,这么小的软件其识别率还非常高,而且可以抓取20多种语言,包括中文繁体,夫复何求。

JOCR(原版、汉化版、使用说明、MODI 及“繁体中文识别”文件)下载: http://vdisk.weibo.com/s/uImX

网路上有汉化版,其实不必。它常用功能很简单,一般就是第一步“Capture Region (选取需要ocr 的区域)”,然后在语言框选择语言,最后“Recognize(识别)”,于是就为你蹦出一个txt 文本,接下去你还可以就着这文本进行校对。 注意:

1、要成功使用JOCR ,首先得保证在安装office 时选择了“完整”安装选项,因为JOCR 的运转是依托于Microsoft Office Document Imaging (MODI ,中文OCR 辨识引擎)的。Office 2003的缺省安装是第一次使用MODI 时安装,Office 2007的缺省安装是不装,都需要自己主动安装一下。如果你没有完整安装office ,也可以只是再安装一下MODI ,微软官方有下载。

2、如果需要抓取繁体,而你使用的是简体windows 系统(即比如安装的是简体中文Office 2003),那么请将下列“繁体中文识别”文件复制到C:\Program Files\Common Files\Microsoft Shared\MODI\11.0

TCCODE.UNI

TCPRINT.DAT

TCPRINT2.DAT

TCSERHT.DAT

TCTREE.DAT

TW_BU.DAT

TW_UB.DAT

TWBIG532.DLL

然后双击reg 文件导入注册表,ok 。注意,导入注册表时必须先关闭所有MODI 窗口。

此时,在MODI 的OCR 选项卡里,“OCR语言”中即可看到“中文(繁体)”,也就是说依托MODI 运作的ocr 软件具有了繁体识别功能。

或许你要问,JOCR 的使用特别是繁体不免麻烦了一点点。我的回答是,推荐JOCR 正是因为它要利用到MODI 及其繁体识别功能。一般的ocr 软件往往对繁体无措或者效果不如意,而微软MODI 的效果非常的理想,我上一篇日记《马克思——披上科学外衣的诗人革命家》用的就是它,几乎就没有改正几个字(原文是竖排的)。所以说磨刀不误砍柴工,而且是微软自带的,省事省心。

然后说pdf 批量ocr

一本pdf 格式的书籍有很多页,自然要用批量才行。一般认为最强大的专业ocr 软件是ABBYY FineReader,“世界排名第一的OCR 文字识别工具”是也。ABBYY FineReader不依托MODI 运作,不免费体积也很庞大,不过微软免费

的MODI 才5M 多一点点。一个好状况是,热心的网友已经制作了中文绿色版,见“最好的OCR 识别软件:ABBYY FineReader中文绿色

版”http://www.portablesoft.org/abbyy-finereader/。我自己比较ABBYY

FineReader 与MODI 的效果,个人觉得MODI 略胜一筹(主要在文字识别率上),至少难分上下。MODI 抓取的结果只是文字,没有字体版式啥的,而ABBYY FineReader 貌似有还原版面的追求,所以可能反而把问题复杂化(特别是在word 中作修改可能叫你崩溃,当然你需要版面什么的另当别论)。

所以有鉴于此而推荐采用微软自带的MODI 。

MODI的一般使用方法是:在打开的pdf 文档“文件”-“打印”-“名称”中选择

“microsoft office document imaging writer”,打印你需要的(所有)页面(这个乃至后边生成的文件地址最好在桌面一类,不然找起来费神)。于是,它生成一个后缀名为mdi 的文件。你打开这个mdi 文件,在“工具”中选择“使用OCR 识别文本”,然后开始可能是很漫长的识别过程,电脑不给力的话一本数百页的书可能漫长到两三个小时。识别结束后,你再在“工具”中选择“将文本发送到Word”,然后它为你生成一个后缀名为htm 的文件,里头就有你想要的文字了。

关于ocr 繁体中文,就需要用到上边“繁体中文识别”的方法。在复制拷贝那几个文件后,你打开mdi 文件,在“工具”-“选项”-“OCR”中就能看到“中文(繁体)”选项,需要时选中即可。

也许,把一本扫描版的pdf 转换成文字版的pdf ,最核心的部分其实是校对。如果那个文字版内容错误如毛毛,可真叫人纠结。只是对于大部头书籍校对的工程很有些浩大,当然也可以叫你静心精读,何乐不为。分享会让你心情愉快。朋友如果校对也好了,要分享,那还得把版面排好,至少得比我强一点点(比如那个《马克思——披上科学外衣的诗人革命家》pdf ),否则又是一块油炸鸡肋。一般地,排版的工具手头的word 就够用,况且很多pdf 制作软件是从word 直接转pdf ,很方便实在。

对于word 转pdf ,一般都采用pdf 打印软件,就是在word 打印中选择相应的打印机直接就打印成pdf ,如下图。我用过的Word to PDF Converter效果很不错,但是它不免费,而且上次碰到一个字的字体嵌入错误( 。Word to PDF Converter 安装后会在word 工具栏生成图标,见下图。pdfFactory Pro的功能和效果也不错(对DFKai-SB 字体不支持,那可是我的大爱),而TinyPDF 这种在视觉效果上就差强人意了。这里分享一下Word to PDF Converter v3.0及其破解与配套驱动,pdfFactory Pro 4.10 简体注册中文版及其破解(对杀软可能报毒,或者还需要从杀软中排除)。

下载地址:http://vdisk.weibo.com/s/uIPu

如果你使用的是word2010,恭喜你,它已经能够直接另存为pdf (2007弄个加载项Save As PDF and XPS也可以)。好久得去用用,看看能不能解决上边遇到的两个问题,如果能,其他的pdf 打印软件就要抛弃之。

最后,在具体的使用过程中你可能还会遇到别的什么问题,我就是这样,比如在word“帮助”-“关于Microsoft Office Word”-“禁用项目”中发现Word to PDF Converter 是被禁用了。

OCR :如何把扫描版pdf 转变成文字版?

2011-07-31 11:28:39

我经常在阅读扫描格式pdf 的时候,把它们抓取为文字格式,当然得是好书。可能有朋友不清楚ocr ,它就是把文字从图像中识别抓取出来。文字版pdf 的好处就是便于传播、引用,视觉上清晰,具有更大的处理空间,乃至可以二次制作,比如出于手机什么的阅读需要。但是,ocr 过程中的文字识别率不会是100%,需要进一步校对,所以在这个意义上粗制滥造的文字版pdf 还不如扫描原版的价值。

我分享自己的一点ocr 经验,也是想更多的朋友制作文字版好书,也因为很多的朋友不熟悉ocr 。

ocr软件很多,这里只根据自己的经验进行推荐,而忽略其他。

首先说单页pdf 的ocr

这种单张图片式的文字抓取我强烈推荐JOCR 。JOCR 的优点是免费绿色轻量(绿色就是不需要安装),体积小到几乎不可思议的不到100kb 。然后不可想象的是,这么小的软件其识别率还非常高,而且可以抓取20多种语言,包括中文繁体,夫复何求。

JOCR(原版、汉化版、使用说明、MODI 及“繁体中文识别”文件)下载: http://vdisk.weibo.com/s/uImX

网路上有汉化版,其实不必。它常用功能很简单,一般就是第一步“Capture Region (选取需要ocr 的区域)”,然后在语言框选择语言,最后“Recognize(识别)”,于是就为你蹦出一个txt 文本,接下去你还可以就着这文本进行校对。 注意:

1、要成功使用JOCR ,首先得保证在安装office 时选择了“完整”安装选项,因为JOCR 的运转是依托于Microsoft Office Document Imaging (MODI ,中文OCR 辨识引擎)的。Office 2003的缺省安装是第一次使用MODI 时安装,Office 2007的缺省安装是不装,都需要自己主动安装一下。如果你没有完整安装office ,也可以只是再安装一下MODI ,微软官方有下载。

2、如果需要抓取繁体,而你使用的是简体windows 系统(即比如安装的是简体中文Office 2003),那么请将下列“繁体中文识别”文件复制到C:\Program Files\Common Files\Microsoft Shared\MODI\11.0

TCCODE.UNI

TCPRINT.DAT

TCPRINT2.DAT

TCSERHT.DAT

TCTREE.DAT

TW_BU.DAT

TW_UB.DAT

TWBIG532.DLL

然后双击reg 文件导入注册表,ok 。注意,导入注册表时必须先关闭所有MODI 窗口。

此时,在MODI 的OCR 选项卡里,“OCR语言”中即可看到“中文(繁体)”,也就是说依托MODI 运作的ocr 软件具有了繁体识别功能。

或许你要问,JOCR 的使用特别是繁体不免麻烦了一点点。我的回答是,推荐JOCR 正是因为它要利用到MODI 及其繁体识别功能。一般的ocr 软件往往对繁体无措或者效果不如意,而微软MODI 的效果非常的理想,我上一篇日记《马克思——披上科学外衣的诗人革命家》用的就是它,几乎就没有改正几个字(原文是竖排的)。所以说磨刀不误砍柴工,而且是微软自带的,省事省心。

然后说pdf 批量ocr

一本pdf 格式的书籍有很多页,自然要用批量才行。一般认为最强大的专业ocr 软件是ABBYY FineReader,“世界排名第一的OCR 文字识别工具”是也。ABBYY FineReader不依托MODI 运作,不免费体积也很庞大,不过微软免费

的MODI 才5M 多一点点。一个好状况是,热心的网友已经制作了中文绿色版,见“最好的OCR 识别软件:ABBYY FineReader中文绿色

版”http://www.portablesoft.org/abbyy-finereader/。我自己比较ABBYY

FineReader 与MODI 的效果,个人觉得MODI 略胜一筹(主要在文字识别率上),至少难分上下。MODI 抓取的结果只是文字,没有字体版式啥的,而ABBYY FineReader 貌似有还原版面的追求,所以可能反而把问题复杂化(特别是在word 中作修改可能叫你崩溃,当然你需要版面什么的另当别论)。

所以有鉴于此而推荐采用微软自带的MODI 。

MODI的一般使用方法是:在打开的pdf 文档“文件”-“打印”-“名称”中选择

“microsoft office document imaging writer”,打印你需要的(所有)页面(这个乃至后边生成的文件地址最好在桌面一类,不然找起来费神)。于是,它生成一个后缀名为mdi 的文件。你打开这个mdi 文件,在“工具”中选择“使用OCR 识别文本”,然后开始可能是很漫长的识别过程,电脑不给力的话一本数百页的书可能漫长到两三个小时。识别结束后,你再在“工具”中选择“将文本发送到Word”,然后它为你生成一个后缀名为htm 的文件,里头就有你想要的文字了。

关于ocr 繁体中文,就需要用到上边“繁体中文识别”的方法。在复制拷贝那几个文件后,你打开mdi 文件,在“工具”-“选项”-“OCR”中就能看到“中文(繁体)”选项,需要时选中即可。

也许,把一本扫描版的pdf 转换成文字版的pdf ,最核心的部分其实是校对。如果那个文字版内容错误如毛毛,可真叫人纠结。只是对于大部头书籍校对的工程很有些浩大,当然也可以叫你静心精读,何乐不为。分享会让你心情愉快。朋友如果校对也好了,要分享,那还得把版面排好,至少得比我强一点点(比如那个《马克思——披上科学外衣的诗人革命家》pdf ),否则又是一块油炸鸡肋。一般地,排版的工具手头的word 就够用,况且很多pdf 制作软件是从word 直接转pdf ,很方便实在。

对于word 转pdf ,一般都采用pdf 打印软件,就是在word 打印中选择相应的打印机直接就打印成pdf ,如下图。我用过的Word to PDF Converter效果很不错,但是它不免费,而且上次碰到一个字的字体嵌入错误( 。Word to PDF Converter 安装后会在word 工具栏生成图标,见下图。pdfFactory Pro的功能和效果也不错(对DFKai-SB 字体不支持,那可是我的大爱),而TinyPDF 这种在视觉效果上就差强人意了。这里分享一下Word to PDF Converter v3.0及其破解与配套驱动,pdfFactory Pro 4.10 简体注册中文版及其破解(对杀软可能报毒,或者还需要从杀软中排除)。

下载地址:http://vdisk.weibo.com/s/uIPu

如果你使用的是word2010,恭喜你,它已经能够直接另存为pdf (2007弄个加载项Save As PDF and XPS也可以)。好久得去用用,看看能不能解决上边遇到的两个问题,如果能,其他的pdf 打印软件就要抛弃之。

最后,在具体的使用过程中你可能还会遇到别的什么问题,我就是这样,比如在word“帮助”-“关于Microsoft Office Word”-“禁用项目”中发现Word to PDF Converter 是被禁用了。


相关内容

  • 心理学类4
  • 心理学类,更新中..... [人格心理学(第7版)].(美)杰瑞·伯格(Jerry.M.Burger)着.陈会昌等译.扫描版.rar: http://www.ctdisk.com/file/17086241 少有人走的路.rar: http://www.ctdisk.com/file/1708624 ...

  • 如何将文档转换为电子版
  • 首先你得先把这些打印稿或文件通过扫描仪扫到电脑上去,一般单位都有扫描仪,如果没有也没关系,用数码相机拍也行,拍成图片放到WORD 里面去,不过在些 之前,你还得装一下WORD 自带的组件,03和07的都行.点开始-程序-控制面板-添加/删除程序,找到Office-修改 找到Microsoft Off ...

  • 办公室--如何将打印稿变为电子稿?
  • 如何将打印稿变为电子稿? 首先你得先把这些打印稿或文件通过扫描仪扫到电脑上去,一般单位都有扫描仪,如果没有也没关系,用数码相机拍也行,拍成图片放到WORD里面去,不过在这些之前,你还得装一下WORD自带的组件,03和07的都行.点开始-程序-控制面板-添加/删除程序,找到Office-修改 找到Mi ...

  • 教你如何将打印稿转化成电子稿
  • [转] 教你如何把打印稿变成电子稿 教你如何将打印稿变成电子稿最近,我的一个刚刚走上工作岗位上的朋友老是向我报怨,说老板真的是不把我们这些新来工作的人不当人看啊,什么粗活都是让我们做,这不,昨天又拿了10几页的文件拿来,叫他打成电子稿,他说都快变成打字工具了,我听之后既为他感到同情,同时教给他一个简 ...

  • 办公室如何把打印稿变成电子稿
  • 办公室--教你如何把打印稿变成电子稿(太牛啦!!你打一天的字都比不上她2分钟!! 教你如何将打印稿变成电子稿最近,我的一个刚刚走上工作岗位上的朋友老是向我报怨,说老板真的是不把我们这些新来工作的人不当人看啊,什么粗活都是让我们 做,这不,昨天又拿了10几页的文件拿来,叫他打成电子稿,他说都快变成打字 ...

  • 复印稿转换手写稿
  • 办公室--教你如何把打印稿变成电子稿(太牛啦!!你打一天的字都比不上她2分钟!!人手一份,留着以后用哈!) ? 教你如何将打印稿变成电子稿最近,我的一个刚刚走上工作岗位上的朋友老是向我报怨,说老板真的是不把我们这些新来工作的人不当人看啊,什么粗活都是让我们 做,这不,昨天又拿了10几页的文件拿来,叫 ...

  • 如何把扫描仪创建的
  • 如何把扫描仪创建的pdf文档转成word文档? 比较简单的办法是将图像中的文字识别出来,然后就可以用翻译软件读取了.你可以这样去做: 一.将PDF文件中的各页图像提取出来 1)使用Adobe Acrobat软件 2)在上面菜单上选文件>导出>提取图像为>JPEG文件(其他二种也行, ...

  • 如何把PDF格式转换成WORD文档格式
  • 如何把PDF 格式转换成WORD 文档格式? 方法一: 下一个Apabi Reader 4.0,就可以转换,虽然不是所有的都可以转,但个人觉得很好用. 方法二: 利用Office 2003中的Microsoft Office Document Imaging组件来实现PDF 转WORD 文档,也就是 ...

  • 打印稿变成电子稿,怎样将打印稿变成电子稿
  • 办公室--打印稿变成电子稿(太牛啦!!你打一天的字都比不上她2分钟!!人手一份,留着以后用哈!) 教你如何将打印稿变成电子稿最近,我的一个刚刚走上工作岗位上的朋友老是向我报怨,说老板真的是不把我们这些新来工作的人不当人看啊,什么粗活都是让我们做,这不,昨天又拿了10几页的文件拿来,叫他打成电子稿,他 ...