另外作者也表示开源是为了供有心人学习 PDF 文档处理技术之用。同时使用者也需要留意源代码采用“良心授权”协议;如使用源代码开发了新的软件并获得收益,应将收益中不低于千分之一的金额捐赠给社会的弱势群体。
PDF补丁丁介绍
PDF 补丁丁虽然界面看起来有点 "历史感" 不过功能一点都不弱,下面给大家介绍几个重点不错的功能。
识别图像文本:目前不少 OCR 软件需要付费,这里支持把原始 PDF 文件里面的图像文本识别并支持写入到 PDF 文档。功能方面也支持文本排版方向、纠正、删除汉字间空格等等。
识别书签:支持对 PDF 文档的标签进行编辑,支持自动根据你的文档生成对应的书签、导出/导入书签文档、更改页码、合并标签、设置标签格式等。
提取页面:对 PDF 文档页面进行提取,可以选择需要保留的内容,包括有书签、属性、限制等。
批量修改文档:可以批量去除 PDF 打印限制、复制限制,修改文档属性、页码编号、页面链接、页面尺寸、优化体积、删除自动打开网页等。
提取图片:对 PDF 文档里面的图片批量导出,可以设置需要提取的页码范围、图片合并为PNG、导出批注内的图片、文件重命名等多种设定。
功能特色
修改PDF信息:修改文档属性、页码编号、页面链接、页面尺寸;删除自动打开网页等动作,去除复制及打印限制;设置阅读器初始模式。
贴心PDF书签编辑器:带有阅读界面(具有便于阅读竖排文档的从右到左阅读方式),可批量修改PDF书签属性(颜色、样式、目标页码、缩放比例等),在书签中执行查找替换(支持正则表达式及XPath匹配、可快速选择篇、章、节书签),自动快速生成文档书签。
生成PDF书签:无需手工输入,自动识别正文标题或目录,为PDF文档生成书签。
制作PDF文件:合并已有PDF文件或图片,生成新的PDF文件。合并后的PDF文档带有原文档的书签,还可挂上新书签(或根据文件名生成),新书签文本和样式可自定义。
拆分合并:拆分或合并PDF文件,并保留原文件的书签或挂上新的书签。
导出图片:高速无损导出PDF文档的图片。
提取页面:提取或删除PDF文档中指定的页面,调整PDF文档的页面顺序。
重命名:根据PDF文档元数据重命名PDF文件名。
文字识别:调用微软 Office 的图像识别引擎分析PDF文档图片中的文字;将图片PDF的目录页转换为PDF书签。识别结果可写入PDF文件。
替换字库:替换文档中使用的字体库;嵌入字库到PDF文档,消除复制文本时的乱码,使之可在没有字库的设备(如Kindle等电子书阅读器)上阅读。
分析文档结构:以树视图显示PDF文档结构,可编辑修改PDF文档节点,或将PDF文档导出成XML文件,供PDF爱好者分析、调试之用。
总结
作为个人作品能把功能开发到这种程度很不容易了,无论你是偶尔/经常用到 PDF 编辑软件,这款 PDF 补丁丁都非常值得收藏备用。另外因为项目开源了出来,相信后续会有更多基于 PDF 补丁丁开发的版本。