盘点10款PDF优质开源工具,yyds!

1、MinerU
开源地址:https://github.com/opendatalab/MinerU
MinerU是一款开源的智能文档解析工具,专注于将PDF等文档高效转换为Markdown和JSON等结构化格式。在当前大语言模型(LLM)蓬勃发展的时代,高质量的结构化数据对于训练和微调LLM至关重要。
MinerU通过其强大的智能文档解析能力,不仅可以为LLM提供清晰的训练语料,还能作为AI应用的重要数据预处理工具。与传统PDF处理工具不同,MinerU的智能解析能力涵盖了文本、图片、表格和公式等多模态内容,尤其适用于多语言文档和复杂布局的PDF文件批量处理。

MinerU主要功能
1. 多模态PDF文档解析:MinerU能够处理包含图片、表格、公式等多种格式元素的复杂PDF文档,并将其转换为Markdown格式,使得内容更加清晰且易于分析。
2. 网页内容提取:工具能够从含有广告或其他干扰信息的网页中提取正式内容,提高信息的纯净度和可用性。
3. 多种格式转换:MinerU支持将epub、mobi、docx等电子文档格式批量转换为Markdown,使得不同来源和格式的文档能够统一处理。
4. 模块化设计:
– Magic-PDF:专注于PDF文档的提取,能够快速识别PDF中的版面元素,自动去除非正文内容,保留文档的结构和格式。
– Magic-Doc:处理网页和电子书的提取,支持常见类型的网页信息抽取以及电子书格式转换。
5. 高质量数据提取:通过运用一系列先进的模型,如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR,MinerU能够实现高质量的文档数据提取。
6. 支持多种平台和环境:MinerU可以在Windows、Linux和macOS等多个平台和环境下运行,并支持在CPU和GPU上执行。
7. 排版格式优化:转换后的文档排版格式符合人类阅读顺序,保留了原文档的结构和格式,便于后续的分析和处理。
8. 图像和表格处理:MinerU能够提取文档中的图像和表格,并将表格内容转换为可编辑的格式。
9. 公式转换:工具可以将PDF中的公式转换为LaTex格式,便于学术写作和文档排版。
10. 乱码PDF自动识别:MinerU具备自动识别乱码PDF的能力,提升文档的可读性。

2、PdfSharp
PDFSharp是一款开源的.NET库,专为处理PDF文档处理而开发的。提供了全面的PDF处理功能,包括创建、编辑、合并、拆分和转换PDF文件。
提供了简单易用的API,使开发者能够快速上手并轻松创建和处理PDF文档。
开源地址:https://github.com/empira/PDFsharp-1.5
官网地址:http://pdfsharp.net/
主要功能
1、创建PDF:无需预先存在的模板,PDFSharp允许您直接从头开始构建PDF文档。
2、内容插入:支持在PDF页面中添加文本、图像、表格、图形等丰富元素。
3、格式化:提供字体选择、颜色设定、布局调整等样式控制功能,帮助您创建高度定制化的PDF文档。
4、合并与拆分:能够将多个PDF文档合并成一个,或将一个PDF文档拆分成多个部分。
5、加密与解密:对PDF文件进行安全设置,保护文档内容不被非法访问。
3、PDFMathTranslate
开源地址:https://github.com/Byaidu/PDFMathTranslate
能完美保留 PDF 中的公式、图表和目录结构,还支持生成双语对照的版本,让阅读英文文献变得轻松自如。
最重要的是,它完全免费,还支持离线使用!

PDFMathTranslate是一款强大的开源PDF文档翻译工具,具有以下特点:
- 保留原始PDF排版样式:翻译后的文档会完整保持原文的格式、图片、公式等元素
- 支持双语对照:可以同时显示原文和译文,方便对比学习
- 数学公式处理:能够准确识别和保留数学公式,不会破坏公式的结构
- 开源免费:软件完全开源,用户可以免费使用和修改
这个工具特别适合需要阅读外文学术论文的学生和研究人员,可以帮助他们快速理解文献内容,同时保持专业术语和数学公式的准确性。
4、PDF-Extract-Kit
开源地址:https://github.com/opendatalab/PDF-Extract-Kit
PDF文档包含了大量的有用信息,例如文本、表格、图像、公式等。此外,PDF的文档布局也相当复杂,页眉、页脚、表格标题、图片标题等等。因此,实现高质量的PDF内容提取是一项非常有挑战性的工作。笔者也曾尝试过基于python包、基于布局检测+OCR识别的多种方案,始终没有找到满意的解决方案。

PDF-Extract-Kit 项目结合多样性PDF文档标注,训练了鲁棒的布局检测和公式检测模型。在论文、教材、研报、财报等多样性的PDF文档上,pipeline都能得到准确的提取结果,对于扫描模糊、水印等情况也有较高鲁棒性。
项目将PDF内容提取工作拆解为以下任务:
- 布局检测:使用LayoutLMv3模型进行区域检测,如图像,表格,标题,文本等;
- 公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;
- 公式识别:使用UniMERNet进行公式识别;
- 光学字符识别:使用PaddleOCR进行文本识别;
5、pdf2htmlEX
开源地址:https://github.com/pdf2htmlEX/pdf2htmlEX
基于 pdf2htmlEX 的分支,将 PDF 转换为 HTML,其转换效果非常好,生成的网页和原始 PDF 几乎完全一致。
原理是利用 Chrome Headless 来渲染 PDF,然后导出为 HTML 格式,甚至连图片也被转换为了 base64 编码,因此生成的网页可以完整包含文本、字体和图片等所有内容。
功能
- 原生 HTML 文本,具有精确的字体和位置;
- 灵活的输出:一体化 HTML 或按需页面加载(需要 JavaScript);
- 文件大小适中,有时甚至比 PDF 还小;
- 支持链接、大纲(书签)、打印、SVG 背景、Type 3 字体;
使用效果


使用 pdf2htmlEx 转换后的 html 格式高度的还原了 pdf,对比之前的工具,这个已经堪称神器了,配合翻译,可以更加高效的阅读文档,所以十分推荐大家使用这个。
6、QuestPDF
开源地址:https://github.com/QuestPDF/QuestPDF
QuestPDF是一个.NET开源、现代化、高效的PDF文档生成工具库。它提供了一套强大的 API,使开发人员能够使用C#语言来创建、编辑和处理 PDF 文件。QuestPDF 提供了丰富的功能,包括布局引擎、多平台支持、高级语言支持、文本样式控制、图像插入、表格和列表、链接和书签、字体和颜色管理、PDF 文件合并和拆分等。
效果展示:



7、PDF补丁丁
开源地址:https://github.com/wmjordan/PDFPatcher
PDF补丁丁是一款免费、开源的PDF文件编辑、处理软件,适用于Windows操作系统。它的主要功能是修改PDF文件中的页面内容、页面顺序、添加或删除页面,以及旋转、提取、合并和拆分PDF文件。

它以极简干净的界面著称,功能板块清晰直观,没有任何冗余元素。
它完全免费,功能强大且实用,每个功能都配有丰富的设置选项,上手容易,操作简单。

PDF补丁丁的功能特点:
1. 修改文本和图片:用户可以使用PDF补丁丁编辑PDF文件中的文本和图片。可以对文本进行更改、删除、添加等操作,还可以调整字体、大小、颜色等格式。同时,也可以对图片进行裁剪、旋转、调整大小等操作。
2. 调整页面顺序:PDF补丁丁允许用户随意调整PDF文件中页面顺序。可以将某一页面移动到其他位置,也可以将多个页面重新排序。
3. 添加和删除页面:用户可以使用PDF补丁丁在PDF文件中添加或删除页面。可以添加新的空白页面、从其他PDF文件中导入页面,或者从图像文件(如JPEG、PNG等)创建页面。同时,也可以删除不需要的页面。
4. 旋转页面:PDF补丁丁支持旋转PDF文件页面。可以顺时针或逆时针旋转90度、180度或270度。
5. 提取和合并:PDF补丁丁可以从PDF文件中提取特定页面,也可以将多个PDF文件合并成一个文件。
6. 分割PDF文件:PDF补丁丁可以将一个PDF文件拆分成多个文件,可以按照页数、文件大小等条件进行分割。
7. 增加或删除书签:PDF补丁丁支持在PDF文件中增加或删除书签。用户可以为特定的页面添加书签,方便快速定位到所需的内容。
8. 加密和解密:PDF补丁丁支持对PDF文件进行加密和解密。可以设置密码以防止未经授权的人打开文件,也可以移除密码以便于共享文件。
需要注意的是,虽然PDF补丁丁功能丰富,但处理复杂PDF文件时可能存在局限性。如需完成更高级的任务,可以考虑使用其他专业的PDF编辑软件。
8、PDFBox
开源地址:https://github.com/apache/pdfbox

PDFBox是Apache基金会推出的一个开源Java工具库,专门用来操作PDF文件。简单来说,它是PDF的“万能工具箱”,可以让我们用代码对PDF文件为所欲为。
Apache PDFBox库是一个开源的Java工具,专门用于处理PDF文档。它允许用户创建全新的PDF文件,编辑现有的PDF文档,以及从PDF文件中提取内容。
功能:创建、渲染、打印、合并、拆分、加密、解密、签名等多种操作PDF文件的功能,包括一个命令行工具,可以用于执行各种PDF处理任务。支持文本提取和搜索,以及将PDF转换为其他格式,如图片和文本。
应用场景:广泛应用于企业和开发者构建PDF处理相关的应用程序和工具。
9、PdfiumViewer
PdfiumViewer是一款基于谷歌开源PDF渲染引擎PDFium的.NET库,主要用于在Windows应用程序中显示和处理PDF文档。
PdfiumViewer提供了多种API和控件,使得开发者可以轻松地将PDF文档嵌入到其应用程序中。
PdfiumViewer:https://github.com/1000374/PdfiumViewer
Pdfium.Net.Free(扩展库):https://github.com/1000374/Pdfium.Net.Free
PdfiumViewer是一款基于PDFium引擎的.NET库,适用于各种需要在应用程序中显示和处理PDF文档的场景。它提供了多种API和控件,使得开发者可以轻松地将PDF文档嵌入到其应用程序中。
同时,PdfiumViewer还支持多种平台,具有良好的跨平台支持。开发者可以根据自己的需求来选择合适的PDF处理库。
10、PDF-Guru
开源地址:https://github.com/kevin2li/PDF-Guru
PDF Guru Anki 是一款以 PDF 为中心的多功能办公学习工具箱软件,包含四大板块功能:PDF 实用工具箱、Anki 制卡神器、Anki 最强辅助、视频笔记神器,软件功能众多且强大,熟练运用可以大幅提高办公和学习效率,绝对是您不可多得的效率神器。

四大板块功能介绍:
- PDF 实用工具箱,包含 PDF 水印去除、PDF 批量添加书签、PDF 批量 OCR、PDF 转换等众多超实用功能。
- Anki 制卡神器 , 支持『PDF、Word、Xmind、幕布、Markdown、Excel、微信读书、欧陆词典』等众多类型材料快速制作 Anki 卡片,支持挖空题、问答题、选择题等常见题型批量制卡,有效解决 Anki 卡片制作过程繁杂、效率低下等问题,可以为用户节省大量时间来专注于学习本身。
- Anki 最强辅助 , 大幅拓展了 Anki 的周边功能,包含自建同步服务器、Anki 卡片导出 PDF、字段批量修改替换、批量添加发音、图片批量上传图床等众多实用功能,让您使用 Anki 更加得心应手。
- 视频笔记神器 , 支持边看视频边记笔记,方便快捷地在笔记中插入视频时间戳和视频截图,同时支持时间戳回链跳转,实现笔记高效记录和后期回顾,将做好的笔记搭配本软件的 Anki 制卡功能一键导入 Anki,打造学习从记录归纳到复习背诵的完美闭环。