性能封神!开源 OCR 工具 MonkeyOCR 部署指南:3B 小模型力压 Gemini/Qwen,轻松解析中英文文档
MonkeyOCR 是一款开源的文档解析 AI 工具。其核心创新在于采用了结构识别关系三元组范式。这种方法旨在简化传统模块化方法(需要多个工具串联)的复杂性,同时避免使用大型多模态模型处理整页文档时常见的效率低下问题。
核心功能
1、全文档解析:
支持英文和中文文档。
兼容多种文件格式:PDF、JPG、JPEG、PNG。
可提取文本内容、识别公式(输出为 LaTeX 格式)、识别表格(输出为 LaTeX 格式)。
解析结果可保存为 Markdown、JSON 等格式。
2、单任务识别: 支持独立执行文本识别、公式识别或表格识别任务。
3、可视化演示: 提供在线演示界面:
上传 PDF 或图片。
点击 “Parse (解析)” 按钮:模型将执行结构检测、内容识别、关系预测,最终输出文档的 Markdown 格式。
可选择提示(Prompt),点击 “Test by prompt”:模型根据所选提示对图像内容进行识别。
性能优势
1、高准确率:
相比基于管道的 MinerU 方法:在九种中英文文档类型上平均准确率提升 5.1%,其中公式识别提升 15.0%,表格识别提升 8.6%。
相比端到端模型:其 3B 参数模型在英文文档上表现最佳,平均性能优于 Gemini 2.5 Pro 和 Qwen2.5 VL – 72B 等大型模型。
2、处理速度快: 多页文档解析速度达 0.84 页/秒,快于 MinerU (0.65 页/秒) 和 Qwen2.5 VL – 7B (0.12 页/秒)。
星海智算平台已经为大家部署好这个镜像,开箱即用,下面为大家介绍一下,如何在星海智算平台上使用。
星海智算-GPU算力云平台
启动应用
1、在GPU实例界面中选择创建应用

2、 在镜像市场选择chatterbox并点击部署

3、 选择区域,GPU、磁盘配置后点击立即部署。

4、待开机后,启动应用服务 (刚开机后点击启动若是出现502问题,请关闭页面等2-3分钟后再重新启动服务)

打开后界面如下

5、 在文件输入框中上传所需文件图片。

6、点击解析按钮解析文件内容。
