OlmOCR：开源 OCR 解决方案

发表于： 2025年3月19日 2025年3月19日
分类：未分类

OlmOCR 是由 Allen Institute for AI 开发的一款开源 OCR 工具，专门用于从 PDF 或图片中提取文字，并保留标题、表格等结构信息，甚至能够识别手写内容。
该模型不仅识别精度高，还能理解阅读顺序，并输出 Markdown 格式。批量处理 100 万页 PDF 的成本仅为 190 美元，佬们可以在官网上传几页进行测试下效果，或者选择自部署。
总体确实非常不错，不过音标识别方面还是差点意思。 #三花AI #开源
收起

作者：三花AI
链接：
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

admin

2665