OlmOCR 是由 Allen Institute for AI 开发的一款开源 OCR 工具,专门用于从 PDF 或图片中提取文字,并保留标题、表格等结构信息,甚至能够识别手写内容。
该模型不仅识别精度高,还能理解阅读顺序,并输出 Markdown 格式。批量处理 100 万页 PDF 的成本仅为 190 美元,佬们可以在官网上传几页进行测试下效果,或者选择自部署。
总体确实非常不错,不过音标识别方面还是差点意思。 #三花AI #开源
收起
作者:三花AI
链接:
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。