有没有免费的发票 OCR 识别工具推荐?
Sugon-Scnet 通用 OCR 识别工具
『来自123云盘用户17324059727的分享』Sugon-Scnet OCR识别工具 v1.2.0.zip
链接:123云盘
提取码:在文章最后
📖 项目简介
这是通用 OCR 识别工具,基于 Sugon-Scnet API,支持 31 种识别类型,覆盖四类场景:
- 📝 通用识别: 通用文字提取
- 🪪 个人证照: 身份证、银行卡、护照等 9 种证件
- 🏢 行业资质: 营业执照、法人证书等 7 种资质证书
- 💰 财务票据: 增值税发票、火车票、机票等 14 种票据
项目使用了OCR能力和定额发票识别的skills脚本,都来自超算互联网https://www.scnet.cn/,在二者的基础上丰富发票识别规则和操作性等,写了一个通用OCR识别工具:Sugon-Scnet 通用 OCR 识别工具 v1.2,以下是模型和skills链接。

- 定额发票识别的skills脚本:https://www.scnet.cn/ui/aihub/skills/ScnetAiApp/fixed_amount_invoice_ocr?id=2044675921087590402


✨ 特性
- ✅ 单个 API 集成 31 种识别能力,自动检测OCR识别错误和数据不一致
- ✅支持并行处理,自动验证金额一致性、字段完整性,支持 JSON、CSV、Excel 三种格式,友好的图形用户界面,无需命令行。
🚀 启动
方式一:使用启动脚本
Windows:
start.bat


Linux/Mac:
chmod +x start.sh
./start.sh
方式二:手动安装
1. 安装依赖
pip install -r requirements.txt
2. 配置 API Key
创建 config/.env 文件:
mkdir -p config
echo 'SCNET_API_KEY=你的API密钥' > config/.env
或在环境中设置:
export SCNET_API_KEY='你的API密钥'
⚠️ 安全提醒: 切勿在聊天中粘贴 API Key!
3. 选择运行模式
🖥️ GUI 桌面模式(推荐新手)
python scripts/main.py --gui

💻 命令行单文件模式
python scripts/main.py --help # 查看帮助
python scripts/main.py --list # 查看所有支持的类型
python scripts/main.py QUOTA_INVOICE invoice.jpg # 识别定额发票
python scripts/main.py VAT_INVOICE vat_invoice.pdf # 识别增值税发票
python scripts/main.py ID_CARD id_card.jpg # 识别身份证
python scripts/main.py BUSINESS_LICENSE license.jpg # 识别营业执照
等等等等
📦 批量处理模式
# 批量识别目录中的所有发票,导出为 Excel
python scripts/main.py --batch VAT_INVOICE --input ./invoices/ --output ./results/ --format excel
# 批量处理,使用 8 个线程并行
python scripts/main.py --batch ID_CARD --input ./id_cards/ --workers 8
# 批量处理,禁用数据验证(提升速度)
python scripts/main.py --batch QUOTA_INVOICE --input ./quota/ --no-validate
📋 支持的识别类型
运行以下命令查看完整列表:
python scripts/main.py --list
这个发票识别工具,我很久前就做过一个,可以转到我之前的文章,不过没有使用更好的ocr,现在的这个能力更强,至于ocr的获取很简单,目前超算的ocr免费,你也可以使用百度的ocr等等。



🎯 使用场景示例
场景 1: 批量处理月度发票
# 将本月所有发票放在 invoices/2024-01/ 目录
python scripts/main.py --batch VAT_INVOICE \
--input ./invoices/2024-01/ \
--output ./results/2024-01/ \
--format excel \
--workers 4
输出:
ocr_results_20240115_143022.xlsx– Excel 表格,可直接用于财务分析validation_report_20240115_143022.json– 数据验证报告
场景 2: 员工证件归档
# 批量识别员工身份证
python scripts/main.py --batch ID_CARD \
--input ./employee_ids/ \
--output ./hr_records/ \
--format csv
场景 3: GUI 交互式处理
# 启动图形界面
python scripts/main.py --gui
功能:
- 📁 拖拽或浏览选择文件/目录;下拉菜单选择识别类型;配置输出格式和目录; 实时进度显示; 详细日志输出;一键导出数据
📊 输出示例
JSON 格式
{
"summary": {
"total": 10,
"success": 9,
"failed": 1
},
"results": [
{
"document_type": "invoice",
"invoice_no": "25502000000099762820",
"invoice_date": "20250922",
"buyer_name": "重庆科普瑞特物业管理有限公司",
"seller_name": "重庆彩食鲜供应链发展有限公司",
"total_amount": "33940.97",
"items_count": 42,
"source_file": "invoice_001.pdf"
}
],
"validations": [
{
"file": "invoice_001.pdf",
"page": 1,
"validation": {
"is_valid": true,
"errors": [],
"warnings": []
}
}
]
}
CSV/Excel 格式
| invoice_no | invoice_date | buyer_name | seller_name | total_amount | items_count | source_file |
|---|---|---|---|---|---|---|
| 25502000000099762820 | 20250922 | 重庆科普瑞特… | 重庆彩食鲜… | 33940.97 | 42 | invoice_001.pdf |
🔧 高级配置
环境变量
| 变量名 | 默认值 | 说明 |
|---|---|---|
| SCNET_API_KEY | 必需 | API 密钥 |
| SCNET_API_BASE | https://api.scnet.cn/api/llm/v1 | API 基础地址 |
命令行参数
批处理模式:
python scripts/main.py --batch <ocr_type> [选项]
选项:
--input, -i 输入目录路径(必需)
--output, -o 输出目录路径(默认: ./results)
--format, -f 输出格式: json/csv/excel/all(默认: json)
--workers, -w 并行线程数(默认: 4)
--no-validate 禁用数据验证
GUI 模式:
python scripts/main.py --gui
⚠️ 注意事项
- API 速率限制:10 QPS
- 脚本会自动重试(最多 3 次)
- 建议串行调用,避免并发
- Token 过期时会收到明确提示
- Excel 导出需要安装
openpyxl:pip install openpyxl
📚 文档
- SKILL.md – 详细使用说明
- CHANGELOG.md – 版本更新日志
- API 文档 – API 接口文档
- 字段说明 – 各类型返回字段
👥 作者
SCNet Team & yohoten & cx330
🔗 相关链接
批量处理输出
============================================================
开始批量处理
============================================================
📋 识别类型: VAT_INVOICE
📁 文件数量: 50
🔧 并行线程: 4
💾 输出格式: excel
============================================================
[1/50] ✅ invoice_001.pdf (2.34s) | 进度: 2.0% | 预计剩余: 115s
[2/50] ✅ invoice_002.pdf (1.98s) | 进度: 4.0% | 预计剩余: 97s
...
提取码:cx33