Sugon-Scnet 通用 OCR 识别工具

『来自123云盘用户17324059727的分享』Sugon-Scnet OCR识别工具 v1.2.0.zip

链接:123云盘

提取码:在文章最后

📖 项目简介

这是通用 OCR 识别工具,基于 Sugon-Scnet API,支持 31 种识别类型,覆盖四类场景:

  • 📝 通用识别: 通用文字提取
  • 🪪 个人证照: 身份证、银行卡、护照等 9 种证件
  • 🏢 行业资质: 营业执照、法人证书等 7 种资质证书
  • 💰 财务票据: 增值税发票、火车票、机票等 14 种票据

项目使用了OCR能力和定额发票识别的skills脚本,都来自超算互联网https://www.scnet.cn/,在二者的基础上丰富发票识别规则和操作性等,写了一个通用OCR识别工具:Sugon-Scnet 通用 OCR 识别工具 v1.2,以下是模型和skills链接。

国家超算中心OCR模型
定额发票识别的脚本
gui界面

✨ 特性

  • ✅ 单个 API 集成 31 种识别能力,自动检测OCR识别错误和数据不一致
  • ✅支持并行处理,自动验证金额一致性、字段完整性,支持 JSON、CSV、Excel 三种格式,友好的图形用户界面,无需命令行。

🚀 启动

方式一:使用启动脚本

Windows:

start.bat
start.bat/ start.sh脚本启动
命令行界面

Linux/Mac:

chmod +x start.sh
./start.sh

方式二:手动安装

1. 安装依赖

pip install -r requirements.txt 

2. 配置 API Key

创建 config/.env 文件:

mkdir -p config
echo 'SCNET_API_KEY=你的API密钥' > config/.env

或在环境中设置:

export SCNET_API_KEY='你的API密钥'

⚠️ 安全提醒: 切勿在聊天中粘贴 API Key!

3. 选择运行模式

🖥️ GUI 桌面模式(推荐新手)

python scripts/main.py --gui

💻 命令行单文件模式

python scripts/main.py --help # 查看帮助
python scripts/main.py --list # 查看所有支持的类型
python scripts/main.py QUOTA_INVOICE invoice.jpg # 识别定额发票
python scripts/main.py VAT_INVOICE vat_invoice.pdf # 识别增值税发票
python scripts/main.py ID_CARD id_card.jpg  # 识别身份证
python scripts/main.py BUSINESS_LICENSE license.jpg  # 识别营业执照
等等等等

📦 批量处理模式

# 批量识别目录中的所有发票,导出为 Excel
python scripts/main.py --batch VAT_INVOICE --input ./invoices/ --output ./results/ --format excel

# 批量处理,使用 8 个线程并行
python scripts/main.py --batch ID_CARD --input ./id_cards/ --workers 8

# 批量处理,禁用数据验证(提升速度)
python scripts/main.py --batch QUOTA_INVOICE --input ./quota/ --no-validate

📋 支持的识别类型

运行以下命令查看完整列表:

python scripts/main.py --list

这个发票识别工具,我很久前就做过一个,可以转到我之前的文章,不过没有使用更好的ocr,现在的这个能力更强,至于ocr的获取很简单,目前超算的ocr免费,你也可以使用百度的ocr等等。

申请apikey
控制台获取
控制台获取

🎯 使用场景示例

场景 1: 批量处理月度发票

# 将本月所有发票放在 invoices/2024-01/ 目录
python scripts/main.py --batch VAT_INVOICE \
    --input ./invoices/2024-01/ \
    --output ./results/2024-01/ \
    --format excel \
    --workers 4

输出:

  • ocr_results_20240115_143022.xlsx – Excel 表格,可直接用于财务分析
  • validation_report_20240115_143022.json – 数据验证报告

场景 2: 员工证件归档

# 批量识别员工身份证
python scripts/main.py --batch ID_CARD \
    --input ./employee_ids/ \
    --output ./hr_records/ \
    --format csv

场景 3: GUI 交互式处理

# 启动图形界面
python scripts/main.py --gui

功能:

  • 📁 拖拽或浏览选择文件/目录;下拉菜单选择识别类型;配置输出格式和目录; 实时进度显示; 详细日志输出;一键导出数据

📊 输出示例

JSON 格式

{
  "summary": {
    "total": 10,
    "success": 9,
    "failed": 1
  },
  "results": [
    {
      "document_type": "invoice",
      "invoice_no": "25502000000099762820",
      "invoice_date": "20250922",
      "buyer_name": "重庆科普瑞特物业管理有限公司",
      "seller_name": "重庆彩食鲜供应链发展有限公司",
      "total_amount": "33940.97",
      "items_count": 42,
      "source_file": "invoice_001.pdf"
    }
  ],
  "validations": [
    {
      "file": "invoice_001.pdf",
      "page": 1,
      "validation": {
        "is_valid": true,
        "errors": [],
        "warnings": []
      }
    }
  ]
}

CSV/Excel 格式

invoice_no invoice_date buyer_name seller_name total_amount items_count source_file
25502000000099762820 20250922 重庆科普瑞特… 重庆彩食鲜… 33940.97 42 invoice_001.pdf

🔧 高级配置

环境变量

变量名 默认值 说明
SCNET_API_KEY 必需 API 密钥
SCNET_API_BASE api.scnet.cn/api/llm/v1 API 基础地址

命令行参数

批处理模式:

python scripts/main.py --batch <ocr_type> [选项]

选项:
  --input, -i       输入目录路径(必需)
  --output, -o      输出目录路径(默认: ./results)
  --format, -f      输出格式: json/csv/excel/all(默认: json)
  --workers, -w     并行线程数(默认: 4)
  --no-validate     禁用数据验证

GUI 模式:

python scripts/main.py --gui

⚠️ 注意事项

  • API 速率限制:10 QPS
  • 脚本会自动重试(最多 3 次)
  • 建议串行调用,避免并发
  • Token 过期时会收到明确提示
  • Excel 导出需要安装 openpyxlpip install openpyxl

📚 文档

👥 作者

SCNet Team & yohoten & cx330

🔗 相关链接

批量处理输出

============================================================
  开始批量处理
============================================================
📋 识别类型: VAT_INVOICE
📁 文件数量: 50
🔧 并行线程: 4
💾 输出格式: excel
============================================================

[1/50] ✅ invoice_001.pdf (2.34s) | 进度: 2.0% | 预计剩余: 115s
[2/50] ✅ invoice_002.pdf (1.98s) | 进度: 4.0% | 预计剩余: 97s
...

提取码:cx33