GitHub 3.5k Star 的 AI 视频转文档神器

发表于： 2026年2月26日 2026年2月26日
分类：未分类

大家好，我是太阳鸟！

刷 B 站、看 YouTube 的时候经常遇到一个问题：视频内容很好，但想记笔记太费劲了。有的视频干货很多，手动整理一遍要花大半天，而且很容易漏掉关键信息。

在 GitHub 上发现了一个神器 AI-Media2Doc，3.5k Star，一键就能把视频/音频转成各种风格的文档。

它能干什么？

简单来说：给它一个视频链接或音频文件，AI 帮你直接输出一篇排好版的文章。

支持的输出风格：

小红书风格 — 自动生成小红书图文笔记

公众号风格 — 直接输出公众号排版文章

知识笔记 — 结构化的学习笔记

思维导图 — 梳理视频逻辑结构

视频字幕 — 一键导出字幕文件

内容总结 — 快速提取核心要点

来看看首页长什么样：

亮点功能

1、智能截图

这个功能是真的绝。它能根据字幕内容，自动在视频对应位置截图，然后插入到文章里——不需要任何视觉大模型，零成本实现图文并茂。

你想想，看了一个 30 分钟的技术教程，它帮你自动截图 + 整理成图文笔记，这效率直接起飞。

2、AI 二次问答

转完文档之后，还能针对视频内容进行 AI 对话。比如：

“这个视频里提到的那个算法，能再详细解释一下吗？”

相当于给视频配了一个专属 AI 助手。

结果页设计得也很清爽，支持一键导出字幕：

3、自定义 Prompt

不满意默认的输出风格？可以在前端直接自定义 Prompt，想要什么风格就调什么风格。写公众号的、做小红书的、写技术博客的，各取所需。

4、隐私友好

不需要登录注册，任务记录保存在本地，不上传到第三方平台。用 ffmpeg wasm 技术在前端处理音频，甚至不需要本地安装 ffmpeg。

处理流程

整个架构设计得很清晰，来看一下处理流程图：

技术栈

前端： Vue

后端： Python

音频处理： ffmpeg wasm（前端直接处理）

AI 模型： 支持接入各种大模型（ChatGPT、豆包等）

部署： Docker 一键部署

怎么用？

最简单的方式就是 Docker 一键部署：

docker-compose -f docker-compose.yaml up -d

三步走：

安装 Docker

下载 docker-compose.yaml 和配置好 variables.env

运行上面那条命令，完事儿

适合谁？

自媒体创作者 — 看完视频直接转成公众号文章/小红书笔记，效率翻倍

学生党 — 网课视频直接变学习笔记，期末复习利器

知识工作者 — 播客、会议录音秒变结构化文档

内容搬运 — 视频内容转文字二次创作（注意版权哈）

源码

项目前后端完全开源，MIT 协议，可以自由使用和修改。前端 Vue，后端 Python，代码结构清晰，有能力的同学可以自己加功能。

开源项目地址：

https://github.com/hanshuaikang

admin

2663