1.8K Star！一键音视频转为各种风格的图文，完全开源零成本！

最新推荐文章于 2026-05-08 00:07:26 发布

转载最新推荐文章于 2026-05-08 00:07:26 发布 · 342 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

原文链接：https://mp.weixin.qq.com/s/93hppupivGFCNuu6-A3zOQ?clicktime=1752897736&enterid=1752897736&scene=126&sessionid=1752897592&subscene=307

标签

#音视频 #AI-Media2Doc

人工智能专栏收录该内容

905 篇文章

订阅专栏

目录

最近发现了一个超赞的开源项目，直接把视频音频一键转成各种风格文档。

这个叫AI-Media2Doc的工具，说白了就是专门解决那些想把视频内容转文字的需求。比如你看了个B站教程想做笔记，或者刷到抖音好内容想整理，以前得自己手动记录，现在直接扔进去就出来格式化的文档。

index

核心亮点在于它的多样化输出。不是简单的语音转文字，而是能生成小红书风格、公众号文章、知识笔记、思维导图这些不同格式。这点确实牛，相当于一个工具顶好几个。

task details

更关键的是完全本地部署，不用担心隐私泄露。你的视频内容不会上传到第三方平台，这对很多人来说是刚需。毕竟现在数据安全问题这么敏感，谁愿意把自己的资料随便上传？

技术实现上用了ffmpeg wasm，前端直接处理音视频，不需要你本地装一堆环境。Docker一键部署，基本上不懂技术的人也能快速跑起来。

项目还支持智能截图功能，根据字幕信息自动截取关键画面插入文档。这个设计挺巧妙的，不需要什么视觉大模型，成本基本为零，但效果却能做到图文并茂。

另外一个实用功能是AI二次对话。处理完视频后，你还能针对内容继续提问，相当于有了个专门的小助手。想深入了解某个知识点，直接问就行。

作者韩数同学在项目说明里提到，这个工具源于他自己的需求——喜欢阅读但不想在各种平台注册付费。确实，现在市面上类似工具要么收费，要么需要注册，用起来挺麻烦。

快速上手

部署方式也很简单：

安装Docker
构建镜像：make docker-image
配置环境变量文件 variables.env
运行项目：make run

支持自定义Prompt，意味着你可以根据自己的需求调整输出风格。想要严肃的学术笔记还是轻松的社交媒体内容，都能通过提示词控制。

主要特性

完全开源：MIT协议授权，支持本地部署
隐私保护：无需登录注册，任务记录保存在本地
前端处理：采用ffmpeg wasm技术，无需本地安装ffmpeg
多种风格支持：小红书/公众号/知识笔记/思维导图等多种文档风格
AI对话：支持针对视频内容进行AI二次问答
字幕导出：结果一键导出为字幕文件
智能截图：基于字幕信息智能截图并插入文章
自定义Prompt：支持在前端自定义配置prompt
一键部署：支持Docker一键部署
访问控制：支持设置访问密码

项目采用MIT协议，完全开源免费。目前已经有1.8K星标，活跃度还不错。从commit记录看，作者一直在持续更新，最近还修复了自定义弹窗的问题。

对于内容创作者、学习爱好者、知识管理人员来说，这个工具确实能解决不少痛点。把音视频内容快速转化为可编辑的文档，后续再加工就方便多了。

项目地址：https://github.com/hanshuaikang/AI-Media2Doc

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。