1.8K Star!一键音视频转为各种风格的图文,完全开源零成本!

目录

快速上手

主要特性


最近发现了一个超赞的开源项目,直接把视频音频一键转成各种风格文档

图片

这个叫AI-Media2Doc的工具,说白了就是专门解决那些想把视频内容转文字的需求。比如你看了个B站教程想做笔记,或者刷到抖音好内容想整理,以前得自己手动记录,现在直接扔进去就出来格式化的文档。

index

核心亮点在于它的多样化输出。不是简单的语音转文字,而是能生成小红书风格、公众号文章、知识笔记、思维导图这些不同格式。这点确实牛,相当于一个工具顶好几个。

task details

更关键的是完全本地部署,不用担心隐私泄露。你的视频内容不会上传到第三方平台,这对很多人来说是刚需。毕竟现在数据安全问题这么敏感,谁愿意把自己的资料随便上传?

custom_prompt.png

技术实现上用了ffmpeg wasm,前端直接处理音视频,不需要你本地装一堆环境。Docker一键部署,基本上不懂技术的人也能快速跑起来。

项目还支持智能截图功能,根据字幕信息自动截取关键画面插入文档。这个设计挺巧妙的,不需要什么视觉大模型,成本基本为零,但效果却能做到图文并茂。

另外一个实用功能是AI二次对话。处理完视频后,你还能针对内容继续提问,相当于有了个专门的小助手。想深入了解某个知识点,直接问就行。

作者韩数同学在项目说明里提到,这个工具源于他自己的需求——喜欢阅读但不想在各种平台注册付费。确实,现在市面上类似工具要么收费,要么需要注册,用起来挺麻烦。

快速上手

部署方式也很简单:

  1. 安装Docker

  2. 构建镜像:make docker-image

  3. 配置环境变量文件 variables.env

  4. 运行项目:make run

支持自定义Prompt,意味着你可以根据自己的需求调整输出风格。想要严肃的学术笔记还是轻松的社交媒体内容,都能通过提示词控制。

主要特性

  • 完全开源:MIT协议授权,支持本地部署

  • 隐私保护:无需登录注册,任务记录保存在本地

  • 前端处理:采用ffmpeg wasm技术,无需本地安装ffmpeg

  • 多种风格支持:小红书/公众号/知识笔记/思维导图等多种文档风格

  • AI对话:支持针对视频内容进行AI二次问答

  • 字幕导出:结果一键导出为字幕文件

  • 智能截图:基于字幕信息智能截图并插入文章

  • 自定义Prompt:支持在前端自定义配置prompt

  • 一键部署:支持Docker一键部署

  • 访问控制:支持设置访问密码

项目采用MIT协议,完全开源免费。目前已经有1.8K星标,活跃度还不错。从commit记录看,作者一直在持续更新,最近还修复了自定义弹窗的问题。

对于内容创作者、学习爱好者、知识管理人员来说,这个工具确实能解决不少痛点。把音视频内容快速转化为可编辑的文档,后续再加工就方便多了。

项目地址:https://github.com/hanshuaikang/AI-Media2Doc 

引入地址 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值