大家好,我是太阳鸟。
算算时间,做 GitHub 项目分享也差不多快两年了。
这两年里,从最开始满世界找软件工具推荐给大家,到后来把文章流程化,甚至我还专门分享过 “如何做一个同类型的公众号” ,看着很多小伙伴真的把号做起来了,我特别开心。
但是,我一直有一个心病。
那就是视频。
在这个人人都在刷短视频的时代,我也想把文章做成视频。但说实话,我的视觉感真的很差劲!
如果没有 AI 帮我排版,我做的图简直没法看。做视频?想到要学 PR(Premiere,专业剪辑软件)、调时间轴、加关键帧,我的头就开始疼了。
直到最近,我发现AI 进化了。
特别是 Codex 的更新,让我终于搞定了这件事。现在,我只需要花 5 分钟构思,剩下的 交给 AI 就行。
今天,我就把自己这套 “五分钟AI视频流水线” 用到的三个核心开源项目分享给大家。只要你懂一点点命令行,甚至只要你懂 React(一个前端框架),你就能做出像样的视频。
---
01. 视频的灵魂“剪刀手”:FFmpeg
第一个要介绍的,是所有视频工具的“祖师爷”——FFmpeg 。
很多人一听这个名字就觉得是“黑框框”(命令行界面),很难用。其实不然,在我们这个 AI 工作流里,我们不需要手动敲复杂的命令,AI 会帮我们代劳。
FFmpeg 的作用是什么?切、拼、转。
当我们用 AI 生成了一堆零散的片段,或者像 Remotion(后面会讲)渲染出了一堆图片序列,最后把它们拼成带声音的 MP4,全靠它 。
你可以把它想象成一个万能转换头:
- 想截取片段? 告诉 AI 执行:`ffmpeg -i input.mp4 -ss 00:00:10 -t 00:00:30 -c copy output.mp4`,就能精准拿到第 10 秒到第 40 秒的内容 。
- 想把素材变 Gif? 它也能搞定。
- 分离声音和画面? 它更是拿手好戏。
在这个流程里,FFmpeg 是地基。没有它,所有的“特效”都无法被封装成我们手机能播放的视频文件。
02. 听懂音乐的“眼睛”:Faster-Whisper
第二个项目,faster-whisper。
我做的视频不是纯风景片,是有字幕的。如果是以前,我要对着视频听一句打一句字幕,一个 3 分钟的视频我能校对 1 小时。
faster-whisper 解决了这个问题。它是 OpenAI Whisper(一个语音识别模型)的加速版本。
它就像开了 16 倍速的速记员:
- 我只需要把视频的音频丢给它,它就能自动把语音转成带时间轴的文字 。
- 有了 `.srt` 字幕文件,不管是做内嵌字幕还是做国际化的多语言版本,都方便太多了。
对于做自媒体或者教程类视频的朋友,自动字幕是提升完播率的利器,而这个项目帮你把这把利器的成本降到了零。
03. 用代码“画”出动画:Remotion 与 HyperFrames
重头戏来了。
我以前用剪映,最大的痛点就是对齐。我想让文字从左边飞进来,在 3 秒的时候停住,然后变个颜色……这些操作在传统软件里极其繁琐。
但如果换成写代码呢?
这就是 Remotion 的核心思想:用 React 组件来写视频 。
也就是说,视频里的每一帧,都是一个函数返回的画面。
```javascript
export const MyVideo = () => {
const frame = useCurrentFrame(); // 获取当前是第几帧
const opacity = frame / 30; // 第 1 帧透明度 1/30,越来越实
return <div style={{ opacity }}>Hello World</div>;
};
```
上面这段代码跑起来,就是一个文字逐渐浮现的视频 。酷不酷?
以前我要花半小时拉的“关键帧”,现在一行 `interpolate`(插值函数,Remotion 提供的数据映射函数)函数就搞定了。逻辑即动画。
而最近让我实现“五分钟出片”的,是一个基于 Remotion 的进阶工具 —— HyperFrames。
HyperFrames 更像是一个 AI 视频工厂。
我只需要把我之前的公众号文章或者思路丢给它(配合 Claude Code 或类似 Codex 的 AI),它会自动做这些事情 :
1. 规划分镜:自动把我的文章拆解成“开场”、“介绍”、“项目展示”、“结尾”。
2. 设计样式:它会生成一个 `DESIGN.md`,决定这次视频是“科技感暗色”还是“简约明亮”。
3. 自动填补代码:根据我的文案,自动写出带有 GSAP(一个动画库)动画的 HTML 结构 。
我只需要在本地运行 `npx hyperframes preview` 预览一下,不满意直接对 AI 说“把蓝色的字改成橙色”或者“节奏再快一点”。
从文字到可预览的动画视频,真的只需要 5 分钟。 剩下的 20 分钟,是 AI 在后台渲染导出的时间。
---
最后的话
以前的创作门槛,是你要记住 FFmpeg 那几十个参数;现在的门槛,是你要学会如何把这 FFmpeg(处理音视频)、Faster-Whisper(语音转字幕)、Remotion / HyperFrames(代码生成动画) 这“三驾马车”套上 AI 的引擎。
有了这套组合拳,即使像太阳鸟这样视觉感很差、不会拖拽时间轴的人,也能做出信息密度高、视觉效果酷炫的 AI 视频。
这个世界正在悄悄奖励那些善于用工具表达自己的人。
如果你也受够了剪辑软件的繁琐,不妨去 GitHub 搜一下这几个项目,试试用代码的方式做一期视频。你会发现,所谓的创作瓶颈,其实只需要一次“技术栈”的更新就能打破。
---
看完这篇文章,你是不是也想动手试试了?欢迎在评论区聊聊你现在的视频制作痛点~
