Turn any video into a narration recap with claude code skill|用claude code skill把任何视频剪辑成中文解说视频,支持剪映导出
# Add to your Claude Code skills
git clone https://github.com/worldwonderer/video-recap-skillsGuides for using ai agents skills like video-recap-skills.
Last scanned: 6/14/2026
{
"issues": [],
"status": "PASSED",
"scannedAt": "2026-06-14T08:16:31.880Z",
"npmAuditRan": true,
"pipAuditRan": true,
"promptInjectionRan": true
}No comments yet. Be the first to share your thoughts!
30 days in the Featured rail · terms & refunds
中文 · English
把任何视频做成中文解说 recap——在 Claude Code 里一句话搞定。 本地只要 ffmpeg 和一个小米 MiMo 的 API Key,不要 GPU、不用下载模型。
https://github.com/user-attachments/assets/92698ec6-0d23-4f9f-8825-c3684ef57aff
成片之外,还能一键导出剪映草稿接着手动精修——原片片段、解说、BGM、字幕各成一轨:

一个 Claude Code 插件:五个小而独立的 skill 加一个编排器,各管一段,只靠 work_dir 里的 JSON/MP4 传结果。确定的活儿(剪辑、配音、混音)交给脚本,解说词交给 Agent 写。
flowchart LR
research["背景调研"] --> understand
video(["视频"]) --> understand["理解<br/>场景·ASR·VLM"] --> script["写稿<br/>Agent"] --> voiceover["配音<br/>MiMo TTS"] --> assemble["组装<br/>混音·字幕"] --> output(["Recap"])
script -. 剪辑模式 .-> cut["剪辑"] -.-> voiceover
classDef io fill:#eef6ff,stroke:#4f86c6,color:#1f2937;
classDef opt fill:#f3f4f6,stroke:#9ca3af,color:#374151;
class video,output io;
class research,cut opt;
ffmpeg。background_research.json。--edit-mode cut 把长视频压成更短的解说剪辑;出稿前一道 LLM 评审挑幻觉、钩子、主线的毛病。ffmpeg,不装剪映也照常出片。① 装插件——对 Claude Code 说:
安装这个插件:https://github.com/worldwonderer/video-recap-skills
② 装 ffmpeg(流水线本身不用 pip install,脚本都是标准库 + PATH 上的 ffmpeg,Python 3.10+):
brew install ffmpeg # macOS
sudo apt install ffmpeg # Debian/Ubuntu
choco install ffmpeg # Windows(或 scoop / winget install ffmpeg)
③ 配 MiMo API Key(一个 key 同时驱动 ASR / VLM / TTS,放环境变量、别写进仓库):
export MIMO_API_KEY=your-mimo-key
# tp-* 的 Token-Plan key 会自动连集群,可选 cn | sgp | ams:
export MIMO_TOKEN_PLAN_CLUSTER=cn
按量付费的 sk-* key 默认走 https://api.xiaomimimo.com/v1。其它都有默认值;想分别配 key/URL 或改模型、音色、响度、字幕等,见
配置手册。
把视频丢给它,顺手给点视频背景:
给 /path/to/video.mp4 做个解说。这是《庆余年》第一集,主角是范闲。
它会分析视频、照背景写解说,产出带字幕的 recap_<名>.mp4。想要别的花样,照样一句话:
把 /path/to/long.mp4 剪成十分钟左右的解说短片,字幕压进画面。
背后是编排器把几个阶段串起来跑,中间停下来让 Agent 写 narration.json。第一次跑前先自检环境:
python3 skills/video-recap/scripts/recap.py --doctor
video-recap 是你直接用的编排器,按子进程依次调起各阶段 skill,轮到写解说词时停下等 Agent。四个纯工具阶段设了 user-invocable: false 藏起来,对外只暴露 video-recap 和 video-script。
| Skill | 职责 | 输入 → 输出(work_dir 契约) |
|---|---|---|
| video-understanding | 场景检测 · 抽帧 · ASR(mimo-v2.5-asr)· VLM(mimo-v2.5)· 时间轴融合 · 生成 brief(可选 --consolidate 索引) |
视频 → scenes / asr_result / vlm_analysis / silence_periods / timeline_fusion / agent_narration_brief.md |
| video-script | 写作规则(SKILL.md)+ 评审(LLM 评委)+ lint/校验 | brief + 索引 → narration.json |
| video-cut | 片段计划 → 拼剪源 + 重映射解说(剪辑模式) | clip_plan.json + 视频 → edited_source.mp4 + narration_mapped.json |
| video-voiceover | 合成解说音频(MiMo TTS,mimo-v2.5-tts) |
narration.json → tts_segments/ + tts_meta.json |
| video-assemble | 混音 · 压低原声 · 渲染字幕 · 多轨时间线(可选导出剪映) | 视频 + tts_meta → recap_<名>.mp4 + subtitles.srt/.ass + timeline.json |
| video-recap | 编排器 + --doctor |
视频 → recap_<名>.mp4 |
每个 skill 自带一份 lib.py,相互之间没有共享代码文件,JSON 产物就是唯一的接口。完整参数见各自的 SKILL.md。
recap_<video>.mp4:成片。subtitles.srt(加 --burn-subtitles 时还有 subtitles.ass)work_dir/narration.json:解说脚本(narration_lint.json 时间诊断、narration_review.md 评审意见)work_dir/agent_narration_brief.md:给 Agent 的时间和场景 briefwork_dir/vlm_analysis.json · asr_result.json · silence_periods.json · timeline_fusion.json:理解产物work_dir/clip_plan.json · edited_source.mp4 · narration_mapped.json:剪辑模式产物work_dir/timeline.json · tts_segments/ · tts_meta.json:多轨时间线与 TTS 音频skills/<skill>/SKILL.md(写作规则在 video-script 的 SKILL.md 里)MIT,见 LICENSE。