by qingningLime
Cliptolution剪辑进化,面向视频编辑和创意制作的ai agent
# Add to your Claude Code skills
git clone https://github.com/qingningLime/Cliptolution
这是一个基于DeepSeek和多种AI技术的视频处理类ai agent,集成了视频内容分析、创意工作流、音乐处理、ai agent自动调用工具编辑视频等功能,旨在简化视频编辑和创作过程。只需要你一句话,ai就可以帮你完成复杂的视频处理任务。比如:
本项目的所有剪辑效果和功能演示可以本人的bilibili账户中查看:bilibili:清咛lime 演示效果和介绍请前往免费开源的AI剪辑工具介绍中查看
我是本项目的开发者qingning,本项目的设计初衷是寄希望于通过ai agent的方式,探索LLM在视频创作和agent中的能力边界,让agent不是一个只能输出一份没啥用报告的玩具机器人,而是可以在user的提示下输出观点,制作相对有用的内容。而剪辑视频就意味着需要解决视频内容识别,声音内容识别,剪辑工具调用与剧本构思的问题。在本项目中提出了以下解决方案:
通过LLM分析视频语音内容,判断是否需要用视觉二次判断视频内容,从而了解视频全部内容,并制作视频分析报告,详细请看 video/Video_README.md
得益于qwen的全模态模型,让ai理解音乐成为可能,将音乐输入给全模态模型,可以详细分析音乐风格、内容、意向等,我们可以将分析结果再喂给LLM二次分析,即可得出音乐的分析报告,详细请看 music/src/Music_README.md
No comments yet. Be the first to share your thoughts!
VideoAgent/
├── 🤖 AI Agent系统 (agent.py)
│ ├── 对话管理
│ ├── 工具规划
│ └── 记忆系统
├── 🎥 视频处理模块 (video/)
│ ├── 语音识别 (Faster-Whisper)
│ ├── 视觉分析 (Ollama + Qwen2.5VL)
│ └── 内容报告生成
├── 🎨 创意工作流 (creative/)
│ ├── 创意检测
│ ├── 脚本生成
│ └── TTS语音合成
├── 🎵 音乐分析 (music/)
│ ├── 音频处理
│ ├── 音乐识别
│ └── 字幕生成
├── 🛠️ 工具系统 (tools/)
│ ├── 文件工具
│ ├── 视频动作工具
│ └── 视频列表工具
└── ⚙️ 配置系统 (config.json)
安装FFmpeg(必须先安装)
Windows (使用Chocolatey):
choco install ffmpeg
Ubuntu/Debian:
sudo apt update
sudo apt install ffmpeg
macOS:
brew install ffmpeg
验证安装:
ffmpeg -version
创建虚拟环境(推荐)
# 创建虚拟环境
python -m venv venv
# 激活虚拟环境
# Windows:
venv\Scripts\activate
# Linux/macOS:
source venv/bin/activate
克隆项目
git clone <项目地址>
cd VideoAgent
安装Python依赖
pip install -r requirements.txt
配置API密钥
编辑 config.json 文件:
{
"api_keys": {
"deepseek": "您的DeepSeek API密钥",
"alibaba_bailian": "您的阿里百炼API密钥"
}
}
下载模型
确保Faster-Whisper模型位于 video/models/Faster-Whisper/
启动AI Agent
python agent.py
处理视频
python video/src/main.py video/input/您的视频.mp4
启动视频监控服务
python video/src/video_monitor.py
处理音频文件
python music/src/music_processor.py music/input/您的音频.mp3
启动音频监控服务
python music/src/music_processor.py
{
"api_keys": {
"deepseek": "sk-...", // DeepSeek API密钥
"alibaba_bailian": "sk-..." // 阿里百炼API密钥
},
"services": {
"ollama": {
"host": "http://127.0.0.1:11434",
"timeout": 300,
"vision_model": "qwen2.5vl:3b"
}
},
"tts": {
"model": "cosyvoice-v2",
"voice": "cosyvoice-v2-prefix-..."
},
"models": {
"whisper_path": "video/models/Faster-Whisper",
"default_chat_model": "deepseek-chat",
"default_reasoner_model": "deepseek-reasoner"
},
"settings": {
"max_tool_chain": 15,
"tool_timeout": 60,
"temp_dir": "video/temp"
}
}
# DeepSeek配置
export DEEPSEEK_API_KEY="您的密钥"
# 阿里百炼配置
export ALIBABA_BAILIAN_API_KEY="您的密钥"
# Ollama配置
export OLLAMA_HOST="http://127.0.0.1:11434"
export OLLAMA_TIMEOUT="300"
export OLLAMA_VISION_MODEL="qwen2.5vl:3b"
# TTS配置
export TTS_MODEL="cosyvoice-v2"
export TTS_VOICE="cosyvoice-v2-prefix-..."
核心对话代理,支持:
# 示例:启动Agent
from agent import AIAgent
agent = AIAgent()
await agent.start()
完整的视频分析流程:
交互式视频创作系统:
音频内容处理:
基于MCP服务器的工具管理:
文件工具
视频动作工具
视频列表工具
VideoAgent/
├── agent.py # 主AI Agent
├── api_client.py # API客户端封装
├── mcp_server.py # 工具管理服务器
├── config_loader.py # 配置加载器
├── config.json # 配置文件
├── memory/ # 记忆系统
├── creative/ # 创意处理模块
├── music/ # 音乐处理模块
├── tools/ # 工具系统
├── video/ # 视频处理模块
└── README.md # 项目文档
tools/ 目录下创建工具文件@register_tool 装饰器注册工具from mcp_server import register_tool
@register_tool(
tool_name="example_tool",
description="工具描述",
parameters={"param1": {"type": "string"}},
timeout=30
)
def example_tool(param1: str) -> dict:
return {"success": True, "result": f"处理结果: {param1}"}
# 设置生产环境变量
export ENV=production
export LOG_LEVEL=INFO
# 安装PM2
npm install -g pm2
# 启动服务
pm2 start agent.py --name "video-agent"
# 查看日志
pm2 logs video-agent
# 监控状态
pm2 monit
GPU加速
内存管理
缓存策略
API密钥错误
# 验证配置
python -c "from config_loader import config; print('DeepSeek:', bool(config.get_deepseek_key()))"
编码问题
依赖问题
# 重新安装依赖
pip install -r requirements.txt
模型加载失败
启用详细日志:
import logging
logging.basicConfig(level=logging.DEBUG)
本项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情。
如果您有任何问题、建议或合作意向,欢迎通过以下方式联系:
或者通过GitHub Issues提交问题。
Cliptolution - 让视频处理更智能,让创意无限可能! 🚀