by magicyuan876
天枢 - 企业级 AI 一站式数据预处理平台 | PDF/Office转Markdown | 支持MCP协议AI助手集成 | Vue3+FastAPI全栈方案 | 文档解析 | 多模态信息提取
# Add to your Claude Code skills
git clone https://github.com/magicyuan876/mineru-tianshuGuides for using mcp servers skills like mineru-tianshu.
Last scanned: 5/10/2026
{
"issues": [],
"status": "PASSED",
"scannedAt": "2026-05-10T06:37:20.524Z",
"semgrepRan": false,
"npmAuditRan": true,
"pipAuditRan": true
}No comments yet. Be the first to share your thoughts!
企业级 AI 数据预处理平台
支持文档、图片、音频等多模态数据处理 | GPU 加速 | MCP 协议
结合 Vue 3 前端 + FastAPI 后端 + LitServe GPU负载均衡
English | 简体中文
如果这个项目对你有帮助,请点击右上角 ⭐ Star 支持一下,这是对开发者最大的鼓励!
transformers==4.57.6、albumentations>=1.4.11magic-pdf.json(扁平)→ mineru.json(嵌套 models-dir 结构)unimernet_hf_small_2503、pp_formulanet_plus_m).docx 文件路由至 MinerU 3.0 原生解析器(office_docx_analyze),解析精度优于 MarkItDown.doc、.xls、.ppt 经 LibreOffice 自动转换为新格式后,再交由 MinerU 或 MarkItDown 处理,不再报错.env 新增)
PDF_SPLIT_ENABLED: 是否启用自动拆分(默认 true)PDF_SPLIT_THRESHOLD_PAGES: 拆分阈值页数(默认 500)PDF_SPLIT_CHUNK_SIZE: 每个子任务处理页数(默认 500)WORKER_MEMORY_LIMIT: 容器硬内存限制(默认 16G)WORKER_MEMORY_RESERVATION: 内存软限制/预留(默认 8G)RUSTFS_PUBLIC_URL 环境变量(外部可访问地址).env.example 配置文件,移除冗余选项✅ Docker 容器化部署支持
make setup 或运行部署脚本即可完成全栈部署scripts/docker-setup.sh 或 Makefilescripts/docker-setup.batscripts/DOCKER_QUICK_START.txt、scripts/docker-commands.shdocker-compose.yml、backend/Dockerfile、frontend/Dockerfile)✅ 企业级用户认证与授权系统
backend/auth/ 目录✅ 新增插件化格式引擎系统
✅ 生物信息学格式引擎
backend/format_engines/README.md⚠️ 实验性功能:某些特殊水印可能效果不佳,建议先小范围测试。
📖 详细说明:水印去除优化指南
backend/video_engines/README.mdbackend/audio_engines/README.md🎯 支持内容结构化 JSON 格式输出
🎉 新增 PaddleOCR-VL 多语言 OCR 引擎
MinerU Tianshu(天枢)是一个企业级 AI 数据预处理平台,将非结构化数据转换为 AI 可用的结构化格式:
实时监控队列统计和最近任务
支持批量处理和高级配置
重置超时任务、清理旧文件
mineru-server/
├── frontend/ # Vue 3 前端(TypeScript + TailwindCSS)
│ ├── src/ # 源码(api、components、views、stores、router)
│ └── vite.config.ts
│
├── backend/ # Python 后端(FastAPI + LitServe)
│ ├── api_server.py # API 服务器
│ ├── litserve_worker.py # GPU Worker Pool
│ ├── mcp_server.py # MCP 协议服务器
│ ├── auth/ # 认证授权(JWT、SSO)
│ ├── audio_engines/ # 音频引擎(SenseVoice)
│ ├── video_engines/ # 视频引擎(FFmpeg + OCR)
│ ├── format_engines/ # 格式引擎(FASTA、GenBank)
│ ├── remove_watermark/ # 水印去除(YOLO11x + LaMa)
│ └── requirements.txt
│
├── scripts/ # 部署脚本
│ ├── docker-setup.sh # Linux/Mac 部署
│ └── docker-setup.bat # Windows 部署
│
├── docker-compose.yml # Docker 编排配置
└── Makefile # 快捷命令
前置要求:Docker 20.10+、Docker Compose 2.0+、NVIDIA Container Toolkit(GPU 可选)
# 一键部署
make setup
# 或使用脚本
./scripts/docker-setup.sh # Linux/Mac
scripts\docker-setup.bat # Windows
# 常用命令
make start # 启动服务
make stop # 停止服务
make logs # 查看日志
服务访问:
前置要求:Node.js 18+、Python 3.8+、CUDA(可选)
1. 安装依赖
cd backend
bash install.sh # Linux/macOS 自动安装
# 或 pip install -r requirements.txt
2. 启动后端
cd backend
python start_all.py # 启动所有服务
python start_all.py --enable-mcp # 启用 MCP 协议
3. 启动前端
cd frontend
npm install
npm run dev # http://localhost:3000
# 自定义启动
python backend/start_all.py \
--api-port 8000 \
--worker-port 9000 \
--accelerator cuda \
--devices 0,1 \
--workers-per-device 2 \
--enable-mcp --mcp-port 8002
MinerU Tianshu 支持 Model Context Protocol (MCP),让 AI 助手(Claude Desktop)直接调用文档解析服务。
1. 启动服务
cd backend
python start_all.py --enable-mcp # MCP Server 端口 8002(默认)
**2. 配置 Claude D