Basic knowledge of AI - GPU architecture, CUDA programming, large model basics and AI Agent related knowledge
# Add to your Claude Code skills
git clone https://github.com/ForceInjection/AI-fundermentals本仓库是一个全面的人工智能基础设施(AI Infrastructure)学习资源集合,涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA 开发、大语言模型、AI 系统设计、性能优化、企业级部署等核心领域,旨在为 AI 工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。
适用人群:
AI工程师、系统架构师、GPU编程开发者、大模型应用开发者、技术研究人员。 技术栈:CUDA、GPU架构、LLM、AI系统、分布式计算、容器化部署、性能优化。
Star History:
本章节主要构建 AI 系统的物理底座,深入探讨从单机计算芯片(GPU/TPU)到大规模集群互联的核心技术。
详细内容请访问:硬件与架构 - 核心文档门户,涵盖硬件基础知识与关键技术概览。
核心模块导航:
本章聚焦于云原生技术在 AI 领域的应用,探讨如何利用 Kubernetes 等云原生技术栈构建高效、可扩展的 AI 基础设施。
Kubernetes 已成为云原生 AI 基础设施的事实标准,特别是在推理场景中,它提供了不可替代的弹性调度与资源管理能力。通过 K8s,企业可以构建跨混合云的统一推理平台,实现从 GPU 资源池化到 Serverless 推理的完整闭环,从容应对大模型时代高并发、波动剧烈的流量挑战。
No comments yet. Be the first to share your thoughts!
本节整合了从云原生推理框架到企业级推理系统优化的完整解决方案,涵盖理论基础、技术选型及实战部署。
技术特色:LMCache 是专为 LLM 推理引擎设计的分布式 KV Cache 管理系统,通过四层存储架构 (L1-L4) 实现跨实例的高效缓存复用。支持前缀缓存、任意文本片段复用、P2P 去中心化共享、预填充-解码分离等多种模式,在长上下文和 RAG 场景下可带来 3-10 倍性能提升。