AI Fundamentals

本仓库是一个全面的人工智能基础设施（AI Infrastructure）学习资源集合，涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA 开发、大语言模型、AI 系统设计、性能优化、企业级部署等核心领域，旨在为 AI 工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。

适用人群：AI 工程师、系统架构师、GPU 编程开发者、大模型应用开发者、技术研究人员。

技术栈：CUDA、GPU 架构、LLM、AI 系统、分布式计算、容器化部署、性能优化。

Star History:

1. 硬件架构与互连技术

涵盖单机基础计算芯片（GPU、TPU）设计原理，PCIe、NVLink 高速互连总线协议，GPUDirect 跨节点直通技术，以及 NVIDIA GB300 NVL72 等异构融合超级芯片的系统级架构与延迟金字塔模型。详细内容请访问：硬件架构与互连技术。

2. AI 集群运维与高性能通信

构建高吞吐 AI 计算集群的完整运维体系，涵盖基于 Device Query、nvidia-smi 和 nvtop 的 GPU 状态监控，InfiniBand (IB) 网络架构与健康检查，以及 NCCL 分布式通信库的基准测试与多节点部署实战。详细内容请访问：AI 集群运维与通信。

GPU 基础运维
InfiniBand 高性能网络
- 理论基础：IB 网络架构与协议
- 网络运维：健康检查与性能监控实战
NCCL 分布式通信测试
- 理论基础：NCCL 教程
- 实战指南：基准测试与多节点部署

3. 云原生 AI 基础设施

基于 Kubernetes 的 AI 基础设施构建方案，涵盖 NVIDIA Container Toolkit 与 Device Plugin 底层机制、Kueue/HAMi 细粒度 GPU 资源切分与池化、LWS/llm-d 分布式推理调度，以及 JuiceFS、DeepSeek 3FS 等高性能分布式存储系统的架构实践。详细内容请访问：云原生 AI 平台。

3.1 Kubernetes AI 基础设施

解析 Kubernetes AI 场景核心组件，包括容器运行时 GPU 支持底层机制、设备插件源码分析、Kueue 调度整合，以及基于 LWS 的大模型分布式训练与推理架构。

Kubernetes GPU 管理与 AI 工作负载：云原生 AI 基础设施建设指南与技术导图
NVIDIA Container Toolkit 原理：容器使用 GPU 的底层机制深度解析
Device Plugin 原理：Kubernetes 设备插件机制源码分析
Kueue + HAMi 调度方案：云原生作业队列与细粒度 GPU 共享机制
LWS (Leader Worker Set) 介绍：Kubernetes 原生的大模型分布式训练与推理调度抽象
分布式推理框架：基于 Kubernetes 的 LLM 推理架构设计
Containerd 日志分析：云原生容器运行时的日志排查与分析

3.2 GPU 资源管理与虚拟化

提供异构算力环境下的 GPU 资源精细化管理方案，涵盖硬件级/内核态/用户态虚拟化机制、CUDA 流与 MPS 调度优化，并提供 HAMi 资源隔离与 Flex AI 的生产环境落地配置。

基础系列文档：

第一部分：基础理论篇：构建技术认知框架，解析传统模式局限性与核心技术体系
第二部分：虚拟化技术篇：深入剖析硬件级、内核态与用户态虚拟化的核心实现机制
第三部分：资源管理与优化篇：探讨 GPU 切分、CUDA 流及 MPS 等高效资源调度与优化策略
第四部分：实践应用篇：涵盖环境部署、监控运维及云平台集成的生产落地指南

HAMi 专题：

HAMi 资源管理使用手册：异构算力管理与隔离实战指南
HAMi Prometheus 监控指标：构建完善的 GPU 虚拟化可观测性体系
KAI vs HAMi 对比分析：深度对比原生 Kubernetes AI 调度器与 HAMi 方案
Flex AI 介绍：探讨灵活异构算力环境下的前沿实践

代码实现与配置：

完整实现代码：GPU 调度器、虚拟化拦截与远程调用的参考实现代码
配置文件集合：提供适用于生产环境和多云平台的完整部署与配置参考

3.3 高性能分布式存储

针对 AI 训练中海量小文件读取与跨节点共享的性能瓶颈，解析 JuiceFS 数据与元数据分离架构、DeepSeek 3FS 高性能设计及面向推理的 ICMS (KV Cache) 存储层机制。

JuiceFS 分布式文件系统：数据与元数据分离的架构设计，兼容 POSIX 接口
- 文件修改机制分析：底层数据一致性与写入流程解析
- 后端存储变更手册：生产环境下的存储运维与数据迁移指南
DeepSeek 3FS 设计笔记：高性能存储系统架构设计与特性分析
NVIDIA ICMS 架构解析：面向推理的 KV Cache 存储层架构深度解析

4. 底层计算与异构编程

系统级 AI 底层编程路径，剖析 GPU 并行架构、CUDA 线程/网格与流处理机制、SIMT 与 Tile-Based (TileLang) 编程模型对比，以及基于 DOCA 框架的数据处理单元 (DPU) 核心编程范式。

4.1 GPU 与 CUDA 编程

涵盖 NVIDIA 容器镜像构建、CUDA 线程块/网格与流并发机制、SIMT 与 Tile-Based 编程模型对比、TileLang 算子开发，以及 nvbandwidth 显存与 PCIe 带宽调优实战，并链接 200+ Tensor Core/CUDA Core 优化内核的进阶学习资源。详细内容请访问：GPU 编程基础。

开发环境配置：

NVIDIA 容器环境配置：NVIDIA Container Toolkit 原理与构建指南
CUDA 镜像构建分析：大模型训练与推理框架的 GPU 镜像构建深度解析

核心编程范式：

GPU 编程入门指南：并行计算基础与 CUDA 编程模型
CUDA 核心概念详解：线程块、网格等基础概念的深度解析
CUDA 流详解：CUDA 并发编程之流处理机制
SIMT vs Tile-Based 编程模型对比：架构差异与演进分析

Tile-Based 编程：

TileLang 快速入门：语法详解、算子开发实战与性能优化技巧

性能分析与调优：

nvbandwidth 最佳实践：显存带宽与 PCIe 传输带宽测量指南

进阶学习资源：

CUDA-Learn-Notes：涵盖 200+ 个 Tensor Core/CUDA Core 极致优化内核示例 (HGEMM, FA2 via MMA and CuTe)
Nvidia 官方 CUDA 示例：官方标准范例库
Multi GPU Programming Models：多卡编程模型示例

4.2 DPU 编程

基于 DOCA 框架的数据处理单元 (DPU) 开发指南，解析架构组件与网络加速、零拷贝 DMA、控制平面卸载、压缩、NVMe 模拟及近数据处理等典型场景的编程实践。详细内容请访问：DPU 编程。

DOCA 框架
- DOCA 编程入门：涵盖架构简介、核心组件及典型场景编程实践

5. 大语言模型应用开发与编排

探索以自然语言驱动与 Agent 自主决策为核心的 Software 3.0 开发范式，包含 OpenSpec 规范驱动开发、Spring AI 企业级 Java 接入、LangGraph 有状态多智能体图计算模型，以及 Coze/n8n 无代码工作流编排技术。详细的深度探讨可参考大模型编程指南。

5.1 AI 时代的软件工程：范式转移与重构

软件工程正向以 Agent First 与自主推理为核心的 Software 3.0 时代演进。本节梳理驾驭工程 (Harness Engineering) 体系，并演示基于 OpenSpec 的“意图 -> Spec -> AI -> 代码 & 验证”新一代规范驱动开发工作流。

Agent First：软件工程的下一个范式转移 - 梳理编程范式的演变历史，探讨 Agent First 的核心理念与实战指南。
驾驭工程 - 深度解析如何构建驾驭系统，提升 AI 编程助手的可控性与效能。
OpenSpec 实战指南 - Spec 驱动开发 (Spec-Driven Development) 的工程实践，演示了“意图 -> Spec -> AI -> 代码 & 验证”的新一代开发工作流。

5.2 Java AI 开发

剖析 Java 生态 AI 开发技术栈，通过 Spring AI 工程框架实现企业级 Java 应用对 LLM 能力的接入，并演示基于 Spring AI 构建高效 LLM 代理的工程实践。

Java AI 开发指南 - Java 生态系统中的 AI 开发技术总览。
使用 Spring AI 构建高效 LLM 代理 - 基于 Spring AI 框架的企业级 AI 应用开发实践。

5.3 LangGraph 开发

LangGraph 通过图计算模型解决 LLM 应用在循环逻辑与状态持久化上的瓶颈，提供状态机机制以支持多轮推理、自我反思的复杂 Agent 工作流构建（如 AI 客服系统 Notebook 实战）。

LangGraph 框架学习资源 - LangGraph 框架的学习资源与实践案例总览。
LangGraph 简介 - LangGraph 的核心概念与入门指南。
AI 客服系统实战 - 基于 LangGraph 构建的 AI 客服系统 Notebook 实战。

5.4 AI 工作流与编排

无代码/低代码（No-Code/Low-Code）AI 应用落地指南，包含 Coze 私有化部署配置、n8n 多智能体编排实践，以及 Dify、Ragflow 等主流开源编排平台的架构与商业许可对比。

Coze 部署和配置手册 - Coze 平台的私有化部署与配置指南。
n8n 多智能体编排指南 - 基于 n8n 构建 Multi-Agent 系统。
开源大模型应用编排平台对比 - 主流应用编排平台的深度横评。

6. 机器学习基础

基于 NJU 与 SJTU 课程资源的系统化学习路径，涵盖线性代数与概率论等数学基础、SVM 与 HMM 等核心算法数学原理（《统计学习方法》《PRML》），并提供心脏病预测与房价评估等项目驱动的代码实战。

6.1 动手学机器学习

结合特征工程、模型评估与超参数调优，系统讲解监督/无监督学习、集成学习、推荐系统与概率图模型，配套心脏病预测、鸢尾花分类与房价预测等项目完成从理论推导到工程化实战的完整闭环。

动手学机器学习 - 全面的机器学习学习资源库，包含理论讲解、代码实现和实战案例。

核心特色：

理论与实践结合：以 NJU 课程为主线，辅以 SJTU 配套资源，从数学原理到代码实现的完整学习路径。
算法全覆盖：涵盖监督学习、无监督学习、集成学习、推荐系统、概率图模型及深度学习。
项目驱动学习：提供心脏病预测、鸢尾花分类、房价预测等实战案例。
工程化实践：深入特征工程、模型评估、超参数调优及特征选择。

6.2 参考资料

汇集 3Blue1Brown 线性代数可视化、MIT 18.06 线性代数课程、李航《统计学习方法》、周志华《机器学习》与 Bishop《PRML》等经典教材，以及 Andrew Ng Coursera 入门课程、Stanford CS229 进阶课程与 Kaggle 竞赛实战平台资源。

数学基础：

[线性代数的本质](https://www.bilibili.

AI-fundermentals

Related Skills