╔══════════════════════════════════════════════════════════════════════════╗ ║ ║ ║ ██╗ ██╗██╗ ██╗██████╗ ██╗ ██████╗ ██████╗ █████╗ ████████╗ ║ ║ ██║ ██╔╝██║ ██║██╔══██╗██║██╔════╝ ██╔══██╗██╔══██╗╚══██╔══╝ ║ ║ █████╔╝ ██║ ██║██║ ██║██║██║ ███╗ ██║ ██║███████║ ██║ ║ ║ ██╔═██╗ ██║ ██║██║ ██║██║██║ ██║ ██║ ██║██╔══██║ ██║ ║ ║ ██║ ██╗╚██████╔╝██████╔╝██║╚██████╔╝ ██████╔╝██║ ██║ ██║ ║ ║ ╚═╝ ╚═╝ ╚═════╝ ╚═════╝ ╚═╝ ╚═════╝ ╚═════╝ ╚═╝ ╚═╝ ╚═╝ ║ ║ ║ ║ KUBERNETES PRODUCTION OPERATIONS KNOWLEDGE BASE ║ ║ ║ ║ ┌──────────────────────────────────────────────────────────────────┐ ║ ║ │ 📚 950+ Docs │ 🌐 41 Domains │ 🤖 AI-Ready │ ⚡ Production │ ║ ║ └──────────────────────────────────────────────────────────────────┘ ║ ║ ║ ╚══════════════════════════════════════════════════════════════════════════╝
10110 01001 11010 00101 🅺 01101 10110 01011 10100 01011 10100 00101 11010 🆄 11010 00101 01101 10100 10101 01011 10100 00101 🅳 00101 11010 10101 01011 01001 10110 01011 10100 🅸 10100 00101 11010 10101 10110 01001 11010 00101 🅶 01011 10100 00101 11010
面向生产环境的 Kubernetes + AI Infrastructure 全域知识库
支持 NotebookLM / IMA / RAG 等 AI 问答场景
覆盖从基础架构到 LLM 工作负载的完整技术栈
🚀 快速开始 • ✨ 核心特性 • 📚 知识体系 • 🤖 AI 语料库 • 🎯 使用场景 • 📖 Manpage • 🏗️ 基础设施 • 📊 统计
|
所有 YAML/Shell 示例经过万级节点生产环境验证,可直接用于生产部署。非玩具示例,包含完整的监控告警、故障排查、安全加固方案。 专为 AI Agent 训练优化的知识组织:
|
|
📱 NotebookLM - 生成专属技术播客
- 访问 notebooklm.google.com
- 创建新笔记本,添加本仓库 GitHub 链接
- NotebookLM 自动解析所有 Markdown 文档
- 使用「生成音频摘要」功能创建技术播客
💡 推荐组合:导入
topic-fta/+domain-12-troubleshooting/生成故障排查专题播客
💬 腾讯 IMA - 构建个人知识库
- 安装 IMA 知识库客户端
- 导入本仓库文件夹(支持批量导入 Markdown)
- 使用语义搜索快速定位知识点
- 基于知识库进行问答对话
💡 推荐导入:
topic-dictionary/+topic-cheat-sheet/作为日常速查
🤖 RAG 应用 - 构建智能运维助手
# 使用 LangChain 加载知识库
from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import MarkdownHeaderTextSplitter
# 加载所有 Markdown 文档
loader = DirectoryLoader('./', glob='**/*.md')
docs = loader.load()
# 按标题层级分块(保持知识完整性)
splitter = MarkdownHeaderTextSplitter(
headers_to_split_on=[('#', 'Header 1'), ('##', 'Header 2')]
)
chunks = splitter.split_text(docs)
# 构建向量库
# ... 接入 OpenAI / Claude / Qwen Embedding# 克隆仓库
git clone https://github.com/your-org/kudig-database.git
cd kudig-database
# 启动本地 GitBook 浏览(需要安装 mdBook)
cd gitbook
bash start.sh
# 浏览器访问 http://localhost:3000# Agent Skill 示例:使用 topic-skills 作为训练数据
skill:
name: k8s-troubleshooting
corpus:
- topic-skills/*.md # 工单处理技能库
- topic-fta/list/*.md # 故障树分析
- topic-febm/*.md # 取证方法论
agent_type: diagnostic # 诊断型 Agentgraph TD
ROOT[KUDIG-DATABASE<br/>全域知识库] --> TOPIC[🔥 专题资源]
ROOT --> CORE[🎯 核心知识域]
ROOT --> BASE[🏗️ 底层基础]
ROOT --> ENTERPRISE[🏢 企业级专题]
ROOT --> ADVANCED[🚀 前沿技术]
TOPIC --> T1[FTA故障树 29篇]
TOPIC --> T2[FEBM取证 9篇]
TOPIC --> T3[AI Agent 40篇]
TOPIC --> T4[学习计划 46篇]
CORE --> C1[架构/设计 35篇]
CORE --> C2[控制平面 23篇]
CORE --> C3[网络/存储 51篇]
CORE --> C4[安全/可观测 33篇]
CORE --> C5[平台运维 25篇]
CORE --> C6[AI Infra 30篇]
BASE --> B1[Docker]
BASE --> B2[Linux]
BASE --> B3[网络基础]
BASE --> B4[存储基础]
BASE --> B5[云厂商 13家]
ENTERPRISE --> E1[生产运维]
ENTERPRISE --> E2[GitOps/CI-CD]
ENTERPRISE --> E3[监控日志]
ENTERPRISE --> E4[灾备恢复]
ADVANCED --> A1[CNCF 218项目]
ADVANCED --> A2[eBPF]
ADVANCED --> A3[边缘计算]
ADVANCED --> A4[WebAssembly]
style ROOT fill:#326ce5,stroke:#1a3a8f,color:#fff
style TOPIC fill:#ff6b6b,stroke:#c92a2a,color:#fff
style CORE fill:#22c55e,stroke:#166534,color:#fff
style BASE fill:#0ea5e9,stroke:#0369a1,color:#fff
style ENTERPRISE fill:#f59e0b,stroke:#b45309,color:#fff
style ADVANCED fill:#a855f7,stroke:#6b21a8,color:#fff
本知识库专为 AI 时代的知识管理设计,完美适配以下场景:
| 推荐导入内容 | 生成效果 | 适用人群 |
|---|---|---|
topic-learn/ 学习计划 |
系统化的技术播客系列 | 初学者 |
topic-fta/ 故障树分析 |
故障排查方法论播客 | SRE/运维 |
domain-11-ai-infra/ AI基础设施 |
AI工程专题播客 | AI工程师 |
| 推荐导入内容 | 使用场景 | 预期效果 |
|---|---|---|
topic-dictionary/ 运维词典 |
日常查询术语 | 秒级概念检索 |
topic-cheat-sheet/ 速查卡 |
命令速查 | 提高操作效率 |
topic-structural-trouble-shooting/ |
故障排查 | 快速定位问题 |
📋 详细的分块策略与 Embedding 模型推荐请参阅 corpus-config/rag-chunking-strategy.md,预置的 RAG Profile 请参阅 corpus-config/profiles/。
# 推荐分块策略
├── domain-*/ # 按知识域分块,用于专业问答
├── topic-fta/ # 故障树结构,用于诊断推理
├── topic-skills/ # 技能库,用于 Agent 执行
└── topic-cheat-sheet/ # 速查卡,用于快速检索| 语料类型 | 用途 | 示例框架 |
|---|---|---|
topic-fta/*.md |
Agent 推理骨架 | AutoGen, CrewAI |
topic-skills/*.md |
诊断-修复闭环 | AgentScope |
topic-febm/*.md |
取证分析能力 | LangChain Agent |
domain-12-troubleshooting/*.md |
故障排查知识 | Custom Agent |
flowchart LR
A[故障现象] --> B[FTA分析]
B --> C[定位根因]
C --> D[Skill修复]
D --> E[验证恢复]
style A fill:#ff6b6b,stroke:#c92a2a,color:#fff
style B fill:#3b82f6,stroke:#1d4ed8,color:#fff
style C fill:#f59e0b,stroke:#b45309,color:#fff
style D fill:#8b5cf6,stroke:#6d28d9,color:#fff
style E fill:#22c55e,stroke:#166534,color:#fff
推荐路径:
flowchart LR
W1[Week1 地基建设<br/>Docker/Linux/kubectl] --> W2[Week2 核心技术<br/>控制平面/网络/存储]
W2 --> W3[Week3 运维作战<br/>安全/可观测性/排障]
W3 --> W4[Week4 企业进阶<br/>GitOps/FTA/最佳实践]
style W1 fill:#3b82f6,stroke:#1d4ed8,color:#fff
style W2 fill:#22c55e,stroke:#166534,color:#fff
style W3 fill:#f59e0b,stroke:#b45309,color:#fff
style W4 fill:#a855f7,stroke:#6b21a8,color:#fff
完整计划:1个月学习计划
flowchart TD
A[K8sOpsAgent] --> B[知识层]
B --> C[FTA故障树]
B --> D[FEBM取证]
B --> E[Skills技能]
A --> F[推理层]
F --> G[诊断引擎]
A --> H[执行层]
H --> I[自动修复]
style A fill:#a855f7,stroke:#6b21a8,color:#fff
style B fill:#3b82f6,stroke:#1d4ed8,color:#fff
style C fill:#ff6b6b,stroke:#c92a2a,color:#fff
style D fill:#4ecdc4,stroke:#0f766e,color:#fff
style E fill:#22c55e,stroke:#166534,color:#fff
|
|
|
| 域 | 名称 | 文档数 | 关键内容 |
|---|---|---|---|
| 1 | 架构基础 | 17 | K8s 架构、核心组件、升级策略、性能调优 |
| 2 | 设计原理 | 18 | 声明式API、控制器模式、etcd共识、高可用 |
| 3 | 控制平面 | 23 | etcd、API Server、Scheduler、CRI/CSI/CNI |
| 4 | 工作负载 | 14 | Pod生命周期、调度器、HPA/VPA、资源管理 |
| 5 | 网络 | 36 | CNI、Service、DNS、Ingress、Gateway API |
| 6 | 存储 | 15 | PV/PVC、StorageClass、CSI驱动、备份恢复 |
| 7 | 安全合规 | 16 | RBAC、网络安全、运行时安全、审计合规 |
| 8 | 可观测性 | 17 | 监控指标、日志审计、链路追踪、混沌工程 |
| 9 | 平台运维 | 25 | 集群管理、GitOps、成本优化、灾备恢复 |
| 10 | 扩展生态 | 16 | CRD/Operator、Helm、CI/CD、服务网格 |
| 11 | AI基础设施 | 30 | GPU调度、分布式训练、LLM推理、成本优化 |
| 12 | 故障排查 | 150+ | 全组件故障排查、FTA故障树、结构化排障 |
| 13-17 | 底层基础 | 45 | Docker、Linux、网络/存储基础、云厂商 |
| 18-32 | 企业级专题 | 200+ | 生产运维、监控日志、GitOps、安全合规 |
| 33-39 | 前沿技术 | 300+ | CNCF项目、eBPF、平台工程、边缘计算 |
| 40 | 云原生API网关 | 15 | Gateway API、网关选型、安全策略、性能优化 |
| 👨💻 开发者 | kubectl 命令 → 工作负载 → Service → CI/CD |
| 👨🔧 运维工程师 | etcd 运维 → 故障排查 → 监控告警 → FTA 快速落地 |
| 🏗️ 架构师 | 架构基础 → 设计原理 → 高可用模式 → 多集群管理 |
| 🤖 AI工程师 | AI Infra → GPU调度 → Agent基础 → Harness工程 |
| 🎓 学习者 | 1个月计划 → K8s 速查卡 → 概念手册 → 故障排查 |
| 🚨 SRE/故障调查 | FTA 快速落地 → FEBM 快速落地 → 结构化排障 → 工单技能库 |
| 场景 | 推荐起点 | 核心文档 |
|---|---|---|
| 🔥 故障排查 | topic-fta/README.md | 36个FTA故障树 + 100+篇排障文档 |
| 📚 系统学习 | topic-learn/ | 1个月学习计划 + 46篇课程 |
| 🤖 Agent开发 | topic-ai-agent/ | 40篇AI Agent工程文档 |
| ⚡ 命令速查 | topic-cheat-sheet/ | K8s/Linux/Go 速查卡 |
| 🏢 企业部署 | topic-deployment/ | 从本地Demo到生产环境的完整路径 |
| 🔄 集群迁移 | topic-migration/ | 10步完整迁移指南 |
| 🎤 技术演示 | topic-presentations/ | 11个K8s专题Presentation |
29篇文档 | 行业级 FTA 方法论与 AI Agent 智能运维实践
FTA(故障树分析)是一套从传统安全工程理论到云原生 Kubernetes 智能运维实践的完整知识体系。
```mermaid
flowchart LR
A[FTA故障树分析<br/>29篇] --> B[理论基础 4章]
A --> C[构建实践 3章]
A --> D[AI Agent应用 6章]
A --> E[实战案例 3章]
A --> F[生产落地 1章]
style A fill:#ff6b6b,stroke:#c92a2a,color:#fff
style B fill:#3b82f6,stroke:#1d4ed8,color:#fff
style C fill:#22c55e,stroke:#166534,color:#fff
style D fill:#a855f7,stroke:#6b21a8,color:#fff
style E fill:#f59e0b,stroke:#b45309,color:#fff
style F fill:#06b6d4,stroke:#0891b2,color:#fff
核心文档:
- FTA 生产快速落地指南 - 30天实施路线图
- Kubernetes 全量故障树分析 - 8顶事件、63底事件
- FTA 方法论与 AI Agent 实践合集
9篇文档 | 从证据到结论的归纳式故障调查方法论
FEBM 与 FTA 形成方法论互补:
- FTA (演绎法): 自上而下,从假设到验证 —— "系统可能在哪里出问题?"
- FEBM (归纳法): 自下而上,从证据到结论 —— "系统实际发生了什么?"
flowchart LR
A[FEBM取证循证<br/>9篇] --> B[证据中心性]
A --> C[程序规范性]
A --> D[时效敏感性]
A --> E[结论可辩护性]
B --> C --> D --> E
style A fill:#4ecdc4,stroke:#0f766e,color:#fff
style B fill:#3b82f6,stroke:#1d4ed8,color:#fff
style C fill:#22c55e,stroke:#166534,color:#fff
style D fill:#f59e0b,stroke:#b45309,color:#fff
style E fill:#a855f7,stroke:#6b21a8,color:#fff
核心文档:
- FEBM 生产快速落地指南 - 6个K8s故障取证Runbook
- FEBM 方法论深度剖析
40篇文档 | 从基础概念到 Harness 工程的完整 Agent 构建指南
内容覆盖 AI Agent 工程全生命周期(40篇):
flowchart LR
A[基础层<br/>3篇] --> B[核心能力<br/>4篇]
B --> C[工程质量<br/>4篇]
C --> D[实战战略<br/>2篇]
C --> E[平台系列<br/>25篇]
style A fill:#3b82f6,stroke:#1d4ed8,color:#fff
style B fill:#22c55e,stroke:#166534,color:#fff
style C fill:#f59e0b,stroke:#b45309,color:#fff
style D fill:#a855f7,stroke:#6b21a8,color:#fff
style E fill:#06b6d4,stroke:#0891b2,color:#fff
核心文档:
- Agent Harness 工程 - 六层架构、质量门禁、K8S落地
- Agent 赋能设计与落地路径 - kudig知识底座 × Agent
- Agent 语料库差距分析 - 10大类缺失分析
46篇文档 | 从零到全栈运维的完整学习路径
Week 1: 地基建设期
- Docker 基础 → Linux 基础 → K8s 架构 → kubectl 实战
- 产出:独立搭建 K8s 集群
Week 2: 核心技术构建期
- 控制平面精读 → 工作负载深潜 → 网络栈精通 → 存储体系
- 产出:生产级应用 YAML 编排
Week 3: 运维作战能力期
- 安全合规 → 可观测性构建 → 故障排查方法论 → 平台运维
- 产出:监控告警体系 + 排障手册
Week 4: 企业级进阶期
- 企业监控/日志 → GitOps → FTA/FEBM 专题 → 生产最佳实践
- 产出:GitOps 流水线 + Playbook
218篇文档 | CNCF 云原生全景图完整收录
| 成熟度 | 数量 | 代表项目 |
|---|---|---|
| Graduated | 34 | Kubernetes, Prometheus, Envoy, Helm, Istio, etcd, containerd, Argo, Cilium, Harbor, Falco |
| Incubating | 37 | OpenTelemetry, gRPC, Backstage, Kyverno, Kubeflow, Volcano, Chaos Mesh |
| Sandbox | 147 | k3s, MetalLB, K8sGPT, OpenEBS, Kuma |
每篇文档包含:架构图、核心概念、安装部署、使用示例、生态集成、参考资源
| 云厂商 | 产品 | 特色 | 文档 |
|---|---|---|---|
| 阿里云 | ACK | 托管版/专有版、Terway网络、RRSA认证 | 查看 |
| AWS | EKS | IAM集成、EKS Anywhere混合云、Karpenter | 查看 |
| Azure | AKS | Azure AD集成、Confidential Containers | 查看 |
| GCP | GKE | Autopilot模式、Anthos多云、Borg传承 | 查看 |
| 腾讯云 | TKE | 万级节点、VPC-CNI、超级节点 | 查看 |
| 华为云 | CCE | GPU节点、ASM服务网格、鲲鹏ARM | 查看 |
| 字节云 | VEK | 字节内部经验、高性能调度 | 查看 |
| 速查卡 | 内容 | 适用版本 |
|---|---|---|
| Kubernetes 速查卡 | kubectl、集群管理、Pod操作、网络、存储、RBAC、排障 | v1.25-v1.32 |
| Linux 速查卡 | 系统管理、进程、网络、存储、安全、Shell脚本 | RHEL 7-9, Ubuntu 20-24 |
| Go 语言速查卡 | 语法、并发、网络、数据库、测试、性能优化 | Go 1.20-1.22 |
| Docker/Containerd 速查卡 | 容器生命周期、镜像管理、网络、存储、Compose、ctr | Docker 20.10+, containerd 1.6+ |
| PromQL 速查卡 | 指标查询、聚合函数、Kubernetes监控、告警规则 | Prometheus 2.40+ |
| 网络诊断速查卡 | DNS诊断、TCP调试、HTTP测试、抓包分析、K8s网络 | TCP/IP |
| Git 速查表 | 日常操作、分支管理、撤销操作、故障排查 | Git 2.30+ |
| SQL 速查表 | 查询语法、表操作、索引优化、数据库管理 | MySQL 8.0, PostgreSQL 14 |
| TLS/PKI 速查卡 | 证书格式、OpenSSL命令、证书链、K8s证书管理、监控脚本 | x509, TLS 1.2/1.3 |
16篇专家级运维文档,全面覆盖:
- 运维最佳实践、故障模式分析、性能调优专家指南
- SRE成熟度模型、概念参考手册、命令行清单
- AI基础设施专家指南、云原生安全专家指南
- 多云混合云运维手册、企业级运维最佳实践
- 生产事故管理Runbook、容量规划与资源预测
- 变更管理与发布策略、SLI/SLO/SLA工程实践
- 生产环境故障排查剧本
查看全部:topic-dictionary/
本项目提供基于 mdBook 的本地文档浏览系统,支持全文搜索、目录折叠导航。
# 安装 mdBook(需要 Rust 工具链)
cargo install mdbook
# 启动本地服务
cd gitbook
bash start.sh
# 浏览器访问 http://localhost:3000| 命令 | 说明 |
|---|---|
bash start.sh |
初始化并启动本地服务(首次使用) |
PORT=8080 bash start.sh |
指定端口启动 |
bash refresh.sh |
完整刷新:更新符号链接 + 重新生成目录 + 重新构建 |
bash refresh.sh build |
仅重新构建 |
bash export-static.sh |
导出到 gitbook/dist/ 目录 |
bash export-static.sh --zip |
导出并打包为 zip |
项目提供完整的 Unix manpage 文档,方便在终端快速查阅核心开源产品和项目脚本的使用方法。
| Section | 命令 | 描述 |
|---|---|---|
| man1 | kudig-stats |
README 数字指标自动统计工具 |
kudig-quality |
知识库全面质量检查工具 | |
kudig-validate |
代码示例语法校验工具 | |
kudig-fta-viz |
FTA 故障树可视化工具 | |
| man8 | kubernetes |
Kubernetes 容器编排平台 |
prometheus |
监控和告警系统 | |
etcd |
分布式键值存储 | |
containerd |
容器运行时 | |
cilium |
eBPF 网络和安全平台 | |
helm |
Kubernetes 包管理器 | |
argocd |
GitOps 持续交付工具 | |
istio |
服务网格平台 | |
velero |
备份和灾难恢复工具 | |
cert-manager |
证书管理自动化与 PKI 基础设施工具 |
# 方式一:直接查看(无需安装)
man ./man/man1/kudig-stats.1
man ./man/man8/kubernetes.8
# 方式二:安装到系统(推荐)
sudo cp -r man/man1/* /usr/local/share/man/man1/
sudo cp -r man/man8/* /usr/local/share/man/man8/
sudo mandb # Linux 系统更新 man 数据库
# 安装后直接使用
man kudig-stats
man kubernetes
man prometheus更多安装选项详见 man/INSTALL.md。
| 文件/目录 | 说明 |
|---|---|
| INDEX.md | 全局知识库索引,按逻辑分组组织所有 domain/topic 目录 |
| CONTRIBUTING.md | 贡献指南:命名规范、文档结构、质量标准、提交约定 |
| CHANGELOG.md | 版本变更日志 |
| templates/ | 文档模板(域文章、FTA 故障树、速查卡、Skill 工单) |
| metadata/ | 元数据索引:标签体系、难度分级、知识图谱 |
| corpus-config/ | AI 语料配置:RAG 分块策略、NotebookLM/IMA/RAG Profile |
| reports/ | 质量报告、统计数据(STATS、QUALITY_REPORT 系列) |
| .editorconfig | 跨编辑器格式一致性配置 |
- 适用 Kubernetes 版本: v1.25 - v1.32
- 最后更新时间: 2026年4月
- 更新频率: 持续更新,详见 CHANGELOG.md
| 日期 | 更新内容 |
|---|---|
| 2026-04 | 目录结构优化 - 统一命名规范(FTA/FEBM)、新增 metadata/corpus-config/templates/reports/ 基础设施、domain-98→domain-40 重编号 |
| 2026-04 | 速查表全面补齐 - 新增 Docker、PromQL、网络诊断、Git、SQL 速查表,总数达 9 张 (9716 行) |
| 2026-04 | TLS/PKI 证书内容加强 - cert-manager manpage 全面扩展 (245行→996行),新增 TLS/PKI 速查表 |
| 2026-04 | Manpage 参考手册上线 - 为核心开源产品和项目脚本提供 14 个 Unix manpage |
| 2026-03 | CNCF Landscape 218项目全量上线 - Graduated 34 + Incubating 37 + Sandbox 147 |
| 2026-03 | Kubernetes 部署方案指南 - 从零到生产的完整部署路径 |
| 2026-03 | 1个月学习计划 - 46篇系统化学习课程 |
| 2026-03 | FTA v2.0 全量故障树 - 36个组件故障树全面深化 |
| 2026-02 | YAML配置清单手册 - 36篇K8s全资源YAML参考 |
| 2026-02 | Domain 18-30 企业级专题 - 生产运维、监控日志、GitOps、安全合规等 |
| 2026-02 | Agent Harness 工程 - 12篇2026最新范式 |
我们欢迎各种形式的贡献!详细规范请参阅 CONTRIBUTING.md。
- Fork 本仓库
- 创建分支 (
git checkout -b feature/amazing-feature) - 提交更改 (
git commit -m 'Add some amazing feature') - 推送分支 (
git push origin feature/amazing-feature) - 创建 Pull Request
- 📚 补充新的知识文档
- 🔧 修正现有文档错误
- 🌍 翻译文档
- 🐛 报告问题
- 💡 提出改进建议
- 使用 Markdown 格式
- 遵循现有文档结构和风格
- 所有示例需经过验证
- 添加必要的引用和参考链接
本项目采用 CC BY-SA 4.0 许可证。
您可以自由地:
- 共享 — 在任何媒介以任何形式复制、发行本作品
- 改编 — 修改、转换或以本作品为基础进行创作
惟须遵守下列条件:
- 署名 — 您必须给出适当的署名,提供指向本许可证的链接,同时标明是否作出了修改
- 相同方式共享 — 如果您再混合、转换或者基于本作品进行创作,您必须基于与原先许可协议相同的许可协议分发您贡献的作品
感谢所有为这个项目做出贡献的人!
- Kubernetes 社区 - 提供了如此优秀的开源项目
- CNCF - 云原生计算基金会的所有项目
- 所有贡献者 - 你们的努力让这个项目变得更好
如有问题或建议,欢迎通过以下方式联系:
- 📧 邮箱: your-email@example.com
- 💬 Issues: GitHub Issues
- 💭 Discussions: GitHub Discussions
📂 点击查看完整目录结构
| # | 文档 | 关键内容 |
|---|---|---|
| 01 | K8s架构概览 | 企业级高可用架构、零信任安全、成本优化 |
| 02 | 核心组件深度解析 | 各组件职责与协作 |
| 05 | kubectl命令参考 | 命令大全、常用场景 |
| 07 | 升级策略 | 蓝绿部署、金丝雀升级、零停机方案 |
| 13 | 性能调优指南 | 超大规模集群优化、自动调优 |
| 14 | 安全架构 | 零信任架构、威胁检测、合规审计 |
| # | 文档 | 关键内容 |
|---|---|---|
| 11 | 设计原则 | 核心设计哲学 |
| 12 | 声明式API | 声明式 vs 命令式 |
| 13 | 控制器模式 | Reconcile循环、最终一致性 |
| 17 | etcd共识 | Raft协议、数据一致性 |
| 22 | Operator开发 | Operator模式实践 |
| # | 文档 | 关键内容 |
|---|---|---|
| 11 | etcd深度解析 | Raft共识、MVCC存储、备份恢复 |
| 12 | API Server深度解析 | 认证授权、APF限流、审计日志 |
| 13 | KCM深度解析 | 40+控制器、Leader选举 |
| 20 | Scheduler深度解析 | 调度框架、插件、抢占机制 |
| 21 | CRI深度解析 | containerd/CRI-O、安全容器 |
| 22 | CSI深度解析 | CSI规范、驱动开发、快照功能 |
| 23 | CNI深度解析 | CNI规范、Calico/Cilium网络 |
| # | 文档 | 关键内容 |
|---|---|---|
| 10 | 工作负载控制器 | Deployment/StatefulSet/DaemonSet |
| 11 | Pod生命周期 | Phase、Condition、事件 |
| 30 | 调度器配置 | 调度策略、亲和性 |
| 32 | HPA/VPA | 水平/垂直自动扩缩 |
| # | 文档 | 关键内容 |
|---|---|---|
| 05 | 网络架构 | K8s网络模型、三层网络 |
| 07 | CNI对比 | Flannel/Calico/Cilium对比 |
| 11 | Service概念 | ClusterIP/NodePort/LB |
| 16 | DNS发现 | DNS服务发现机制 |
| 27 | Ingress基础 | Ingress核心架构、路由配置 |
| 35 | Gateway API | 新一代流量管理 |
| # | 文档 | 关键内容 |
|---|---|---|
| 01 | 存储架构 | 存储系统整体架构 |
| 02 | PV架构 | PV/PVC工作机制 |
| 04 | StorageClass | 动态供给机制 |
| 05 | CSI驱动 | CSI驱动架构、故障处理 |
| # | 文档 | 关键内容 |
|---|---|---|
| 01 | 认证授权 | RBAC、OIDC、ServiceAccount |
| 02 | 网络安全 | NetworkPolicy、零信任安全 |
| 03 | 运行时安全 | Seccomp/AppArmor、Falco |
| 11 | 策略引擎 | OPA/Kyverno策略引擎对比 |
| # | 文档 | 关键内容 |
|---|---|---|
| 01 | 架构概览 | 可观测性架构体系 |
| 02 | 指标监控 | Prometheus监控体系 |
| 04 | 链路追踪 | OpenTelemetry/Jaeger |
| 12 | 排障概览 | 生产级故障排查全攻略 |
| 16 | 混沌工程 | Chaos Mesh/Litmus |
| # | 文档 | 关键内容 |
|---|---|---|
| 01 | 运维概览 | 平台运维职责、成熟度模型 |
| 02 | 集群管理 | 集群生命周期、扩缩容策略 |
| 06 | 监控告警 | Prometheus/Grafana、SLO/SLI |
| 07 | GitOps配置 | ArgoCD/FluxCD |
| 09 | 成本优化 | Kubecost、FinOps实践 |
| 13 | 多集群管理 | 多集群联邦、统一管理 |
| # | 文档 | 关键内容 |
|---|---|---|
| 01 | CRD开发 | 自定义资源定义开发 |
| 05 | 包管理 | Helm/Kustomize/Carvel对比 |
| 08 | CI/CD流水线 | Jenkins/Tekton/云效 |
| 09 | ArgoCD | GitOps工作流、多集群管理 |
| # | 文档 | 关键内容 |
|---|---|---|
| 01 | AI Infra概览 | AI基础设施架构全景 |
| 03 | GPU调度 | GPU资源调度与管理 |
| 05 | 分布式训练 | PyTorch DDP/FSDP |
| 17 | LLM推理 | vLLM/TGI部署 |
| 20 | 向量库/RAG | Milvus/Qdrant/RAG |
结构化故障排查: topic-structural-trouble-shooting/
- 控制平面、节点组件、网络、存储、工作负载
- 安全认证、资源调度、集群运维、云厂商集成
- AI/ML工作负载、GitOps/DevOps、可观测性
FTA故障树: topic-fta/list/
- Pod、Node、etcd、API Server、Scheduler、Ingress
- DNS、CSI、HPA/VPA、证书、RBAC、Helm、ArgoCD 等 36个