Skip to content

kudig-io/kudig-database

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

73 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

╔══════════════════════════════════════════════════════════════════════════╗
║                                                                          ║
║   ██╗  ██╗██╗   ██╗██████╗ ██╗ ██████╗     ██████╗  █████╗ ████████╗    ║
║   ██║ ██╔╝██║   ██║██╔══██╗██║██╔════╝     ██╔══██╗██╔══██╗╚══██╔══╝    ║
║   █████╔╝ ██║   ██║██║  ██║██║██║  ███╗    ██║  ██║███████║   ██║       ║
║   ██╔═██╗ ██║   ██║██║  ██║██║██║   ██║    ██║  ██║██╔══██║   ██║       ║
║   ██║  ██╗╚██████╔╝██████╔╝██║╚██████╔╝    ██████╔╝██║  ██║   ██║       ║
║   ╚═╝  ╚═╝ ╚═════╝ ╚═════╝ ╚═╝ ╚═════╝     ╚═════╝ ╚═╝  ╚═╝   ╚═╝       ║
║                                                                          ║
║              KUBERNETES  PRODUCTION  OPERATIONS  KNOWLEDGE BASE          ║
║                                                                          ║
║  ┌──────────────────────────────────────────────────────────────────┐   ║
║  │  📚 950+ Docs  │  🌐 41 Domains  │  🤖 AI-Ready  │  ⚡ Production  │   ║
║  └──────────────────────────────────────────────────────────────────┘   ║
║                                                                          ║
╚══════════════════════════════════════════════════════════════════════════╝
10110 01001 11010 00101  🅺  01101 10110 01011 10100
01011 10100 00101 11010  🆄  11010 00101 01101 10100
10101 01011 10100 00101  🅳  00101 11010 10101 01011
01001 10110 01011 10100  🅸  10100 00101 11010 10101
10110 01001 11010 00101  🅶  01011 10100 00101 11010

文档数量 知识领域 总字数 CNCF项目 K8s版本 最后更新

AI Agent FTA FEBM 学习计划 Manpage 速查卡

面向生产环境的 Kubernetes + AI Infrastructure 全域知识库
支持 NotebookLM / IMA / RAG 等 AI 问答场景
覆盖从基础架构到 LLM 工作负载的完整技术栈

🚀 快速开始✨ 核心特性📚 知识体系🤖 AI 语料库🎯 使用场景📖 Manpage🏗️ 基础设施📊 统计


✨ 核心特性

🏭 生产级配置

所有 YAML/Shell 示例经过万级节点生产环境验证,可直接用于生产部署。非玩具示例,包含完整的监控告警、故障排查、安全加固方案。

🤖 AI 语料库就绪

专为 AI Agent 训练优化的知识组织:

  • ✅ NotebookLM 原生支持
  • ✅ 腾讯 IMA 知识库导入
  • ✅ RAG 检索增强生成
  • ✅ Agent 推理骨架(FTA/FEBM)

📚 内容全面性

  • 4300万+ 字符(约1500万中文字)
  • 950+ 篇技术文档
  • 41 个知识领域
  • 218 个 CNCF 开源项目
  • 36 个 FTA 故障树
  • 40 篇 AI Agent 工程

🔬 深度解析

  • 控制平面组件源码级剖析
  • CRI/CSI/CNI 接口详解
  • 内核级性能调优
  • 分布式系统原理

🚀 快速开始

方式一:作为 AI 语料库使用

📱 NotebookLM - 生成专属技术播客
  1. 访问 notebooklm.google.com
  2. 创建新笔记本,添加本仓库 GitHub 链接
  3. NotebookLM 自动解析所有 Markdown 文档
  4. 使用「生成音频摘要」功能创建技术播客

💡 推荐组合:导入 topic-fta/ + domain-12-troubleshooting/ 生成故障排查专题播客

💬 腾讯 IMA - 构建个人知识库
  1. 安装 IMA 知识库客户端
  2. 导入本仓库文件夹(支持批量导入 Markdown)
  3. 使用语义搜索快速定位知识点
  4. 基于知识库进行问答对话

💡 推荐导入:topic-dictionary/ + topic-cheat-sheet/ 作为日常速查

🤖 RAG 应用 - 构建智能运维助手
# 使用 LangChain 加载知识库
from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import MarkdownHeaderTextSplitter

# 加载所有 Markdown 文档
loader = DirectoryLoader('./', glob='**/*.md')
docs = loader.load()

# 按标题层级分块(保持知识完整性)
splitter = MarkdownHeaderTextSplitter(
    headers_to_split_on=[('#', 'Header 1'), ('##', 'Header 2')]
)
chunks = splitter.split_text(docs)

# 构建向量库
# ... 接入 OpenAI /  Claude /  Qwen Embedding

方式二:作为学习资料使用

# 克隆仓库
git clone https://github.com/your-org/kudig-database.git
cd kudig-database

# 启动本地 GitBook 浏览(需要安装 mdBook)
cd gitbook
bash start.sh
# 浏览器访问 http://localhost:3000

方式三:Agent 训练语料

# Agent Skill 示例:使用 topic-skills 作为训练数据
skill:
  name: k8s-troubleshooting
  corpus:
    - topic-skills/*.md      # 工单处理技能库
    - topic-fta/list/*.md    # 故障树分析
    - topic-febm/*.md        # 取证方法论
  agent_type: diagnostic    # 诊断型 Agent

📚 知识体系架构

graph TD
    ROOT[KUDIG-DATABASE<br/>全域知识库] --> TOPIC[🔥 专题资源]
    ROOT --> CORE[🎯 核心知识域]
    ROOT --> BASE[🏗️ 底层基础]
    ROOT --> ENTERPRISE[🏢 企业级专题]
    ROOT --> ADVANCED[🚀 前沿技术]
    
    TOPIC --> T1[FTA故障树 29篇]
    TOPIC --> T2[FEBM取证 9篇]
    TOPIC --> T3[AI Agent 40篇]
    TOPIC --> T4[学习计划 46篇]
    
    CORE --> C1[架构/设计 35篇]
    CORE --> C2[控制平面 23篇]
    CORE --> C3[网络/存储 51篇]
    CORE --> C4[安全/可观测 33篇]
    CORE --> C5[平台运维 25篇]
    CORE --> C6[AI Infra 30篇]
    
    BASE --> B1[Docker]
    BASE --> B2[Linux]
    BASE --> B3[网络基础]
    BASE --> B4[存储基础]
    BASE --> B5[云厂商 13家]
    
    ENTERPRISE --> E1[生产运维]
    ENTERPRISE --> E2[GitOps/CI-CD]
    ENTERPRISE --> E3[监控日志]
    ENTERPRISE --> E4[灾备恢复]
    
    ADVANCED --> A1[CNCF 218项目]
    ADVANCED --> A2[eBPF]
    ADVANCED --> A3[边缘计算]
    ADVANCED --> A4[WebAssembly]
    
    style ROOT fill:#326ce5,stroke:#1a3a8f,color:#fff
    style TOPIC fill:#ff6b6b,stroke:#c92a2a,color:#fff
    style CORE fill:#22c55e,stroke:#166534,color:#fff
    style BASE fill:#0ea5e9,stroke:#0369a1,color:#fff
    style ENTERPRISE fill:#f59e0b,stroke:#b45309,color:#fff
    style ADVANCED fill:#a855f7,stroke:#6b21a8,color:#fff
Loading

🤖 AI 语料库场景

本知识库专为 AI 时代的知识管理设计,完美适配以下场景:

1. NotebookLM - 音频学习

推荐导入内容 生成效果 适用人群
topic-learn/ 学习计划 系统化的技术播客系列 初学者
topic-fta/ 故障树分析 故障排查方法论播客 SRE/运维
domain-11-ai-infra/ AI基础设施 AI工程专题播客 AI工程师

2. IMA / 豆包 / 文心一言 - 个人知识库

推荐导入内容 使用场景 预期效果
topic-dictionary/ 运维词典 日常查询术语 秒级概念检索
topic-cheat-sheet/ 速查卡 命令速查 提高操作效率
topic-structural-trouble-shooting/ 故障排查 快速定位问题

3. RAG 应用 - 企业知识库

📋 详细的分块策略与 Embedding 模型推荐请参阅 corpus-config/rag-chunking-strategy.md,预置的 RAG Profile 请参阅 corpus-config/profiles/

# 推荐分块策略
├── domain-*/          # 按知识域分块,用于专业问答
├── topic-fta/          # 故障树结构,用于诊断推理
├── topic-skills/       # 技能库,用于 Agent 执行
└── topic-cheat-sheet/  # 速查卡,用于快速检索

4. Agent 训练语料

语料类型 用途 示例框架
topic-fta/*.md Agent 推理骨架 AutoGen, CrewAI
topic-skills/*.md 诊断-修复闭环 AgentScope
topic-febm/*.md 取证分析能力 LangChain Agent
domain-12-troubleshooting/*.md 故障排查知识 Custom Agent

🎯 使用场景

场景一:生产故障排查(SRE/运维)

flowchart LR
    A[故障现象] --> B[FTA分析]
    B --> C[定位根因]
    C --> D[Skill修复]
    D --> E[验证恢复]
    
    style A fill:#ff6b6b,stroke:#c92a2a,color:#fff
    style B fill:#3b82f6,stroke:#1d4ed8,color:#fff
    style C fill:#f59e0b,stroke:#b45309,color:#fff
    style D fill:#8b5cf6,stroke:#6d28d9,color:#fff
    style E fill:#22c55e,stroke:#166534,color:#fff
Loading

推荐路径

  1. FTA 生产快速落地
  2. Pod 故障树分析
  3. Pod CrashLoopBackOff Skill

场景二:系统学习 K8s(开发者/学生)

flowchart LR
    W1[Week1 地基建设<br/>Docker/Linux/kubectl] --> W2[Week2 核心技术<br/>控制平面/网络/存储]
    W2 --> W3[Week3 运维作战<br/>安全/可观测性/排障]
    W3 --> W4[Week4 企业进阶<br/>GitOps/FTA/最佳实践]
    
    style W1 fill:#3b82f6,stroke:#1d4ed8,color:#fff
    style W2 fill:#22c55e,stroke:#166534,color:#fff
    style W3 fill:#f59e0b,stroke:#b45309,color:#fff
    style W4 fill:#a855f7,stroke:#6b21a8,color:#fff
Loading

完整计划1个月学习计划

场景三:构建 K8s 运维 Agent(AI工程师)

flowchart TD
    A[K8sOpsAgent] --> B[知识层]
    B --> C[FTA故障树]
    B --> D[FEBM取证]
    B --> E[Skills技能]
    
    A --> F[推理层]
    F --> G[诊断引擎]
    
    A --> H[执行层]
    H --> I[自动修复]
    
    style A fill:#a855f7,stroke:#6b21a8,color:#fff
    style B fill:#3b82f6,stroke:#1d4ed8,color:#fff
    style C fill:#ff6b6b,stroke:#c92a2a,color:#fff
    style D fill:#4ecdc4,stroke:#0f766e,color:#fff
    style E fill:#22c55e,stroke:#166534,color:#fff
Loading

📊 内容统计

📈 整体规模

指标 数值
文件总数 1,477+
Markdown 文档 950+
总字符数 4300万+
知识领域 41
开源产品 36

🤖 AI 相关

指标 数值
AI Agent 文档 40 篇
FTA 故障树 36 个
FEBM 取证 9 篇
学习课程 46 篇
CNCF 项目 218 个

🔧 运维专题

指标 数值
故障排查文档 150+
技能库 (Skills) 6 个
速查卡 9 张
演示文档 12 篇
技术白皮书 16 篇
Manpage 14 个

各知识域文档分布

名称 文档数 关键内容
1 架构基础 17 K8s 架构、核心组件、升级策略、性能调优
2 设计原理 18 声明式API、控制器模式、etcd共识、高可用
3 控制平面 23 etcd、API Server、Scheduler、CRI/CSI/CNI
4 工作负载 14 Pod生命周期、调度器、HPA/VPA、资源管理
5 网络 36 CNI、Service、DNS、Ingress、Gateway API
6 存储 15 PV/PVC、StorageClass、CSI驱动、备份恢复
7 安全合规 16 RBAC、网络安全、运行时安全、审计合规
8 可观测性 17 监控指标、日志审计、链路追踪、混沌工程
9 平台运维 25 集群管理、GitOps、成本优化、灾备恢复
10 扩展生态 16 CRD/Operator、Helm、CI/CD、服务网格
11 AI基础设施 30 GPU调度、分布式训练、LLM推理、成本优化
12 故障排查 150+ 全组件故障排查、FTA故障树、结构化排障
13-17 底层基础 45 Docker、Linux、网络/存储基础、云厂商
18-32 企业级专题 200+ 生产运维、监控日志、GitOps、安全合规
33-39 前沿技术 300+ CNCF项目、eBPF、平台工程、边缘计算
40 云原生API网关 15 Gateway API、网关选型、安全策略、性能优化

🧭 快速导航

按角色导航

👨‍💻 开发者 kubectl 命令工作负载ServiceCI/CD
👨‍🔧 运维工程师 etcd 运维故障排查监控告警FTA 快速落地
🏗️ 架构师 架构基础设计原理高可用模式多集群管理
🤖 AI工程师 AI InfraGPU调度Agent基础Harness工程
🎓 学习者 1个月计划K8s 速查卡概念手册故障排查
🚨 SRE/故障调查 FTA 快速落地FEBM 快速落地结构化排障工单技能库

按场景导航

场景 推荐起点 核心文档
🔥 故障排查 topic-fta/README.md 36个FTA故障树 + 100+篇排障文档
📚 系统学习 topic-learn/ 1个月学习计划 + 46篇课程
🤖 Agent开发 topic-ai-agent/ 40篇AI Agent工程文档
⚡ 命令速查 topic-cheat-sheet/ K8s/Linux/Go 速查卡
🏢 企业部署 topic-deployment/ 从本地Demo到生产环境的完整路径
🔄 集群迁移 topic-migration/ 10步完整迁移指南
🎤 技术演示 topic-presentations/ 11个K8s专题Presentation

🌟 特色专题

🧠 FTA 故障树分析 (Fault Tree Analysis)

29篇文档 | 行业级 FTA 方法论与 AI Agent 智能运维实践

FTA(故障树分析)是一套从传统安全工程理论到云原生 Kubernetes 智能运维实践的完整知识体系。

```mermaid
flowchart LR
    A[FTA故障树分析<br/>29篇] --> B[理论基础 4章]
    A --> C[构建实践 3章]
    A --> D[AI Agent应用 6章]
    A --> E[实战案例 3章]
    A --> F[生产落地 1章]
    
    style A fill:#ff6b6b,stroke:#c92a2a,color:#fff
    style B fill:#3b82f6,stroke:#1d4ed8,color:#fff
    style C fill:#22c55e,stroke:#166534,color:#fff
    style D fill:#a855f7,stroke:#6b21a8,color:#fff
    style E fill:#f59e0b,stroke:#b45309,color:#fff
    style F fill:#06b6d4,stroke:#0891b2,color:#fff

核心文档

🔍 FEBM 取证循证方法论 (Forensic Evidence-Based Methodology)

9篇文档 | 从证据到结论的归纳式故障调查方法论

FEBM 与 FTA 形成方法论互补

  • FTA (演绎法): 自上而下,从假设到验证 —— "系统可能在哪里出问题?"
  • FEBM (归纳法): 自下而上,从证据到结论 —— "系统实际发生了什么?"
flowchart LR
    A[FEBM取证循证<br/>9篇] --> B[证据中心性]
    A --> C[程序规范性]
    A --> D[时效敏感性]
    A --> E[结论可辩护性]
    
    B --> C --> D --> E
    
    style A fill:#4ecdc4,stroke:#0f766e,color:#fff
    style B fill:#3b82f6,stroke:#1d4ed8,color:#fff
    style C fill:#22c55e,stroke:#166534,color:#fff
    style D fill:#f59e0b,stroke:#b45309,color:#fff
    style E fill:#a855f7,stroke:#6b21a8,color:#fff
Loading

核心文档

🤖 AI Agent 工程

40篇文档 | 从基础概念到 Harness 工程的完整 Agent 构建指南

内容覆盖 AI Agent 工程全生命周期(40篇):

flowchart LR
    A[基础层<br/>3篇] --> B[核心能力<br/>4篇]
    B --> C[工程质量<br/>4篇]
    C --> D[实战战略<br/>2篇]
    C --> E[平台系列<br/>25篇]
    
    style A fill:#3b82f6,stroke:#1d4ed8,color:#fff
    style B fill:#22c55e,stroke:#166534,color:#fff
    style C fill:#f59e0b,stroke:#b45309,color:#fff
    style D fill:#a855f7,stroke:#6b21a8,color:#fff
    style E fill:#06b6d4,stroke:#0891b2,color:#fff
Loading

核心文档

🎓 1个月学习计划

46篇文档 | 从零到全栈运维的完整学习路径

Week 1: 地基建设期

  • Docker 基础 → Linux 基础 → K8s 架构 → kubectl 实战
  • 产出:独立搭建 K8s 集群

Week 2: 核心技术构建期

  • 控制平面精读 → 工作负载深潜 → 网络栈精通 → 存储体系
  • 产出:生产级应用 YAML 编排

Week 3: 运维作战能力期

  • 安全合规 → 可观测性构建 → 故障排查方法论 → 平台运维
  • 产出:监控告警体系 + 排障手册

Week 4: 企业级进阶期

  • 企业监控/日志 → GitOps → FTA/FEBM 专题 → 生产最佳实践
  • 产出:GitOps 流水线 + Playbook

完整计划Kubernetes 生产运维 1 个月学习计划

🌐 CNCF Landscape 开源项目库

218篇文档 | CNCF 云原生全景图完整收录

成熟度 数量 代表项目
Graduated 34 Kubernetes, Prometheus, Envoy, Helm, Istio, etcd, containerd, Argo, Cilium, Harbor, Falco
Incubating 37 OpenTelemetry, gRPC, Backstage, Kyverno, Kubeflow, Volcano, Chaos Mesh
Sandbox 147 k3s, MetalLB, K8sGPT, OpenEBS, Kuma

每篇文档包含:架构图、核心概念、安装部署、使用示例、生态集成、参考资源


🏢 云厂商 Kubernetes 服务

云厂商 产品 特色 文档
阿里云 ACK 托管版/专有版、Terway网络、RRSA认证 查看
AWS EKS IAM集成、EKS Anywhere混合云、Karpenter 查看
Azure AKS Azure AD集成、Confidential Containers 查看
GCP GKE Autopilot模式、Anthos多云、Borg传承 查看
腾讯云 TKE 万级节点、VPC-CNI、超级节点 查看
华为云 CCE GPU节点、ASM服务网格、鲲鹏ARM 查看
字节云 VEK 字节内部经验、高性能调度 查看

📖 速查资源

速查卡 (Cheat Sheet)

速查卡 内容 适用版本
Kubernetes 速查卡 kubectl、集群管理、Pod操作、网络、存储、RBAC、排障 v1.25-v1.32
Linux 速查卡 系统管理、进程、网络、存储、安全、Shell脚本 RHEL 7-9, Ubuntu 20-24
Go 语言速查卡 语法、并发、网络、数据库、测试、性能优化 Go 1.20-1.22
Docker/Containerd 速查卡 容器生命周期、镜像管理、网络、存储、Compose、ctr Docker 20.10+, containerd 1.6+
PromQL 速查卡 指标查询、聚合函数、Kubernetes监控、告警规则 Prometheus 2.40+
网络诊断速查卡 DNS诊断、TCP调试、HTTP测试、抓包分析、K8s网络 TCP/IP
Git 速查表 日常操作、分支管理、撤销操作、故障排查 Git 2.30+
SQL 速查表 查询语法、表操作、索引优化、数据库管理 MySQL 8.0, PostgreSQL 14
TLS/PKI 速查卡 证书格式、OpenSSL命令、证书链、K8s证书管理、监控脚本 x509, TLS 1.2/1.3

运维词典 (Dictionary)

16篇专家级运维文档,全面覆盖:

  • 运维最佳实践、故障模式分析、性能调优专家指南
  • SRE成熟度模型、概念参考手册、命令行清单
  • AI基础设施专家指南、云原生安全专家指南
  • 多云混合云运维手册、企业级运维最佳实践
  • 生产事故管理Runbook、容量规划与资源预测
  • 变更管理与发布策略、SLI/SLO/SLA工程实践
  • 生产环境故障排查剧本

查看全部topic-dictionary/


💻 本地 GitBook

本项目提供基于 mdBook 的本地文档浏览系统,支持全文搜索、目录折叠导航。

快速启动

# 安装 mdBook(需要 Rust 工具链)
cargo install mdbook

# 启动本地服务
cd gitbook
bash start.sh
# 浏览器访问 http://localhost:3000

常用命令

命令 说明
bash start.sh 初始化并启动本地服务(首次使用)
PORT=8080 bash start.sh 指定端口启动
bash refresh.sh 完整刷新:更新符号链接 + 重新生成目录 + 重新构建
bash refresh.sh build 仅重新构建
bash export-static.sh 导出到 gitbook/dist/ 目录
bash export-static.sh --zip 导出并打包为 zip

📖 Manpage 参考手册

项目提供完整的 Unix manpage 文档,方便在终端快速查阅核心开源产品和项目脚本的使用方法。

支持的命令

Section 命令 描述
man1 kudig-stats README 数字指标自动统计工具
kudig-quality 知识库全面质量检查工具
kudig-validate 代码示例语法校验工具
kudig-fta-viz FTA 故障树可视化工具
man8 kubernetes Kubernetes 容器编排平台
prometheus 监控和告警系统
etcd 分布式键值存储
containerd 容器运行时
cilium eBPF 网络和安全平台
helm Kubernetes 包管理器
argocd GitOps 持续交付工具
istio 服务网格平台
velero 备份和灾难恢复工具
cert-manager 证书管理自动化与 PKI 基础设施工具

使用方法

# 方式一:直接查看(无需安装)
man ./man/man1/kudig-stats.1
man ./man/man8/kubernetes.8

# 方式二:安装到系统(推荐)
sudo cp -r man/man1/* /usr/local/share/man/man1/
sudo cp -r man/man8/* /usr/local/share/man/man8/
sudo mandb  # Linux 系统更新 man 数据库

# 安装后直接使用
man kudig-stats
man kubernetes
man prometheus

更多安装选项详见 man/INSTALL.md


🏗️ 项目基础设施

文件/目录 说明
INDEX.md 全局知识库索引,按逻辑分组组织所有 domain/topic 目录
CONTRIBUTING.md 贡献指南:命名规范、文档结构、质量标准、提交约定
CHANGELOG.md 版本变更日志
templates/ 文档模板(域文章、FTA 故障树、速查卡、Skill 工单)
metadata/ 元数据索引:标签体系、难度分级、知识图谱
corpus-config/ AI 语料配置:RAG 分块策略、NotebookLM/IMA/RAG Profile
reports/ 质量报告、统计数据(STATS、QUALITY_REPORT 系列)
.editorconfig 跨编辑器格式一致性配置

📝 版本说明

  • 适用 Kubernetes 版本: v1.25 - v1.32
  • 最后更新时间: 2026年4月
  • 更新频率: 持续更新,详见 CHANGELOG.md

近期重大更新

日期 更新内容
2026-04 目录结构优化 - 统一命名规范(FTA/FEBM)、新增 metadata/corpus-config/templates/reports/ 基础设施、domain-98→domain-40 重编号
2026-04 速查表全面补齐 - 新增 Docker、PromQL、网络诊断、Git、SQL 速查表,总数达 9 张 (9716 行)
2026-04 TLS/PKI 证书内容加强 - cert-manager manpage 全面扩展 (245行→996行),新增 TLS/PKI 速查表
2026-04 Manpage 参考手册上线 - 为核心开源产品和项目脚本提供 14 个 Unix manpage
2026-03 CNCF Landscape 218项目全量上线 - Graduated 34 + Incubating 37 + Sandbox 147
2026-03 Kubernetes 部署方案指南 - 从零到生产的完整部署路径
2026-03 1个月学习计划 - 46篇系统化学习课程
2026-03 FTA v2.0 全量故障树 - 36个组件故障树全面深化
2026-02 YAML配置清单手册 - 36篇K8s全资源YAML参考
2026-02 Domain 18-30 企业级专题 - 生产运维、监控日志、GitOps、安全合规等
2026-02 Agent Harness 工程 - 12篇2026最新范式

🤝 贡献指南

我们欢迎各种形式的贡献!详细规范请参阅 CONTRIBUTING.md

如何贡献

  1. Fork 本仓库
  2. 创建分支 (git checkout -b feature/amazing-feature)
  3. 提交更改 (git commit -m 'Add some amazing feature')
  4. 推送分支 (git push origin feature/amazing-feature)
  5. 创建 Pull Request

贡献内容

  • 📚 补充新的知识文档
  • 🔧 修正现有文档错误
  • 🌍 翻译文档
  • 🐛 报告问题
  • 💡 提出改进建议

文档规范

  • 使用 Markdown 格式
  • 遵循现有文档结构和风格
  • 所有示例需经过验证
  • 添加必要的引用和参考链接

📜 许可证

本项目采用 CC BY-SA 4.0 许可证。

您可以自由地:

  • 共享 — 在任何媒介以任何形式复制、发行本作品
  • 改编 — 修改、转换或以本作品为基础进行创作

惟须遵守下列条件:

  • 署名 — 您必须给出适当的署名,提供指向本许可证的链接,同时标明是否作出了修改
  • 相同方式共享 — 如果您再混合、转换或者基于本作品进行创作,您必须基于与原先许可协议相同的许可协议分发您贡献的作品

🙏 致谢

感谢所有为这个项目做出贡献的人!

特别感谢

  • Kubernetes 社区 - 提供了如此优秀的开源项目
  • CNCF - 云原生计算基金会的所有项目
  • 所有贡献者 - 你们的努力让这个项目变得更好

📮 联系我们

如有问题或建议,欢迎通过以下方式联系:


如果觉得这个项目对您有帮助,请给我们一个 ⭐ Star!

Stars Forks


Built with ❤️ by the KUDIG team

Back to top


📂 点击查看完整目录结构

核心知识域 (Domain 1-12)

域1: 架构基础 (Architecture Fundamentals)

# 文档 关键内容
01 K8s架构概览 企业级高可用架构、零信任安全、成本优化
02 核心组件深度解析 各组件职责与协作
05 kubectl命令参考 命令大全、常用场景
07 升级策略 蓝绿部署、金丝雀升级、零停机方案
13 性能调优指南 超大规模集群优化、自动调优
14 安全架构 零信任架构、威胁检测、合规审计

域2: 设计原理 (Design Principles)

# 文档 关键内容
11 设计原则 核心设计哲学
12 声明式API 声明式 vs 命令式
13 控制器模式 Reconcile循环、最终一致性
17 etcd共识 Raft协议、数据一致性
22 Operator开发 Operator模式实践

域3: 控制平面 (Control Plane)

# 文档 关键内容
11 etcd深度解析 Raft共识、MVCC存储、备份恢复
12 API Server深度解析 认证授权、APF限流、审计日志
13 KCM深度解析 40+控制器、Leader选举
20 Scheduler深度解析 调度框架、插件、抢占机制
21 CRI深度解析 containerd/CRI-O、安全容器
22 CSI深度解析 CSI规范、驱动开发、快照功能
23 CNI深度解析 CNI规范、Calico/Cilium网络

域4: 工作负载 (Workloads)

# 文档 关键内容
10 工作负载控制器 Deployment/StatefulSet/DaemonSet
11 Pod生命周期 Phase、Condition、事件
30 调度器配置 调度策略、亲和性
32 HPA/VPA 水平/垂直自动扩缩

域5: 网络 (Networking)

# 文档 关键内容
05 网络架构 K8s网络模型、三层网络
07 CNI对比 Flannel/Calico/Cilium对比
11 Service概念 ClusterIP/NodePort/LB
16 DNS发现 DNS服务发现机制
27 Ingress基础 Ingress核心架构、路由配置
35 Gateway API 新一代流量管理

域6: 存储 (Storage)

# 文档 关键内容
01 存储架构 存储系统整体架构
02 PV架构 PV/PVC工作机制
04 StorageClass 动态供给机制
05 CSI驱动 CSI驱动架构、故障处理

域7: 安全合规 (Security)

# 文档 关键内容
01 认证授权 RBAC、OIDC、ServiceAccount
02 网络安全 NetworkPolicy、零信任安全
03 运行时安全 Seccomp/AppArmor、Falco
11 策略引擎 OPA/Kyverno策略引擎对比

域8: 可观测性 (Observability)

# 文档 关键内容
01 架构概览 可观测性架构体系
02 指标监控 Prometheus监控体系
04 链路追踪 OpenTelemetry/Jaeger
12 排障概览 生产级故障排查全攻略
16 混沌工程 Chaos Mesh/Litmus

域9: 平台运维 (Platform Operations)

# 文档 关键内容
01 运维概览 平台运维职责、成熟度模型
02 集群管理 集群生命周期、扩缩容策略
06 监控告警 Prometheus/Grafana、SLO/SLI
07 GitOps配置 ArgoCD/FluxCD
09 成本优化 Kubecost、FinOps实践
13 多集群管理 多集群联邦、统一管理

域10: 扩展生态 (Extensions)

# 文档 关键内容
01 CRD开发 自定义资源定义开发
05 包管理 Helm/Kustomize/Carvel对比
08 CI/CD流水线 Jenkins/Tekton/云效
09 ArgoCD GitOps工作流、多集群管理

域11: AI基础设施 (AI Infra)

# 文档 关键内容
01 AI Infra概览 AI基础设施架构全景
03 GPU调度 GPU资源调度与管理
05 分布式训练 PyTorch DDP/FSDP
17 LLM推理 vLLM/TGI部署
20 向量库/RAG Milvus/Qdrant/RAG

域12: 故障排查 (Troubleshooting)

结构化故障排查: topic-structural-trouble-shooting/

  • 控制平面、节点组件、网络、存储、工作负载
  • 安全认证、资源调度、集群运维、云厂商集成
  • AI/ML工作负载、GitOps/DevOps、可观测性

FTA故障树: topic-fta/list/

  • Pod、Node、etcd、API Server、Scheduler、Ingress
  • DNS、CSI、HPA/VPA、证书、RBAC、Helm、ArgoCD 等 36个

About

Best

Topics

Resources

Contributing

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors