docs: update website to reflect current code reality

dndungu · dndungu · commit fd04e165f2d1 · 2026-03-28T15:23:55.000-07:00
- Models grid: expanded from 8 to 18 cards (GPT-2, Nemotron-H, MiniMax M2,
  Command R, Falcon, RWKV, Mamba/Mamba 3, Jamba, Whisper, LLaVA/Qwen-VL,
  BERT, Granite TS added)
- CLI section: added QuaRot, eagle-train, transmla, Multi-LoRA examples
- Go version: updated 1.25 -&gt; 1.26 across all pages (6 files)
- Gemma 3 -&gt; Gemma 3/3n, Llama 3 -&gt; Llama 3/4 in model grid
diff --git a/content/_index.html b/content/_index.html
@@ -386,7 +386,7 @@ <h3>Structured Output &amp; Tools</h3>
       <div class="feat">
         <div class="icon">&#129518;</div>
         <h3>Type-Safe Generics</h3>
-        <p>Go 1.25 generics throughout — <code>tensor.Numeric</code> constraint for compile-time type safety across float32, float16, bfloat16, float8, and quantized types.</p>
+        <p>Go 1.26 generics throughout — <code>tensor.Numeric</code> constraint for compile-time type safety across float32, float16, bfloat16, float8, and quantized types.</p>
       </div>
       <div class="feat">
         <div class="icon">&#128202;</div>
@@ -427,7 +427,7 @@ <h3>Advanced Serving</h3>
   <div class="wrap">
     <div class="section-head">
       <h2>Faster than Ollama</h2>
-      <p>Benchmarked on NVIDIA DGX Spark (GB10), CUDA 13.0, Go 1.25. Gemma 3 1B Q4_K_M, 256 tokens.</p>
+      <p>Benchmarked on NVIDIA DGX Spark (GB10), CUDA 13.0, Go 1.26. Gemma 3 1B Q4_K_M, 256 tokens.</p>
     </div>
     <div style="overflow-x:auto">
       <table class="bench-table">
@@ -490,14 +490,24 @@ <h2>Supported models</h2>
       <p>28 architectures across 16 model families. Load any GGUF model from HuggingFace.</p>
     </div>
     <div class="model-grid">
-      <div class="model-card"><div class="name">Gemma 3</div><div class="status prod">Production</div></div>
-      <div class="model-card"><div class="name">Llama 3</div><div class="status prod">Production</div></div>
+      <div class="model-card"><div class="name">Gemma 3/3n</div><div class="status prod">Production</div></div>
+      <div class="model-card"><div class="name">Llama 3/4</div><div class="status prod">Production</div></div>
       <div class="model-card"><div class="name">Qwen 2.5</div><div class="status prod">Production</div></div>
-      <div class="model-card"><div class="name">Mistral</div><div class="status prod">Production</div></div>
+      <div class="model-card"><div class="name">Mistral/Mixtral</div><div class="status prod">Production</div></div>
       <div class="model-card"><div class="name">Phi 3/4</div><div class="status prod">Production</div></div>
-      <div class="model-card"><div class="name">DeepSeek V3</div><div class="status prod">Production</div></div>
-      <div class="model-card"><div class="name">SigLIP</div><div class="status">Vision encoder</div></div>
-      <div class="model-card"><div class="name">Kimi-VL</div><div class="status">Vision-language</div></div>
+      <div class="model-card"><div class="name">DeepSeek V3</div><div class="status prod">MLA + MoE</div></div>
+      <div class="model-card"><div class="name">GPT-2</div><div class="status prod">TinyStories</div></div>
+      <div class="model-card"><div class="name">Nemotron-H</div><div class="status">Hybrid Mamba+MoE</div></div>
+      <div class="model-card"><div class="name">MiniMax M2</div><div class="status">Sigmoid MoE</div></div>
+      <div class="model-card"><div class="name">Command R</div><div class="status prod">Production</div></div>
+      <div class="model-card"><div class="name">Falcon</div><div class="status prod">Production</div></div>
+      <div class="model-card"><div class="name">RWKV</div><div class="status">Linear attention</div></div>
+      <div class="model-card"><div class="name">Mamba/Mamba 3</div><div class="status">State space</div></div>
+      <div class="model-card"><div class="name">Jamba</div><div class="status">Hybrid SSM</div></div>
+      <div class="model-card"><div class="name">Whisper</div><div class="status">Audio</div></div>
+      <div class="model-card"><div class="name">LLaVA/Qwen-VL</div><div class="status">Vision-language</div></div>
+      <div class="model-card"><div class="name">BERT</div><div class="status">Encoder</div></div>
+      <div class="model-card"><div class="name">Granite TS</div><div class="status">Time series</div></div>
     </div>
     <div style="text-align:center;margin-top:32px">
       <p style="color:var(--fg3);font-size:.875rem">Uses GGUF as the sole model format. Compatible with llama.cpp, Ollama, LM Studio, and GPT4All model files.</p>
@@ -529,10 +539,18 @@ <h2>CLI included</h2>
 <span class="cmt"># OpenAI-compatible API server</span>
 $ zerfoo serve gemma-3-1b-q4 --port 8080
 
-<span class="cmt"># Query with any OpenAI client</span>
+<span class="cmt"># QuaRot weight fusion for uniform 4-bit quantization</span>
+$ zerfoo run --quarot model.gguf
+
+<span class="cmt"># Train an EAGLE speculative decoding head</span>
+$ zerfoo eagle-train --model model.gguf --corpus data.txt --output eagle.gguf
+
+<span class="cmt"># Convert MHA model to Multi-head Latent Attention</span>
+$ zerfoo transmla --input model.gguf --output model-mla.gguf
+
+<span class="cmt"># Multi-LoRA serving (per-request adapter selection)</span>
 $ curl <span class="str">http://localhost:8080/v1/chat/completions</span> \
-    -H <span class="str">"Content-Type: application/json"</span> \
-    -d <span class="str">'{"model":"gemma-3-1b-q4","messages":[{"role":"user","content":"Hello!"}]}'</span></pre>
+    -d <span class="str">'{"model":"gemma3-1b:my-lora","messages":[{"role":"user","content":"Hello!"}]}'</span></pre>
     </div>
   </div>
 </section>
diff --git a/content/docs/blog/how-we-beat-ollama-cuda-graph-capture.md b/content/docs/blog/how-we-beat-ollama-cuda-graph-capture.md
@@ -80,7 +80,7 @@ All benchmark numbers follow the methodology documented in `docs/benchmarking-me
 | Memory | 128 GB unified LPDDR5x |
 | GPU SM | sm_121 |
 | Model | Gemma 3 1B Q4_K_M (GGUF) |
-| Go | 1.25.0 |
+| Go | 1.26.1 |
 | CUDA | 13.0 |
 | Measurement | Decode-only throughput (tok/s) |
 | Token count | 256 tokens minimum |
diff --git a/content/docs/contributing/overview.md b/content/docs/contributing/overview.md
@@ -41,7 +41,7 @@ Each repo is versioned and released independently. Do not treat this as a monore
 
 ### Prerequisites
 
-- **Go 1.25+** (generics with `tensor.Numeric` constraint)
+- **Go 1.26+** (generics with `tensor.Numeric` constraint)
 - **Git**
 - **CUDA Toolkit** (optional, for GPU-accelerated tests and development)
 
diff --git a/content/docs/getting-started/first-inference.md b/content/docs/getting-started/first-inference.md
@@ -10,15 +10,15 @@ Go from zero to working LLM inference in under 5 minutes.
 
 ## Prerequisites
 
-- **Go 1.25 or later** -- [download Go](https://go.dev/dl/)
+- **Go 1.26 or later** -- [download Go](https://go.dev/dl/)
 - A machine with at least 4 GB of RAM (8 GB recommended for 7B models)
 - Optional: an NVIDIA GPU with CUDA drivers for hardware-accelerated inference
 
 Verify your Go installation:
 
 ```bash
 go version
-# go version go1.25.0 linux/amd64
+# go version go1.26.1 linux/amd64
 ```
 
 ## Install the CLI
diff --git a/content/docs/getting-started/installation.md b/content/docs/getting-started/installation.md
@@ -6,13 +6,13 @@ bookToc: true
 
 # Installation
 
-Zerfoo requires **Go 1.25 or later**. [Download Go](https://go.dev/dl/) if you haven't already.
+Zerfoo requires **Go 1.26 or later**. [Download Go](https://go.dev/dl/) if you haven't already.
 
 Verify your Go installation:
 
 ```bash
 go version
-# go version go1.25.0 linux/amd64
+# go version go1.26.1 linux/amd64
 ```
 
 ## As a Library
@@ -53,7 +53,7 @@ Zerfoo builds with **zero CGo by default** (`CGO_ENABLED=0`). GPU acceleration i
 
 ## Platform Support
 
-Zerfoo compiles on any platform supported by Go 1.25, including **Linux**, **macOS**, and **Windows**.
+Zerfoo compiles on any platform supported by Go 1.26, including **Linux**, **macOS**, and **Windows**.
 
 GPU acceleration is available on:
 
diff --git a/content/docs/reference/benchmarks.md b/content/docs/reference/benchmarks.md
@@ -276,7 +276,7 @@ The `-p 0` flag skips prompt processing to measure pure decode throughput.
 git clone https://github.com/zerfoo/zerfoo.git
 cd zerfoo
 
-# 2. Ensure Go 1.25+ is installed
+# 2. Ensure Go 1.26+ is installed
 go version
 
 # 3. Download dependencies