Benchmark Results
Semua benchmark dijalankan dengan live API di 9 model berbeda. Data berikut membandingkan efisiensi token antara MarkZero (MZ), JSON, Markdown, dan TOON dalam dua kategori: static analysis dan LLM reasoning.
Models yang Diuji
| # | Model | Provider |
|---|---|---|
| 1 | MiMo | Xiaomi |
| 2 | DeepSeek | DeepSeek |
| 3 | Grok | xAI |
| 4 | GLM-5.1 | Zhipu |
| 5 | Qwen3.6 | Alibaba |
| 6 | Hy3 | ByteDance |
| 7 | Kimi-K2.6 | Moonshot |
| 8 | Nex-N2 | Inflection |
| 9 | TOON | Community |
Token Efficiency — Static Analysis
Perbandingan jumlah token yang dibutuhkan untuk merepresentasikan data yang sama dalam berbagai format. Semakin rendah semakin baik.
| Scenario | Winner | MarkZero | JSON | Markdown | Gain |
|---|---|---|---|---|---|
| Java OOM (flat, repeated) | MZ | 137T | 192T | 154T | +28.6% |
| Zig stack trace | TOON | 47T | 51T | 52T | +9.6% |
| PHP stack trace | JSON DoD | 54T | 61T | 61T | +11.5% |
| Rust stack trace | JSON DoD | 64T | 71T | 70T | +9.9% |
| JS Nested (deep) | Markdown | 181T | 157T | 32T | WORST |
Pattern: MZ menang di flat/repeated data berkat value interning, tapi kalah di nested structures. Flat data = keunggulan MZ. Nested = kelemahan MZ.
LLM Reasoning Benchmark (MiMo — AST Node Repair)
Pengujian kemampuan LLM memahami data dalam berbagai format. Task: AST node repair. Model: MiMo.
| Format | Total Tokens | Latency | Status |
|---|---|---|---|
| JSON compact | 928 | 23.6s | Baseline |
| MZ Header English (payload) | 687 | 11.1s | TERBAIK |
| TOON | 805 | 16.3s | Competitor |
| MZ Header (system prompt) | 3,733 | 108s | TERBURUK |
CRITICAL: Penempatan header = kritis. MZ yang sama: di system prompt menghasilkan 3,733 tokens (terburuk), di payload + English header hanya 687 tokens (terbaik). Perbedaan = 5.4x.
Temuan: Escaping Escaper Bug
Awalnya nested JS membutuhkan 421 tokens (terburuk dari semua format). Setelah bug encoder diperbaiki — dari inline referencing ke grid referencing:
| Kondisi | Tokens | vs TOON (154T) | vs JSON DoD (157T) |
|---|---|---|---|
| Sebelum fix (inline ref) | 421T | -173% lebih buruk | -168% lebih buruk |
| Sesudah fix (grid ref) | 120T | Mengalahkan TOON | Mengalahkan JSON |
Pelajaran: "Jangan pernah meng-escape percabangan data, cukup referensikan jalurnya."
Ringkasan Temuan Utama
| # | Temuan | Detail |
|---|---|---|
| 1 | Flat data menang | MZ menghemat hingga +28.6% pada flat/repeated data berkat value interning |
| 2 | Nested data kalah | MZ lebih boros pada nested structures (181T vs Markdown 32T) |
| 3 | Header placement = kritis | Perbedaan 5.4x antara header di system prompt vs di payload |
| 4 | Escaper bug ditemukan | Grid referencing mengalahkan inline referencing: 421T → 120T |
| 5 | Bukan silver bullet | MZ punya niche (flat data + agent IR), bukan universal winner |
Format yang Dibandingkan
| Format | Tipe | Keunggulan | Kelemahan |
|---|---|---|---|
| MarkZero (MZ) | Agent IR | 1-token markers, flat data efficient, grid referencing | Nested structures boros |
| JSON | Human IR | Universal, nested support bagus | Verbose, banyak delimiter |
| Markdown | Human IR | Sangat compact untuk nested/hierarchical data | Tidak terstruktur, ambigu |
| TOON | Human IR | Indentation-based, ~30% lebih kecil dari JSON | Tidak ada Agent IR layer |