Benchmark Results

Semua benchmark dijalankan dengan live API di 9 model berbeda. Data berikut membandingkan efisiensi token antara MarkZero (MZ), JSON, Markdown, dan TOON dalam dua kategori: static analysis dan LLM reasoning.

Models yang Diuji

# Model Provider
1MiMoXiaomi
2DeepSeekDeepSeek
3GrokxAI
4GLM-5.1Zhipu
5Qwen3.6Alibaba
6Hy3ByteDance
7Kimi-K2.6Moonshot
8Nex-N2Inflection
9TOONCommunity

Token Efficiency — Static Analysis

Perbandingan jumlah token yang dibutuhkan untuk merepresentasikan data yang sama dalam berbagai format. Semakin rendah semakin baik.

Scenario Winner MarkZero JSON Markdown Gain
Java OOM (flat, repeated) MZ 137T 192T 154T +28.6%
Zig stack trace TOON 47T 51T 52T +9.6%
PHP stack trace JSON DoD 54T 61T 61T +11.5%
Rust stack trace JSON DoD 64T 71T 70T +9.9%
JS Nested (deep) Markdown 181T 157T 32T WORST

Pattern: MZ menang di flat/repeated data berkat value interning, tapi kalah di nested structures. Flat data = keunggulan MZ. Nested = kelemahan MZ.

LLM Reasoning Benchmark (MiMo — AST Node Repair)

Pengujian kemampuan LLM memahami data dalam berbagai format. Task: AST node repair. Model: MiMo.

Format Total Tokens Latency Status
JSON compact 928 23.6s Baseline
MZ Header English (payload) 687 11.1s TERBAIK
TOON 805 16.3s Competitor
MZ Header (system prompt) 3,733 108s TERBURUK

CRITICAL: Penempatan header = kritis. MZ yang sama: di system prompt menghasilkan 3,733 tokens (terburuk), di payload + English header hanya 687 tokens (terbaik). Perbedaan = 5.4x.

Temuan: Escaping Escaper Bug

Awalnya nested JS membutuhkan 421 tokens (terburuk dari semua format). Setelah bug encoder diperbaiki — dari inline referencing ke grid referencing:

Kondisi Tokens vs TOON (154T) vs JSON DoD (157T)
Sebelum fix (inline ref) 421T -173% lebih buruk -168% lebih buruk
Sesudah fix (grid ref) 120T Mengalahkan TOON Mengalahkan JSON

Pelajaran: "Jangan pernah meng-escape percabangan data, cukup referensikan jalurnya."

Ringkasan Temuan Utama

# Temuan Detail
1 Flat data menang MZ menghemat hingga +28.6% pada flat/repeated data berkat value interning
2 Nested data kalah MZ lebih boros pada nested structures (181T vs Markdown 32T)
3 Header placement = kritis Perbedaan 5.4x antara header di system prompt vs di payload
4 Escaper bug ditemukan Grid referencing mengalahkan inline referencing: 421T → 120T
5 Bukan silver bullet MZ punya niche (flat data + agent IR), bukan universal winner

Format yang Dibandingkan

Format Tipe Keunggulan Kelemahan
MarkZero (MZ) Agent IR 1-token markers, flat data efficient, grid referencing Nested structures boros
JSON Human IR Universal, nested support bagus Verbose, banyak delimiter
Markdown Human IR Sangat compact untuk nested/hierarchical data Tidak terstruktur, ambigu
TOON Human IR Indentation-based, ~30% lebih kecil dari JSON Tidak ada Agent IR layer