Benchmark — Maintenis Docs

Benchmark Results

Semua benchmark dijalankan dengan live API di 9 model berbeda. Data berikut membandingkan efisiensi token antara MarkZero (MZ), JSON, Markdown, dan TOON dalam dua kategori: static analysis dan LLM reasoning.

Models yang Diuji

#	Model	Provider
1	MiMo	Xiaomi
2	DeepSeek	DeepSeek
3	Grok	xAI
4	GLM-5.1	Zhipu
5	Qwen3.6	Alibaba
6	Hy3	ByteDance
7	Kimi-K2.6	Moonshot
8	Nex-N2	Inflection
9	TOON	Community

Token Efficiency — Static Analysis

Perbandingan jumlah token yang dibutuhkan untuk merepresentasikan data yang sama dalam berbagai format. Semakin rendah semakin baik.

Scenario	Winner	MarkZero	JSON	Markdown	Gain
Java OOM (flat, repeated)	MZ	137T	192T	154T	+28.6%
Zig stack trace	TOON	47T	51T	52T	+9.6%
PHP stack trace	JSON DoD	54T	61T	61T	+11.5%
Rust stack trace	JSON DoD	64T	71T	70T	+9.9%
JS Nested (deep)	Markdown	181T	157T	32T	WORST

Pattern: MZ menang di flat/repeated data berkat value interning, tapi kalah di nested structures. Flat data = keunggulan MZ. Nested = kelemahan MZ.

LLM Reasoning Benchmark (MiMo — AST Node Repair)

Pengujian kemampuan LLM memahami data dalam berbagai format. Task: AST node repair. Model: MiMo.

Format	Total Tokens	Latency	Status
JSON compact	928	23.6s	Baseline
MZ Header English (payload)	687	11.1s	TERBAIK
TOON	805	16.3s	Competitor
MZ Header (system prompt)	3,733	108s	TERBURUK

CRITICAL: Penempatan header = kritis. MZ yang sama: di system prompt menghasilkan 3,733 tokens (terburuk), di payload + English header hanya 687 tokens (terbaik). Perbedaan = 5.4x.

Temuan: Escaping Escaper Bug

Awalnya nested JS membutuhkan 421 tokens (terburuk dari semua format). Setelah bug encoder diperbaiki — dari inline referencing ke grid referencing:

Kondisi	Tokens	vs TOON (154T)	vs JSON DoD (157T)
Sebelum fix (inline ref)	421T	-173% lebih buruk	-168% lebih buruk
Sesudah fix (grid ref)	120T	Mengalahkan TOON	Mengalahkan JSON

Pelajaran: "Jangan pernah meng-escape percabangan data, cukup referensikan jalurnya."

Ringkasan Temuan Utama

#	Temuan	Detail
1	Flat data menang	MZ menghemat hingga +28.6% pada flat/repeated data berkat value interning
2	Nested data kalah	MZ lebih boros pada nested structures (181T vs Markdown 32T)
3	Header placement = kritis	Perbedaan 5.4x antara header di system prompt vs di payload
4	Escaper bug ditemukan	Grid referencing mengalahkan inline referencing: 421T → 120T
5	Bukan silver bullet	MZ punya niche (flat data + agent IR), bukan universal winner

Format yang Dibandingkan

Format	Tipe	Keunggulan	Kelemahan
MarkZero (MZ)	Agent IR	1-token markers, flat data efficient, grid referencing	Nested structures boros
JSON	Human IR	Universal, nested support bagus	Verbose, banyak delimiter
Markdown	Human IR	Sangat compact untuk nested/hierarchical data	Tidak terstruktur, ambigu
TOON	Human IR	Indentation-based, ~30% lebih kecil dari JSON	Tidak ada Agent IR layer