MarkZero Spec

Markup is for Screens. Markdown is for Docs. MarkZero is for Intelligence.

MarkZero adalah format data yang dioptimalkan untuk AI agents. Bukan Human IR — Agent IR. Setiap marker = 1 token, empirically tested di 9 models.

Ringkasan

MarkZero (MZ) lahir dari kebutuhan agent untuk berkomunikasi dengan data secara efisien. Bukan sekadar kompresi — tapi representasi yang native dipahami oleh LLM. Semua marker telah divalidasi secara empiris melalui live API di 9 model berbeda.

Total waktu evolusi dari PAP ke MarkZero v1: ~2-3 minggu (Mei 2026).

Evolusi Marker

Setiap fase mengorbankan "keindahan" demi "efisiensi", dari filosofis ke empiris.

Fase 0: Pre-PAP

Unicode name = function. Dibatalkan — tokenizer pecah jadi 2-3 tokens.

Fase 1: PAP v1

Semantic Unicode. Filosofis indah, tapi token fragmented.

Fase 2: Initial MarkZero

Circled letters. Offline testing terlihat bagus, bukan ground truth.

Fase 3: v1 Final

Universal symbols. Live API testing di 9 models. Ground truth.

MarkZero v1 Final Markers

Semua marker berikut telah diuji secara empiris di live model API (MiMo, DeepSeek, Grok, GLM-5.1, Qwen3.6, Hy3, Kimi-K2.6, Nex-N2).

Char Role Token Cost Keterangan
· Value +1 Prefix nilai/data
§ Column +1 Prefix kolom/grid
Row +1 Prefix baris data
¦ Row Separator +1 Pemisah antar baris
Bind +1 Relasi/pengikat data
¤ Value Ref +1 Referensi ke nilai lain
Grid Ref +1 Referensi ke grid lain
True +1 Nilai boolean true
False +1 Nilai boolean false
Null +1 Nilai kosong/null
ɛ Escaper +1 Escape character untuk special chars
М Envelope Start +1 Pembuka envelope MZ
О Envelope Close +1 Penutup envelope MZ

Catatan: Grid marker juga diuji dan lolos +1 token di semua model kecuali Hy3 (+2).

Envelope Format: М/О

Setiap payload MarkZero dibungkus dalam envelope М (start) dan О (close). Ini memungkinkan deteksi otomatis MZ payload — baik oleh agent maupun oleh infrastruktur seperti ASSHD.

М
§col1 §col2 §col3
→val1 ·val2 ·val3
→val4 ·val5 ·val6
О

Envelope markers juga 1-token setiap model yang diuji.

Inline Decoder Header

Header decoder bisa ditempel langsung di payload (di dalam envelope) untuk self-describing format. Penempatan header di payload (bukan system prompt) terbukti 5.4x lebih efisien.

М
# MZ v1 — columns: name,age,city
→Alice ·30 ·Jakarta
→Bob ·25 ·Bandung
О

Encode & Decode

MarkZero punya reference implementation di @pakakas/markzero dengan dukungan encode dan decode penuh.

# Coming soon to npm
# Source: https://github.com/yus-ham/maintenis

Contoh Penggunaan

import { encode, decode } from '@pakakas/markzero';

// Encode data ke MarkZero format
const mz = encode({
  columns: ['name', 'age', 'city'],
  rows: [
    ['Alice', 30, 'Jakarta'],
    ['Bob', 25, 'Bandung']
  ]
});

// Decode MarkZero kembali ke data
const data = decode(mz);

Fitur Encoder

  • Value interning — nilai berulang direferensikan, bukan diulang
  • Grid referencing — data nested direferensikan ke grid terpisah
  • Escaper (ɛ) — handle special characters tanpa ambigu
  • Envelope (М/О) — auto-detectable wrapper

Token Efficiency

Flat Data

Menang 28.6% vs JSON (Java OOM scenario, 137T vs 192T)

Stack Traces

11-29% lebih kecil dari JSON (PHP, Rust, Zig)

LLM Reasoning

687 tokens vs 928 (JSON compact) — terbaik dalam benchmark MiMo

9 Models Tested

Semua 14 marker = 1 token di MiMo, DeepSeek, Grok, GLM, Qwen, Hy3, Kimi, Nex

Arsitektur: MarkZero di Ekosistem

MainTenis  (The Actor)    — Bootstrapper
MarkZero   (The DNA)      — Agent IR, representasi data murni
iMZHAO     (The Muscle)   — Operasional, eksekusi aksi agen
SLOP       (The Eyes)     — App-level perception
CLAI       (The Hands)    — Pipeline architecture

MarkZero adalah layer data di dalam arsitektur Maintenis. Bukan protocol, bukan tool — tapi representasi data murni yang dipakai oleh semua komponen lain.