Agent IR

Intermediate Representation yang dioptimalkan untuk AI agents — bukan untuk mata manusia.

Apa itu Agent IR?

Agent IR (Agent Intermediate Representation) adalah konsep format data yang dirancang dari awal untuk dikonsumsi oleh AI agents, bukan oleh manusia. Di ekosistem Maintenis, Agent IR diimplementasikan lewat dua komponen:

"Markup is for Screens. Markdown is for Docs. MarkZero is for Intelligence."

Agent IR vs Human IR

Sebagian besar format data yang ada saat ini — JSON, XML, YAML, Markdown, bahkan format-format baru seperti TOON, ONTO, JTON, dan TERSE — masih merupakan Human IR. Mereka menggunakan visual delimiters (kurung, titik dua, indentasi) yang dirancang agar manusia bisa membaca dan memahami struktur data secara visual.

Agent IR mengambil pendekatan berbeda: flat relational referencing. Alih-alih delimiter visual, data direpresentasikan dengan referensi dan marker yang dioptimalkan untuk tokenisasi LLM.

Aspek Human IR (JSON, TOON, ONTO, dll) Agent IR (ADN/MarkZero)
Desain untuk Mata manusia LLM tokenizer
Struktur Visual delimiters (kurung, indentasi) Flat relational references
Marker Karakter multi-token Simbol 1-token (empiris)
Redundansi Key berulang di setiap objek Column interning (schema-once)
Keterbacaan manusia Tinggi Rendah (by design)
Token efficiency Baseline 26-71% lebih kecil dari JSON

ADN Markers

ADN menggunakan simbol-simbol yang diuji secara empiris di 9 model LLM berbeda untuk memastikan setiap marker bernilai tepat 1 token. Ini bukan tebakan — ini data dari live API testing.

Marker Utama (v1 Final)

Simbol Fungsi Token Cost
·Value+1
Grid+1
§Column+1
Row+1
¦Row Separator+1
Bind+1
¤Value Reference+1
Grid Reference+1
True+1
False+1
Null+1
ɛEscaper+1
МEnvelope Start+1
ОEnvelope Close+1

Evolusi Marker

Marker ADN tidak lahir langsung dalam bentuk final. Ada 4 fase evolusi:

  1. Fase 0 — Unicode Name = Function: Pakai karakter Unicode yang nama-nya = fungsi (misal = VERSICLE untuk value). Dibatalkan karena tokenizer pecah jadi 2-3 tokens.
  2. Fase 1 — Semantic Unicode (PAP): Pilihan lebih murah, tapi masih "philosophically beautiful, suffered heavy token fragmentation."
  3. Fase 2 — Circled Letters: Lebih compact, diuji offline. Tapi offline testing bukan ground truth.
  4. Fase 3 — MarkZero v1 Final: Simbol universal, diuji dengan live model API di 9 models. Ground truth.

Setiap fase mengorbankan "keindahan" demi "efisiensi" — dari filosofis ke empiris.

Token Efficiency

Benchmark dilakukan dengan dua metode: static analysis dan live LLM reasoning.

Static Analysis (Token Count)

Skenario MarkZero JSON Markdown Gain
Java OOM (flat, repeated) 137T 192T 154T +28.6%
Zig stack trace 47T 51T 52T +9.6%
PHP stack trace 54T 61T 61T +11.5%
Rust stack trace 64T 71T 70T +9.9%

Pattern: MarkZero menang di flat/repeated data berkat value interning. Di nested structures yang sangat dalam, format lain mungkin lebih optimal.

LLM Reasoning Benchmark (MiMo — AST Node Repair)

Format Total Tokens Latency Status
JSON compact 928 23.6s Baseline
MZ Header English (payload) 687 11.1s Terbaik
TOON 805 16.3s Competitor
MZ Header (system prompt) 3,733 108s Terburuk

Critical finding: Penempatan header MarkZero sangat kritis. Format yang sama menghasilkan perbedaan 5.4x — di payload = 687 tokens (terbaik), di system prompt = 3,733 tokens (terburuk).

Arsitektur di Ekosistem Maintenis

Agent IR (MarkZero/ADN) adalah DNA dari keseluruhan ekosistem Maintenis. Semua komponen berkomunikasi lewat format ini:

MainTenis  (The Actor)    — Bootstrapper, yang ngejalanin semuanya
MarkZero   (The DNA)      — Agent IR, representasi data murni
iMZHAO     (The Muscle)   — Operasional, eksekusi aksi agen
SLOP       (The Eyes)     — App-level perception, state observation
CLAI       (The Hands)    — Command Line Agent Interface, pipeline

Shell tool output di-encode otomatis ke MarkZero format. CLAI pipeline memproses data lewat transport → entity → filter → transport. Semua berbicara dalam satu bahasa: Agent IR.

Mengapa Ini Penting?

Di tahun 2026, format-format token-efficient bermunculan (TOON, ONTO, JTON, TERSE). Semuanya mengurangi token dibanding JSON. Tapi semuanya masih Human IR — pakai delimiter visual yang dirancang untuk keterbacaan manusia.

Agent IR mengajukan pertanyaan fundamental: kalau yang membaca data adalah AI, kenapa kita masih pakai format yang dirancang untuk mata manusia?

"Agent IR: Data format yang dioptimalkan untuk AI, bukan untuk mata manusia. 26-71% lebih efisien dari JSON."

Dengan MarkZero, LLM tidak perlu mem-parsing delimiter visual. Data langsung terstruktur dalam representasi yang bisa langsung diproses — mengurangi token, mengurangi latency, mengurangi ambiguitas.

Selanjutnya