Mengapa TOON Mengungguli Format Lain
Jika Anda membangun aplikasi LLM, khususnya sistem atau agen Retrieval-Augmented Generation (RAG) yang menggunakan kumpulan data besar, kemungkinan besar Anda akan terus berperang di dua sisi: biaya token dan batas jendela konteks.
Selama bertahun-tahun, JSON telah menjadi bahasa utama dalam pertukaran data. Ini dapat dibaca manusia (kebanyakan) dan ada di mana-mana. Namun saat Anda menempelkan array JSON 500 baris ke dalam prompt, Anda membakar ribuan token pada nama bidang berulang ("id":, "name":, "email":) yang tidak membawa nilai semantik untuk baris tertentu.
Masukkan TOON. Ini adalah format yang dirancang khusus untuk memecahkan masalah rasio signal-to-noise pada input LLM. Saya telah mempelajari tolok ukur terbaru, dan hasilnya mengejutkan: TOON tidak hanya menghemat ruang; ini sebenarnya membantu model seperti GPT-5-nano dan Gemini-2.5-flash memahami data lebih baik.
Mari kita uraikan mengapa TOON mengalahkan kelas berat (JSON, CSV, YAML, XML) dan lihat angka mentahnya.
Perangkap Verbositas: JSON vs. TOON
Musuh terbesar efisiensi token adalah pengulangan struktur. Mari kita lihat kumpulan data Analisis Rangkaian Waktu standar. Di JSON, setiap titik data membawa beban skemanya sendiri.
JSON (Standar) Token yang digunakan dalam benchmark: 22.250
Itu adalah banyak ruang yang terbuang. Sekarang, lihat padanannya TOON. TOON mendefinisikan skema sekali di header dan kemudian beralih ke tata letak gaya CSV yang padat untuk nilainya.
TERLALU Token yang digunakan dalam benchmark: 9.120
Hasilnya: Pengurangan besar-besaran sebesar 59,0% dalam penggunaan token.
Dengan menghapus kunci yang berulang, TOON memungkinkan Anda memasukkan lebih banyak riwayat ke dalam jendela konteks model. Namun yang terpenting, tidak seperti CSV, CSV mempertahankan kesadaran tipe dan struktur eksplisit melalui definisi header metrik[5]{...}.
Mengapa Tidak Menggunakan CSV Saja?
Ini adalah argumen tandingan yang paling umum. "Jika ingin data datar, gunakan saja CSV."
Masalahnya adalah data di dunia nyata jarang sekali yang benar-benar datar. CSV terurai sepenuhnya saat Anda memiliki struktur bertumpuk, daftar di dalam objek, atau deskripsi kompleks yang berisi koma dan tanda kutip.
Dalam tolok ukur, khususnya Jalur Struktur Campuran (yang mencakup pesanan e-niaga dan log peristiwa), CSV dikecualikan sepenuhnya karena tidak dapat mewakili data tanpa perataan yang merugikan.
TOON menangani ini dengan anggun. Ini memungkinkan objek bersarang sambil mengoptimalkan array. Dalam pengujian terhadap 100 repositori GitHub (yang berisi deskripsi teks campuran dan metadata), kesenjangan efisiensi terlihat jelas:
- JSON: 15.145 token
- TOON: 8.745 token (penghematan 42,3%)
Bahkan dibandingkan JSON Compact (diperkecil), TOON masih menghemat hampir 24% lebih banyak. Saat Anda membayar per juta token, itu adalah ROI langsung.
Akurasi: Pemenang Kejutan
Inilah bagian yang mengejutkan saya. Biasanya, saat Anda mengompresi data, Anda kehilangan kejelasan. Anda mungkin mengira LLM kesulitan mengurai format yang lebih padat. Tolok ukur menunjukkan sebaliknya.
Dari 209 pertanyaan pengambilan data yang diuji pada model seperti Claude Haiku, Gemini Flash, dan GPT-5-nano, TOON mencapai 73,9% akurasi pengambilan, dibandingkan dengan 69,7% JSON standar.
Mengapa? Kemungkinan besar ini disebabkan oleh Beban Kognitif (atau setara dengan LLM).
- Lebih Sedikit Kebisingan: Model tidak harus menangani ribuan token
"kunci"yang berulang. Nilai-nilai yang relevan saling berdekatan dalam mekanisme perhatian.
- Metadata Eksplisit: Header TOON menyertakan jumlah (
[N]) dan nama kolom secara eksplisit.
- Kesadaran Struktur: Dalam pengujian yang menanyakan tentang struktur kumpulan data (misalnya, "Ada berapa baris?"), TOON mencapai akurasi 88%, sementara JSON dan XML tertinggal. Penghitungan eksplisit di header TOON (
repositories[100]) bertindak sebagai petunjuk yang mencegah model harus "menghitung" token secara manual, yang mana LLM terkenal buruk dalam hal ini.
Kelelahan XML dan YAML
Kami harus menyebutkan secara singkat pesaing lainnya.
XML adalah pecundang besar di sini. Ini bertele-tele, sulit dibaca, dan mahal untuk diproses. Dalam tolok ukur, XML secara konsisten menggunakan token terbanyak (lebih dari 5.000 untuk kumpulan catatan karyawan seragam yang diwakili TOON dalam ~2.700) dan memiliki akurasi terendah (67,1%).
YAML berkinerja lebih baik daripada XML tetapi masih mengalami token bloat dibandingkan TOON. Meskipun YAML sangat bagus untuk file konfigurasi manusia, sifatnya yang sensitif terhadap spasi dan pengulangan kunci membuatnya kurang optimal untuk konteks data bervolume tinggi. Dalam pengujian "Pesanan e-commerce", YAML menggunakan ~14% lebih banyak token dibandingkan TOON.
Kapan Harus Beralih?
Datanya cukup meyakinkan. Jika Anda berurusan dengan:
- Daftar Objek: Log, riwayat transaksi, hasil pencarian, atau katalog produk.
- RAG Pipelines: Tempat Anda mengambil potongan data dari DB untuk dimasukkan ke dalam prompt.
- API Volume Tinggi: Ketika bandwidth dan latensi penting.
TOON menawarkan skenario "terbaik dari kedua dunia". Anda mendapatkan kepadatan CSV dengan integritas struktural JSON.
Dalam tolok ukur, GPT-5-nano mencapai akurasi 90,9% yang mengejutkan pada data berformat TOON. Hal ini menunjukkan bahwa model yang lebih baru dan lebih cerdas menjadi semakin mahir dalam mengurai format yang dioptimalkan ini, yang berarti "penalti keterbacaan" karena beralih dari JSON sama sekali tidak ada bagi mesin.
Jika Anda masih memformat konteks RAG sebagai JSON.stringify(data, null, 2), Anda secara efektif membayar "pajak keterbacaan" pada setiap panggilan API. Mungkin sudah waktunya untuk beralih format.