TOON (Token-Oriented Object Notation) is a data serialization format designed specifically for LLM prompts to be highly efficient. It dramatically reduces token usage by 30-60% compared to JSON while remaining structured and human-readable. By using a tabular format for arrays and minimal syntax for objects, TOON makes your data cheaper and faster to process with AI models.

What's the difference between TOON and JSON?

The key difference is token efficiency. JSON is verbose, with brackets, quotes, and commas that consume tokens. TOON is a more compact syntax designed for LLMs, representing arrays as tables with headers and using minimal punctuation. This efficiency directly translates to significant cost savings on your LLM API bills, especially for large or repeated datasets.

How much can I save with TOON?

You can typically expect to save 30-60% on LLM tokens compared to using JSON. For large datasets or frequent API calls, this translates directly into significant cost savings. Data with repeated structures, like API responses or database results, often sees savings at the higher end of this range (40-60%).

Is TOON compatible with all LLMs?

Yes. TOON is a simple text format that works flawlessly with all major large language models, including those from OpenAI (GPT-4), Anthropic (Claude), Google (Gemini), and Meta (LLaMA). Since any LLM can process plain text, they can all be instructed to understand and parse the TOON format with a simple instruction in your prompt.

Can I convert TOON back to JSON?

Absolutely. TOON is fully and losslessly reversible. Our converter tool supports bidirectional conversion, meaning you can convert TOON back to the exact original JSON structure without any data loss. This allows you to use TOON for efficiency and then convert back to JSON for compatibility with other tools.

What types of data work best with TOON?

TOON can represent any valid JSON data, but it delivers the highest token savings (40-60%) on uniform tabular data. This includes database query results, API responses with lists of objects, analytics data, or product catalogs. While TOON fully supports nested objects and arrays, the token reduction is most dramatic with flatter, more repetitive data structures.

Is my data safe when using this converter?

100% safe. All conversion from JSON to TOON (and back) happens locally in your browser. Your data is never sent to any server, never stored, and never seen by us. The converter even works offline once the page has loaded, guaranteeing your information remains private.

Yes, completely free. Both this TOON converter and the underlying TOON format specification are open and free to use without any limits, file size restrictions, or premium features. It's an open-source effort to make working with LLMs more efficient for everyone.

Mengapa TOON Mengungguli Format Lain

LLM

Tolok ukur

LAP

Jika Anda membangun aplikasi LLM, khususnya sistem atau agen Retrieval-Augmented Generation (RAG) yang menggunakan kumpulan data besar, kemungkinan besar Anda akan terus berperang di dua sisi: biaya token dan batas jendela konteks.

Selama bertahun-tahun, JSON telah menjadi bahasa utama dalam pertukaran data. Ini dapat dibaca manusia (kebanyakan) dan ada di mana-mana. Namun saat Anda menempelkan array JSON 500 baris ke dalam prompt, Anda membakar ribuan token pada nama bidang berulang ("id":, "name":, "email":) yang tidak membawa nilai semantik untuk baris tertentu.

Masukkan TOON. Ini adalah format yang dirancang khusus untuk memecahkan masalah rasio signal-to-noise pada input LLM. Saya telah mempelajari tolok ukur terbaru, dan hasilnya mengejutkan: TOON tidak hanya menghemat ruang; ini sebenarnya membantu model seperti GPT-5-nano dan Gemini-2.5-flash memahami data lebih baik.

Mari kita uraikan mengapa TOON mengalahkan kelas berat (JSON, CSV, YAML, XML) dan lihat angka mentahnya.

Perangkap Verbositas: JSON vs. TOON

Musuh terbesar efisiensi token adalah pengulangan struktur. Mari kita lihat kumpulan data Analisis Rangkaian Waktu standar. Di JSON, setiap titik data membawa beban skemanya sendiri.

JSON (Standar) Token yang digunakan dalam benchmark: 22.250

Itu adalah banyak ruang yang terbuang. Sekarang, lihat padanannya TOON. TOON mendefinisikan skema sekali di header dan kemudian beralih ke tata letak gaya CSV yang padat untuk nilainya.

TERLALU Token yang digunakan dalam benchmark: 9.120

Hasilnya: Pengurangan besar-besaran sebesar 59,0% dalam penggunaan token.

Dengan menghapus kunci yang berulang, TOON memungkinkan Anda memasukkan lebih banyak riwayat ke dalam jendela konteks model. Namun yang terpenting, tidak seperti CSV, CSV mempertahankan kesadaran tipe dan struktur eksplisit melalui definisi header metrik[5]{...}.

Mengapa Tidak Menggunakan CSV Saja?

Ini adalah argumen tandingan yang paling umum. "Jika ingin data datar, gunakan saja CSV."

Masalahnya adalah data di dunia nyata jarang sekali yang benar-benar datar. CSV terurai sepenuhnya saat Anda memiliki struktur bertumpuk, daftar di dalam objek, atau deskripsi kompleks yang berisi koma dan tanda kutip.

Dalam tolok ukur, khususnya Jalur Struktur Campuran (yang mencakup pesanan e-niaga dan log peristiwa), CSV dikecualikan sepenuhnya karena tidak dapat mewakili data tanpa perataan yang merugikan.

TOON menangani ini dengan anggun. Ini memungkinkan objek bersarang sambil mengoptimalkan array. Dalam pengujian terhadap 100 repositori GitHub (yang berisi deskripsi teks campuran dan metadata), kesenjangan efisiensi terlihat jelas:

JSON: 15.145 token

TOON: 8.745 token (penghematan 42,3%)

Bahkan dibandingkan JSON Compact (diperkecil), TOON masih menghemat hampir 24% lebih banyak. Saat Anda membayar per juta token, itu adalah ROI langsung.

Akurasi: Pemenang Kejutan

Inilah bagian yang mengejutkan saya. Biasanya, saat Anda mengompresi data, Anda kehilangan kejelasan. Anda mungkin mengira LLM kesulitan mengurai format yang lebih padat. Tolok ukur menunjukkan sebaliknya.

Dari 209 pertanyaan pengambilan data yang diuji pada model seperti Claude Haiku, Gemini Flash, dan GPT-5-nano, TOON mencapai 73,9% akurasi pengambilan, dibandingkan dengan 69,7% JSON standar.

Mengapa? Kemungkinan besar ini disebabkan oleh Beban Kognitif (atau setara dengan LLM).

Lebih Sedikit Kebisingan: Model tidak harus menangani ribuan token "kunci" yang berulang. Nilai-nilai yang relevan saling berdekatan dalam mekanisme perhatian.

Metadata Eksplisit: Header TOON menyertakan jumlah ([N]) dan nama kolom secara eksplisit.

Kesadaran Struktur: Dalam pengujian yang menanyakan tentang struktur kumpulan data (misalnya, "Ada berapa baris?"), TOON mencapai akurasi 88%, sementara JSON dan XML tertinggal. Penghitungan eksplisit di header TOON (repositories[100]) bertindak sebagai petunjuk yang mencegah model harus "menghitung" token secara manual, yang mana LLM terkenal buruk dalam hal ini.

Kelelahan XML dan YAML

Kami harus menyebutkan secara singkat pesaing lainnya.

XML adalah pecundang besar di sini. Ini bertele-tele, sulit dibaca, dan mahal untuk diproses. Dalam tolok ukur, XML secara konsisten menggunakan token terbanyak (lebih dari 5.000 untuk kumpulan catatan karyawan seragam yang diwakili TOON dalam ~2.700) dan memiliki akurasi terendah (67,1%).

YAML berkinerja lebih baik daripada XML tetapi masih mengalami token bloat dibandingkan TOON. Meskipun YAML sangat bagus untuk file konfigurasi manusia, sifatnya yang sensitif terhadap spasi dan pengulangan kunci membuatnya kurang optimal untuk konteks data bervolume tinggi. Dalam pengujian "Pesanan e-commerce", YAML menggunakan ~14% lebih banyak token dibandingkan TOON.

Kapan Harus Beralih?

Datanya cukup meyakinkan. Jika Anda berurusan dengan:

Daftar Objek: Log, riwayat transaksi, hasil pencarian, atau katalog produk.

RAG Pipelines: Tempat Anda mengambil potongan data dari DB untuk dimasukkan ke dalam prompt.

API Volume Tinggi: Ketika bandwidth dan latensi penting.

TOON menawarkan skenario "terbaik dari kedua dunia". Anda mendapatkan kepadatan CSV dengan integritas struktural JSON.

Dalam tolok ukur, GPT-5-nano mencapai akurasi 90,9% yang mengejutkan pada data berformat TOON. Hal ini menunjukkan bahwa model yang lebih baru dan lebih cerdas menjadi semakin mahir dalam mengurai format yang dioptimalkan ini, yang berarti "penalti keterbacaan" karena beralih dari JSON sama sekali tidak ada bagi mesin.

Jika Anda masih memformat konteks RAG sebagai JSON.stringify(data, null, 2), Anda secara efektif membayar "pajak keterbacaan" pada setiap panggilan API. Mungkin sudah waktunya untuk beralih format.