TOON (Token-Oriented Object Notation) is a data serialization format designed specifically for LLM prompts to be highly efficient. It dramatically reduces token usage by 30-60% compared to JSON while remaining structured and human-readable. By using a tabular format for arrays and minimal syntax for objects, TOON makes your data cheaper and faster to process with AI models.

What's the difference between TOON and JSON?

The key difference is token efficiency. JSON is verbose, with brackets, quotes, and commas that consume tokens. TOON is a more compact syntax designed for LLMs, representing arrays as tables with headers and using minimal punctuation. This efficiency directly translates to significant cost savings on your LLM API bills, especially for large or repeated datasets.

How much can I save with TOON?

You can typically expect to save 30-60% on LLM tokens compared to using JSON. For large datasets or frequent API calls, this translates directly into significant cost savings. Data with repeated structures, like API responses or database results, often sees savings at the higher end of this range (40-60%).

Is TOON compatible with all LLMs?

Yes. TOON is a simple text format that works flawlessly with all major large language models, including those from OpenAI (GPT-4), Anthropic (Claude), Google (Gemini), and Meta (LLaMA). Since any LLM can process plain text, they can all be instructed to understand and parse the TOON format with a simple instruction in your prompt.

Can I convert TOON back to JSON?

Absolutely. TOON is fully and losslessly reversible. Our converter tool supports bidirectional conversion, meaning you can convert TOON back to the exact original JSON structure without any data loss. This allows you to use TOON for efficiency and then convert back to JSON for compatibility with other tools.

What types of data work best with TOON?

TOON can represent any valid JSON data, but it delivers the highest token savings (40-60%) on uniform tabular data. This includes database query results, API responses with lists of objects, analytics data, or product catalogs. While TOON fully supports nested objects and arrays, the token reduction is most dramatic with flatter, more repetitive data structures.

Is my data safe when using this converter?

100% safe. All conversion from JSON to TOON (and back) happens locally in your browser. Your data is never sent to any server, never stored, and never seen by us. The converter even works offline once the page has loaded, guaranteeing your information remains private.

Yes, completely free. Both this TOON converter and the underlying TOON format specification are open and free to use without any limits, file size restrictions, or premium features. It's an open-source effort to make working with LLMs more efficient for everyone.

เหตุใด TOON จึงมีประสิทธิภาพเหนือกว่ารูปแบบอื่นๆ

นิติศาสตร์มหาบัณฑิต

เกณฑ์มาตรฐาน

เศษผ้า

หากคุณกำลังสร้างแอปพลิเคชัน LLM โดยเฉพาะระบบการดึงข้อมูล-Augmented Generation (RAG) หรือเอเจนต์ที่ใช้ชุดข้อมูลขนาดใหญ่ มีแนวโน้มว่าคุณกำลังต่อสู้กับสงครามที่เกิดขึ้นอย่างต่อเนื่องในสองด้าน: ต้นทุนโทเค็น และ ขีดจำกัดหน้าต่างบริบท

เป็นเวลาหลายปีแล้วที่ JSON เป็นภาษากลางเริ่มต้นของการแลกเปลี่ยนข้อมูล เป็นสิ่งที่มนุษย์สามารถอ่านได้ (ส่วนใหญ่) และแพร่หลาย แต่เมื่อคุณวางอาร์เรย์ JSON จำนวน 500 แถวลงในพรอมต์ คุณกำลังเบิร์นโทเค็นหลายพันรายการในชื่อฟิลด์ที่ซ้ำกัน ("id":, "name":, "email":) ที่มีค่าความหมายเป็นศูนย์สำหรับแถวที่ระบุ

ป้อน ตูน เป็นรูปแบบที่ออกแบบมาเพื่อแก้ปัญหาอัตราส่วนสัญญาณต่อเสียงรบกวนในอินพุต LLM โดยเฉพาะ ฉันได้เจาะลึกถึงเกณฑ์มาตรฐานล่าสุด และผลลัพธ์ที่ได้ก็น่าตกใจ: TOON ไม่เพียงแต่ประหยัดพื้นที่เท่านั้น จริงๆ แล้วช่วยให้โมเดลอย่าง GPT-5-nano และ Gemini-2.5-flash เข้าใจข้อมูล better ได้จริง

เรามาดูรายละเอียดว่าทำไม TOON ถึงเอาชนะรุ่นใหญ่ (JSON, CSV, YAML, XML) และดูที่ตัวเลขดิบ

กับดักการใช้คำฟุ่มเฟือย: JSON กับ TOON

ศัตรูที่ใหญ่ที่สุดของประสิทธิภาพของโทเค็นคือการทำซ้ำโครงสร้าง มาดูชุดข้อมูล Time-Series Analytics มาตรฐานกัน ใน JSON จุดข้อมูลทุกจุดจะบรรทุกสัมภาระของสคีมาของมัน

JSON (มาตรฐาน) โทเค็นที่ใช้ในการวัดประสิทธิภาพ: 22,250

นั่นเป็นการเปลืองพื้นที่มาก ทีนี้ลองดู TOON ที่เทียบเท่ากัน TOON กำหนดสคีมาหนึ่งครั้งในส่วนหัว จากนั้นสลับไปใช้เค้าโครงสไตล์ CSV ที่หนาแน่นสำหรับค่า

ตูน โทเค็นที่ใช้ในการวัดประสิทธิภาพ: 9,120

ผลลัพธ์: ลดลงอย่างมาก 59.0% ในการใช้โทเค็น

การลบคีย์ที่ทำซ้ำออกไป TOON ช่วยให้คุณสามารถใส่ประวัติลงในหน้าต่างบริบทของโมเดลได้มากขึ้น แต่ที่สำคัญ ไม่เหมือนกับ CSV ตรงที่จะรักษาการรับรู้ประเภทและโครงสร้างที่ชัดเจนผ่านคำจำกัดความของส่วนหัว metrics[5]{...}

ทำไมไม่เพียงแค่ใช้ CSV?

นี่เป็นข้อโต้แย้งที่พบบ่อยที่สุด "หากคุณต้องการข้อมูลแบบเรียบ เพียงใช้ CSV"

ปัญหาก็คือว่าข้อมูลในโลกแห่งความเป็นจริงนั้นไม่ค่อยจะราบเรียบอย่างสมบูรณ์แบบ CSV จะแยกย่อยทันทีที่คุณมีโครงสร้างที่ซ้อนกัน รายการภายในวัตถุ หรือคำอธิบายที่ซับซ้อนที่มีเครื่องหมายจุลภาคและเครื่องหมายคำพูด

ในการวัดประสิทธิภาพ โดยเฉพาะ เส้นทางโครงสร้างแบบผสม (ซึ่งรวมถึงคำสั่งซื้ออีคอมเมิร์ซและบันทึกเหตุการณ์) CSV ได้รับการยกเว้นทั้งหมด เนื่องจากไม่สามารถแสดงข้อมูลโดยไม่ทำให้สูญเสียข้อมูล

TOON จัดการเรื่องนี้อย่างสง่างาม อนุญาตให้ใช้วัตถุที่ซ้อนกันในขณะที่ปรับอาร์เรย์ให้เหมาะสม ในการทดสอบที่เก็บ GitHub 100 แห่ง (ซึ่งมีคำอธิบายข้อความผสมและข้อมูลเมตา) ช่องว่างด้านประสิทธิภาพมีความชัดเจน:

JSON: 15,145 โทเค็น

TOON: 8,745 โทเค็น (ประหยัด 42.3%)

แม้จะเทียบกับ JSON Compact (ย่อเล็กสุด) TOON ก็ยังประหยัดได้มากกว่าเกือบ 24% เมื่อคุณจ่ายต่อล้านโทเค็น นั่นคือ ROI ทันที

ความแม่นยำ: ผู้ชนะที่น่าประหลาดใจ

นี่คือส่วนที่ทำให้ฉันประหลาดใจ โดยปกติแล้ว เมื่อคุณบีบอัดข้อมูล คุณจะสูญเสียความชัดเจน คุณคงคาดหวังว่า LLM จะต้องดิ้นรนเพื่อแยกวิเคราะห์รูปแบบที่หนาแน่นยิ่งขึ้น เกณฑ์มาตรฐานแสดงให้เห็นสิ่งที่ตรงกันข้าม

จากคำถามในการเรียกข้อมูล 209 ข้อที่ทดสอบกับโมเดลอย่าง Claude Haiku, Gemini Flash และ GPT-5-nano TOON ได้รับความแม่นยำในการเรียกข้อมูล 73.9% เมื่อเทียบกับ JSON มาตรฐาน 69.7%

ทำไม อาจขึ้นอยู่กับ ภาระทางความรู้ความเข้าใจ (หรือเทียบเท่า LLM)

สัญญาณรบกวนน้อยลง: โมเดลไม่จำเป็นต้องดูแลโทเค็น "คีย์" ที่ซ้ำกันหลายพันรายการ ค่าที่เกี่ยวข้องจะอยู่ใกล้กันมากขึ้นในกลไกความสนใจ

ข้อมูลเมตาที่ชัดเจน: ส่วนหัวของ TOON มีการนับ ([N]) และชื่อฟิลด์อย่างชัดเจน

การรับรู้ถึงโครงสร้าง: ในการทดสอบที่ถามเกี่ยวกับโครงสร้างชุดข้อมูล (เช่น "มีกี่แถว?") TOON มีความแม่นยำ 88% ในขณะที่ JSON และ XML ล้าหลัง การนับที่ชัดเจนในส่วนหัว TOON (repositories[100]) ทำหน้าที่เป็นคำใบ้ที่ป้องกันไม่ให้โมเดลไม่ต้อง "นับ" โทเค็นด้วยตนเอง ซึ่ง LLM มีชื่อเสียงในด้านที่ไม่ดี

ความเหนื่อยล้าของ XML และ YAML

เราควรพูดถึงผู้แข่งขันรายอื่นโดยย่อ

XML เป็นผู้แพ้หนักที่นี่ เป็นเนื้อหาที่มีรายละเอียด อ่านยาก และมีค่าใช้จ่ายสูงในการดำเนินการ ในการวัดประสิทธิภาพ XML ใช้โทเค็นส่วนใหญ่อย่างต่อเนื่อง (มากกว่า 5,000 รายการสำหรับชุดบันทึกพนักงานแบบเดียวกันที่ TOON คิดเป็น ~ 2,700) และมีความแม่นยำต่ำที่สุด (67.1%)

YAML ทำงานได้ดีกว่า XML แต่ยังคงประสบปัญหาโทเค็นขยายตัวเมื่อเทียบกับ TOON แม้ว่า YAML จะเหมาะสำหรับไฟล์การกำหนดค่าของมนุษย์ แต่ลักษณะที่ไวต่อช่องว่างและการทำซ้ำคีย์ทำให้ไม่เหมาะสมสำหรับบริบทข้อมูลที่มีปริมาณมาก ในการทดสอบ "คำสั่งซื้ออีคอมเมิร์ซ" YAML ใช้โทเค็นมากกว่า TOON ประมาณ 14%

เมื่อไหร่จะเปลี่ยน?

ข้อมูลค่อนข้างสรุปได้ หากคุณกำลังเผชิญกับ:

รายการออบเจ็กต์: บันทึก ประวัติการทำธุรกรรม ผลการค้นหา หรือแค็ตตาล็อกผลิตภัณฑ์

ท่อส่ง RAG: ที่ที่คุณดึงข้อมูลจากฐานข้อมูลเพื่อป้อนเข้าสู่พร้อมท์

API ปริมาณสูง: ในกรณีที่แบนด์วิธและเวลาในการตอบสนองมีความสำคัญ

TOON นำเสนอสถานการณ์ที่ "ดีที่สุดทั้งสองโลก" คุณได้รับความหนาแน่นของ CSV ด้วยความสมบูรณ์ของโครงสร้างของ JSON

ในการวัดประสิทธิภาพ GPT-5-nano ได้รับความแม่นยำ 90.9% ที่น่าทึ่งกับข้อมูลที่จัดรูปแบบ TOON สิ่งนี้ชี้ให้เห็นว่าโมเดลที่ใหม่กว่าและชาญฉลาดกว่ากำลังมีความเชี่ยวชาญมากขึ้นในการแยกวิเคราะห์รูปแบบที่ได้รับการปรับปรุงเหล่านี้ ซึ่งหมายความว่า "การลดความสามารถในการอ่าน" ของการย้ายออกจาก JSON จะเป็นศูนย์อย่างมีประสิทธิภาพสำหรับเครื่อง

หากคุณยังคงจัดรูปแบบบริบท RAG ของคุณเป็น JSON.stringify(data, null, 2) แสดงว่าคุณกำลังจ่าย "ภาษีความสามารถในการอ่าน" สำหรับการเรียก API ทุกครั้ง อาจถึงเวลาที่ต้องเปลี่ยนรูปแบบ