เหตุใด TOON จึงมีประสิทธิภาพเหนือกว่ารูปแบบอื่นๆ
หากคุณกำลังสร้างแอปพลิเคชัน LLM โดยเฉพาะระบบการดึงข้อมูล-Augmented Generation (RAG) หรือเอเจนต์ที่ใช้ชุดข้อมูลขนาดใหญ่ มีแนวโน้มว่าคุณกำลังต่อสู้กับสงครามที่เกิดขึ้นอย่างต่อเนื่องในสองด้าน: ต้นทุนโทเค็น และ ขีดจำกัดหน้าต่างบริบท
เป็นเวลาหลายปีแล้วที่ JSON เป็นภาษากลางเริ่มต้นของการแลกเปลี่ยนข้อมูล เป็นสิ่งที่มนุษย์สามารถอ่านได้ (ส่วนใหญ่) และแพร่หลาย แต่เมื่อคุณวางอาร์เรย์ JSON จำนวน 500 แถวลงในพรอมต์ คุณกำลังเบิร์นโทเค็นหลายพันรายการในชื่อฟิลด์ที่ซ้ำกัน ("id":, "name":, "email":) ที่มีค่าความหมายเป็นศูนย์สำหรับแถวที่ระบุ
ป้อน ตูน เป็นรูปแบบที่ออกแบบมาเพื่อแก้ปัญหาอัตราส่วนสัญญาณต่อเสียงรบกวนในอินพุต LLM โดยเฉพาะ ฉันได้เจาะลึกถึงเกณฑ์มาตรฐานล่าสุด และผลลัพธ์ที่ได้ก็น่าตกใจ: TOON ไม่เพียงแต่ประหยัดพื้นที่เท่านั้น จริงๆ แล้วช่วยให้โมเดลอย่าง GPT-5-nano และ Gemini-2.5-flash เข้าใจข้อมูล better ได้จริง
เรามาดูรายละเอียดว่าทำไม TOON ถึงเอาชนะรุ่นใหญ่ (JSON, CSV, YAML, XML) และดูที่ตัวเลขดิบ
กับดักการใช้คำฟุ่มเฟือย: JSON กับ TOON
ศัตรูที่ใหญ่ที่สุดของประสิทธิภาพของโทเค็นคือการทำซ้ำโครงสร้าง มาดูชุดข้อมูล Time-Series Analytics มาตรฐานกัน ใน JSON จุดข้อมูลทุกจุดจะบรรทุกสัมภาระของสคีมาของมัน
JSON (มาตรฐาน) โทเค็นที่ใช้ในการวัดประสิทธิภาพ: 22,250
นั่นเป็นการเปลืองพื้นที่มาก ทีนี้ลองดู TOON ที่เทียบเท่ากัน TOON กำหนดสคีมาหนึ่งครั้งในส่วนหัว จากนั้นสลับไปใช้เค้าโครงสไตล์ CSV ที่หนาแน่นสำหรับค่า
ตูน โทเค็นที่ใช้ในการวัดประสิทธิภาพ: 9,120
ผลลัพธ์: ลดลงอย่างมาก 59.0% ในการใช้โทเค็น
การลบคีย์ที่ทำซ้ำออกไป TOON ช่วยให้คุณสามารถใส่ประวัติลงในหน้าต่างบริบทของโมเดลได้มากขึ้น แต่ที่สำคัญ ไม่เหมือนกับ CSV ตรงที่จะรักษาการรับรู้ประเภทและโครงสร้างที่ชัดเจนผ่านคำจำกัดความของส่วนหัว metrics[5]{...}
ทำไมไม่เพียงแค่ใช้ CSV?
นี่เป็นข้อโต้แย้งที่พบบ่อยที่สุด "หากคุณต้องการข้อมูลแบบเรียบ เพียงใช้ CSV"
ปัญหาก็คือว่าข้อมูลในโลกแห่งความเป็นจริงนั้นไม่ค่อยจะราบเรียบอย่างสมบูรณ์แบบ CSV จะแยกย่อยทันทีที่คุณมีโครงสร้างที่ซ้อนกัน รายการภายในวัตถุ หรือคำอธิบายที่ซับซ้อนที่มีเครื่องหมายจุลภาคและเครื่องหมายคำพูด
ในการวัดประสิทธิภาพ โดยเฉพาะ เส้นทางโครงสร้างแบบผสม (ซึ่งรวมถึงคำสั่งซื้ออีคอมเมิร์ซและบันทึกเหตุการณ์) CSV ได้รับการยกเว้นทั้งหมด เนื่องจากไม่สามารถแสดงข้อมูลโดยไม่ทำให้สูญเสียข้อมูล
TOON จัดการเรื่องนี้อย่างสง่างาม อนุญาตให้ใช้วัตถุที่ซ้อนกันในขณะที่ปรับอาร์เรย์ให้เหมาะสม ในการทดสอบที่เก็บ GitHub 100 แห่ง (ซึ่งมีคำอธิบายข้อความผสมและข้อมูลเมตา) ช่องว่างด้านประสิทธิภาพมีความชัดเจน:
- JSON: 15,145 โทเค็น
- TOON: 8,745 โทเค็น (ประหยัด 42.3%)
แม้จะเทียบกับ JSON Compact (ย่อเล็กสุด) TOON ก็ยังประหยัดได้มากกว่าเกือบ 24% เมื่อคุณจ่ายต่อล้านโทเค็น นั่นคือ ROI ทันที
ความแม่นยำ: ผู้ชนะที่น่าประหลาดใจ
นี่คือส่วนที่ทำให้ฉันประหลาดใจ โดยปกติแล้ว เมื่อคุณบีบอัดข้อมูล คุณจะสูญเสียความชัดเจน คุณคงคาดหวังว่า LLM จะต้องดิ้นรนเพื่อแยกวิเคราะห์รูปแบบที่หนาแน่นยิ่งขึ้น เกณฑ์มาตรฐานแสดงให้เห็นสิ่งที่ตรงกันข้าม
จากคำถามในการเรียกข้อมูล 209 ข้อที่ทดสอบกับโมเดลอย่าง Claude Haiku, Gemini Flash และ GPT-5-nano TOON ได้รับความแม่นยำในการเรียกข้อมูล 73.9% เมื่อเทียบกับ JSON มาตรฐาน 69.7%
ทำไม อาจขึ้นอยู่กับ ภาระทางความรู้ความเข้าใจ (หรือเทียบเท่า LLM)
- สัญญาณรบกวนน้อยลง: โมเดลไม่จำเป็นต้องดูแลโทเค็น
"คีย์"ที่ซ้ำกันหลายพันรายการ ค่าที่เกี่ยวข้องจะอยู่ใกล้กันมากขึ้นในกลไกความสนใจ
- ข้อมูลเมตาที่ชัดเจน: ส่วนหัวของ TOON มีการนับ (
[N]) และชื่อฟิลด์อย่างชัดเจน
- การรับรู้ถึงโครงสร้าง: ในการทดสอบที่ถามเกี่ยวกับโครงสร้างชุดข้อมูล (เช่น "มีกี่แถว?") TOON มีความแม่นยำ 88% ในขณะที่ JSON และ XML ล้าหลัง การนับที่ชัดเจนในส่วนหัว TOON (
repositories[100]) ทำหน้าที่เป็นคำใบ้ที่ป้องกันไม่ให้โมเดลไม่ต้อง "นับ" โทเค็นด้วยตนเอง ซึ่ง LLM มีชื่อเสียงในด้านที่ไม่ดี
ความเหนื่อยล้าของ XML และ YAML
เราควรพูดถึงผู้แข่งขันรายอื่นโดยย่อ
XML เป็นผู้แพ้หนักที่นี่ เป็นเนื้อหาที่มีรายละเอียด อ่านยาก และมีค่าใช้จ่ายสูงในการดำเนินการ ในการวัดประสิทธิภาพ XML ใช้โทเค็นส่วนใหญ่อย่างต่อเนื่อง (มากกว่า 5,000 รายการสำหรับชุดบันทึกพนักงานแบบเดียวกันที่ TOON คิดเป็น ~ 2,700) และมีความแม่นยำต่ำที่สุด (67.1%)
YAML ทำงานได้ดีกว่า XML แต่ยังคงประสบปัญหาโทเค็นขยายตัวเมื่อเทียบกับ TOON แม้ว่า YAML จะเหมาะสำหรับไฟล์การกำหนดค่าของมนุษย์ แต่ลักษณะที่ไวต่อช่องว่างและการทำซ้ำคีย์ทำให้ไม่เหมาะสมสำหรับบริบทข้อมูลที่มีปริมาณมาก ในการทดสอบ "คำสั่งซื้ออีคอมเมิร์ซ" YAML ใช้โทเค็นมากกว่า TOON ประมาณ 14%
เมื่อไหร่จะเปลี่ยน?
ข้อมูลค่อนข้างสรุปได้ หากคุณกำลังเผชิญกับ:
- รายการออบเจ็กต์: บันทึก ประวัติการทำธุรกรรม ผลการค้นหา หรือแค็ตตาล็อกผลิตภัณฑ์
- ท่อส่ง RAG: ที่ที่คุณดึงข้อมูลจากฐานข้อมูลเพื่อป้อนเข้าสู่พร้อมท์
- API ปริมาณสูง: ในกรณีที่แบนด์วิธและเวลาในการตอบสนองมีความสำคัญ
TOON นำเสนอสถานการณ์ที่ "ดีที่สุดทั้งสองโลก" คุณได้รับความหนาแน่นของ CSV ด้วยความสมบูรณ์ของโครงสร้างของ JSON
ในการวัดประสิทธิภาพ GPT-5-nano ได้รับความแม่นยำ 90.9% ที่น่าทึ่งกับข้อมูลที่จัดรูปแบบ TOON สิ่งนี้ชี้ให้เห็นว่าโมเดลที่ใหม่กว่าและชาญฉลาดกว่ากำลังมีความเชี่ยวชาญมากขึ้นในการแยกวิเคราะห์รูปแบบที่ได้รับการปรับปรุงเหล่านี้ ซึ่งหมายความว่า "การลดความสามารถในการอ่าน" ของการย้ายออกจาก JSON จะเป็นศูนย์อย่างมีประสิทธิภาพสำหรับเครื่อง
หากคุณยังคงจัดรูปแบบบริบท RAG ของคุณเป็น JSON.stringify(data, null, 2) แสดงว่าคุณกำลังจ่าย "ภาษีความสามารถในการอ่าน" สำหรับการเรียก API ทุกครั้ง อาจถึงเวลาที่ต้องเปลี่ยนรูปแบบ