Tại sao TOON lại vượt trội hơn các định dạng khác
Nếu bạn đang xây dựng các ứng dụng LLM, cụ thể là các hệ thống hoặc tác nhân Thế hệ tăng cường truy xuất (RAG) tiêu thụ các tập dữ liệu lớn, thì bạn có thể đang phải đối mặt với một cuộc chiến liên miên trên hai mặt trận: chi phí mã thông báo và giới hạn cửa sổ ngữ cảnh.
Trong nhiều năm, JSON đã là ngôn ngữ chung mặc định của trao đổi dữ liệu. Nó có thể đọc được (hầu hết) và có mặt khắp nơi. Nhưng khi bạn dán một mảng JSON 500 hàng vào một dấu nhắc, bạn đang ghi hàng nghìn mã thông báo trên các tên trường lặp lại ("id":, "name":, "email":) không mang giá trị ngữ nghĩa cho hàng cụ thể.
Nhập TOON. Đây là định dạng được thiết kế đặc biệt để giải quyết vấn đề tỷ lệ tín hiệu trên nhiễu trong đầu vào LLM. Tôi đã nghiên cứu kỹ các điểm chuẩn mới nhất và kết quả thật đáng kinh ngạc: TOON không chỉ tiết kiệm dung lượng; nó thực sự đang giúp các mô hình như GPT-5-nano và Gemini-2.5-flash hiểu dữ liệu tốt hơn.
Hãy cùng phân tích lý do TOON đánh bại các đối thủ nặng ký (JSON, CSV, YAML, XML) và xem xét các con số thô.
Bẫy chi tiết: JSON so với TOON
Kẻ thù lớn nhất của hiệu quả mã thông báo là sự lặp lại cấu trúc. Hãy xem bộ dữ liệu Phân tích chuỗi thời gian tiêu chuẩn. Trong JSON, mỗi điểm dữ liệu đều mang theo lược đồ của nó.
JSON (Tiêu chuẩn) Token được sử dụng trong điểm chuẩn: 22.250
Đó là rất nhiều không gian lãng phí. Bây giờ, hãy nhìn vào TOON tương đương. TOON xác định lược đồ một lần trong tiêu đề rồi chuyển sang bố cục kiểu CSV dày đặc cho các giá trị.
TOON Token sử dụng trong benchmark: 9.120
Kết quả: Giảm đáng kể 59,0% việc sử dụng mã thông báo.
Bằng cách loại bỏ các phím lặp lại, TOON cho phép bạn đưa nhiều lịch sử hơn vào cửa sổ ngữ cảnh của mô hình. Nhưng điều quan trọng là, không giống như CSV, nó duy trì nhận thức về loại và cấu trúc rõ ràng thông qua định nghĩa tiêu đề metrics[5]{...}.
Tại sao không chỉ sử dụng CSV?
Đây là lập luận phản biện phổ biến nhất. "Nếu bạn muốn dữ liệu phẳng, chỉ cần sử dụng CSV."
Vấn đề là dữ liệu trong thế giới thực hiếm khi hoàn toàn bằng phẳng. CSV hoàn toàn bị phá vỡ ngay khi bạn có các cấu trúc, danh sách lồng nhau trong các đối tượng hoặc các mô tả phức tạp có chứa dấu phẩy và dấu ngoặc kép.
Trong các điểm chuẩn, cụ thể là Theo dõi cấu trúc hỗn hợp (bao gồm các đơn đặt hàng thương mại điện tử và nhật ký sự kiện), CSV đã bị loại trừ hoàn toàn vì nó không thể biểu thị dữ liệu mà không làm phẳng mất dữ liệu.
TOON xử lý việc này một cách khéo léo. Nó cho phép các đối tượng lồng nhau trong khi tối ưu hóa các mảng. Trong quá trình thử nghiệm 100 kho lưu trữ GitHub (chứa các mô tả văn bản và siêu dữ liệu hỗn hợp), khoảng cách về hiệu quả là rõ ràng:
- JSON: 15.145 mã thông báo
- TOON: 8.745 token (tiết kiệm 42,3%)
Ngay cả khi so sánh với JSON Compact (rút gọn), TOON vẫn tiết kiệm được thêm gần 24%. Khi bạn trả tiền cho mỗi triệu token, đó là ROI ngay lập tức.
Độ chính xác: Người chiến thắng bất ngờ
Đây là phần làm tôi ngạc nhiên. Thông thường, khi bạn nén dữ liệu, bạn sẽ mất đi sự rõ ràng. Bạn có thể mong đợi LLM sẽ gặp khó khăn trong việc phân tích định dạng dày đặc hơn. Các điểm chuẩn cho thấy điều ngược lại.
Qua 209 câu hỏi truy xuất dữ liệu được thử nghiệm trên các mô hình như Claude Haiku, Gemini Flash và GPT-5-nano, TOON đã đạt được **độ chính xác truy xuất 73,9%, so với 69,7% của JSON tiêu chuẩn.
Tại sao? Nó có thể thuộc về Tải nhận thức (hoặc LLM tương đương).
- Ít tiếng ồn hơn: Mô hình không cần phải xử lý hàng nghìn mã thông báo
"key"lặp lại. Các giá trị liên quan gần nhau hơn trong cơ chế chú ý.
- Siêu dữ liệu rõ ràng: Tiêu đề TOON bao gồm số lượng (
[N]) và tên trường một cách rõ ràng.
- Nhận thức về cấu trúc: Trong các thử nghiệm hỏi về cấu trúc tập dữ liệu (ví dụ: "Có bao nhiêu hàng?"), TOON đạt độ chính xác 88%, trong khi JSON và XML bị tụt lại phía sau. Số lượng rõ ràng trong tiêu đề TOON (
repositories[100]) hoạt động như một gợi ý ngăn mô hình phải "đếm" mã thông báo theo cách thủ công, điều mà LLM nổi tiếng là kém.
Sự mệt mỏi của XML và YAML
Chúng ta nên đề cập ngắn gọn về các đối thủ khác.
XML là kẻ thua cuộc nặng nề ở đây. Nó dài dòng, khó đọc và tốn kém để xử lý. Trong các điểm chuẩn, XML luôn sử dụng nhiều mã thông báo nhất (hơn 5.000 cho một bộ hồ sơ nhân viên thống nhất mà TOON đại diện trong ~ 2.700) và có độ chính xác thấp nhất (67,1%).
YAML hoạt động tốt hơn XML nhưng vẫn gặp phải tình trạng phình to mã thông báo so với TOON. Mặc dù YAML rất tốt cho các tệp cấu hình của con người, nhưng tính chất nhạy cảm với khoảng trắng và sự lặp lại khóa của nó khiến nó không tối ưu cho bối cảnh dữ liệu có khối lượng lớn. Trong thử nghiệm "Đơn đặt hàng thương mại điện tử", YAML đã sử dụng nhiều mã thông báo hơn ~14% so với TOON.
Khi nào cần chuyển đổi?
Dữ liệu khá thuyết phục. Nếu bạn đang đối phó với:
- Danh sách đối tượng: Nhật ký, lịch sử giao dịch, kết quả tìm kiếm hoặc danh mục sản phẩm.
- Đường dẫn RAG: Nơi bạn truy xuất các khối dữ liệu từ cơ sở dữ liệu để đưa vào lời nhắc.
- API dung lượng cao: Trường hợp băng thông và độ trễ đóng vai trò quan trọng.
TOON đưa ra một kịch bản "tốt nhất cho cả hai thế giới". Bạn nhận được mật độ CSV với tính toàn vẹn cấu trúc của JSON.
Trong các điểm chuẩn, GPT-5-nano đã đạt được độ chính xác đáng kinh ngạc 90,9% trên dữ liệu được định dạng TOON. Điều này cho thấy rằng các mô hình mới hơn, thông minh hơn đang ngày càng trở nên thành thạo trong việc phân tích cú pháp các định dạng được tối ưu hóa này, nghĩa là "hình phạt về khả năng đọc" khi rời khỏi JSON thực tế là bằng 0 đối với máy.
Nếu bạn vẫn định dạng ngữ cảnh RAG của mình là JSON.stringify(data, null, 2), thì bạn đang phải trả "thuế khả năng đọc" một cách hiệu quả cho mỗi lệnh gọi API. Có lẽ đã đến lúc chuyển đổi định dạng.