Kwa nini TOON Inazidi Miundo Nyingine

LLM
Vigezo
RAG

Ikiwa unaunda programu za LLM, haswa mifumo ya Retrieval-Augmented Generation (RAG) au mawakala wanaotumia hifadhidata kubwa, kuna uwezekano unapigana vita vya mara kwa mara katika nyanja mbili: gharama ya tokeni na vikomo vya dirisha la muktadha.

Kwa miaka mingi, JSON imekuwa lingua franca chaguo-msingi ya ubadilishanaji wa data. Inaweza kusomeka na binadamu (zaidi) na inapatikana kila mahali. Lakini unapobandika safu ya safu mlalo 500 za JSON kwenye kidokezo, unachoma maelfu ya tokeni kwenye majina ya sehemu zinazorudiwa ("id":, "jina":, "barua pepe":) ambazo hubeba thamani sifuri ya semantiki kwa safu mlalo mahususi.

Ingiza TOON. Ni umbizo lililoundwa mahususi kutatua tatizo la uwiano wa mawimbi kwa kelele katika ingizo za LLM. Nimekuwa nikizama kwenye alama za hivi punde, na matokeo yake ni ya kushangaza: TOON sio tu kuokoa nafasi; kwa kweli inasaidia miundo kama vile GPT-5-nano na Gemini-2.5-flash kuelewa data better.

Hebu tuchambue kwa nini TOON inashinda vizito (JSON, CSV, YAML, XML) na tuangalie nambari mbichi.

The Verbosity Trap: JSON dhidi ya TOON

Adui mkubwa wa ufanisi wa ishara ni marudio ya muundo. Hebu tuangalie seti ya kawaida ya Uchanganuzi wa Mfululizo wa Muda. Katika JSON, kila sehemu ya data hubeba mizigo ya schema yake.

JSON (Kawaida) Tokeni zinazotumika katika kipimo: 22,250

Hiyo ni nafasi nyingi iliyopotea. Sasa, angalia TOON sawa. TOON inafafanua schema mara moja kwenye kichwa na kisha kubadili kwa mpangilio mnene, wa mtindo wa CSV kwa thamani.

TOON Tokeni zinazotumika katika kipimo: 9,120

Matokeo: Punguzo kubwa la 59.0% katika utumiaji wa tokeni.

Kwa kuondoa vitufe vinavyorudiwa, TOON hukuruhusu kutoshea historia zaidi kwenye dirisha la muktadha la modeli. Lakini muhimu zaidi, tofauti na CSV, hudumisha ufahamu wa aina na muundo dhahiri kupitia ufafanuzi wa kichwa metrics[5]{...}.

Kwa nini Usitumie CSV Tu?

Hii ndiyo hoja ya kawaida zaidi ya kupinga. "Ikiwa unataka data bapa, tumia CSV."

Shida ni kwamba data ya ulimwengu halisi ni nadra sana tambarare. CSV huchanganuliwa kabisa pindi tu unapoweka miundo, orodha ndani ya vitu, au maelezo changamano yaliyo na koma na nukuu.

Katika viwango, haswa Wimbo wa Muundo Mseto (unaojumuisha maagizo ya biashara ya mtandaoni na kumbukumbu za matukio), CSV haikujumuishwa kabisa kwa sababu haikuweza kuwakilisha data bila kubana kwa hasara.

TOON inashughulikia hili kwa uzuri. Inaruhusu vitu vilivyowekwa kiota huku ikiboresha safu. Katika jaribio la hazina 100 za GitHub (ambazo zina maelezo mchanganyiko ya maandishi na metadata), pengo la ufanisi lilikuwa wazi:

  • JSON: ishara 15,145
  • TOON: 8,745 tokeni (42.3% akiba)

Hata dhidi ya JSON Compact (iliyopunguzwa), TOON bado ilipunguza karibu asilimia 24 ya akiba zaidi. Unapolipa kwa kila tokeni milioni, hiyo ni ROI ya mara moja.

Usahihi: Mshindi wa Mshangao

Hapa ndio sehemu iliyonishangaza. Kawaida, unapokandamiza data, unapoteza uwazi. Ungetarajia LLM kutatizika kuchanganua umbizo mnene. Vigezo vinaonyesha kinyume.

Katika maswali 209 ya urejeshaji data yaliyojaribiwa kwenye miundo kama vile Claude Haiku, Gemini Flash, na GPT-5-nano, TOON ilipata **usahihi wa kurejesha data 73.9%, ikilinganishwa na kiwango cha kawaida cha JSON 69.7%.

Kwa nini? Inawezekana inakuja kwa Mzigo wa Utambuzi (au sawa na LLM).

  1. Kelele Chini: Muundo hauhitaji kuzingatia maelfu ya tokeni za "ufunguo" zinazorudiwa. Maadili husika yanakaribiana zaidi katika utaratibu wa kuzingatia.
  1. Metadata Dhahiri: Vichwa vya TOON vinajumuisha hesabu ([N]) na majina ya sehemu kwa uwazi.
  1. Ufahamu wa Muundo: Katika majaribio yanayouliza kuhusu muundo wa seti ya data (k.m., "Je, kuna safu mlalo ngapi?"), TOON iligonga usahihi wa 88%, huku JSON na XML zikiwa zimesalia nyuma. Hesabu dhahiri katika kichwa cha TOON (hazina[100]) hufanya kama kidokezo kinachozuia kielelezo kulazimika "kuhesabu" tokeni mwenyewe, ambazo LLM zina sifa mbaya.

Uchovu wa XML na YAML

Tunapaswa kutaja kwa ufupi washindani wengine.

XML ndiye mpotezaji mkubwa hapa. Ni ya kitenzi, ngumu kusoma, na ni ghali kuichakata. Katika viwango, XML ilitumia tokeni nyingi mara kwa mara (zaidi ya 5,000 kwa seti ya sare ya mfanyakazi ambayo TOON iliwakilisha ~2,700) na ilikuwa na usahihi wa chini kabisa (67.1%).

YAML hufanya kazi vizuri zaidi kuliko XML lakini bado ina tatizo la kutokuwepo kwa ishara ikilinganishwa na TOON. Ingawa YAML ni nzuri kwa faili za usanidi wa binadamu, asili yake nyeti katika nafasi nyeupe na urudiaji wa ufunguo huifanya kuwa ndogo kwa muktadha wa data ya kiwango cha juu. Katika jaribio la "maagizo ya biashara ya mtandaoni", YAML ilitumia tokeni ~ 14% zaidi ya TOON.

Wakati wa Kubadilisha?

Data ni muhtasari wa kutosha. Ikiwa unashughulika na:

  1. Orodha za Vitu: Kumbukumbu, historia za miamala, matokeo ya utafutaji, au katalogi za bidhaa.
  1. Mabomba ya RAG: Mahali unaporejesha vipande vya data kutoka kwa DB ili kulisha kwenye kidokezo.
  1. API za Kiasi cha Juu: Ambapo kipimo data na muda wa kusubiri ni muhimu.

TOON inatoa hali ya "bora zaidi ya ulimwengu wote". Unapata msongamano wa CSV na uadilifu wa muundo wa JSON.

Katika viwango, GPT-5-nano ilipata usahihi wa ajabu wa 90.9% kwenye data iliyoumbizwa TOON. Hii inapendekeza kwamba miundo mpya na bora zaidi inazidi kuwa na ujuzi katika kuchanganua miundo hii iliyoboreshwa, kumaanisha "adhabu ya usomaji" ya kuondoka kwenye JSON ni sifuri kwa mashine.

Ikiwa bado unapanga muktadha wako wa RAG kama JSON.stringify(data, null, 2), unalipa "kodi ya usomaji" kwa kila simu moja ya API. Huenda ikawa wakati wa kubadili umbizo.