TOON ਹੋਰ ਫਾਰਮੈਟਾਂ ਨੂੰ ਕਿਉਂ ਪਛਾੜਦਾ ਹੈ
ਜੇਕਰ ਤੁਸੀਂ LLM ਐਪਲੀਕੇਸ਼ਨ ਬਣਾ ਰਹੇ ਹੋ, ਖਾਸ ਤੌਰ 'ਤੇ ਰੀਟ੍ਰੀਵਲ-ਔਗਮੈਂਟੇਡ ਜਨਰੇਸ਼ਨ (RAG) ਸਿਸਟਮ ਜਾਂ ਏਜੰਟ ਜੋ ਵੱਡੇ ਡੇਟਾਸੇਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ, ਤਾਂ ਤੁਸੀਂ ਸੰਭਾਵਤ ਤੌਰ 'ਤੇ ਦੋ ਮੋਰਚਿਆਂ 'ਤੇ ਲਗਾਤਾਰ ਜੰਗ ਲੜ ਰਹੇ ਹੋ: ਟੋਕਨ ਲਾਗਤ ਅਤੇ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਸੀਮਾ।
ਸਾਲਾਂ ਤੋਂ, JSON ਡੇਟਾ ਇੰਟਰਚੇਂਜ ਦਾ ਡਿਫੌਲਟ ਭਾਸ਼ਾਵਾਂ ਰਿਹਾ ਹੈ। ਇਹ ਮਨੁੱਖੀ-ਪੜ੍ਹਨਯੋਗ (ਜ਼ਿਆਦਾਤਰ) ਅਤੇ ਸਰਵ ਵਿਆਪਕ ਹੈ। ਪਰ ਜਦੋਂ ਤੁਸੀਂ ਇੱਕ 500-ਕਤਾਰ JSON ਐਰੇ ਨੂੰ ਇੱਕ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਪੇਸਟ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਦੁਹਰਾਉਣ ਵਾਲੇ ਫੀਲਡ ਨਾਮਾਂ ("id":, "name":, "ਈਮੇਲ":) 'ਤੇ ਹਜ਼ਾਰਾਂ ਟੋਕਨਾਂ ਨੂੰ ਸਾੜ ਰਹੇ ਹੋ ਜੋ ਖਾਸ ਕਤਾਰ ਲਈ ਜ਼ੀਰੋ ਸਿਮੈਂਟਿਕ ਮੁੱਲ ਰੱਖਦੇ ਹਨ।
TOON ਦਾਖਲ ਕਰੋ। ਇਹ ਇੱਕ ਫਾਰਮੈਟ ਹੈ ਜੋ ਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ LLM ਇਨਪੁਟਸ ਵਿੱਚ ਸਿਗਨਲ-ਟੂ-ਆਵਾਜ਼ ਅਨੁਪਾਤ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਮੈਂ ਨਵੀਨਤਮ ਮਾਪਦੰਡਾਂ ਵਿੱਚ ਗੋਤਾਖੋਰੀ ਕਰ ਰਿਹਾ ਹਾਂ, ਅਤੇ ਨਤੀਜੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਹਨ: ਟੂਨ ਸਿਰਫ਼ ਜਗ੍ਹਾ ਦੀ ਬਚਤ ਨਹੀਂ ਕਰ ਰਿਹਾ ਹੈ; ਇਹ ਅਸਲ ਵਿੱਚ GPT-5-ਨੈਨੋ ਅਤੇ ਜੈਮਿਨੀ-2.5-ਫਲੈਸ਼ ਵਰਗੇ ਮਾਡਲਾਂ ਨੂੰ ਡਾਟਾ ਬੇਟਰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਰਿਹਾ ਹੈ।
ਆਉ ਇਸ ਗੱਲ ਨੂੰ ਤੋੜੀਏ ਕਿ TOON ਹੈਵੀਵੇਟਸ (JSON, CSV, YAML, XML) ਨੂੰ ਕਿਉਂ ਹਰਾ ਰਿਹਾ ਹੈ ਅਤੇ ਕੱਚੇ ਨੰਬਰਾਂ 'ਤੇ ਨਜ਼ਰ ਮਾਰੋ।
ਵਰਬੋਸਿਟੀ ਟ੍ਰੈਪ: JSON ਬਨਾਮ ਟੂਨ
ਟੋਕਨ ਕੁਸ਼ਲਤਾ ਦਾ ਸਭ ਤੋਂ ਵੱਡਾ ਦੁਸ਼ਮਣ ਬਣਤਰ ਦੁਹਰਾਉਣਾ ਹੈ। ਆਉ ਇੱਕ ਮਿਆਰੀ ਟਾਈਮ-ਸੀਰੀਜ਼ ਵਿਸ਼ਲੇਸ਼ਣ ਡੇਟਾਸੇਟ ਨੂੰ ਵੇਖੀਏ। JSON ਵਿੱਚ, ਹਰ ਇੱਕ ਡੇਟਾ ਪੁਆਇੰਟ ਆਪਣੀ ਸਕੀਮਾ ਦਾ ਸਮਾਨ ਰੱਖਦਾ ਹੈ।
JSON (ਸਟੈਂਡਰਡ) ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਵਰਤੇ ਗਏ ਟੋਕਨ: 22,250_
ਇਹ ਬਹੁਤ ਸਾਰੀ ਵਿਅਰਥ ਜਗ੍ਹਾ ਹੈ. ਹੁਣ, TOON ਦੇ ਬਰਾਬਰ ਦੇਖੋ। TOON ਸਿਰਲੇਖ ਵਿੱਚ ਇੱਕ ਵਾਰ ਸਕੀਮਾ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦਾ ਹੈ ਅਤੇ ਫਿਰ ਮੁੱਲਾਂ ਲਈ ਇੱਕ ਸੰਘਣੀ, CSV-ਸ਼ੈਲੀ ਲੇਆਉਟ ਵਿੱਚ ਸਵਿਚ ਕਰਦਾ ਹੈ।
ਟੂਨ ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਵਰਤੇ ਗਏ ਟੋਕਨ: 9,120_
ਨਤੀਜਾ: ਟੋਕਨ ਦੀ ਵਰਤੋਂ ਵਿੱਚ ਭਾਰੀ 59.0% ਕਮੀ।
ਦੁਹਰਾਈਆਂ ਜਾਣ ਵਾਲੀਆਂ ਕੁੰਜੀਆਂ ਨੂੰ ਹਟਾ ਕੇ, TOON ਤੁਹਾਨੂੰ ਮਾਡਲ ਦੀ ਸੰਦਰਭ ਵਿੰਡੋ ਵਿੱਚ ਹੋਰ ਇਤਿਹਾਸ ਫਿੱਟ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਪਰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ, CSV ਦੇ ਉਲਟ, ਇਹ ਸਿਰਲੇਖ ਪਰਿਭਾਸ਼ਾ ਮੈਟ੍ਰਿਕਸ[5]{...} ਦੁਆਰਾ ਕਿਸਮ ਦੀ ਜਾਗਰੂਕਤਾ ਅਤੇ ਸਪਸ਼ਟ ਢਾਂਚੇ ਨੂੰ ਕਾਇਮ ਰੱਖਦਾ ਹੈ।
ਸਿਰਫ਼ CSV ਦੀ ਵਰਤੋਂ ਕਿਉਂ ਨਹੀਂ ਕੀਤੀ ਜਾਂਦੀ?
ਇਹ ਸਭ ਤੋਂ ਆਮ ਵਿਰੋਧੀ ਦਲੀਲ ਹੈ। "ਜੇ ਤੁਸੀਂ ਫਲੈਟ ਡੇਟਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਸਿਰਫ਼ CSV ਦੀ ਵਰਤੋਂ ਕਰੋ।"
ਸਮੱਸਿਆ ਇਹ ਹੈ ਕਿ ਅਸਲ-ਸੰਸਾਰ ਡੇਟਾ ਘੱਟ ਹੀ ਬਿਲਕੁਲ ਫਲੈਟ ਹੁੰਦਾ ਹੈ। CSV ਪੂਰੀ ਤਰ੍ਹਾਂ ਟੁੱਟ ਜਾਂਦੀ ਹੈ ਜਦੋਂ ਤੁਹਾਡੇ ਕੋਲ ਨੇਸਟਡ ਢਾਂਚੇ, ਵਸਤੂਆਂ ਦੇ ਅੰਦਰ ਸੂਚੀਆਂ, ਜਾਂ ਕਾਮੇ ਅਤੇ ਕੋਟਸ ਵਾਲੇ ਗੁੰਝਲਦਾਰ ਵਰਣਨ ਹੁੰਦੇ ਹਨ।
ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ, ਖਾਸ ਤੌਰ 'ਤੇ ਮਿਕਸਡ-ਸਟ੍ਰਕਚਰ ਟ੍ਰੈਕ (ਜਿਸ ਵਿੱਚ ਈ-ਕਾਮਰਸ ਆਰਡਰ ਅਤੇ ਇਵੈਂਟ ਲੌਗ ਸ਼ਾਮਲ ਹਨ), CSV ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਬਾਹਰ ਰੱਖਿਆ ਗਿਆ ਸੀ ਕਿਉਂਕਿ ਇਹ ਨੁਕਸਾਨਦੇਹ ਫਲੈਟਨਿੰਗ ਤੋਂ ਬਿਨਾਂ ਡੇਟਾ ਦੀ ਨੁਮਾਇੰਦਗੀ ਨਹੀਂ ਕਰ ਸਕਦਾ ਸੀ।
ਟੂਨ ਇਸ ਨੂੰ ਖੂਬਸੂਰਤੀ ਨਾਲ ਸੰਭਾਲਦਾ ਹੈ। ਇਹ ਐਰੇ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰਦੇ ਹੋਏ ਨੇਸਟਡ ਆਬਜੈਕਟ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। 100 GitHub ਰਿਪੋਜ਼ਟਰੀਆਂ (ਜਿਸ ਵਿੱਚ ਮਿਸ਼ਰਤ ਟੈਕਸਟ ਵਰਣਨ ਅਤੇ ਮੈਟਾਡੇਟਾ ਸ਼ਾਮਲ ਹਨ) ਦੇ ਇੱਕ ਟੈਸਟ ਵਿੱਚ, ਕੁਸ਼ਲਤਾ ਅੰਤਰ ਸਪੱਸ਼ਟ ਸੀ:
- JSON: 15,145 ਟੋਕਨ
- ਟੂਨ: 8,745 ਟੋਕਨ (42.3% ਬੱਚਤ)
ਇੱਥੋਂ ਤੱਕ ਕਿ JSON ਕੰਪੈਕਟ (ਮਿਨੀਫਾਈਡ) ਦੇ ਵਿਰੁੱਧ, TOON ਨੇ ਅਜੇ ਵੀ ਲਗਭਗ 24% ਹੋਰ ਬੱਚਤਾਂ ਨੂੰ ਨਿਚੋੜਿਆ ਹੈ। ਜਦੋਂ ਤੁਸੀਂ ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਟੋਕਨਾਂ ਦਾ ਭੁਗਤਾਨ ਕਰ ਰਹੇ ਹੋ, ਇਹ ਤੁਰੰਤ ROI ਹੈ।
ਸ਼ੁੱਧਤਾ: ਹੈਰਾਨੀਜਨਕ ਜੇਤੂ
ਇਹ ਉਹ ਹਿੱਸਾ ਹੈ ਜਿਸਨੇ ਮੈਨੂੰ ਹੈਰਾਨ ਕਰ ਦਿੱਤਾ. ਆਮ ਤੌਰ 'ਤੇ, ਜਦੋਂ ਤੁਸੀਂ ਡੇਟਾ ਨੂੰ ਸੰਕੁਚਿਤ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਸਪਸ਼ਟਤਾ ਗੁਆ ਦਿੰਦੇ ਹੋ। ਤੁਸੀਂ LLM ਨੂੰ ਇੱਕ ਸੰਘਣੇ ਫਾਰਮੈਟ ਨੂੰ ਪਾਰਸ ਕਰਨ ਲਈ ਸੰਘਰਸ਼ ਕਰਨ ਦੀ ਉਮੀਦ ਕਰੋਗੇ। ਬੈਂਚਮਾਰਕ ਇਸ ਦੇ ਉਲਟ ਦਿਖਾਉਂਦੇ ਹਨ।
ਕਲਾਉਡ ਹਾਇਕੂ, ਜੇਮਿਨੀ ਫਲੈਸ਼, ਅਤੇ GPT-5-ਨੈਨੋ ਵਰਗੇ ਮਾਡਲਾਂ 'ਤੇ ਟੈਸਟ ਕੀਤੇ ਗਏ 209 ਡਾਟਾ ਪ੍ਰਾਪਤੀ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਪਾਰ, TOON ਨੇ ਮਿਆਰੀ JSON ਦੇ 69.7% ਦੇ ਮੁਕਾਬਲੇ 73.9% ਪ੍ਰਾਪਤੀ ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ।
ਕਿਉਂ? ਇਹ ਸੰਭਾਵਤ ਤੌਰ 'ਤੇ ਬੋਧਾਤਮਕ ਲੋਡ (ਜਾਂ LLM ਦੇ ਬਰਾਬਰ) ਤੱਕ ਆ ਜਾਂਦਾ ਹੈ।
- ਘੱਟ ਸ਼ੋਰ: ਮਾਡਲ ਨੂੰ ਹਜ਼ਾਰਾਂ ਦੁਹਰਾਉਣ ਵਾਲੇ
"ਕੁੰਜੀ"ਟੋਕਨਾਂ 'ਤੇ ਹਾਜ਼ਰ ਹੋਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ਧਿਆਨ ਦੇ ਵਿਧੀ ਵਿੱਚ ਸੰਬੰਧਿਤ ਮੁੱਲ ਇੱਕ ਦੂਜੇ ਦੇ ਨੇੜੇ ਹਨ।
- ਸਪਸ਼ਟ ਮੈਟਾਡੇਟਾ: ਟੂਨ ਸਿਰਲੇਖਾਂ ਵਿੱਚ ਗਿਣਤੀ (
[N]) ਅਤੇ ਖੇਤਰ ਦੇ ਨਾਮ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ।
- ਸੰਰਚਨਾ ਜਾਗਰੂਕਤਾ: ਡੇਟਾਸੇਟ ਢਾਂਚੇ ਬਾਰੇ ਪੁੱਛਣ ਵਾਲੇ ਟੈਸਟਾਂ ਵਿੱਚ (ਉਦਾਹਰਨ ਲਈ, "ਕਿੰਨੀਆਂ ਕਤਾਰਾਂ ਹਨ?"), TOON ਨੇ 88% ਸ਼ੁੱਧਤਾ ਨੂੰ ਮਾਰਿਆ, ਜਦੋਂ ਕਿ JSON ਅਤੇ XML ਪਿੱਛੇ ਰਹਿ ਗਏ। TOON ਸਿਰਲੇਖ (
ਰਿਪੋਜ਼ਟਰੀਆਂ[100]) ਵਿੱਚ ਸਪਸ਼ਟ ਗਿਣਤੀ ਇੱਕ ਸੰਕੇਤ ਵਜੋਂ ਕੰਮ ਕਰਦੀ ਹੈ ਜੋ ਮਾਡਲ ਨੂੰ ਟੋਕਨਾਂ ਨੂੰ ਹੱਥੀਂ "ਗਣਨਾ" ਕਰਨ ਤੋਂ ਰੋਕਦੀ ਹੈ, ਜਿਸ ਵਿੱਚ LLM ਬਹੁਤ ਮਾੜੇ ਹਨ।
XML ਅਤੇ YAML ਥਕਾਵਟ
ਸਾਨੂੰ ਹੋਰ ਦਾਅਵੇਦਾਰਾਂ ਦਾ ਸੰਖੇਪ ਜ਼ਿਕਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।
XML ਇੱਥੇ ਭਾਰੀ ਹਾਰ ਹੈ। ਇਹ ਜ਼ੁਬਾਨੀ ਹੈ, ਪੜ੍ਹਨਾ ਮੁਸ਼ਕਲ ਹੈ, ਅਤੇ ਪ੍ਰਕਿਰਿਆ ਕਰਨਾ ਮਹਿੰਗਾ ਹੈ। ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ, XML ਨੇ ਲਗਾਤਾਰ ਸਭ ਤੋਂ ਵੱਧ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ (ਇੱਕ ਸਮਾਨ ਕਰਮਚਾਰੀ ਰਿਕਾਰਡ ਸੈੱਟ ਲਈ 5,000 ਤੋਂ ਵੱਧ ਜੋ ਕਿ TOON ~ 2,700 ਵਿੱਚ ਦਰਸਾਉਂਦਾ ਹੈ) ਅਤੇ ਸਭ ਤੋਂ ਘੱਟ ਸ਼ੁੱਧਤਾ (67.1%) ਸੀ।
YAML XML ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਪਰ ਫਿਰ ਵੀ TOON ਦੇ ਮੁਕਾਬਲੇ ਟੋਕਨ ਬਲੋਟ ਤੋਂ ਪੀੜਤ ਹੈ। ਜਦੋਂ ਕਿ YAML ਮਨੁੱਖੀ ਸੰਰਚਨਾ ਫਾਈਲਾਂ ਲਈ ਬਹੁਤ ਵਧੀਆ ਹੈ, ਇਸਦੀ ਵ੍ਹਾਈਟ-ਸਪੇਸ-ਸੰਵੇਦਨਸ਼ੀਲ ਪ੍ਰਕਿਰਤੀ ਅਤੇ ਕੁੰਜੀ ਦੁਹਰਾਓ ਇਸ ਨੂੰ ਉੱਚ-ਆਵਾਜ਼ ਵਾਲੇ ਡੇਟਾ ਸੰਦਰਭ ਲਈ ਸਬ-ਅਨੁਕੂਲ ਬਣਾਉਂਦੇ ਹਨ। "ਈ-ਕਾਮਰਸ ਆਰਡਰ" ਟੈਸਟ ਵਿੱਚ, YAML ਨੇ TOON ਨਾਲੋਂ ~ 14% ਵੱਧ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ।
ਕਦੋਂ ਬਦਲਣਾ ਹੈ?
ਡਾਟਾ ਕਾਫ਼ੀ ਨਿਰਣਾਇਕ ਹੈ. ਜੇ ਤੁਸੀਂ ਇਸ ਨਾਲ ਨਜਿੱਠ ਰਹੇ ਹੋ:
- ਆਬਜੈਕਟਾਂ ਦੀ ਸੂਚੀ: ਲੌਗਸ, ਟ੍ਰਾਂਜੈਕਸ਼ਨ ਇਤਿਹਾਸ, ਖੋਜ ਨਤੀਜੇ, ਜਾਂ ਉਤਪਾਦ ਕੈਟਾਲਾਗ।
- RAG ਪਾਈਪਲਾਈਨਾਂ: ਜਿੱਥੇ ਤੁਸੀਂ ਇੱਕ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਫੀਡ ਕਰਨ ਲਈ ਇੱਕ DB ਤੋਂ ਡੇਟਾ ਦੇ ਟੁਕੜੇ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹੋ।
- ਹਾਈ-ਵੋਲਿਊਮ APIs: ਜਿੱਥੇ ਬੈਂਡਵਿਡਥ ਅਤੇ ਲੇਟੈਂਸੀ ਮਾਇਨੇ ਰੱਖਦੀ ਹੈ।
TOON ਇੱਕ "ਦੋਵੇਂ ਸੰਸਾਰਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਵਧੀਆ" ਦ੍ਰਿਸ਼ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਤੁਹਾਨੂੰ JSON ਦੀ ਢਾਂਚਾਗਤ ਇਕਸਾਰਤਾ ਨਾਲ CSV ਦੀ ਘਣਤਾ ਮਿਲਦੀ ਹੈ।
ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ, GPT-5-ਨੈਨੋ ਨੇ TOON ਫਾਰਮੈਟ ਕੀਤੇ ਡੇਟਾ 'ਤੇ 90.9% ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਨਵੇਂ, ਚੁਸਤ ਮਾਡਲ ਇਹਨਾਂ ਅਨੁਕੂਲਿਤ ਫਾਰਮੈਟਾਂ ਨੂੰ ਪਾਰਸ ਕਰਨ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਨਿਪੁੰਨ ਹੋ ਰਹੇ ਹਨ, ਭਾਵ JSON ਤੋਂ ਦੂਰ ਜਾਣ ਦੀ "ਪੜ੍ਹਨਯੋਗਤਾ ਜੁਰਮਾਨਾ" ਮਸ਼ੀਨ ਲਈ ਪ੍ਰਭਾਵੀ ਤੌਰ 'ਤੇ ਜ਼ੀਰੋ ਹੈ।
ਜੇਕਰ ਤੁਸੀਂ ਅਜੇ ਵੀ ਆਪਣੇ RAG ਸੰਦਰਭ ਨੂੰ JSON.stringify(data, null, 2) ਦੇ ਰੂਪ ਵਿੱਚ ਫਾਰਮੈਟ ਕਰ ਰਹੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਹਰ ਇੱਕ API ਕਾਲ 'ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ "ਪੜ੍ਹਨਯੋਗਤਾ ਟੈਕਸ" ਦਾ ਭੁਗਤਾਨ ਕਰ ਰਹੇ ਹੋ। ਇਹ ਫਾਰਮੈਟ ਬਦਲਣ ਦਾ ਸਮਾਂ ਹੋ ਸਕਦਾ ਹੈ।