Как экономить на AI? TOON vs JSON. Новый формат структурированных промтов

Когда промты становятся всё тяжелее, а модели всё мощнее, главный вопрос звучит так: как сократить издержки на токены и ускорить обработку? При работе с LLM в коде структурированные данные в JSON уже стали стандартом. Мы по-прежнему пихаем в промты огромные JSON, YAML или plain text датасеты. Это не только дорого и медленно, но и крайне неэффективно по токенам.

https://unsplash.com/photos/matrix-movie-still-iar-afB0QQw
https://unsplash.com/photos/matrix-movie-still-iar-afB0QQw

Неудивительно, что рано или поздно должен был появиться формат, решающий именно эту проблему, и его зовут TOON.

Формат TOON – родственник JSON и CSV

TOON – это новый формат данных, что-то среднее между JSON и CSV. Он остаётся читаемым для человека, но при этом оптимизирован под LLM и токенизацию. По словам разработчиков, использование TOON сокращает количество токенов на 30-60%, а это может означать серьёзную экономию при работе с API.

Что делает TOON интересным?

  • Экономия токенов: до 60% меньше, чем у JSON
  • Предсказуемость для LLM: явные поля и длины позволяют валидацию
  • Минимум синтаксиса: без лишних кавычек, скобок и запятых
  • Иерархия через отступы: как в YAML
  • Табличные массивы: ключи объявляются один раз, а данные идут строками

Пример в JSON:

{ "users": [ { "id": 1, "name": "Alice", "role": "admin" }, { "id": 2, "name": "Bob", "role": "user" } ] }

Пример в TOON:

users[2]{id,name,role}: 1,Alice,admin 2,Bob,user

Почему это важно?

Если вы строите системы, которые регулярно подают структурированные данные в LLM, будь то чат-боты, генераторы кода или многошаговые пайплайны, TOON реально может сократить размер промта почти вдвое.

И дело не только в деньгах, хотя сэкономить 50% токенов приятно. Меньше токенов значит выше скорость, ниже задержки.

Это особенно критично для real-time систем и streaming API.

Как экономить на AI? TOON vs JSON. Новый формат структурированных промтов

Когда не стоит использовать TOON?

TOON отлично работает с однородными массивами объектов, но есть ситуации, где другие форматы подойдут лучше.

1. Глубоко вложенные или неравномерные структуры

Если данные сложно свести к таблице, TOON теряет смысл. В таких случаях JSON-compact может быть даже экономичнее по токенам. Пример: сложные конфигурации с множеством уровней вложенности.

2. Полуоднородные массивы

Когда структура данных частично табличная (примерно 40-60%), выигрыш по токенам снижается.

3. Чисто табличные данные (CSV)

Если у вас обычная таблица без иерархий, CSV остаётся самым компактным. TOON добавляет лишь небольшой «служебный» слой (около 5-10%) поля, длины и разделители, чтобы повысить надёжность при работе с LLM.

Документация и ссылки

Напишите в комментах пользуетесь ли вы только JSON и что вы думаете о новом формате TOON?

Если вам близка тема AI, технологий и будущего - добро пожаловать в мой канал обсудить и поделиться апдейтами.

1
Начать дискуссию