Виктор, а почему тестирование ChatGPT для сравнения проводится на слабой версии модели (GPT-3.5), а…

29.12.2023

FractalMath достиг 100% точности в решении математических задач

Привет, мы релизим публичное демо нашего FractalMath агента - это бот, который научился решать математические задачи на арифметику со 100% точностью и стабильно. В этой статье мы сравним бота с ChatGPT и покажем, что мультиагентая система FractalGPT достигла SOTA качества в этой задаче и превзошла все prompt техники для LLM.
Бот доступен всем в Тел…

Кадр из фильма Ex machina ("Из машины", 2014). Калеб тестирует робота Ава.

Игорь Котенков

29.12.2023

Виктор, а почему тестирование ChatGPT для сравнения проводится на слабой версии модели (GPT-3.5), а не на GPT-1 или GPT-2?

Ответить

Виктор Н. (FractalGPT)

29.12.2023

Автор

Понимаю всю глубину вопроса))
Если кратко - то ChatGPT это масс продукт, именно он нашумел в СМИ, он доступен бесплатно у OpenAi в интерфейсе и относительно дешев по API.
И я не соглашусь, что он слабый - смотря для каких задач.

Далее, можно сказать "ну взяли бы Claude 2, GPT4. И чего такие простые задачи взяли - вон GSM8k датасет есть с алгеброй, есть Math и тп".
Но это дорого и долго - у нас разработка наперед расписана далеко.
Учить и создавать агентов, которые будут решать более сложные мат задачи, по качеству сопосбные конкурировать с GPT4 и с техниками промтинга с написанием кода - реально дорого.
Мы стартап, а не Сбер или Яндекс)

Наша задача - показать что агенты в принципе побеждают промтинг. А на каких они делают это задачах - не так важно на текущий момент.

Кстати, когда мы зарелизили свой RAG тут же на Vc то у нас спрашивали а почему с GPT4 сравнивали - я взял и сравнил выборочно с ней, и там тоже не было существенного изменения в качестве.

Ответить