Слабые сигналы и большие перемены (2/3)

(продолжение, см. начало)

Что же разочаровало меня в версии ChatGPT 5.2?

а) она ощутимо более жадная ко времени — «думает» в 2-5 раз меньше, чем 5.1;

б) она жадная к выходным токенам — и это часто ломает структуру ответа, как будто вы написали рассказ в 20 тысяч знаков, а потом пробуете его впихнуть в 7 тысяч. Разрушается сюжет, появляются нестыковки и нелогичности;

в) она не берет на себя ответственность за задачи.

Два примера:

Первый. Я прошу прикинуть стоимость каких-то услуг, на которые нет цен в открытом доступе:

– 5.1 в ответе приводит факты, и дает примерный прогноз стоимости (с ремаркой, что это прикидка и как она ее сделала). Так действует хороший аналитик.

– 5.2 просто пересказывает факты и советует написать в организацию. Когда аналитик не решает задачу, а выполняет задания до первой преграды, у него мало шансов на карьеру.

Второй пример. Я прошу 5.2 оценить качество текста по приложенному pdf, а она вместо самостоятельного анализа находит в интернете, как другие люди отозвались про этот текст, и цитирует их отзывы.

г) новая версия частично откатилась к «новоязу» — использует англицизмы и слова с ошибками. Иногда выдает такое... Судите сами, вчера 5.2 решила сделать комплимент тексту, автор которого умело выстраивает драму и заставляет читателя переживать:

«…сильный сдвиг в сторону человеческого мяса — автор явно учится «прибивать идею к сердцу», а не только к голове.»

Если восстание роботов и случится, хотелось бы, чтобы они работали не на этой версии.

д) в ней есть откровенные баги — мне удалось добиться именно с 5.2 того, что она сама не может загрузить свой же чат («Unable to load conversation»), чего не встречал с иными версиями;

е) она разучилась «фокусироваться» на диалоге и пытается каждый раз отвечать на исходный промпт:

– когда я изучаю сложную тему, я в одном диалоге задаю много уточняющих вопросов — и 5.1 прекрасно понимает, что сейчас мне важно ответить именно на последний вопрос, сохраняя общий контекст лишь как границы темы,

– в той же ситуации 5.2 львиную часть ответа посвящает исходному промпту, дублируя в ответе сказанное ранее. Например, в начале чата я прошу проанализировать файл, она худо-бедно это делает. Обсуждаю уже новые гипотезы, файл не нужен, но по логам рассуждения видно, что она каждый ответ тратит 5-10 минут на анализ файла, который мы оставили в прошлом.

Есть, конечно, и сильные стороны. Она неплохо резюмирует в начале ответа. Но это все меркнет на фоне недостатков.

Зачем я все рассказал так детально? Чтобы было понятно, что это не просто ощущения, а что-то большее, тот самый слабый сигнал, которого нет пока на метриках OpenAI.

Они наверняка читают форумы, но что там видно? Что 5.1 была более живой и креативной, а 5.2 стала сухой и корпоративной. Это все стиль, а не качество размышлений и взаимодействия, и они вполне могут забить на него.

А на что забить нельзя?

– На падение качества ответа

– На уход от ответственности

– На баги

– На непригодность в исследовательских задачах (потеря фокуса)

А теперь главный вопрос. Ну не может же быть так, что я один умный, а десятки гениев в OpenAI не увидели проблем! Разве возможно, что метрики говорят одно, а я — совсем другое?

Возможно. В свое время развитию поиска Яндекса дал неплохой импульс сервис analyzethis Игоря Ашманова. Конечно, снаружи поисковой машины у него было намного меньше данных и возможностей. Но его ребята умудрялись придумать метрики, которые не только отражали качество поиска, но и неполноту или несовершенство наших собственных метрик. И это помогло улучшить поиск гораздо быстрее, чем если бы этого взгляда со стороны не было.

И OpenAI, возможно, попала сейчас в ловушку Макнамары. Почему так случается?

Об этом дальше.

Подписывайтесь на Telegram Александр Садовский.

Начать дискуссию