Слабые сигналы и большие перемены (2/3)
(продолжение, см. начало)
Что же разочаровало меня в версии ChatGPT 5.2?
а) она ощутимо более жадная ко времени — «думает» в 2-5 раз меньше, чем 5.1;
б) она жадная к выходным токенам — и это часто ломает структуру ответа, как будто вы написали рассказ в 20 тысяч знаков, а потом пробуете его впихнуть в 7 тысяч. Разрушается сюжет, появляются нестыковки и нелогичности;
в) она не берет на себя ответственность за задачи.
Два примера:
Первый. Я прошу прикинуть стоимость каких-то услуг, на которые нет цен в открытом доступе:
– 5.1 в ответе приводит факты, и дает примерный прогноз стоимости (с ремаркой, что это прикидка и как она ее сделала). Так действует хороший аналитик.
– 5.2 просто пересказывает факты и советует написать в организацию. Когда аналитик не решает задачу, а выполняет задания до первой преграды, у него мало шансов на карьеру.
Второй пример. Я прошу 5.2 оценить качество текста по приложенному pdf, а она вместо самостоятельного анализа находит в интернете, как другие люди отозвались про этот текст, и цитирует их отзывы.
г) новая версия частично откатилась к «новоязу» — использует англицизмы и слова с ошибками. Иногда выдает такое... Судите сами, вчера 5.2 решила сделать комплимент тексту, автор которого умело выстраивает драму и заставляет читателя переживать:
«…сильный сдвиг в сторону человеческого мяса — автор явно учится «прибивать идею к сердцу», а не только к голове.»
Если восстание роботов и случится, хотелось бы, чтобы они работали не на этой версии.
д) в ней есть откровенные баги — мне удалось добиться именно с 5.2 того, что она сама не может загрузить свой же чат («Unable to load conversation»), чего не встречал с иными версиями;
е) она разучилась «фокусироваться» на диалоге и пытается каждый раз отвечать на исходный промпт:
– когда я изучаю сложную тему, я в одном диалоге задаю много уточняющих вопросов — и 5.1 прекрасно понимает, что сейчас мне важно ответить именно на последний вопрос, сохраняя общий контекст лишь как границы темы,
– в той же ситуации 5.2 львиную часть ответа посвящает исходному промпту, дублируя в ответе сказанное ранее. Например, в начале чата я прошу проанализировать файл, она худо-бедно это делает. Обсуждаю уже новые гипотезы, файл не нужен, но по логам рассуждения видно, что она каждый ответ тратит 5-10 минут на анализ файла, который мы оставили в прошлом.
Есть, конечно, и сильные стороны. Она неплохо резюмирует в начале ответа. Но это все меркнет на фоне недостатков.
Зачем я все рассказал так детально? Чтобы было понятно, что это не просто ощущения, а что-то большее, тот самый слабый сигнал, которого нет пока на метриках OpenAI.
Они наверняка читают форумы, но что там видно? Что 5.1 была более живой и креативной, а 5.2 стала сухой и корпоративной. Это все стиль, а не качество размышлений и взаимодействия, и они вполне могут забить на него.
А на что забить нельзя?
– На падение качества ответа
– На уход от ответственности
– На баги
– На непригодность в исследовательских задачах (потеря фокуса)
А теперь главный вопрос. Ну не может же быть так, что я один умный, а десятки гениев в OpenAI не увидели проблем! Разве возможно, что метрики говорят одно, а я — совсем другое?
Возможно. В свое время развитию поиска Яндекса дал неплохой импульс сервис analyzethis Игоря Ашманова. Конечно, снаружи поисковой машины у него было намного меньше данных и возможностей. Но его ребята умудрялись придумать метрики, которые не только отражали качество поиска, но и неполноту или несовершенство наших собственных метрик. И это помогло улучшить поиск гораздо быстрее, чем если бы этого взгляда со стороны не было.
И OpenAI, возможно, попала сейчас в ловушку Макнамары. Почему так случается?
Об этом дальше.
Подписывайтесь на Telegram Александр Садовский.