М А С Ш Т А Б
ну и всё :)
Например, модель могла раскрашивать картинку, полученную в движке, или использовать карту нормалей, полученную не самостоятельно через модель мира, а опять же из условного UE5 для генерируемой сцены.
А тут констатируем факт: модель сама генерирует каждый пиксель, это не какие-то внешние надстройки и постобработки.
Да, комбинация агентов с LLM, в которых много знаний и которые умеют в размышления (reasoning более правильное слово кмк) — ваще тема, очень ждём. Ещё Voyager (https://voyager.minedojo.org/) тема
Это справедливые замечания, но как хорошо, что нигде не делается акцент на эффективности, а также упоминается беспрецедентный масштаб + инвестиции на реорганизацию индустрии компьюта. Уххх будет время!
Блин, у меня палец устал листать страницу до секции комментариев...
(это критика двух! блоков рекламы после статьи)
Виктор, а почему тестирование ChatGPT для сравнения проводится на слабой версии модели (GPT-3.5), а не на GPT-1 или GPT-2?
+- да, мы понимали, когда писали, что это (пока) не в полный серьез. Поэтому написано "концепт". Надо было более явно написать, что большие компании пока не проявляют к этому интереса.
Когда алгоритм сможет самостоятельно изымать информацию из окружающей среды,я увидел тут фразу из мема про Илона Маска - когда высадится на Марс, вот тогда и поговорим!
Вообще интересна смена топика тобой:
- ИИ не может быть умнее людей, такого не бывает и не будет
- но вот есть несколько примеров узких ИИ, которые так делают
- ну так у них другие алгоритмы, но я уверен абсолютно точно, что у GPT этих не так и не получится
- да, разные (на самом деле верхнеуровнево одинаковые, но это не важно), но разве это доказывает то, что они не смогут превзойти людей?
- ну а вот когда "сможет самостоятельно изымать информацию из окружающей среды, анализировать её, сравнивать текущее состояние среды с целевым, создавать воздействие на окружающую среду, анализировать результаты воздействия, накапливать и изменять поведенческие шаблоны" - тогда и поговорим!
Причём, первые 2 пункта и 4й и 6 - уже достигнуты, странно, что ты их упомянул.
В общем, давай подписывайся на мой и Пашин каналы, через 2 года в комментах придешь скажешь "ладно, ребят, плохо представлял, теперь понял". Будем очень ждать ;)
Я не вижу, как разность алгоритмов определяет корректность тезиса. Если одни алгоритмы узкого применения могут показывать превосходящий человека перформанс, то почему другие (которые в отдельных задачах проявили себя так же) не могут?
Интересно, как мы сделали алгоритмы, которые играют в Го, шахматы и разные компьютерные игры лучше, чем человек? откуда эти знания взялись, как их туда "вложили"? Эти знания были в выборке, да? (нет)
И ещё не совсем понятно как ИИ выбирает самое первое слово в ответе ]она просто продолжает писать текст. Если модели задан вопрос - то этот текст уже есть, и _логичным_ его продолджением будет на этот вопрос
можно ничего не подавать на вход, тогда модель случайно выберет тему сама (ей на самом деле под капотом всегда подается первое слово, служебное, как спецсимвол, и модель знает, что это - начало любого текста, она так обучена была - то есть тако символ и на тренировке добавляли).
Статья: ChatGPT будет ассистентом, его нужно учиться использовать, вот 2 исследования, показывающие повышение продуктивности
Коммент: Всех нас заменят нейросети и бла бла бла. Мы уже поняли что сказочные истории от сказочников всех увлекают
так бесит этот поток бесполезной информации созданных на основе новостных лентПо моему, в этой статье собрано больше, чем было в ленте. Я ни у кого не видел оценок по разеру - потому что никто не понимает даже, что это (как раз те, кто бла-бла)
нет, она натурально генерирует сразу ответ на нужном языке. И читает с исходного. Перевод происходит неявно и внутри.
у меня есть серьезное подозрение, что либо класс задач, даваемых модели, сильно отличается от того, что она может, либ промпты и вопросы / подача аболютно нетривиальны. Го скрины
речь точно про 4, а не 3.5?
Я бы читал это так: на большом наборе разных тем в задаче "выбрать правлиьный ответ из 4 модель хорошо работает на всех языках". Это косвенно указывает на то, что она понимает хорошо разные языки и переносит между ними знания (но не генерит на них ответы, потому что в тесте ответ - 1 буква). Да, в среднем модель точно лучше рабоатет на разных языках, чем прежде, но настолько ли же поразительно, как на англйиком - вопрос;
это не создатель, а рандом из твиттера..КОТОРЫЙ ПОПРОСИЛ ЕЁ ПИСАТЬ ТО, ЧТО ОНА НАПИСАЛА
Паша неделю назад: ща по прошлой статье запишем видео
Эта неделя: ГПТ-4
Паша:
потому что создатели (некоторые) - выходцы из Азии, и они искали рынок, где много народу, который они понимают, и могут выйти на этот рынок с каким-то преимуществом.
не бойтесь спрашивать, мы ответим и, если нужно, внесем корректировки в статью :eyes:
Стоит ожидать увеличения, потому что они подстроятся под спрос.
Позавчера было 100 сообщений за 3 часа, вчера 50) Видимо, ну очень уж большой наплыв
Исправил обложку, не благодарите
от был в ответе с точки зрения промта, и в запросе в общем смысле. То есть в модель буквально подали на вход "давай шаг за шагом" (не она это писала), и это было написано после слова ответ (чтобы ответ начинался с рассуждения).
Ооо, Алексей, привет из далеких времен курсов по бигдате в x5 0/ рад что заглянул)
На самом деле упущений нет, примерно так и выходит, но стоит еще помнить, что помимо прямой деятельности значимая часть мозга уходит на "подковерные" вещи для работы всего организма + неотслеживаемый мыслительный процесс. Так что, возможно, для таких сравнений нужно будет не в 500 раз (200B vs 100T) вырастить модель, а в 100 (как 20%).
Однако мне самому аналогия с человеческим или животным мозгом не нравится, я предпочитаю избегать её. Да, отдельные концепты в нейросетях переняты от человека, мы как бы свои "удачные" механизмы внедряем как априорные знания. Но эти похожие вещи очень условно можно называть одинаковыми. То есть концепция нейрона из головы слабо переносится на концепцию нейрона в нейросети. Поэтому сравнивать сложно, не говоря уж про то, что в текущем виде "синапсы" отрастать у нейронки не умеют - то есть чтобы она сама находила связи с другими нейронами, и этот процесс был эффективным (сейчас-то каждый нейрон условно связан со всеми остальными, и теми что раньше, и теми что позже в нейронке. Просто эта связь может быть очень слабой).
На вопрос "когда" у меня ответа нет, если модели размера 3-4 миллиарда еще реально пощупать, пообучать, то дальше - это уже очень сложная задача, для которой нужна команда инженеров и девопсов для обслуживания инфры. Даже в России, вон, Яндекс сделал свой отдельный суперкомпьютер, чтобы обучить языковую модель на 100B параметров. Мой поинт в том, что очень мало людей в мире может сделать такую прикидку, основываясь на хоть какой-то фактуре, и я не в их числе, поэтому тут чистая спекуляция. В моей картине мира условная GPT-4 не будет следовать слухам про "100 триллионов", резонный размер - up to 5T, и то не в sparse, а не dense режиме (то есть не все параметры задействуют во время генерации, модель сама выбирает слои, через которые делать форвард-пасс). Тут я увидtл частичное противоречие своему же тезису выше про ""синапсы отрастать у нейронки не умеют", и да, получается, что некий аналог есть.
На картинке ниже - как раз принцип работы микстуры экспертов, sparse-модели. Микустура экспертов - это когда вместо каждого блока трансформера их, скажем, 100, но применяться будет всего 1 - и есть отдельная маленькая нейросеть (Router), которая предсказывает, какой из этих 100 лучше использовать. Самый просто способ про это думать - это что разные эксперты отвечают за разные языки и за разные области знаний. Если спросить на немецком про историю Берлинской стены - будет использовать эксперт номер 8, например, а если про Пушкина - номер 19. За счёт того, что эти блоки параллельные, их можно делать много, и это и приводит к триллионам параметров. Однако число параметров, используемых во время генерации, будет пропорционально количеству слоев, а не кол-ву слоёв*кол-во блоков (используем по 1 эксперту за раз)
нет, не следует
Это всё не ChatGPT. Из всех перечислленных моделей только одна тренировалась на задачу повышения фидбека людей - Davinci (потому что это как раз InstructGPT), остальные просто тренировались предсказывать следующее слово, в том числе и для кода (Codex). Это значит, что использование тех моделей поменьше будет не так впечатлять, как это делает Чат
Это как раз и есть InstructGPT, которую мы разбираем в статье как родителя ChatGPT.
Я говорю вот про что-то такое https://t.me/seeallochnaya/83 (тут технический сложны язык, но по картинке + первым 2 абзацам должно быть понятно).
Есть более впечталяющие примеры, когда модель сама себя спрашивает, сама делает запрос в гугл, сама генерирует код для решения задачки (вместо калькулятора) итд, но из картинок у меня разве что вот: https://t.me/denissexy/6822 (в ответах то что зеленое - это генерации, а не текст, вводимый человеком)
я не согласен с этим сообщением, но объяснение ответа на вопрос "почему" будет очень длинным, после статьи не успел выдохнуть, чтоб столько строчить. Если вкратце, то ты говоришь про одну конкретную модель, заточенную под один формат диалога. Но ты не учитываешь, что ей не обязательно давать ответ сразу - она может сгенерировать какие-то другие инструкции, например "прочитай перед ответом вот эту статью" и "извлеки из нее вот это и это" (как и рабоатет бинг). К концу 2023го это будет более очевидно и наглядно)
https://www.youtube.com/watch?v=udPY5rQVoW0