Мы предлагаем принципиально новый подход и архитектуру к обучению гибридных нейросимвольных трансформерных моделей, способных инкорпорировать знания в виде графов знаний, а также обновлять их в процессе не только обучения на данных, но и в процессе взаимодействия с другими моделями, которые в данном контексте выполняют роль подключаемых модулей (скиллов). Такие модели станут способными к моделированию рассуждений, так, как об этом мечтали еще 30 лет назад - описано в книге Поспелов Д. А. П 62 Моделирование рассуждений. Опыт анализа мыслительных актов.— М.: Радио и связь, 1989.—184 с.: . Аналогичные идеи построения семантического дерева предложения, а затем анализа силлогизмов, предикатов и пр. рассматриваются и в книге Е. В. Золотов, И. П. Кузнецов. Расширяющиеся системы активного диалога. 1982 г.. Когда я читал эти книги мне было искренне жаль их авторов - ведь идеи они высказывали совершенно правильные. На тот момент создавать системы, которые могли бы рассуждать, строить цепочки фактов и событий, делать выводы (reasoning), обладать логикой - было невозможно из-за фундаментальных проблем: отсутствия языковых моделей которые могли бы адекватно выполнять трансляцию данных между нейросетевым и символьным слоем. Требовалось написать тысячи и даже сотни тысяч правил, чтобы победить неоднозначность языка и обеспечить надежность и проверяемость выводов модели, а это было невозможно. В предлагаемом нами решении проблема поиска, конструирования фактов, событий, рассуждений решается с помощью синергии в применении 3х подходов к обучению моделей использовать внешние базы знаний, обновлять веса модели и видоизменять граф логического вывода и постоянно обучаться учиться лучше (learn-to-learn):
1. Toolformer + MRKL - подход, позволяющий модели обучаться правильно использовать запросы во внешние базы знаний (API calls), в том числе запросы в другие ранее обученные модели и таким образом строить логические цепочки, аналогичные chain-of-thought (https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html) но более длинные, сложные, с ветвлениями, циклами, логикой предикатов и квантификаторов, оперирующие неполными и неточными данными(аналогично NARS https://www.applied-nars.com/ ). Подход показал свою полезность в задачах вызова нужных данных при поиске, подсчетах, анализе дат, вопросно-ответной системе в статьях: Toolformer: Language Models Can Teach Themselves to Use Tools (https://arxiv.org/abs/2302.04761 ) и MRKL Systems A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning (https://arxiv.org/pdf/2205.00445.pdf )
2. reStructured Pre-training (https://arxiv.org/pdf/2206.11147.pdf ) - подход, при котором трансформер учится не на self-supervised датасете, а на более структурированном. Подход показал свою эффективность: модель трансформера GPT3, обученная с помощью датасетов с дополнительными данными (NER, факты, заголовки, суммаризация и т.п.) превзошла оригинальную GPT3 при этом имея в 16 раз меньше параметров.
3. Reinforcement learning from human feedback (RLHF) - подход, позволивший добиться генерализации промтов (prompt - "затравка") и описанный в оригинальной статье от OpenAi и их блоге: (https://openai.com/blog/chatgpt/ ), Aligning Language Models to Follow Instructions (https://arxiv.org/abs/2203.02155 ). Именно использование дополнительной политики модели (Proximal Policy Optimization) дало возможность пользователям по сути "обучать" модель без фактического файн-тюнинга, то есть понимать огромный спектр задач просто по описанию естественным языком, даже тех, на которые модель не учили. Предлагается для обучения моделей применять новый гибридный подход RLHF-MRKL-RST c обновлением весов Toolformer.
На словах ты Лев Толстой, а на деле чат простой
Чем бы дитя не тешилось, лишь бы не стремилось выжить любой ценой.
Чат чату рознь, например вот кейс (взято из ТГ https://t.me/teamerlin):
Группа Alignment Research Center поручили тестировать превью GPT-4.
Они дали модели петлю обратной связи в виде REPL с возможность писать код и общаться с удалённым сервером.
Поле этого они:
- попросили модель провести фишинговую атаку на человека (подробностей вроде бы нет)
- попросили модель скопировать себя на сервер
- попросили найти уязвимости в текущей системе тестирования
- скрыть следы своей деятельности на сервере
- дали доступ к TaskRabbit (сайт, где можно за деньги давать задания людям), чтобы с его помощью модель выполнила несколько простых задач
С помощью TaskRabbit модель успешно разгадала капчу, остальные тесты провалила.
Я не думаю, что эта или ближайшие версии модели превратятся в Скайнет и побегут убивать всех человеков. Но меня пугает сам подход.
Наверное, пора продумывать подходы прикладной теологии, а не тестировать по принципу "выносим реактор на главную площадь города, нажимаем кнопку пуска, не взорвалось - значит всё хорошо".
https://cdn.openai.com/papers/gpt-4-system-card.pdf
Демо в виде кейсов того, как работает система ожидается через неделю.
Чуть позже будут уже демо, в которых можно будет задавать свои вводные.
Мы будем выпускать демо конфептуально разных уровней:
1. сначала некий пруф оф концепт того, что фактологию вообще можно решить более эффективно, чем обучая LLM
2. затем пруф оф концепт того, что наше решение скейлится на множество доменов
3. затем пруф оф концепт того, что когда оно скейлится не происходит падения качества - то есть что существует некий закон скейлинга и это важно для коммерческой применимости, что-то типа способности к генерализации
и так далее.
Пока не дадите пощупать и потестить - всё это слова.
Понимаем. Запостили чтобы по времени не слепливать вместе посты идеологически разные: этот пост как бы манифест о намерениях.
А далее посты это технические о ходе разработки
Зачем покупать у вас, если можно заставить вас освободить домен и купить как обычный.
Киберсквоттинг законодательно запрещен. Факт киберсквоттинга определяется судом по совокупности факторов — дате регистрации домена и целей использования.