BioGPT - языковая модель для решения биомедицинских задач от Microsoft
BioGPT - это языковая модель transformer, разработанная исследователями Microsoft и оптимизированная для ответов на биомедицинские вопросы. Согласно исследованиям Microsoft, модель работает на уровне экспертов-людей.
Исследовательская группа Microsoft обучила BioGPT, используя только данные, относящиеся к конкретной предметной области. Они собрали статьи из PubMed, англоязычного источника текстовых метаданной биомедицинских статей, обновленной до 2021 года. В результате было получено в общей сложности 15 миллионов фрагментов контента с названиями и аннотациями, которые команда использовала для обучения BioGPT.
Для предварительной подготовки исследовательская группа использовала восемь графических процессоров Nvidia V100 для выполнения 200 000 шагов, в то время как тонкая настройка выполнялась с помощью одного графического процессора Nvidia V100 для выполнения 32 шагов.
Затем команда доработала предварительно подготовленную модель на основе GPT-2 с 357 миллионами параметров для последующих задач: извлечение сквозных связей, генерация текста, ответы на вопросы и классификация документов.
Исследователи также масштабировали свою модель на основе среды GPT-2 до самой большой доступной архитектуры GPT-2 XL. Доработанный BioGPTLarge с (все еще сравнительно небольшим) 1,5 миллиардами параметров достиг 81-процентной точности в тесте PubMedQA (BioGPT: 78,2), превосходя более крупные общеязыковые модели, такие как <a>Flan-PaLM</a> (540 миллиардов параметров, 79,0) и <a>Metas Galactica</a> (120 миллиардов параметров, 77,6).
BioGPT показывает, что небольшие, но специфичные для конкретной предметной области языковые модели могут конкурировать с гораздо более крупными, общими языковыми моделями в своей области. Одним из преимуществ небольших моделей является то, что они требуют меньше данных и обучения.
Противоположный подход заключается в точной настройке больших языковых моделей, таких как PaLM, для конкретных областей. Недавно Google продемонстрировала с помощью <a>Med-PaLM</a>, что большая языковая модель может быть эффективно оптимизирована для конкретных областей со специализированными подсказками и высококачественными данными. Med-PaLM может отвечать на непрофессиональные медицинские вопросы на уровне экспертов-людей.
Согласно исследованиям Microsoft, BioGPT выполняет задачи, проверенные в тестах, на уровне экспертов-людей, и превосходит другие общие и научные языковые модели. По словам Microsoft, BioGPT может помочь исследователям получить новые знания, например, при разработке лекарств или клинических методов.
В будущем команда планирует поэкспериментировать с дальнейшим масштабированием, чтобы подготовить еще большую версию BioGPT, оптимизированную для еще большего количества биомедицинских данных и для еще большего количества задач. Код для модели BioGPT, представленный здесь, доступен на Github.
Пользоваться уже можно простым людям или нет ?