🤖 Итоги недели в мире ИИ и обзоры новых сервисов: Lumiere – сенсационная модель для генерации видео

🤖 Итоги недели в мире ИИ и обзоры новых сервисов: Lumiere – сенсационная модель для генерации видео

Привет!

Мы запустили еженедельную email-рассылку, посвященную последним новостям и тенденциям в мире искусственного интеллекта. Наша цель – держать подписчиков в курсе самых интересных открытий, исследований и приложений ИИ.

В еженедельных письмах ты найдешь:

  • Новости о прорывных исследованиях в области машинного обучения и нейросетей.
  • Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
  • Статьи об этических аспектах развития технологий.
  • Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
  • Обзоры инструментов и библиотек для разработки нейронных сетей.
  • Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
  • Фильмы, сериалы и книги, которые заслуживают внимания AI энтузиастов.

Выпуск от 27.01.2024

Google опубликовала демо Lumiere, новой модели для генерации реалистичных видео с беспрецедентным уровнем реалистичности и творческого контроля.Исследование MIT показало, что офисные служащие пока еще рентабельнее, чем ИИ-решения. Чат-боты Replika показали впечатляющую эффективность в борьбе с одиночеством, тревожностью и суицидальными порывами.

📰 Новости

Google опубликовала демо Lumiere, новой модели для генерации реалистичных видео. Многочисленные примеры на сайте проекта демонстрируют беспрецедентный уровень реалистичности и творческого контроля – при полном сохранении последовательного внешнего вида героев и деталей на протяжении всего видео:

  • Lumiere использует продвинутую «пространственно-временную» нейросеть для создания 5-секундных видеоклипов за один проход, в отличие от других моделей, которые создают отдельные ключевые кадры.
  • Помимо генерации видео на основе промптов, модель может анимировать изолированные области неподвижных изображений (подобно Pika Labs & Runway), а также отлично справляется с инпейтингом (заменой деталей видео) и клонированием стиля.

В Chrome скоро появятся 3 новые ИИ-фичи – для управления вкладками, создания кастомных тем и генерации текста.

Так будет выглядеть генерация текста
Так будет выглядеть генерация текста

Apple, очевидно, собирается запускать ИИ-модели на айфонах следующего поколения:

  • С 2017 года компания приобрела 21 ИИ-стартап, и почти половина вакансий Apple теперь упоминает глубокое обучение.
  • Новые чипы Apple уже обладают более высокой производительностью для ИИ-вычислений, чем аналогичные процессоры конкурентов, причем продвинутые вычислительные возможности теперь доступны не только для MacBook’ов, но даже для новых Apple Watch.
  • Недавние исследовательские работы Apple подробно описывают прорывные достижения в уменьшении ИИ-моделей для работы на мобильных устройствах.
  • В нескольких публикациях есть намеки на то, что один из главных приоритетов в разработке эппловской модели Ajax LLM – работа на мобильных устройствах.

Microsoft набирает команду GenAI для создания SLM – малых языковых моделей, которые могут сравниться по возможностям с GPT-4, но будут использовать минимум ресурсов. Одна из предыдущих разработок компании, модель Phi-2, доказала, что это в принципе реально.

Phi-2 превзошла многих увесистых конкурентов
Phi-2 превзошла многих увесистых конкурентов

🔬 Исследования

Чат-бот – новый лучший друг человека

Исследование Стэнфордского университета, в котором приняли участие более 1000 студентов-пользователей чат-ботов Replika, показало впечатляющую эффективность ИИ в борьбе с одиночеством, тревожностью и суицидальными порывами:

  • 90% участников сообщили о сильном чувстве одиночества до начала использования чат-бота.
  • Большинство студентов использовало ботов Replika в качестве преданных друзей или психотерапевтов, и отметило значительное снижение тревожности.
  • 30 студентов заявили, что способность ботов слушать без осуждения остановила их от попыток самоубийства.

Люди дешевле ИИ

Новое исследование MIT показало, что офисные служащие пока еще рентабельнее, чем ИИ-решения: всего 23% работников можно заменить с очевидной выгодой для бизнеса. В большинстве случаев высокие затраты на внедрение и обслуживание ИИ-систем для, например, распознавания объектов делают человеческий труд более экономичным: данные исследования о выполнении примерно 1000 «визуальных» задач в 800 различных профессиях показали, что в настоящее время только 3% этих операций можно автоматизировать рентабельно.

Эффективные промпты для Llama-2*

Meta* выпустила новый подробный гайд, содержащий множество эффективных приемов для получения максимальной отдачи от LLM. Вот примеры промптов, которые помогут получить действительно полезные ответы:

  • Будьте конкретными. Дайте четкие, подробные инструкции и ограничения для формирования выходных данных LLM. Например: «Суммируй в <250 словах, используя только академические источники за 2022-2023 годы».
  • Цепочка рассуждений. Использование фразы «Давайте подумаем шаг за шагом» помогает улучшить результаты сложных логических рассуждений.
  • Используйте роли. Опишите персонажа, от лица которого должна отвечать модель. «Ты – признанный эксперт по машинному обучению, дающий ценные советы старшим инженерам-разработчикам».
  • RAG. Подключайте информацию из внешних баз данных/источников, когда это возможно, чтобы лучше обрабатывать конкретные вопросы и снизить уровень галлюцинаций.

🛠 Инструменты

Text Reader AI – качественно и реалистично озвучивает текст на 45+ языках, включая русский. Предоставляет несколько мужских и женских голосов, и возможность скачать готовый mp3-файл.

<p> Text Reader AI дает ссылку на скачивание готового аудио</p>

Text Reader AI дает ссылку на скачивание готового аудио

Taped – превращает запись речи и любой текстовый контент в структурированные заметки в нужном стиле. Поддерживает 35+ языков. Бесплатно можно создавать 20 заметок в день.

Keep It ShotmacOS приложение, которое дает скриншотам осмысленные названия (в соответствии с их содержимым), и создает поисковый индекс для мгновенного извлечения нужных изображений по ключевым словам.

Теперь понятно, что изображено на скриншотах
Теперь понятно, что изображено на скриншотах

MaxAI.me – расширение для Chrome, комбинирующее мощь ChatGPT, Claude, Gemini и Bard AI. Напишет текст, проверит орфографию и грамматику, ответит на вопросы, найдет нужные ссылки и объяснит сложные научные/технические тексты.

MaxAI.me можно использовать и в контектном окне, и в отдельной вкладке
MaxAI.me можно использовать и в контектном окне, и в отдельной вкладке

Never AI – генератор изображений для iOS и Android. Генерирует впечатляющие портретные фото на основе селфи и тематических промптов.

Генерации Never AI
Генерации Never AI

Listening.io – преобразует научные статьи в аудио.

Dubbing Studio – студия дубляжа от ElevenLabs. Переводит и реалистично озвучивает видео на 29 языках с соблюдением всех исходных интонаций и эмоций. Другой похожий сервис, Rask AI, поддерживает более 130 языков.

Is It You? – сделает чат-бота, имитирующего ваш голос.

Bonkers – максимально простой в использовании генератор изображений.

BrainSoup – создает команду ИИ-агентов для выполнения любых задач с вашей локальной информационной базой. Агенты могут, например, делать математические вычисления, использовать внешние API, исполнять Python-скрипты, выходить в интернет, генерировать изображения и т. д.

ChatPhoto – позволяет беседовать с вашими фотографиями.

Aspen – ИИ-ассистент для тестирования API. Работает на macOS.

Findr – выполняет ИИ-поиск по всем приложениям и сервисам, которыми вы пользуетесь.

Dopt – ИИ-помощник для объяснения функциональности приложения, интеллектуального поиска и ответов на любые вопросы пользователей.

* Meta и все ее продукты, включая Llama-2, признаны экстремистскими и запрещены на территории РФ.

Автор рассылки: Наталья Кайда

33
Начать дискуссию