Инструменты от Nvidia для создания музыки и 3D-моделей, анонсы от Anthropic, новые генераторы видео: дайджест ИИ-обновлений за неделю

Коротко о том, что изменилось в сервисах для создания текстов, музыки, фото, видео и написания кода.

Фото

ИИ-сервис генерации видео Runway представил свою модель для создания изображений Frames. Работает по текстовому запросу. Доступ будут открывать постепенно пользователям Gen-3 Alpha. Модель входит в платную подписку стоимостью от $15 в месяц (чуть больше 1600 рублей по курсу ЦБ на 29 ноября 2024 года).

Luma AI запустила сервис генерации изображений и объединила его с генератором видео Dream Machine. В бесплатном плане доступно ограниченное число генераций, разрешение 720p, есть водяные знаки на фотографиях.

Источник: Luma AI 

Разработчик ИИ-генератора изображений Stability AI выпустил набор инструментов редактирования Control Nets для модели Stable Diffusion 3.5 Large. Есть инструмент для улучшения качества изображений, создания картинок в заданных контурах и с учётом глубины композиции.

Инструмент Blur для улучшения качества изображений до разрешения в 8K и 16K
Инструмент Blur для улучшения качества изображений до разрешения в 8K и 16K
Инструмент Canny для создания изображений в заданных контурах
Инструмент Canny для создания изображений в заданных контурах
Инструмент Depth для генераций с учётом глубины композиции
Инструмент Depth для генераций с учётом глубины композиции

Видео

Runway представила функцию Expand Video, которая позволяет генерировать новые объекты за пределами исходного кадра. Можно прописать текстом, что добавить, или прикрепить изображения. Компания сообщает, что инструмент скоро будет доступен всем пользователям.

Источник: Runway

Стартап Lightricks выпустил генератор роликов LTX Video с открытым исходным кодом. Создаёт клипы по текстовым подсказкам и из других видео. Пока демоверсия есть на GitHub, Hugging Face и fal.ai.

Источник: Lightricks

3D-моделирование

Nvidia и Shutterstock представили генератор 3D-моделей Edify 3D из 2D-изображения или по текстовому промпту. Пользователи получают 50 бесплатных генераций единоразово.

Источник: Nvidia

Код

Anthropic анонсировала универсальную систему Model Context Protocol (MCP), которая позволит любой модели напрямую подключаться к сторонним сервисам и приложениям, извлекать и использовать данные и редактировать страницы .

Claude подключается напрямую к GitHub и создаёт веб-страницу. Источник: Anthropic

Текст

Пользователи Claude получили возможность настраивать стиль ответов чат-бота. По умолчанию доступны: «Стандартный», «Сжатый», «С объяснениями» и «Формальный» для краткого изложения или изучения сложных тем. Claude также может создать стиль на основе текста-референса. Доступно в том числе пользователям без подписки.

Источник: Anthropic

Некоммерческая лаборатория Ai2 сооснователя Microsoft выпустила языковую модель OLMo 2 с открытым исходным кодом. Она поддерживает русский язык, работает с текстом и пишет код.

Скриншот vc.ru
Скриншот vc.ru

Alibaba выпустила модель с возможностью рассуждений QwQ-32B-Preview с открытым исходным кодом. Она может обрабатывать запросы на 32 тысячи слов, а в некоторых тестах превосходит модель o1 от OpenAI. Доступна по лицензии Apache 2.0 на Hugging Face.

Ответ модели QwQ-32B на запрос написать стихотворение на русском языке. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ft.me%2Fdenissexy&amp;postId=" rel="nofollow noreferrer noopener" target="_blank">Denis Sexy IT</a>
Ответ модели QwQ-32B на запрос написать стихотворение на русском языке. Источник: Denis Sexy IT

Музыка и аудио

Nvidia представила генератор аудио Fugatto, который создаёт звуковые эффекты по текстовому описанию, например, может «заставить трубу лаять», сгенерировать голос с заданным акцентом, а также изолировать вокал от музыки или добавить в трек звучание барабанов.

Fugatto отделяет голос исполнителя от общей звуковой дорожки. Источник: Nvidia

Сервис «нейродубляжа» ElevenLabs представил функцию создания подкастов из текстовых файлов с двумя «ИИ-ведущими». Можно озвучивать тексты из PDF-файлов, электронных книг и документов с помощью ИИ-голосов на 32 языках, включая русский.

33
22
11
Начать дискуссию