Подборка интересных исследований

✦ Google Cloud опубликовал отчет о внедрении ИИ в бизнесе

52% использующих ИИ уже применяют агентов. 39% организаций уже запустили более 10 ИИ-агентов. 74% руководителей отмечают реальную окупаемость инвестиций (ROI). Основные области ROI: продуктивность (70%), клиентский опыт (63%), бизнес-рост (56%), маркетинг (55%). Ключевой фактор успеха: активная поддержка руководства компаний. Отчет основан на опросе 3466 руководителей компаний с выручкой $10+ млн - читать отчёт

✦ AIRI: первая в мире платформа для сравнения часов старения

Команда исследователей из AIRI и Сколтеха разработала открытую платформу для объективного сравнения алгоритмов выявления биологического возраста. Собрано более 17 000 образцов метилирования ДНК из 104 исследований. Данные охватывают 19 состояний, ускоряющих старение. Всего протестировано 13 популярных моделей. Лучшей признана PhenoAge второго поколения от Morgan Levine (Yale University, Altos Labs). Платформа и датасет в открытом доступе под лицензией Creative Commons

✦ Исследование OpenAI: почему ИИ галлюцинируют

Проблема из-за обучения на угадывание, а не на честность. Текущие бенчмарки оценивают модели по количеству верных ответов, прощая ложь. Если 20% фактов в датасете встретились хоть раз, модель будет выдумывать про эти факты, как минимум, в 20% случаев. OpenAI предлагает штрафовать за неверные ответы и поощрять честные «не знаю» - подробнее в статье, ещё есть хороший разбор у коллег

✦ Базы данных будущего: как поддержать систему ИИ-агентов

Агенты выполняют высокочастотное исследование данных порождая до тысяч запросов в секунду. Система БД должна стать про-активной и давать оценки стоимости запросов. То есть агенты отправляют не SQL, а запросы с контекстом: цель, этап, точность и приоритеты. В ходе экспериментов система сократила число запросов на 20+%. В тестах с участием GPT-4o-mini, Qwen2.5-Coder точность повысилась на 14 - 70%

✦ Новый метод от Apple и Оксфорд, который делает ИИ умнее

BED-LLM: модели учатся задавать правильные вопросы. Метод позволяет LLM адаптивно собирать информацию в диалоге. В игре "20 вопросов" успешность угадывания выросла с 14% до 91% для Mistral-Large. В тестах участвовали: Mistral-Large, GPT-4o, Qwen2.5-72B, Llama-3.3-70B - полный отчёт

Подписывайтесь на Telegram EFEMERA: AI news.

1
Начать дискуссию