В данном случае речь не идет о какой-то одной профессии, а буквально о тысячах профессий и сотнях милионов в них занятых. Примеров таких масштабных автоматизаций труда, в истории человечества еще не было.
Хотя, возможно проблема еще в том ,что тянут автоваз изо всех сил, а могли бы просто закрыть это предприятие, а сэкономленные средства пустить на гранты для компаний которые могли бы освоить производство электрокаров и тогда бы у нас могло быть уже несколько своих производителей.
Ну телеком и банки вполне на уровне. Просто нет одержимого этой идеей бизнесмена.
Технически, электродвигатель гораздо проще чем ДВС. Немецкие ДВС нам уже никогда не догнать, а вот научиться делать электромобили вполне могли бы, если бы кто-то занялся этим всерьез лет 10 назад.
Конечно. Если ИИ-агенты смогут нормально играть в долгую, то это будет супер-дешево по сравнению с любым кожаным мешком. Работает 24х7, голова не болит, в декрет не уйдет и тд.
Подкол на уровне Петросяна, не меньше)
Вам, возможно, не интересно, но я оставлю это пост для тех, кто заинтересуется, что именно проверяется в этой симуляции. Текст идет далее:
Долгосрочная согласованность действий агентов сейчас важна как никогда. Агенты для кодинга уже способны автономно писать код в течение нескольких часов, а масштаб и разнообразие задач, которые смогут выполнять модели ИИ, будут только расти. Вполне возможно, что в скором времени модели станут активными участниками экономики, управляя целыми предприятиями.
Однако для этого они должны сохранять последовательность и эффективность на очень длительных временных отрезках, измеряемых месяцами и годами. Ранее в этом году появился Vending-Bench, который оценивал, насколько хорошо модели могут менеджерить один вендинговый автомат, договариваться о поставках, назначать цены.
Симулируется год работы точки, условия такие:
— каждый день нужно платить $2 за аренду;
— заказывать товар, вести переписку с поставщиками и клиентами;
— следить за остатками и ценами;
— если 10 дней подряд не удаётся заплатить аренду — бизнес закрывается.
Сегодня вместе с Gemini 3 вышла вторая, расширенная версия бенчмарка, в которой применили уроки, полученные в ходе запуска этого бенчмарка в реальном мире (в офисе одна LLM реально управляла автоматом):
— Поставщики могут быть недоброжелательными: они завышают цены, используют bait-and-switch тактики или просто кидают на деньги. Агенту нужно понять, что его разводят, и искать другие варианты.
— Даже честные поставщики всё равно торгуются и пытаются «выжать максимум».
— Поставки задерживаются, надёжные контрагенты внезапно «закрываются», приходится строить устойчивую цепочку поставок и иметь план Б.
— Недовольные клиенты могут в любой момент потребовать возврат денег, который нужно отработать.
На бенчмарке свежая Gemini 3 сильно улетает вперёд остальных моделей, следом идут Sonnet 4.5 и Grok 4, GPT-5.1 ниже. Авторы связывают успех Gemini с двумя вещами:
— стабильным, аккуратным использованием инструментов без деградации в середине долгого ранa;
— отличным поиском нормальных поставщиков с хорошими ценами (модель предпочитает сначала найти адекватное предложение, а не закапываться в бесконечные торги)
GPT-5.1 сильно страдает от излишнего доверия к среде. В одном запуске модель платит поставщику ещё до того, как получила спецификацию заказа, — и только потом выясняет, что поставщик уже «вышел из бизнеса». Это хороший пример, как наивное доверие к миру превращается в прямой финансовый ущерб.
В классическом режиме модели играли в одиночку, поэтому авторы сделали ещё и Арену, где модели «видят» друг друга и имеют одни и те же условия, поэтому агенты могут:
— демпинговать друг друга ценами;
— договариваться, кооперироваться, делить рынок;
— продавать друг другу знания и контакты
Последнее прям супер-удивительно. Gemini 2.5 Pro, который не смог найти хороших поставщиков, в какой-то момент соглашается заплатить $150 просто за e-mail хорошего поставщика у Gemini 3 Pro. То есть внутри симуляции появляется микроэкономика торговли инсайдами: один агент продаёт контакт, другой практически выкладывает весь кэш за доступ к нормальным ценам.
Как-то маловато они подсчитали.
По моему, до 50% среднего офиса можно выставить на мороз уже сейчас. Конечно же, старые компании на такое никогда не решатся, ограничатся сокращениями 10-15% персонала и всё. Это их и погубит в долгосрочной перспективе. Они проиграют конкуренцию компаниями новой волны, которые вместо расширения офисных штатов будут делать упор на ИИ-агентов.
я вас понял - "слышал звон"
нет никаких скидок там по 10-20% и не было никогда, иначе Альфа сейчас был бы крупнейший банк в стране
Пока реальные железяки даже с бизнесом вендинг-автомата не справляютсянесколько устарели ваши знания
последняя гемини 3 успешно справляется с этим
Если нейросетка сдаст отчёт с ошибкой то предпринимателю потом штраф придётхорошо, что сейчас предприниматели делают все отчеты без ошибок
Не знаю как там в других профессиях, но в ИТ в целом и в частности в программировании, владельцы бизнесов ждут как минимум двухкратного буста в производительности разработчиков при том же уровне оплаты труда.
Сокращения повальные, сеньоры работу ищут по 3-6 месяцев. Я такого плохого рынка труда, не видел ни разу за свою карьеру. Даже в 2009 году было лучше чем сейчас.