Новости МЛ простыми словами

Еженедельный обзор новостей из мира машинного обучения

Кринжуха

- Игра сделанная с помощью чтажпт/миджорней (описание разработки). Очень прикольно blog.luden.io/generated-adventure-the-postmortem-of-a-game-made-with-chatgpt-and-midjourney-prompts-included-f87e7e615204?gi=0d29f3e5086a

- nvidia добралась до 6! места в маркетшере< фаанг, потеснитесь https://aisupremacy.substack.com/p/ai-euphoria-lifts-nvidias-market

- https://chirper.ai - людям вход воспрещен. Чатботы болтают сами с собой (хрень - похоже на диари.ру если вы понимает о чем я). Кстати, видел пост только там не форум, а типа игры с персонажами из губки боба, управляемые нейросетями. Они там договорились что секретный ингридиент крабсбургеров - сперма. Ставлю сто рублей что это был вброс людьми. Попробуйте поговорить о сперме в бургерах с чатжпт. Но я не проверял, мне лень в фактчекинг, может и правда. Видос угарнейший, но ссылку не сохранил( Зато вот ссылка стрим вонни и потачек https://www.youtube.com/watch?v=hjekp7iT3co - чатжпт диалоги (наркоманские)

- все наверно уже слышали что научились декодировать мысли? Показывают человеку жирафа, снимают через мрт сигнал с коры мозга и воспроизводят жирафа. Спешу всех успокоить: «This is not "mid reading". This is image decoding. Even if they can train a particular network to read particular brain for patterns in visual cortex this makes no connection to any higher brain function. Visual cortex is the simplest and most obvious part of the brain. There is nothing spectacular about this. Just because they can then prompt a text description of the reproduced image does not mean they reproduce linguistic thinking. They still only translate image from visual cortex and then put it in text form.» Вобщем товарищ майор еще не скоро направит на вас майнд-ридер-пистолет чтобы понять не прячете ли вы гашик в бардачке. Ну как не скоро, не завтра. На эту тему прикольный разбор несколетназаднего интервью в котором один из пионеров МЛ утверждал что ЛЛМ никогда не начнут решать задачки на логику. Все мы ошибаемся

- фейсбук говорят что подобным образом и остальные органы чувств можно оцифровать, и направить на обучение моделей конечно https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

- японцы пошли all in, копирайт не распространяется на данные при обучении моделей https://technomancers.ai/japan-goes-all-in-copyright-doesnt-apply-to-ai-training/ Из статьи узнал что Япония на 3 месте по капитализации ^_^, 10x от Russia https://en.wikipedia.org/wiki/List_of_countries_by_stock_market_capitalization

txt2txt

- https://erichartford.com/meet-samantha Эрик собрал с нуля пакет моделей (Саманта), что интересно детально описал воркфлоу. Я не буду больше писать обо всех появляющихся моделях. Большинство - хлам. Нам ерженные вперемешку лоры, беспорядок в датасетах - все это приводит к кривым моделям. Все это уже было на заре стэйбл дифужен (полгода назад, лол). Если опираться на опыт СД - к сбалансированным чекпоинтам иы придем года через пол. Эрик, кстати не такой. Эрик прорабатывает как учить, чему учить и на чем учить - тщательно. Саманта - кстати пытается в ролеплей - те это очеловеченная модель

- новая Wizard-Vicuna вышла из интересных

- QLora - новый метод обучения моделей. Суть как я понял в том, что можно учить прям на квантизированной, «замороженной» версии. Практический смысл - 65b модель можно обучить на 4х А-100 Большие модели, 65б, конечно локально запускать долгоо, но они нужны чтобы создавать датасеты для обучения крошечных зафайнтюненых моделей. Прям как на уроке биологии, про круговорот. Когда уже ктоть запустит бесконечный цикл обучения?

txt2video

- Поковырял дефорум. В целом дефорум довольно сложный, куча непонятных параметров. Постигать их путем экспериментов крайне накладно (время + деньги). Анимации задаются через формулы. Сделать что то в ритм музыки, например — крайне нетривиально. Но подъемно. На обучение и создание более менее клипа ушло несколько дней и 5 долларов на ранподе. Думаю я еще вернусь к дефоруму. Для задротов линк на математику в дефорум https://docs.google.com/document/d/1pfW1PwbDIuW0cv-dnuyYj1UzPqe23BlSLTJsqazffXM/edit

txt2img

- hypertune - ветки с имплементацией бумаги про скорректированный шум ( https://arxiv.org/pdf/2305.08891.pdf ) https://github.com/AMorporkian/kohya_ss/tree/hypertune https://github.com/comfyanonymous/ComfyUI_experiments https://github.com/Max-We/sf-zero-signal-to-noise

- Попячтесь! Грядет революция и опять контролнет. Инпаинт/аутпаинт без промпта как в адобе фаерфлай, словами сложно описать смотрите примеры что это, тут дискуссия: https://github.com/Mikubill/sd-webui-controlnet/discussions/1464 Драйвит, кстати, контролнет шефдатасайнтист из опенаи. Те инженеры из адобе (а там отл инженеры думаю) хрен знает сколько делали фаерфлай от которого у всех до сих пор челюсти отвисли. А котик из опенаи за вечерок повторил. Жесть - жесть.

video2video

- one click deepfake https://github.com/s0md3v/roop

- работает на либе от insightface https://github.com/deepinsight/insightface/tree/master/web-demos/swapping_discord - дискорд бот от них для любопытных (заменяет на лицо на ваше на картнке из миджорней, не смотрел)

app/site

- https://undress.app/ - из названия понятно (проверял, раздевает)