Новости МЛ простыми словами

Слухи/сплетни

- Эпл, самсунг, амазон и прочие корпорации запрещают использование чатжпт/копилот опасаясь утечек кода/документации

- addmeto пишет: «Утекшие документики из Гугла показывают, что новая языковая модель PaLM 2 обучена на значительно большем обьеме текстовых данных, разница почти в 5 раз. 3.6 триллионов токенов и 340 миллиардов параметров, вот это я называю “закидать проблему деньгами”.» С одной стороны все так. Но сама модель - палм2 в несколько раз меньше палм-1 и на самом деле модель стала дешевле в том же инференсе. Ну и «утекшие документики» - речь видимо о карточке модели, которую официально выложил Гугл. Давно читаю Григория, клевый канал. Тренд в целом на качественные датасеты и глубокое обучение моделей. Качественно обученная модель меньшего размера перформит лучше

txt2txt

- интересный пайпер (arxiv.org/abs/2305.11206). Идея в том что знания в модель закладываются на претрейнинге и для тюнинга не надо огромных датасетов, в пример ставится модель оттюненная на 1000 пар вопрос/ответ

- tinystories: the smallest gpt with coherent english (by microsoft) - на 3 гигабайтном датасете с урезанным словарем перформит на уровне жпт2. Мне показалась забавной и интересной идея обучать на упрощенном вымышленном языке модели, например на Toki Pona. Еще один пэйпер про less is more arxiv.org/abs/2305.07759

- вышел анцензоред визард 30b huggingface.co/ehartford/WizardLM-30B-Uncensored

- новый тренд? анцензоред датасеты, собирают через джейлбрейк жпт huggingface.co/datasets/jondurbin/airoboros-uncensored/viewer/jondurbin--airoboros-uncensored/train?row=0

- опенламу оттренили уже на 400 млрд

- llama.cpp получила поддержку видюх от АМД, куча новых методов квантизации (возможность запускать бОльшие модели)

txt2speach

- 1000+ языков txt2speach/speach2txt в новой модели от ФБ ai.facebook.com/blog/multilingual-model-speech-recognition/

txt2img

- multidiffusion - новый апскейлер. github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111

крипота

- автор написал под сотню книг ботами nypost.com/2023/05/22/author-uses-ai-generators-including-chatgpt-to-write-nearly-100-books-in-less-than-a-year/

- пока ФБ наступает на пятки ОпенАи, а гугл отстает на месяцы, Яндекс и Сбер уверенно воспроизводят модели n-летней давности. Пошли первые отзывы о ГигаЧат (я не смотрел), кажется типа мультиязычный Кандинский работал через переводчик wtf? а про яндекс GPT даже писать не хочется. Выглядит как модель из эпохи gpt-3, да еще и под пресом цензуры… Непонятно зачем торопились

- Предприимчивые котики зафайнтюнили SD модель на артах какого то современного художника и толкнули как nft коллекцию из 400 работ от его имени на опенсиа. Артист негодуе что кругом блокчейн анонимни, концов не найти. Настоящие НФТ-бро. Для меня весь этот нфт с киберпанк обезьянами за безумные деньги выглядит как жирный скам, поэтому в душе я даже ржу, что банальная лора может генерить обезьян не хуже

- ЧатЖПТ в рекламе. Красавчики пишут о росте стр в 2 раза, при откручивании рекламы через чатжпт. Как же можно крутить реклу через бота? Суть как я понял такая, разметили посещаемый контент через жпт4, например я посещал страничку: «Бузова светанула трусами» - категория шоубизнес, в куку пишем шоубизнес и рекламу про шоубизнес показываем (вагилак, например). Все растет дичайше (например был стр 0.01, стал 0.03 - значит в три раза если не стеняться утрировать). Хайпим про чатжпт, рекламодатели в очереди, нфт-бро и криптаны снимают шляпы, профит.

- а вот контекстные рекомендации расцветают через чатжпт. Если скормить сериалы/ любимые группы чатботу, искать он будет не по словам «ограбление банка / рецепт огурчиков в банке», а копнет глубже, в режисеров, актеров жанры и порекомендовать должен клево. Но до настоящей рексистемы типа как в тиктоке тут еще оч далеко

- повтыкать в генерэйтед порно: reddit.com/r/AIpornhub/

- совсем не про МЛ, но меня заинтерсовал подход https://htmx.org/ Типа, попытки без реакта и тп делать веб странички с бека