Я прочитал статью - китайцы почему-то решили назвать новый подход устоявшимся термином "дистилляция".
Если вкратце, то:
Multi-Token Prediction позволило запустить обучение сразу с несколькими учителями (MOPD), причем параллельно с основным обучением, что ранее было невозможно, поскольку требовало огромного количества GPU.
В общем итоге это позволило более качественно обучить модель.
309 миллиардов параметров, но работает на ноутбуке?
Так это невозможно - модель не влезет в память ноутбука.
Помнишь, как обычно делают умные модели? Сначала Supervised Fine-Tuning (SFT), потом Reinforcement Learning (RL) — это дорого, долго и требует тонны GPU. Xiaomi сказали: «А давайте сделаем иначе».Они придумали MOPD — Multi-Teacher Online Policy Distillation.
Вы в одну кучу смешали тренировку моделей и дистилляцию моделей.
Это самоулучшение в замкнутом цикле — модель-студент становится учителем для следующей итерации.
Дистиллированная модель-студент будет хуже чем модель-учитель, у которой она училась. Соответственно, в замкнутом цикле каждая последующая модель будет слабее предыдущей, что лишает всю задумку смысла.
Поэтому мне кажется, что вы что-то путаете в описании процессов.
Для этого используется комбинация методов компьютерного зрения и обработки естественного языка, а также retrieval-подход, похожий на принцип RAG-моделей (Retrieval-Augmented Generation): ИИ не придумывает данные, а ищет и объединяет нужные фрагменты из внутренней базы инженерных документов и корпоративных стандартов предприятия, чтобы собрать полное и достоверное описание изделия, максимально сократив риск галлюцинаций.
Эта тема не раскрыта. По скринам вы как будто просто базу сканов создаете, а VLLMкой распознаете мета-данные, чтобы было удобнее по базе искать.
Что именно вы там еще достаете из чертежей и как RAG к этому прикручиваете?
Это скорее всего искусственно сгенерированные чертежи.
Если судить по описанию, то они просто создают базу сканов чертежей. Т.е. подробную информацию из чертежей они не достают, только общую - для организации поиска. А размеры все равно потом придется на чертеже искать, пусть и в отсканированном виде.
Классический OCR возвращает bbox текста и сам текст. Чтобы понять, что какой текст описывает, нужен либо сложный постпроцессинг, либо четкий шаблон.
VLLM позволяет упростить постпроцессинг - языковая модель самая понимает что и для чего написано на изображении.
Классический OCR подходит, когда обрабатываются сканы одного типа. А VLLM - для широкого спектра документов.
сама компания предостерегали инвесторов и просили их не покупать акции
Когда всеми силами пытаешься остановить дураков, а они все равно прут
Не, этот дельный товарищ. Незадолго до ухода из Meta, он предложил новую архитектуру нейросетей, которая потенциально может понимать окружающий мир и иметь здравый смысл. Правда, название у нее для нас неблагозвучное - JEPA.
Как демократия конвертируется в блага для жителей, можно почитать в исследованиях, за которые дали нобелевскую премию по экономике в 2024 году.
Вот некоторые из этих исследований:
https://www.annualreviews.org/content/journals/10.1146/annurev-polisci-050718-043546
https://www.journals.uchicago.edu/doi/10.1086/700936
https://pubs.aeaweb.org/doi/pdfplus/10.1257/aer.91.5.1369
https://www.jstor.org/stable/4132478?origin=JSTOR-pdf
Так а какая разница с техникумом и колледжем - там те же 3-5 лет учебы, просто раньше начинаешь? Речь же об этом, а не о том, чтобы вообще без образования брать.
В статье написано, что необходимо прекратить продвигать брак с богатыми и влиятельными мужчинами. Сериалы не должны идеализировать материализм, богатства, власть и гедонизм.