ИИ-стартап Hugging Face и разработчик ServiceNow выложили в открытый доступ модель для бесплатной генерации кода Статьи редакции
StarCoder — это альтернатива сервисам вроде Copilot, который компания GitHub выпустила как «напарника программистов», пишет TechCrunch.
- Использовать модель StarCoder с 15 млрд параметров можно бесплатно — в том числе для корпоративных задач, без необходимости отчислять роялти. Её обучали на более чем 80 языках программирования, а также текстах и документации из репозиториев GitHub.
- StarCoder совместим с редактором кода Visual Studio Code от Microsoft и, как и чат-бот ChatGPT, может отвечать на вопросы о программировании и выполнять базовые запросы — к примеру, «сгенерируй UI приложения», выяснило TechCrunch. По словам одного из инженеров Hugging Face, продукт «не уступает, а порой и превосходит модель OpenAI, которую использовали для первых версий Copilot».
- StarCoder вышла под лицензией OpenRAIL-M: она даёт свободный доступ к коду, разрешает использовать его в своих целях и распространять «ИИ-деривативы», но с соблюдением правил. Так, например, пользователи должны обязаться не применять модель для генерации «вредоносного кода». Будут ли разработчики выполнять требования, «покажет время», пишет TechCrunch. По его словам, с технической стороны ничто не мешает им пренебречь правилами.
- Hugging Face и ServiceNow предупредили, что StarCoder может выдавать «неточный, оскорбительный и сбивающий с толку контент» и, в отличие от Copilot, не может похвастаться изобилием функций. Но доработать модель теперь поможет сообщество. Автор канала addmeto Григорий Бакунов отметил, что на его тестовых примерах StarCoder показала себя хуже, чем Copilot, но код при этом получился «работоспособным».
23K
показов
13K
открытий
1
репост
Погроммисты стебали кузьмичей, что те скоро не будут нужны, такси и Камазы скоро станут беспилотными…
Но вот уже эти смузихлебы пойдут на завод
Оно пишет такой же примерно код, если не хуже, как беспилотные такси и камазы ездят.
Оно пишет такой же код, как в ответах на StackOverflow. Проблема в том, что в ответах тоже сидят не идиоты, и заставляют плебеев хоть немного задуматься в том что они делают.
Да господи, просто посмотрите что там генерируется. Кодогенерацию изобрели давно, но это немного другое, и применение весьма узкое. Хорошая программа как лаконичная статья, GPT пока только воду раздувать может. Сколько уже вопросов на SO про сгенерированный код, который не работает, все бан идут. Время ещё не пришло.
Та не, оно просто не очень умеет в контекст, вот и всё. Когда просишь решить какое-нибудь говно с собеседования решает идеально, но когда нужно сделать большое связанное приложение у него памяти не хватает, что бы весь контекст этого приложения держать.
С одной стороны соглы. С другой, на том же SO говна, которое спрашивают на собеседовании каждый 100-ый вопрос, не удивительно, что там выборка неплохая получилась.
Да я на самом деле сомневаюсь, что оно училось по SO, нужно же размечать данные, может конечно оно читало описание вопросов или ответов и как-то понимало про что это, но мне кажется просто люди куски кода размещали.
Могу лишь предложить почитать тред:
https://meta.stackoverflow.com/questions/421831/temporary-policy-chatgpt-is-banned
Правило, к слову, вышло на третий день после релиза chatGPT. Не помню там или где-то ещё в комментах на мете было, что сгенеренные ответы полная копирка ответов до 2021.
Не умеет chatGPT программировать, это факт ) На GH и прочих ресурсах не всегда есть логичное объяснение того, что происходит в коде, а вот SO очень хорошо ложиться под обучение нейронки и ответы, которые она генерирует.
Но опять же, я не истина в последней инстанции, видел код, который генерирует, очень-очень похожий почерк.
Оно даже в отдельные задачки не может еслиьвыйти за пределы литкода. Например написать простенький компонент строчек на 30 уже почти неразрешимая проблема.
Даже когда научится в большие системы - ставить задачи все равно будет удобнее кодом.
Потому что натуральный язык по природе имеет множественные интерпретации - как ни формулируй, это оставляет пространство для ошибок.
А код нет - директива всегда значит одно.
Ой, и ещё. В чате SO недавно обсуждали тему того, когда не программисты присылают код вместо ТЗ. Как к этому относиться? Как к плевку в душу, как завышенный ЧСВ? В итоге пришли к консенсусу, что очень плохой код, который надо будет переписывать, в разы лучше чем ТЗ.
Код очень неплохо структурирует мысль, даже если он неправильный и выкидывает ошибки. В любом случае это читать приятнее чем полотно, которое выдаёт GPT.
Господи, спасибо тебе от филолога, который стал программистом. Без сарказма. Мысль была в голове, но сформулировать её не мог. Определённо систематизации тут больше.
При общении с компьютером, правда, тоже есть своя специфика. Возьмём Python, not not x будет в разы быстрее чем bool(x), в это сложно въехать, но изучать очень интересно. Не буду спускаться до ассемблера, там за десятки лет всё уже придумано, но‥ опять же дико интересно.
Самое то смешное, что общение с интерпретаторами и компиляторами имеет свою‥ не без основания филологическую суть, хоть и построено всё на математике, но нейросеткам пока это не дано.