Reflection Tuning LLM обучена на синтетических структурированных данных, чтобы научиться рассуждать и самокорректироваться. 👀1 Алгоритм начинает с вывода своих рассуждений в тегах .2 Если модель обнаруживает ошибку в своих рассуждениях, она использует теги в разделе , чтобы сигнализировать об этом и попытаться исправить себя.3 Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах .Результаты модели:🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o🥇 Лучший в мире открытый LLM (на момент выпуска) 🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей🤗 Доступна на HF📚 Набор данных и отчет об обучении будут готовы на следующей неделе.Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B#llama #opensource #llm