В любом случае, с ансамблем отдельных моделей можно добиться повышения результата без использования файнтюна, применяя лишь few-shots для настройки роутинга. Кроме того, если 3-4 модели (или одна модель на 30B и пара моделей 8B) постоянно прогреты в GPU и решают 80% запросов, а другие, пусть даже 10 моделей, редко подключаются по подходящему запросу - это рабочая и экономичная схема.