Все эти требования, и по нашему мнению, и по мнению привлеченных для анализа контрагентов, вполне закрывались решением на основе Kubernetes: OKD (как бесплатная замена OpenShift) в качестве оркестратора, KubeFlow + Jupyter как среда ModelOps. KubeFlow прекрасно интегрируется с системами версионирования кода, что позволит нам закрыть такие задачи, как ускоренный повторный запуск и Code Review. Кроме того, функционал Pipelines позволяет проводить множество параллельных экспериментов, не отвлекаясь на ожидание завершения расчетов. Интегрированный Katib также позволяет не ждать и заниматься подбором гиперпараметров моделей в параллели с основной работой. Jupyter - де-факто стандартная IDE при работе с машинным обучением, к тому же, поддерживающая расширение функционала через плагины и сниппеты.
Комментарий недоступен
Интересный опыт. Изначально облачную платформу раскатывать на простых виртуалках для задач энтерпрайза - это нужно быть или отбитым или сильно уверенным в успехе. Судя по тому, что вам удалось - второе. Поздравляю.
Подача тоже качественная, с долей самоиронии. Сильно в лучшую сторону отличается от слащавых историй успеха, когда рассказывают, как с пол-пинка удается завести условный Белаз, собранный из говна и палок. Честно, наглядно и назидательно.
Напоследок. А архитекторы у вас тоже в ML умеют, или это закономерный рост?