Docker для Data Science

Когда вы отправляете свой код машинного обучения команде инженеров, могут возникнуть проблемы совместимости с различными операционными системами и версиями библиотек. Эти проблемы могут вызвать сбои в выполнении кода и затруднить совместную работу. Однако есть мощный инструмент, способный облегчить эти проблемы — Docker .

В этом подробном руководстве мы не только познакомим вас с основными понятиями Docker, но и проведем вас через процесс установки. Затем мы продемонстрируем его практическое использование на реальных примерах, что позволит вам воочию убедиться в его эффективности. Кроме того, мы углубимся в лучшие отраслевые практики, предоставив ценные идеи и стратегии для оптимизации рабочего процесса машинного обучения с помощью Docker.

Docker — это платформа, которая может беспрепятственно решать проблемы совместимости между различными операционными системами и версиями библиотек при отправке кода машинного обучения инженерным группам. Это достигается путем создания контейнеров, которые инкапсулируют все необходимые зависимости и конфигурации для запуска вашего кода. Эти контейнеры действуют как автономные единицы, которые можно развернуть в любой системе, что устраняет необходимость ручной настройки.

Docker упрощает процесс создания, развертывания и запуска контейнеров. Это как иметь удобный инструмент, который следует вашим командам и автоматизирует задачи через единый интерфейс. Используя Docker, разработчики могут легко создавать контейнерные приложения. Они пишут Dockerfile , который действует как план для создания образа контейнера.

Docker предоставляет ряд инструментов для управления этими образами, упрощая разработчикам согласованную и надежную упаковку и развертывание своих приложений. Думайте о контейнере как о переносимом программном пакете. Он легкий и содержит все, что нужно приложению для запуска, включая код, библиотеки, инструменты и настройки.

Контейнеры создаются из образов, которые определяют, что находится внутри и как контейнер должен себя вести. Они отделены от основной операционной системы и других контейнеров в той же системе благодаря технологиям виртуализации и изоляции процессов. Это позволяет контейнерам совместно использовать ресурсы хост-ОС, сохраняя при этом безопасную и предсказуемую среду для запуска приложений.

Образ Docker похож на книгу рецептов для создания контейнера. Это файл только для чтения, содержащий все необходимые инструкции. Всякий раз, когда вы хотите запустить новый контейнер, вы обращаетесь к образу, а Docker позаботится обо всем остальном.

Docker невероятно ценен для специалистов по данным, предоставляя им важные функции с помощью простых команд и эффективного API. Давайте рассмотрим некоторые преимущества, которые он предлагает:

Улучшенная переносимость контейнеров: Docker обеспечивает бесперебойную работу контейнеров в различных средах, будь то рабочий стол, центр обработки данных или облако. Вы можете легко перемещать контейнеры без каких-либо модификаций.
Легкие и гибкие обновления: с помощью Docker вы можете объединять несколько процессов в одном контейнере. Это означает, что вы можете обновлять или восстанавливать определенные части приложения, в то время как остальные продолжают работать без сбоев. Это как чинить машину, пока она еще в пути!
Автоматическое создание контейнеров: Docker упрощает процесс создания контейнеров, автоматически генерируя их из исходного кода вашего приложения. Это экономит ваше время и усилия, позволяя сосредоточиться на работе с данными.
Эффективное управление версиями контейнеров: Docker отслеживает версии образов контейнеров, позволяя при необходимости легко вернуться к предыдущим версиям. Он также дает представление о том, кто создал конкретную версию и как она была создана. Кроме того, Docker может загружать только изменения между существующей и новой версиями, что сокращает ненужную передачу данных.
Повторное использование шаблонов контейнеров: Docker позволяет повторно использовать существующие контейнеры в качестве базовых образов. Это похоже на предварительно разработанные шаблоны, которые вы можете настроить для своих конкретных нужд. Это упрощает процесс создания новых контейнеров и способствует сотрудничеству специалистов по данным.
Доступ к общим библиотекам контейнеров: Docker предоставляет доступ к обширному реестру с открытым исходным кодом, где вы можете найти множество контейнеров, созданных пользователями со всего мира. Это как сокровищница готовых ресурсов, которые можно использовать в ваших проектах по науке о данных.

Таким образом, Docker предоставляет специалистам по данным удобный интерфейс, позволяющий легко управлять контейнерами и облегчающий совместную работу с помощью общих ресурсов. Он упрощает рабочие процессы и повышает производительность, позволяя вам сосредоточиться на извлечении ценных сведений из ваших данных.

Теперь, когда мы узнали о Docker, давайте рассмотрим, как его можно использовать в наших проектах по Data Science. Мы начнем с установки Docker на ваш локальный компьютер, а затем перейдем к основным командам.

Установка Docker на вашу машину очень проста. Просто следуйте инструкциям, приведенным в официальной документации:

Для Linux : следуйте инструкциям по установке Docker в Linux.
Для Windows : следуйте инструкциям по установке Docker в Windows.
Для Mac : следуйте инструкциям по установке Docker на Mac.

Помните, что если вы хотите создавать свои образы и делиться ими в Docker Hub , вам необходимо создать там учетную запись. Docker Hub похож на центральный узел, где разработчики хранят свои образы Docker и обмениваются ими. Это отличная платформа для совместной работы и демонстрации своей работы.

Теперь, когда Docker успешно установлен на вашем компьютере, давайте углубимся в некоторые основные команды, с которыми вам следует ознакомиться.

1. docker run: команда «docker run» используется для инициации и запуска нового контейнера с использованием определенного образа Docker. Ниже приведена базовая структура для запуска контейнера:

docker run [OPTIONS] IMAGE [COMMAND] [ARG…]

OPTIONS: дополнительные параметры, позволяющие настраивать поведение контейнера, например указывать порты, тома, переменные среды и т. д.
IMAGE: имя образа Docker, используемого для создания контейнера.
COMMAND: (необязательно) команда, которая будет выполняться внутри контейнера.
ARG: (необязательно) аргументы, предоставляемые команде, работающей внутри контейнера.

Давайте возьмем пример, чтобы лучше понять. Предположим, вы хотите создать контейнер с использованием образа «ubuntu» и выполнить внутри него команду «ls». Вы можете добиться этого, выполнив следующую команду:

docker run ubuntu ls

При выполнении этой команды будет создан новый контейнер с использованием образа «ubuntu». Внутри контейнера будет выполнена команда «ls», отображающая файлы и каталоги в файловой системе контейнера. Важно отметить, что если указанный образ отсутствует локально, Docker автоматически извлечет его из реестра перед созданием контейнера.

2. docker ps : команда «docker ps» используется для отображения списка активных контейнеров, работающих на вашем хосте Docker. Она предоставляет важные сведения, такие как идентификатор контейнера, связанный образ, выполненную команду, статус и сопоставление портов. Основной синтаксис этой команды следующий:

docker ps [OPTIONS]

По умолчанию «docker ps» отображает только запущенные контейнеры. Однако, если вы хотите просмотреть все контейнеры, в том числе те, которые остановлены или закрыты, вы можете использовать опцию «-a»:

docker ps -a

3. docker stop: команда «docker stop» используется для остановки одного или нескольких запущенных контейнеров. Она отправляет сигнал основному процессу контейнера, запрашивая его изящную остановку. Основной синтаксис этой команды следующий:

docker stop [OPTIONS] CONTAINER [CONTAINER…]

OPTIONS: Дополнительные параметры, которые можно использовать для настройки поведения при остановке. Например, вы можете указать период ожидания, используя параметр «— time» или «-t», чтобы дать контейнеру больше времени для корректной остановки перед его принудительным завершением.
CONTAINER: имя или идентификатор контейнера(ов), которые необходимо остановить. Вы можете указать несколько контейнеров, разделив их пробелами.

Например, если вы хотите остановить контейнер с именем «my-container», вы можете использовать следующую команду:

docker stop my-container

4. docker rm: команда «docker rm» используется для удаления одного или нескольких остановленных контейнеров с вашего хоста Docker. Она безвозвратно удаляет указанные контейнеры и освобождает связанные ресурсы. Основной синтаксис этой команды следующий:

docker rm [OPTIONS] CONTAINER [CONTAINER…]

OPTIONS: Дополнительные параметры, которые можно использовать для настройки поведения при удалении. Например, вы можете использовать опцию «-f» или «-force», чтобы принудительно удалить работающий контейнер.
CONTAINER: имя или идентификатор контейнера(ов), которые нужно удалить.

Чтобы удалить один контейнер, например «my-container», вы можете использовать следующую команду:

docker rm my-container

Если вы хотите удалить несколько контейнеров, вы можете перечислить их имена или идентификаторы, разделенные пробелами:

docker rm container1 container2 container3

5. docker images: команда «docker images» используется для отображения образов Docker, доступных на вашем хосте. Она отображает информацию об изображениях, такую как репозиторий, тег, идентификатор изображения, дату создания и размер. Вот основной синтаксис:

docker images [OPTIONS] [REPOSITORY[:TAG]]

OPTIONS: Дополнительные параметры, которые можно использовать для настройки вывода или фильтрации изображений. Например, вы можете использовать параметр «— format», чтобы указать шаблон формата для вывода, или параметр «-a» или «— all», чтобы отобразить все изображения, включая промежуточные слои изображений.
REPOSITORY: (необязательно) имя репозитория образа.
TAG: (Необязательно) Тег изображения.

По умолчанию команда «docker images» выводит список всех образов, доступных на вашем хосте Docker. Например:

docker images

6. docker rmi: команда « docker rmi » используется для удаления одного или нескольких образов Docker с вашего хоста. Она безвозвратно удаляет указанные изображения из вашего локального кеша изображений. Вот основной синтаксис:

docker rmi [OPTIONS] IMAGE [IMAGE...]

OPTIONS: Дополнительные параметры, которые можно использовать для настройки поведения при удалении. Например, вы можете использовать параметр «-f» или «— force», чтобы принудительно удалить образ, даже если он используется запущенными контейнерами.
IMAGE: имя или идентификатор изображений, которые необходимо удалить. Вы можете указать несколько изображений, разделенных пробелами.

Например, чтобы удалить изображение с именем «my-image:latest», вы должны использовать следующую команду:

docker rmi my-image:latest

Если вы хотите удалить несколько изображений, вы можете перечислить их имена или идентификаторы, разделенные пробелами:

docker rmi image1 image2 image3

7. docker build: команда « docker build » используется для сборки образа Docker из файла Dockerfile. Она позволяет вам определять инструкции и зависимости, необходимые для создания настроенного образа. Вот основной синтаксис:

docker build [OPTIONS] PATH | URL | -

OPTIONS: Дополнительные параметры, которые можно использовать для настройки процесса сборки. Некоторые часто используемые параметры включают «-t» или «— tag» для указания имени и необязательного тега для образа, «-f» или «— file» для указания местоположения Dockerfile и «— build-arg» для передачи сборки в Dockerfile.
PATH| URL-адрес | -: путь к каталогу, содержащему Dockerfile, URL-адрес репозитория Git или «-» для сборки из стандартного ввода.

Например, чтобы создать образ с помощью Dockerfile, расположенного в текущем каталоге, и пометить его как «my-image:latest», вы должны использовать следующую команду:

docker build -t my-image:latest .

«.» указывает, что Dockerfile находится в текущем каталоге.

8. docker exec: команда «docker exec» используется для выполнения команды внутри работающего контейнера Docker. Она позволяет запускать команды в интерактивном или автономном режиме. Вот основной синтаксис:

docker exec [OPTIONS] CONTAINER COMMAND [ARG...]

OPTIONS: Дополнительные параметры, которые можно использовать для настройки поведения выполнения. Некоторые часто используемые параметры включают «-i» или «--interactive», чтобы STDIN оставался открытым для интерактивных команд, «-t» или «-tty» для выделения псевдо-TTY и «-d» или «--detach» для запуска команды в фоновом режиме.
CONTAINER : имя или идентификатор контейнера, в котором должна быть выполнена команда.
COMMAND: команда, которая должна быть выполнена внутри контейнера.
ARG : (необязательно) аргументы, передаваемые команде внутри контейнера.

Например, чтобы выполнить команду «ls» внутри контейнера с именем «my-container», вы должны использовать следующую команду:

docker exec my-container ls

Это запустит команду «ls» внутри указанного контейнера и отобразит список файлов и каталогов.

Если вы хотите запустить интерактивную команду, например запустить оболочку внутри контейнера, вы можете использовать вместе опции «-it»:

docker exec -it my-container bash

Это запустит интерактивный сеанс оболочки внутри контейнера, что позволит вам выполнять несколько команд в интерактивном режиме.

9. docker pull: команда «docker pull» используется для загрузки образов Docker из реестра Docker, такого как Docker Hub. Она извлекает указанное изображение или изображения и сохраняет их в локальном кэше изображений. Вот основной синтаксис:

docker pull [OPTIONS] IMAGE[:TAG]

OPTIONS: Дополнительные параметры, которые можно использовать для настройки процесса извлечения. Некоторые часто используемые параметры включают «— all-tags» для извлечения всех доступных тегов для изображения, «— platform» для указания платформы, для которой извлекается изображение, и «— quiet» для подавления вывода хода выполнения.
IMAGE: имя образа, который нужно извлечь из реестра Docker. Он может быть в формате «репозиторий/изображение» или «репозиторий/изображение:тег». Если тег не указан, по умолчанию используется «latest».

Например, чтобы получить последнюю версию образа «ubuntu» из Docker Hub, вы должны использовать следующую команду:

docker pull ubuntu

Если вы хотите получить конкретную версию изображения с тегами, вы можете указать тег:

docker pull ubuntu:20.04

Указанное изображение будет загружено из реестра Docker и сохранено в вашем локальном кеше изображений. После извлечения образа вы можете использовать его для создания и запуска контейнеров на своем хосте Docker.

10. docker push: команда « docker push » используется для загрузки образов Docker в реестр, такой как Docker Hub или частный реестр. Это позволяет вам делиться своими локально созданными или измененными изображениями с другими. Вот основной синтаксис:

docker push [OPTIONS] NAME[:TAG]

OPTIONS: Дополнительные параметры, которые можно использовать для настройки процесса отправки. Некоторые часто используемые параметры включают «— all-tags», чтобы передать все теги для изображения, «—disable-content-trust», чтобы пропустить проверку доверия к содержимому, и «—quiet», чтобы скрыть вывод прогресса.
NAME: имя изображения для отправки. Он должен включать репозиторий и имя образа. Например, «имя пользователя/репозиторий: изображение».
TAG: (Необязательно) Тег изображения для отправки. Если он не указан, по умолчанию используется «latest» тег.

Перед отправкой образа вам необходимо убедиться, что вы прошли аутентификацию в реестре Docker. Вы можете войти в реестр с помощью команды «docker login», указав при необходимости свое имя пользователя, пароль и URL-адрес реестра.

Например, чтобы отправить образ с именем «my-image» с тегом «latest» в Docker Hub, предполагая, что вы вошли в Docker Hub, вы должны использовать следующую команду:

docker push username/my-image:latest

Указанное изображение будет загружено в реестр Docker и доступно для загрузки и использования другими пользователями.

Чтобы контейнеризировать приложение машинного обучения, вам необходимо выполнить три ключевых шага:

Создайте файл requirements.txt.
Создайте Dockerfile.
Создайте образ Docker.

Теперь давайте возьмем в качестве примера простое приложение машинного обучения и рассмотрим подробное пошаговое руководство по его докеризации. Приложение, представленное ниже, обучает базовую модель классификации (логистическая регрессия) на наборе данных радужной оболочки.

# Load the libraries from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score # Load the iris dataset iris = load_iris() X = iris.data y = iris.target # Split the data X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) # Train a logistic regression model clf = LogisticRegression() clf.fit(X_train, y_train) # Make predictions y_pred = clf.predict(X_test) # Print the accuracy of the model accuracy_score = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy_score}')

На начальном этапе необходимо точно определить текущую среду, чтобы обеспечить ее репликацию в другом месте. Самый эффективный и простой подход — создать файл requirements.txt, в котором перечислены все библиотеки, используемые в вашем проекте, вместе с их конкретными версиями. Чтобы сгенерировать этот файл, просто выполните следующую команду в командной строке:

pip3 freeze > requirements.txt #Python3

Эта команда создаст файл requirements.txt, содержащий все используемые пакеты и библиотеки, а также их точные версии.

Следующим шагом является создание файла с именем Dockerfile, который отвечает за настройку среды и выполнение нашего приложения в ней. Вот пример Dockerfile:

FROM python:3.9 WORKDIR /src COPY requirements.txt . RUN pip install - no-cache-dir -r requirements.txt COPY . . CMD ["python","iris_classification.py"]

Этот Dockerfile использует официальный образ Python в качестве базового образа, задает рабочий каталог, копирует файл requirements.txt, устанавливает зависимости, копирует код приложения и выполняет команду «python iris_classification.py» для запуска приложения.

Последним шагом в создании воспроизводимой среды является создание образа (также называемого шаблоном), который можно использовать для создания нескольких контейнеров с идентичными конфигурациями. Чтобы создать образ, перейдите в каталог, в котором находится Dockerfile, и выполните командуdocker build -t .

Docker для Data Science — введение

Введение в Docker

Dockerfile против Docker Container против Docker Image

Начало работы с Docker

Установка Docker

Основные команды Docker

Контейнеризация ML-приложения

Определение среды

Написание Dockerfile

Создание образа