Автоматизация жизненного цикла машинного обучения с помощью AWS

11 минут на чтение

Жизненный цикл машинного обучения и науки о данных включает несколько этапов. Каждый этап требует выполнения сложных задач разными командами, как объясняет Microsoft в этой статье. Чтобы решить эти сложные задачи, облачные провайдеры, такие как Amazon, Microsoft и сервисы Google, автоматизируют эти задачи, что ускоряет весь жизненный цикл машинного обучения. В этой статье рассказывается об облачных сервисах Amazon Web Services (AWS), используемых в различных задачах жизненного цикла машинного обучения. Чтобы лучше понять каждый сервис, я напишу краткое описание, вариант использования и ссылку на документацию. В этой статье жизненный цикл машинного обучения можно заменить жизненным циклом науки о данных.

Получение данных

Потоковые данные

Потоковые данные собираются непрерывно в небольших объемах. Потоковые данные — это данные в реальном времени. Примерами являются данные из социальных сетей, действия по покупкам на платформах электронной коммерции и данные с устройств IoT. Сервис Amazon, используемый для потоковой передачи данных, называется Amazon Kinesis.

Amazon Kinesis используется для сбора, обработки и анализа потоковых данных в реальном времени. Amazon Kinesis можно разделить на

Amazon Kinesis Video Streams — для захвата, обработки и хранения видеоданных для аналитики и машинного обучения. Это можно использовать для захвата видеоданных во время видеоконсультации врача в веб-браузере, как описано в этой статье.

Amazon Kinesis Data Streams — сбор и обработка больших потоков записей данных в режиме реального времени. Например, обнаружение мошенничества в режиме реального времени, как показано в этой статье.

Amazon Kinesis Data Firehose — используется для предоставления потоковых данных в режиме реального времени в Amazon S3, конечные точки и другие места назначения. Например, для автоматического определения спортивных моментов вы можете обратиться к этой статье.

Amazon Kinesis Data Analytics предназначена для обработки и анализа потоковых данных с помощью SQL. Например, для обработки данных о транзакциях по кредитным картам.

Пакетные данные

Пакетные данные — это исторические данные, другими словами, данные, хранящиеся за определенный период времени. Примером могут служить данные о транзакциях клиентов, хранящиеся более 1 года. Поскольку пакетные данные сосредоточены на хранении данных. Далее мы обсудим озеро данных и базы данных в AWS, которые используются для хранения данных.

Озеро данных

Озеро данных используется для хранения больших объемов данных в собственном формате. Amazon S3 используется в качестве озера данных.

Amazon Simple Storage Service (Amazon S3)

Amazon S3 — это сервис хранения объектов, предлагающий лучшую в отрасли масштабируемость, доступность данных, безопасность и производительность. Amazon S3 — это озеро данных. Это похоже на жесткий диск вашего компьютера с папками с файлами, но в облаке. Это пример.

Базы данных

Я написал статью про выбор правильной базы данных в AWS.

Обработка данных

Обработка данных включает преобразование необработанных данных в формат, который можно использовать для машинного обучения и других процессов. Amazon EMR и Amazon MSK — известные сервисы для обработки данных.

Amazon EMR (ранее Amazon Elastic MapReduce)

Согласно Amazon, Amazon EMR — это управляемая кластерная платформа, которая упрощает работу с платформами для работы с большими данными, такими как Apache Hadoop и Apache Spark. Amazon EMR может быть Amazon EMR на EC2, Amazon EMR на EKS и Amazon без сервера. Он обрабатывает и анализирует огромное количество данных. По словам Лейнмана, он используется для параллельной обработки больших данных. Например, создание обучающих данных для машинного обучения.

Amazon MSK (управляемая потоковая передача для Apache Kafka)

Amazon MSK позволяет создавать и запускать приложения, использующие Apache Kafka для обработки потоковых данных. Важными компонентами Amazon MSK являются узлы брокера, узлы зоопарка, производители, потребители, создатели тем, кластерные операции. Этим может воспользоваться компания, которая только что стала единорогом и нуждается в обработке запросов единорога.

Очистка данных и споры

Обработка данных — это процесс очистки беспорядочных и сложных данных до пригодного для использования формата.

Amazon SageMaker Data Wrangler (Обработчик данных)

SageMaker Data Wrangler — это функция SageMaker Studio, предоставляющая комплексное решение для импорта, подготовки, преобразования, придания характеристик, а также анализа и экспорта данных. Это сокращает время на очистку, агрегирование и подготовку данных для машинного обучения. В этой статье объясняется, как очищались и агрегировались данные автомобильных зарядных станций с помощью обработчика данных sagemaker.

Маркировка данных

Маркировка данных включает добавление информативных меток для идентификации необработанных данных.

Маркировку данных Amazon Sagemaker можно разделить на SageMaker Ground Truth и SageMaker Ground Truth Plus.

Amazon SageMaker Ground Truth Plus

Amazon SageMaker Ground Truth Plus — это готовый сервис, который позволяет создавать высококачественные наборы обучающих данных в любом масштабе без использования собственных ресурсов. Пример создания данных изображения с помощью sagemaker Ground Truth Plus.

Amazon SageMaker Основанная правда

Amazon SageMaker Ground Truth обеспечивает гибкость для создания рабочих процессов маркировки данных и управления ими, а также управления собственным персоналом для маркировки данных. Примером может служить маркировка текста для анализа тональности на основе аспектов.

Визуализация данных

Визуализация данных — это графическое представление данных. Если изображение стоит тысячи слов, визуализация данных стоит тысячи точек данных. Существует множество инструментов визуализации, таких как Tableau и Power BI. Преимуществом Amazon QuickSight для визуализации является простая интеграция с другими сервисами Amazon.

Амазон КвикСайт

Amazon QuickSight — это облачный сервис бизнес-аналитики (BI), который можно использовать для предоставления понятной информации людям, с которыми вы работаете, где бы они ни находились.

Разработка функций

Разработка функций — это процесс преобразования необработанных данных в функции, используемые для обучения моделей машинного обучения.

Магазин функций Amazon SageMaker

Amazon SageMaker Feature Store используется для создания, хранения и совместного использования функций машинного обучения (ML). Магазины функций могут быть онлайн или офлайн. В этом блоге объясняется, как GoDaddy использует хранилище функций в своем жизненном цикле машинного обучения.

Мастер создания ноутбуков Amazon SageMaker

Блокнот Amazon SageMaker SageMaker — это блокнот Jupyter, подключенный к Amazon EMR, для интерактивного изучения, визуализации и подготовки данных петабайтного масштаба для машинного обучения (ML). Он поддерживает совместное использование вашей записной книжки с коллегами для совместной работы через пользовательский интерфейс.

Обучение модели

Обучение модели в науке о данных требует предоставления вычислительных экземпляров для машинного обучения.

Amazon Elastic Compute Cloud (Amazon EC2)

Amazon EC2 предоставляет масштабируемые вычислительные мощности. Amazon EC2 избавляет вас от необходимости заранее вкладывать средства в оборудование, поэтому вы можете быстрее разрабатывать и развертывать приложения. Вычислительные ресурсы масштабируются и изменяются в соответствии с вашей рабочей нагрузкой.

Амазонская партия

AWS Batch используется для планирования, планирования и выполнения заданий в вычислительных сервисах AWS, таких как AWS EC2, AWS Fargate и спотовые инстансы. Его положения вычисляют ресурсы на основе отправленного задания.

Обучающий компилятор SageMaker

SageMaker Training Compiler — это вычисление для более эффективного обучения моделей глубокого обучения (DL).

Настройка гиперпараметров

Это процесс выбора наилучшей конфигурации и модели для задачи машинного обучения.

Автотюнинг SageMaker

SageMaker Auto Tuning автоматизирует процесс запуска нескольких обучающих заданий для выбора наиболее эффективной модели.

Выбор модели

"Автопилот"

Amazon SageMaker Autopilot автоматически создает, обучает и настраивает лучшие модели машинного обучения на основе ваших данных, позволяя вам сохранять полный контроль и прозрачность. Примером может служить использование Amazon SageMaker Autopilot для решения задач регрессии и классификации на больших наборах данных размером до 100 ГБ.

Эксперименты Amazon SageMaker

Amazon SageMaker Experiment — это возможность Amazon SageMaker, позволяющая упорядочивать, отслеживать, сравнивать и оценивать эксперименты по машинному обучению.

Отслеживание модели

Отслеживание происхождения Amazon SageMaker ML

Amazon SageMaker ML Lineage Tracking создает и сохраняет информацию об этапах рабочего процесса машинного обучения (ML) от подготовки данных до развертывания модели. Пример использования модельного происхождения.

Отладчик SageMaker

Amazon SageMaker Debugger профилирует и отлаживает обучающие задания, чтобы помочь решить такие проблемы, как системные узкие места, переобучение, насыщенные функции активации и исчезающие градиенты, которые могут поставить под угрозу производительность модели и улучшить использование вычислительных ресурсов и производительность вашей модели машинного обучения. Создание прогноза оттока с помощью отладчика sagemaker.

Мониторинг модели

Модельный монитор Amazon SageMaker

Amazon SageMaker Model Monitor постоянно отслеживает качество моделей машинного обучения Amazon SageMaker в производственной среде. Примером может служить Обнаружение дрейфа данных NLP с помощью пользовательского монитора моделей Amazon SageMaker.

Amazon SageMaker уточнить

Amazon SageMaker Clarify предоставляет разработчикам машинного обучения более полную информацию об их обучающих данных и моделях, чтобы они могли выявлять и ограничивать предвзятость и объяснять прогнозы.

Реестр моделей

Реестр моделей SageMaker

Особенность реестра моделей sagemaker

Каталог моделей для производства.
Управление версиями модели.
Свяжите метаданные, такие как показатели обучения, с моделью.
Управление статусом утверждения модели.
Развертывание моделей в рабочей среде.
Автоматизируйте развертывание модели с помощью CI/CD.

"Пример"

Обслуживание моделей

Amazon SageMaker Serverless Inference

Amazon SageMaker Serverless Inference — это специально созданный вариант вывода, который упрощает развертывание и масштабирование моделей машинного обучения. Serverless Inference идеально подходит для рабочих нагрузок, которые имеют периоды простоя между скачками трафика и допускают холодный запуск.

Реестр эластичных контейнеров Amazon (Amazon ECR)

Amazon ECR — это безопасный, масштабируемый и надежный сервис реестра образов контейнеров, управляемый AWS. Например, Как ReliaQuest использует Amazon SageMaker для ускорения своих инноваций в области искусственного интеллекта в 35 раз.

Amazon Elastic Kubernetes Service (Amazon EKS)

Amazon Elastic Kubernetes Service — это управляемый сервис, который можно использовать для запуска Kubernetes на AWS без необходимости устанавливать, эксплуатировать и поддерживать собственную плоскость управления или узлы Kubernetes. Примером может служить Эволюция архитектуры машинного обучения Cresta: миграция на AWS и PyTorch.

Развертывание модели

Проект SageMaker

Команды специалистов по данным и разработчиков SageMaker Project могут работать над бизнес-задачами машинного обучения, создавая проект SageMaker с предоставленным SageMaker шаблоном MLOps, который автоматизирует построение модели и конвейеры развертывания с использованием непрерывной интеграции и непрерывной доставки (CI/CD). Создание пользовательских шаблонов проектов SageMaker — передовой опыт.

Amazon SageMaker Neo

SageMaker Neo помогает специалистам по обработке и анализу данных и инженерам по машинному обучению обучать модели один раз и запускать их где угодно. Это оптимизация производительности глубокого обучения для нескольких платформ и оборудования. Как Deloitte улучшает условия содержания животных с помощью ИИ на периферии с помощью AWS Panorama и AWS Neo.

Менеджер рабочего процесса

Функция шага Амазонки

Amazon Step Functions используется для создания рабочих процессов и управления ими. Это оркестратор для создания приложений. Это визуальный сервис рабочих процессов с минимальным кодом, который разработчики используют для создания распределенных приложений, автоматизации ИТ- и бизнес-процессов, а также создания конвейеров данных и машинного обучения с использованием сервисов AWS. Примером может служить организация конвейера прогнозирования с использованием AWS Step Functions.

CI/CD

Amazon CodeCommit

Amazon CodeCommit — это служба управления исходным кодом для частных репозиториев git. Он используется для частного хранения и управления активами (такими как документы, исходный код и двоичные файлы) в облаке. Использование CodeCommit для непрерывного движения данных к гибкости разработки и более быстрой доставке данных.

Амазон кодбилд

Amazon CodeBuild — это полностью управляемый сервис непрерывной интеграции, который компилирует исходный код, выполняет тесты и создает готовые к развертыванию программные пакеты. Codebuild использовался в этом блоге для оптимизации бюджета и времени за счет массовой отправки задач синтеза голоса Amazon Polly.

Amazon CodePipeline

Amazon CodePipeline — это полностью управляемая служба непрерывной доставки, которая помогает автоматизировать конвейеры выпуска для быстрого и надежного обновления приложений и инфраструктуры. Хорошим примером использования является использование конвейера кода для улучшения рабочего процесса обработки данных с помощью многоветвевого обучающего конвейера MLOps с использованием AWS.

Развертывание кода Amazon

CodeDeploy автоматизирует развертывание приложений в инстансах Amazon EC2, локальных инстансах, бессерверных функциях Lambda или сервисах Amazon ECS. Это обеспечивает максимальную доступность приложений.

Обозреватель Amazon CodeGuru

Amazon CodeGuru автоматизирует проверку кода и профилирование приложений. Это помогает улучшить качество кода и уменьшить проблемы с производительностью приложений. Это помогает определить и оценить дорогостоящие строки кода. Он использует программный анализ и машинное обучение для улучшения кода.

Артефакт кода Amazon

CodeArtifact — менеджер пакетов. Возможности CodeArtifact

безопасно хранить посылки
совместное использование пакетов во время разработки приложения
получать данные из сторонних репозиториев, упрощая организациям безопасное хранение и совместное использование пакетов программного обеспечения, используемых для разработки приложений. Сценарий использования с использованием codeartifact для разработки бессерверных приложений.

Заключение

В этой статье обсуждаются все веб-сервисы Amazon, используемые на разных этапах жизненного цикла обработки данных. Мы дали краткое описание каждой услуги.

Первоначально опубликовано на https://trojrobert.github.io 30 января 2022 г.