Mengotomatiskan siklus hidup pembelajaran mesin dengan AWS

11 menit untuk membaca

Siklus hidup Pembelajaran Mesin dan ilmu data melibatkan beberapa fase. Setiap fase memerlukan tugas kompleks yang dilaksanakan oleh tim berbeda, seperti yang dijelaskan oleh Microsoft dalam artikel ini. Untuk mengatasi kompleksitas tugas-tugas ini, penyedia cloud seperti Amazon, Microsoft, dan layanan Google mengotomatiskan tugas-tugas ini yang mempercepat siklus hidup pembelajaran mesin secara menyeluruh. Artikel ini menjelaskan layanan cloud Amazon Web Services (AWS) yang digunakan dalam berbagai tugas dalam siklus hidup pembelajaran mesin. Untuk lebih memahami setiap layanan, saya akan menulis deskripsi singkat, use case, dan link ke dokumentasi. Dalam artikel ini, siklus hidup pembelajaran mesin dapat diganti dengan siklus hidup ilmu data.

Akuisisi Data

Streaming Data

Data streaming diperoleh secara terus menerus dalam ukuran kecil. Data streaming adalah data waktu nyata. Contohnya adalah data dari media sosial, aktivitas pembelian di platform eCommerce, dan data dari perangkat IoT. Layanan Amazon yang digunakan untuk streaming data adalah Amazon Kinesis.

Amazon Kinesis digunakan untuk menangkap, memproses, dan menganalisis data streaming waktu nyata. Amazon Kinesis dapat dibagi menjadi

"Amazon Kinesis Video Streams" — untuk menangkap, memproses, dan menyimpan data video untuk analitik dan pembelajaran mesin. Ini dapat digunakan untuk menangkap data video selama konsultasi video di browser web oleh dokter, seperti yang dijelaskan dalam artikel ini.

"Amazon Kinesis Data Streams" — mengumpulkan dan memproses aliran data dalam jumlah besar secara real-time. Misalnya, deteksi penipuan real-time seperti yang ditunjukkan telah dijelaskan dalam artikel ini.

"Amazon Kinesis Data Firehose" — digunakan untuk menyediakan data streaming waktu nyata ke Amazon S3, titik akhir, dan tujuan lainnya. Misalnya, untuk mendeteksi sorotan olahraga secara otomatis, Anda dapat merujuk ke artikel ini.

"Amazon Kinesis Data Analytics" bertujuan untuk memproses dan menganalisis data aliran dengan SQL. Misalnya untuk “memproses data transaksi kartu kredit”.

Data Kumpulan

Data Batch adalah data historis, dengan kata lain data yang disimpan dalam jangka waktu tertentu. Contohnya adalah data transaksi pelanggan yang disimpan selama 1 tahun. Karena data batch berfokus pada penyimpanan data. Selanjutnya kita membahas data lake dan database di AWS yang digunakan untuk menyimpan data.

Danau Data

Data Lake digunakan untuk menyimpan data dalam jumlah besar dalam format aslinya. Amazon S3 digunakan sebagai danau data.

Layanan Penyimpanan Sederhana Amazon (Amazon S3)

Amazon S3 adalah layanan penyimpanan objek yang menawarkan skalabilitas, ketersediaan data, keamanan, dan kinerja terdepan di industri. Amazon S3 adalah danau data. Ini mirip dengan hard drive di komputer Anda dengan folder file tetapi di cloud. Ini adalah sebuah contoh.

Basis Data

Saya menulis artikel tentang memilih database yang tepat di AWS.

Pengolahan data

Pemrosesan data melibatkan konversi data mentah ke format yang dapat digunakan untuk pembelajaran mesin dan proses lainnya. Amazon EMR dan Amazon MSK adalah layanan terkenal untuk memproses data.

Amazon EMR (sebelumnya disebut Amazon Elastic MapReduce)

Menurut Amazon, Amazon EMR adalah platform klaster terkelola yang menyederhanakan pengoperasian kerangka data besar, seperti Apache Hadoop dan Apache Spark. Amazon EMR dapat berupa Amazon EMR di EC2, Amazon EMR di EKS, dan Amazon tanpa server. Ini memproses dan menganalisis sejumlah besar data. Dalam kata-kata Lane Man, ini digunakan untuk memproses data besar secara paralel. Misalnya membuat data pelatihan untuk pembelajaran mesin.

Amazon MSK (Streaming Terkelola untuk Apache Kafka)

Amazon MSK memungkinkan Anda membangun dan menjalankan aplikasi yang menggunakan Apache Kafka untuk memproses data streaming. Komponen penting Amazon MSK adalah simpul perantara, simpul penjaga kebun binatang, produsen, konsumen, pembuat topik, operasi klaster. Ini dapat digunakan oleh perusahaan yang baru saja menjadi unicorn dan perlu “memproses permintaan unicorn”.

Pembersihan dan Perselisihan Data

Perselisihan data adalah proses membersihkan data yang berantakan dan kompleks ke dalam format yang dapat digunakan.

Pengatur Data Amazon SageMaker (Pengatur Data)

SageMaker Data Wrangler adalah fitur SageMaker Studio yang menyediakan solusi menyeluruh untuk mengimpor, menyiapkan, mengubah, menampilkan, serta menganalisis dan mengekspor data. Hal ini mengurangi waktu untuk membersihkan, mengumpulkan, dan menyiapkan data untuk pembelajaran mesin. Artikel ini menjelaskan bagaimana data stasiun pengisian mobil dibersihkan dan dikumpulkan dengan pengatur data sagemaker.

Pelabelan Data

Pelabelan data melibatkan penambahan label informatif untuk mengidentifikasi data mentah.

Pelabelan Data Amazon Sagemaker dapat dibagi menjadi SageMaker Ground Truth dan SageMaker Ground Truth Plus.

Amazon SageMaker Ground Truth Plus

Amazon SageMaker Ground Truth Plus adalah layanan siap pakai yang memungkinkan Anda membangun set data pelatihan berkualitas tinggi dalam skala besar tanpa menggunakan sumber daya Anda sendiri. Contoh pembuatan data gambar dengan sagemaker ground truth plus.

Kebenaran Dasar Amazon SageMaker

Amazon SageMaker Ground Truth memberikan fleksibilitas untuk membangun dan mengelola alur kerja pelabelan data Anda dan mengelola tenaga kerja pelabelan data Anda sendiri. Contohnya adalah pelabelan teks untuk analisis sentimen berbasis aspek.

Visualisasi data

Visualisasi data adalah representasi grafis dari data. Jika sebuah gambar bernilai ribuan kata, visualisasi data bernilai ribuan poin data. Ada banyak alat visualisasi seperti Tableau dan Power BI. Hal yang baik tentang Amazon QuickSight untuk visualisasi adalah integrasi yang mudah dengan layanan Amazon lainnya.

Penglihatan Cepat Amazon

Amazon QuickSight adalah layanan intelijen bisnis (BI) berskala cloud yang dapat Anda gunakan untuk memberikan wawasan yang mudah dipahami kepada orang-orang yang bekerja dengan Anda, di mana pun mereka berada.

Rekayasa Fitur

Rekayasa Fitur adalah proses mengubah data mentah menjadi fitur yang digunakan untuk melatih model pembelajaran mesin.

Toko Fitur Amazon SageMaker

Amazon SageMaker Feature Store digunakan untuk membuat, menyimpan, dan berbagi fitur pembelajaran mesin (ML). Toko fitur bisa online atau offline. Blog ini menjelaskan bagaimana GoDaddy menggunakan penyimpanan fitur dalam siklus hidup pembelajaran mesin mereka.

Pembuat bijak Notebook Amazon SageMaker

Notebook Amazon SageMaker SageMaker adalah notebook jupyter yang terhubung ke Amazon EMR untuk menjelajahi, memvisualisasikan, dan menyiapkan data berskala petabyte untuk pembelajaran mesin (ML) secara interaktif. Ini mendukung berbagi buku catatan Anda dengan rekan kerja untuk berkolaborasi melalui UI.

Pelatihan Model

Pelatihan Model dalam Ilmu Data memerlukan penyediaan instance komputasi untuk pembelajaran mesin.

Amazon Elastic Compute Cloud (Amazon EC2)

Amazon EC2 menyediakan kapasitas komputasi yang dapat diskalakan. Amazon EC2 menghilangkan kebutuhan Anda untuk berinvestasi pada perangkat keras di awal, sehingga Anda dapat mengembangkan dan menerapkan aplikasi lebih cepat. Komputasinya dapat diskalakan dan diubah ukurannya sesuai dengan beban kerja Anda.

Kumpulan Amazon

AWS Batch digunakan untuk merencanakan, menjadwalkan, dan melaksanakan pekerjaan pada layanan komputasi AWS seperti AWS EC2, AWS Fargate, dan instans spot. Ketentuannya menghitung sumber daya berdasarkan pekerjaan yang diserahkan.

Kompiler Pelatihan SageMaker

SageMaker Training Compiler adalah komputasi untuk melatih model pembelajaran mendalam (DL) dengan lebih efisien.

Penyetelan Hiperparameter

Ini adalah proses memilih konfigurasi dan model terbaik untuk tugas pembelajaran mesin.

Penalaan Otomatis SageMaker

SageMaker Auto Tuning mengotomatiskan proses menjalankan beberapa tugas pelatihan untuk memilih model dengan kinerja terbaik.

Pemilihan Model

"Pilot otomatis"

Amazon SageMaker Autopilot secara otomatis membangun, melatih, dan menyempurnakan model pembelajaran mesin terbaik berdasarkan data Anda sekaligus memungkinkan Anda mempertahankan kontrol dan visibilitas penuh. Contohnya adalah penggunaan Amazon SageMaker Autopilot untuk menangani tugas regresi dan klasifikasi pada kumpulan data besar hingga 100 GB.

Eksperimen Amazon SageMaker

Eksperimen Amazon SageMaker adalah kemampuan Amazon SageMaker yang memungkinkan Anda mengatur, melacak, membandingkan, dan mengevaluasi eksperimen pembelajaran mesin Anda.

Pelacakan Model

Pelacakan Silsilah Amazon SageMaker ML

Pelacakan Silsilah ML Amazon SageMaker membuat dan menyimpan informasi tentang langkah-langkah alur kerja pembelajaran mesin (ML) mulai dari persiapan data hingga penerapan model. Sebuah contoh bagaimana model garis keturunan digunakan.

Debugger SageMaker

Amazon SageMaker Debugger membuat profil dan men-debug tugas pelatihan untuk membantu menyelesaikan masalah seperti kemacetan sistem, overfitting, fungsi aktivasi jenuh, dan gradien menghilang, yang dapat membahayakan kinerja model dan meningkatkan pemanfaatan dan kinerja sumber daya komputasi model ML Anda. Membangun prediksi churn dengan debugger sagemaker.

Pemantauan Model

Monitor Model Amazon SageMaker

Amazon SageMaker Model Monitor terus memantau kualitas model pembelajaran mesin Amazon SageMaker dalam produksi. Contohnya adalah “Deteksi penyimpangan data NLP menggunakan Amazon SageMaker Model Monitor khusus”.

Klarifikasi Amazon SageMaker

Amazon SageMaker Clarify memberikan visibilitas yang lebih besar kepada pengembang pembelajaran mesin terhadap data dan model pelatihan mereka sehingga mereka dapat mengidentifikasi dan membatasi bias serta menjelaskan prediksi.

Registri Model

Registri model SageMaker

Fitur registri model sagemaker

Model katalog untuk produksi.
Kelola versi model.
Kaitkan metadata, seperti metrik pelatihan, dengan model.
Kelola status persetujuan model.
Menyebarkan model ke produksi.
Otomatiskan penerapan model dengan CI/CD.

"Contoh"

Penyajian Model

Inferensi Tanpa Server Amazon SageMaker

Amazon SageMaker Serverless Inference adalah opsi inferensi yang dibuat khusus yang memudahkan Anda menerapkan dan menskalakan model ML. Inferensi Tanpa Server ideal untuk beban kerja yang memiliki periode menganggur di antara lonjakan lalu lintas dan dapat menoleransi permulaan yang dingin.

Registrasi Kontainer Amazon Elastic (Amazon ECR)

Amazon ECR adalah layanan registri citra kontainer terkelola AWS yang aman, terukur, dan andal. Misalnya “Bagaimana ReliaQuest menggunakan Amazon SageMaker untuk mempercepat inovasi AI-nya hingga 35x”.

Layanan Amazon Elastic Kubernetes (Amazon EKS)

Amazon Elastic Kubernetes Service adalah layanan terkelola yang dapat Anda gunakan untuk menjalankan Kubernetes di AWS tanpa perlu menginstal, mengoperasikan, dan memelihara bidang kendali atau node Kubernetes Anda sendiri. Contohnya adalah Evolusi arsitektur pembelajaran mesin Cresta: Migrasi ke AWS dan PyTorch.

Penerapan Model

Proyek SageMaker

Tim ilmuwan data dan pengembang Proyek SageMaker dapat mengatasi masalah bisnis pembelajaran mesin dengan membuat proyek SageMaker dengan templat MLOps yang disediakan SageMaker yang mengotomatiskan pembuatan model dan alur penerapan menggunakan integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD). Buat Templat Proyek SageMaker Kustom — Praktik Terbaik.

Amazon SageMaker Neo

SageMaker Neo membantu ilmuwan data dan insinyur pembelajaran mesin untuk melatih model satu kali dan menjalankannya di mana saja. Ini adalah pengoptimalan kinerja pembelajaran mendalam untuk berbagai kerangka kerja dan perangkat keras. Bagaimana Deloitte Meningkatkan Kesejahteraan Hewan dengan AI di Edge Menggunakan AWS Panorama dan AWS Neo.

Manajer Alur Kerja

Fungsi Langkah Amazon

Amazon Step Functions digunakan untuk membuat dan mengelola alur kerja. Ini adalah orkestrator untuk membangun aplikasi. Ini adalah layanan alur kerja visual berkode rendah yang digunakan pengembang untuk membangun aplikasi terdistribusi, mengotomatisasi proses TI dan bisnis, serta membangun alur data dan pembelajaran mesin menggunakan layanan AWS. Contohnya adalah mengatur alur perkiraan menggunakan AWS Step Functions.

CI/CD

Amazon CodeCommit

Amazon CodeCommit adalah layanan kontrol sumber untuk repositori git pribadi. Ini digunakan untuk menyimpan dan mengelola aset secara pribadi (seperti dokumen, kode sumber, dan file biner) di cloud. Menggunakan CodeCommit untuk Perjalanan Data Berkelanjutan Menuju Kelincahan Perkembangan dan Pengiriman Data yang Lebih Cepat.

"Pembangunan Kode Amazon"

Amazon CodeBuild adalah layanan integrasi berkelanjutan yang terkelola sepenuhnya yang mengkompilasi kode sumber, menjalankan pengujian, dan menghasilkan paket perangkat lunak yang siap untuk diterapkan. Codebuild digunakan di blog ini untuk “mengoptimalkan anggaran dan waktu dengan mengirimkan tugas sintesis suara Amazon Polly secara massal”.

Amazon CodePipeline

Amazon CodePipeline adalah layanan pengiriman berkelanjutan yang terkelola sepenuhnya yang membantu Anda mengotomatiskan pipeline rilis untuk pembaruan aplikasi dan infrastruktur yang cepat dan andal. Kasus penggunaan yang baik adalah menggunakan pipa kode untuk “meningkatkan alur kerja ilmu data Anda dengan pipa MLOps pelatihan multi-cabang menggunakan AWS”.

Penerapan Kode Amazon

CodeDeploy mengotomatiskan penerapan aplikasi ke instans Amazon EC2, instans lokal, fungsi Lambda tanpa server, atau layanan Amazon ECS. Ini memaksimalkan ketersediaan aplikasi.

Pengulas Amazon CodeGuru

Amazon CodeGuru mengotomatiskan peninjauan kode dan pembuatan profil aplikasi. Ini membantu meningkatkan kualitas kode dan mengurangi masalah kinerja aplikasi. Ini membantu untuk mengidentifikasi dan memperkirakan baris kode yang mahal. Ia menggunakan analisis program dan pembelajaran mesin untuk meningkatkan kode.

Artefak Kode Amazon

CodeArtifact adalah manajer paket. Fitur CodeArtifact

menyimpan paket dengan aman
berbagi paket selama pengembangan aplikasi
menyerap dari repositori pihak ketiga sehingga memudahkan organisasi untuk menyimpan dan berbagi paket perangkat lunak yang digunakan untuk pengembangan aplikasi dengan aman. Kasus penggunaan menggunakan artefak kode untuk mengembangkan aplikasi tanpa server.

Kesimpulan

Artikel ini membahas semua Amazon Web Services yang digunakan dalam tahapan siklus hidup ilmu data yang berbeda. Kami memberikan penjelasan singkat tentang setiap layanan.

Awalnya diterbitkan di https://trojrobert.github.io pada 30 Januari 2022.