Rekayasa cepat: Apakah pengalaman pembelajaran mesin sebelumnya menjadi usang? Tidak secepat itu.

Suatu hari saya bertemu dengan seorang pengembang perangkat lunak yang menanyakan apakah menjadi ahli teknik yang cepat merupakan investasi yang bagus. Saya mengungkapkan beberapa kekhawatiran tentang rencana seperti itu. Akan jauh lebih cerdas dan aman untuk mengenal pembelajaran mesin secara keseluruhan, karena konsep-konsep tersebut mencakup spektrum masalah yang lebih luas termasuk rekayasa cepat. Dan memulainya tidak pernah semudah ini, dengan semua model Hugging Face dan produk keren lainnya.

Dia sepertinya tidak mempercayaiku. Sejak itu, saya mendengar beberapa orang bertanya-tanya: “Apakah pengalaman pembelajaran mesin sebelumnya sudah ketinggalan zaman? Tidak bisakah saya menjadi insinyur yang cepat?”

Ya kamu bisa. Tetapi …

Saya telah melihat lebih dekat beberapa masalah umum yang dihadapi para insinyur saat bekerja dengan model bahasa besar dan menyadari bahwa masalah tersebut sebenarnya cukup familier bagi praktisi pembelajaran mesin tradisional:

  1. HalusinasiModel membuat informasi di sana-sini.
    Terkadang model menemukan keluaran tertentu yang paling mungkin muncul dalam situasi tertentu berdasarkan pelatihan dan masukan data.
    Contoh: Anda secara tidak sengaja melatih model bahasa sistem pengenalan ucapan pada teks yang berisi banyak kata-kata kotor. Hal ini akan menyebabkan beberapa kata-kata kotor muncul di sana-sini dalam transkrip keluaran, meskipun pembicara tidak mengatakan hal seperti itu. Namun sang model mendengarnyadi sana!
  2. Melewatkan fakta— Model terkadang tidak menjelaskan 'segalanya'.
    Sejak zaman RNN (jaringan saraf berulang), model bahasa mempunyai masalah dengan akurasi Penyimpanan. Seorang model dapat membaca teks, dokumen, atau prompt, dan melupakan beberapa bagiannya. Kemudian ia melewatkan bagian-bagian itu ketika membuat ringkasan atau jenis keluaran yang berbeda.
  3. (Tidak) Mengikuti instruksi — Model tidak melakukan apa yang Anda minta.
    Secara teknis, ini sama dengan melewatkan fakta — memori model tidak melakukan hal tersebut tidak berfungsi dengan benar dan “lupa” tentang beberapa petunjuknya.
  4. Panjang konteks — Jumlah maksimum kata yang dapat dimasukkan oleh suatu model.
    Itu adalah masalah yang sama yang dihadapi semua model jaringan saraf, baik itu pengenalan ucapan (a beberapa detik), terjemahan (beberapa kata), atau pemrosesan gambar (beberapa piksel). Kita hidup di dunia fisik di mana segala sesuatunya terbatas.
  5. Mendorong vs Menyempurnakan — Menanyakan perintah vs mengajar dengan memberi contoh.
    Setiap orang dapat memberikan perintah, namun dalam banyak kasus, hasil yang lebih baik dapat dicapai dengan cukup tunjukkan model beberapa pasangan input-output sebelum menjalankannya dalam produksi - yang secara harfiah merupakan kumpulan data pelatihan. Setiap proyek pembelajaran mesin standar memilikinya. Itu sebabnya ini disebut “pembelajaran mesin”.

Ini mungkin hanya contoh sederhana untuk menjelaskan maksudnya, namun daftarnya terus bertambah.

Pelajari ML, bukan rekayasa cepat

Insinyur dan peneliti pembelajaran mesin sangat memahami banyak konsep rekayasa cepat yang umum. Mereka telah mengembangkan 'otot otak' mereka melalui latihan bertahun-tahun. Jadi, ketika mempertimbangkan untuk menjadi pakar teknik yang cepat, pertimbangkan untuk mempelajari konteks pembelajaran mesin yang lebih luas untuk mendapatkan keunggulan dibandingkan individu lain di pasar.

Apa kamu setuju? Apakah Anda tidak setuju? Beri tahu saya di komentar!