Karier, Ilmu Data

Mewawancarai Ilmuwan Data

Seorang ilmuwan data profesional menjawab 12 pertanyaan yang paling banyak diajukan. Perjelas dan sangkal mitos yang Anda bangun seputar bidang ini!

Awalnya diterbitkan di louisbouchard.ai, bacalah 2 hari sebelumnya di blog saya!

Artikel ini adalah ringkasan wawancara dengan Kashyap Barua [1], seorang data scientist berpengalaman. Pertanyaan yang paling banyak diajukan ini diambil dari Komunitas Belajar AI Bersama di Discord [2].

Pengantar Singkat

Kashyap Barua adalah ilmuwan data profesional yang bekerja di MiQ [3]. Latar belakangnya sebagian besar di bidang ilmu dan teknik komputer, yang telah ia peroleh di Institut Teknologi Industri Kalinga [4] serta banyak sertifikasi Kursus [5] untuk meningkatkan keahliannya dalam pembelajaran mesin dan ilmu data. Namun seperti yang akan dia jelaskan, ada banyak cara berbeda untuk masuk ke bidang ilmu data. Menjadi seorang insinyur jelas bukan suatu keharusan!

Ilmu data adalah bidang yang sangat luas dan pintu masuknya cukup menjadi misteri bagi banyak orang. Inilah sebabnya saya bertanya kepada komunitas kami, hal nomor 1 apa yang ingin Anda tanyakan kepada pekerja profesional di bidang ilmu data jika Anda memiliki kesempatan untuk berbicara dengannya. Tentu saja, semua jawaban bersifat subjektif bagi Kashyap Barua, tetapi jawabannya sangat menarik dan pasti akan menjawab banyak pertanyaan Anda juga!

Bahkan mungkin membantu Anda dalam memutuskan apakah Anda akan memilih jalur ilmu data atau tidak! Tapi cukuplah bicaranya, dan mari kita mulai!

Wawancara

Di sini, Kashyap menjawab 12 pertanyaan yang paling banyak diajukan oleh komunitas kami tentang bidang ilmu data.

1 — Apa itu Ilmu Data?

Sekilas Ilmu Data adalah bidang interdisipliner yang menggunakan Matematika, Ketajaman Bisnis, dan Algoritma untuk memecahkan masalah dengan menggunakan data terstruktur dan tidak terstruktur.

2 — Siapakah Ilmuwan Data itu?

Ilmuwan Data adalah orang yang bertanggung jawab mengumpulkan, menganalisis, dan memahami data, sekaligus menggunakan data dalam jumlah besar. Seorang Data Scientist diharapkan mengetahui teknik statistik, bahasa pemrograman, dan alat visualisasi lainnya untuk dapat memahami data dan memecahkan masalah bisnis.

3 — Adalah seorang Ph.D. atau gelar Master diperlukan untuk dapat ditempatkan di perusahaan besar atau apakah keterampilan tersebut cukup untuk bisa masuk? misalnya Kemenangan Kaggle, proyek pribadi, dll.(Oleh Sowjanya)

Hal ini belum diamanatkan di perusahaan yang membutuhkan gelar Ph.D. atau gelar Master untuk mendapatkan tempat, jujur ​​saja. Meskipun mungkin ada beberapa perusahaan yang meminta gelar lanjutan ini, sebagian besar perusahaan tidak memerlukannya. Saya akan merekomendasikan penggunaan platform online seperti “Datacamp”, “Coursera”, dan “Udacity” untuk memahami domain ini. Anda dapat membangun profil Anda melalui kiriman Kaggle, juga proyek pribadi yang akan membantu Anda mendapatkan keunggulan dibandingkan kandidat lainnya.

Catatan dari penulis: Kaggle adalah platform yang luar biasa. Penuh dengan kursus gratis, tutorial,dan kompetisi. Anda dapat mengikuti kompetisi gratis dan membuat tim untuk bekerja dengan orang-orang hebat. Kompetisi memberi Anda masalah yang harus diperbaiki dan data untuk mencapai hal ini, Anda hanya perlu mengunduh data mereka, membaca masalah mereka, dan segera mulai membuat kode! Anda bahkan dapat memperoleh uang dari kompetisi ini dan ini merupakan hal yang sangat bagus untuk dimasukkan ke dalam resume Anda. Ini mungkin cara terbaik untuk mendapatkan pengalaman sambil belajar banyak secara gratis. Dan bahkan dapatkan uang!

4 — Apa proyek terbaik yang ada dalam portofolio Anda untuk mendapatkan pekerjaan pertama Anda di bidang ilmu data? (Oleh Rephawl Roriz)

Ada banyak sekali proyek di luar sana yang dapat membantu Anda membangun profil Anda sebagai Ilmuwan Data. Namun sekali lagi, Ilmu Data adalah superset dari sejumlah besar tugas, misalnya Pembersihan Data, Pengumpulan Data, Visualisasi Data, atau Pemodelan. Berdasarkan kategori ini, Anda dapat memilih proyek seperti Menjelajahi Data Pasar Mata Uang Kripto Bitcoin, Memprediksi Persetujuan Kartu Kredit, Analisis Teks profil Twitter orang terkenal. Banyak topik proyek lainnya dapat diperoleh di https://www.datacamp.com/projects/.

5 — Bahasa pemrograman apa yang terbaik untuk memulai menjadi ilmuwan data? (Oleh Deep)

Favorit pribadi saya adalah R. Pasar tidak mempertimbangkan R dibandingkan Python, selalu ada satu perusahaan yang mencari R dan perusahaan lainnya mencari Python berdasarkan kasus penggunaannya. Tapi saya dapat merekomendasikan Python karena banyak paket yang diperbarui untuk bahasa ini dan paket visualisasinya juga cukup bagus untuk Python. R lebih condong ke arah statistik atau pekerjaan yang berorientasi pada penelitian untuk pengguna sementara Python memungkinkan produksi pekerjaan Anda dan menskalakannya ke alat lain di organisasi Anda.
Namun hal yang paling penting dari karier saya adalah Anda harus mempelajari SQL dan ini harus diprioritaskan sejak awal. Semua perusahaan mengharapkan Ilmuwan Data atau Analis Data mengetahui cara menggunakan SQL untuk membentuk data, R dan Python berada di urutan kedua.

6 — Apa kriteria pemilihan perekrut? Keterampilan apa yang mereka cari? (Oleh Sowjanya)

Mayoritas perekrut mencari SQL. Organisasi mana pun pada hari tertentu menggunakan penyimpanan data. Anda harus dapat mengekstrak data dari sumber data ini bahkan sebelum melakukan manipulasi atau pemodelan data apa pun. Perusahaan mengalirkan data senilai TB setiap hari dan data ini tidak dapat digunakan secara langsung menggunakan R atau Python. Oleh karena itu, Anda perlu menggabungkan data ke bentuk yang paling mudah digunakan, yaitu di mana Anda perlu mengetahui SQL.
Selain SQL, mereka mengharapkan Anda mengetahui R/Python dan alat dasbor seperti Power BI/ Tablo/Metabase.

7 — Bagaimana cara mulai membaca makalah penelitian, dan menemukan makalah terbaik, padahal jumlahnya sangat banyak yang berkaitan dengan bidang ini? (Oleh Avhijit)

Pertanyaan bagus Avhijit. Setelah mengerjakan 7 makalah penelitian dan menerbitkannya atas nama saya sekarang, saya rasa saya memiliki jawaban yang bagus untuk pertanyaan ini. Saya mulai menerbitkan makalah pada tahun 2016 dan satu hal yang saya pelajari adalah Anda harus memiliki topik yang kuat sebelum mulai menulis makalah. Anda perlu memiliki gagasan tentang apa yang ingin Anda lakukan atau penelitian baru. Saya tahu ada jutaan makalah di luar sana, tetapi begitu Anda memiliki topik yang ingin Anda kerjakan, sekarang jutaan itu menjadi ribuan. Jika digarap pada aspek subtopik, seribu itu menjadi seratus dan seterusnya. Sekarang Anda memiliki ratusan makalah untuk dipilih dan dipahami sebelum Anda mulai menulis makalah Anda sendiri. Saya misalnya ingin memahami dan menulis makalah tentang domain Retail. Saya mulai membaca 30 makalah berbeda tentang inovasi dan penelitian di sektor Ritel. Saat itulah saya mendapat ide untuk mengusulkan kerangka kerja saya sendiri dan saya mulai menulis makalah pertama saya.

8 — Apa tugas pertama yang biasanya diberikan kepada data scientist setelah Anda diterima bekerja? (Oleh Anab Akhtar)

Jadi, setiap Analis atau Ilmuwan Data yang bergabung dengan suatu perusahaan tidak diminta untuk mulai menganalisis data atau mulai membuat model/memprediksi. Hal pertama yang perlu dilakukan oleh profesional adalah terhubung dengan semua Titik Kontak yang relevan dalam perusahaan untuk memahami bisnis. Ilmuwan Data perlu memahami bagaimana fungsi bisnis, jika tidak, data saja tidak akan masuk akal. Dia perlu selaras dengan hasil bisnis dan tujuan tim atau perusahaan. Begitu dia memahami keadaannya, dia mulai menelusuri semua sumber data dan memahami seperti apa datanya dan jenis data apa yang disimpan oleh semua DB. Segera setelah Anda siap produksi, Anda mulai menulis skrip Anda sendiri untuk menganalisis data dalam jumlah besar dan memahaminya, meskipun pemodelan dan prediksi dilakukan pada tahap selanjutnya dari karyanya.

9 — Bisakah seseorang yang berasal dari latar belakang berbeda dari ilmu komputer memasuki aliran ilmu data? Jika ya, apa yang perlu dia pelajari untuk mencapai hal itu? (Oleh Salman)

Hal yang keren tentang domain ini adalah Anda bisa menjadi Ilmuwan Data terlepas dari gelar apa yang Anda ambil dan mata pelajaran apa yang Anda kuasai. Seorang Ilmuwan Data diharapkan mengetahui beberapa alat dan teknologi sebelum dipekerjakan, beberapa di antaranya adalah Statistik Dasar-Menengah , SQL, R, atau Python. Ini adalah dasar-dasar yang perlu Anda ketahui dan sisanya akan menjadi lebih lancar bagi Anda. Saya memiliki kolega yang mengambil jurusan berbagai bidang seperti Ekonomi, Filsafat, dll, dan mulai bekerja sebagai Analis Data dan kemudian menjadi Ilmuwan Data.

10 — Apa yang membuat Anda berbeda dari data scientist lainnya? (Oleh Haswanth)

Saat ini saya adalah Analis Produk yang bekerja untuk Tim Ilmu Data. Saat Data Scientist bekerja menganalisis data dan kemudian membuat model dan alat siap produksi, saya harus dapat memahami pekerjaan mereka dengan baik sehingga saya dapat melacak metrik kinerja alat mereka. Saya terhubung dengan banyak pemangku kepentingan, juga klien untuk memahami kebutuhan mereka dan mengubahnya menjadi bentuk yang mudah ditafsirkan agar Ilmuwan Data dapat menggunakan dan membuat produk mereka sesuai dengan kebutuhan tersebut.

11 — Seberapa penting dia menganggap peran statistik dalam pekerjaan Anda sehari-hari? (Oleh Nerd yang Dinormalisasi)

Statistik sangat penting untuk peran Anda. Saya pernah melakukan beberapa Pengujian A/B pada fitur produk yang kami rilis untuk audiens kami. Untuk melakukan Pengujian A/B, kita perlu mengetahui perbedaan antara menggunakan Pendekatan frequentist dan Pendekatan Bayesian. Jika Anda ingin menggunakan Pendekatan frequentist, Anda perlu memahami nuansa uji-t dan nilai-p agar berhasil menerima atau menolak hipotesis nol. Di sisi lain, jika Anda ingin melanjutkan Pendekatan Bayesian, Anda perlu mengetahui teori probabilitas Prior dan Posterior serta Teorema Bayes dan menyimpulkan hasil pengujian A/B Anda. Ini hanyalah contoh bagaimana teknik statistik diperlukan untuk kasus penggunaan saya, mungkin masih banyak kasus dan persyaratan lainnya. Oleh karena itu, statistik sangat penting untuk perannya.

12 — Apa bagian tersulit dari pekerjaan Ilmu Data?

Salah satu bagian tersulit dari pekerjaan ini adalah memahami bisnis dan persyaratannya dengan baik sebelum Anda mulai bekerja dengan data. Jika pemangku kepentingan menyampaikan persyaratannya, Anda perlu memahami dengan tepat apa yang mereka inginkan dari data tersebut, karena dalam beberapa hari (atau sprint) ke depan Anda akan mencoba menyelesaikannya. Jika Anda salah menafsirkan persyaratan, pekerjaan yang dilakukan selama seminggu penuh akan sia-sia, dan perusahaan terikat dengan kerangka waktu yang ketat untuk menyelesaikan tugas Anda.

Kesimpulan

Itu ada! Saya harap jawaban-jawaban ini membantu Anda memahami apa itu data scientist dan mungkin mengungkap beberapa mitos yang ada dalam pikiran Anda! Sekali lagi terima kasih Kashyap atas waktu Anda dan jawaban yang luar biasa, jangan ragu untuk terhubung dengannya di LinkedIn!

Bergabunglah dengan komunitas Discord, Pelajari AI Bersama. 12 pertanyaan yang paling banyak diajukan ini diambil dari 5.800 anggota penggemar AI kami saat ini! Ini adalah tempat terbaik untuk berbagi proyek, makalah, kursus terbaik, menemukan rekan tim Kaggle, mengajukan pertanyaan, dan banyak lagi!

Jika Anda menyukai karya saya dan ingin mendukung saya, saya akan sangat menghargai jika Anda mengikuti saya di saluran media sosial saya:

  • Cara terbaik untuk mendukung saya adalah dengan mengikuti saya di Medium.
  • Berlangganan ke saluran YouTube saya.
  • Ikuti proyek saya di "LinkedIn".
  • Pelajari AI bersama-sama, bergabunglah dengan komunitas Discord kami, bagikan proyek, makalah, kursus terbaik Anda, temukan rekan tim Kaggle, dan banyak lagi!

Referensi

[1] Kashyap Barua, Ilmuwan Data Profesional, https://www.linkedin.com/in/kashyap-barua-4ab640b6/

[2] Komunitas “Belajar AI Bersama”», Discord, https://discord.gg/learnaitogether

[3] MiQ, Dikonsultasikan pada 14 Desember 2020, https://www.wearemiq.com/

[4] Institut Teknologi Industri Kalinga, Dikonsultasikan pada 14 Desember 2020, https://kiit.ac.in/

[5] Coursera, Dikonsultasikan pada 14 Desember 2020, https://www.coursera.org/