Mengapa Statistik penting bagi Ilmuwan Data?

Statistikadalah ilmu yang mempelajari data. Pengetahuan statistik membantu ilmuwan data menggunakan metode yang tepat untuk:

  • Kumpulkan datanya
  • Gunakan analisis yang benar
  • Tafsirkan hasil…

Pertama, Kita perlu membuat perbedaan antara Statistik dan Probabilitas, saya menganggapnya sebagai dua sisi dari mata uang yang sama, inilah MENGAPA? (secara informal)

  • Probabilitas digunakan ketika kita memiliki model atau representasi dunia dan ingin menjawab pertanyaan seperti “ Jenis data apa yang akan dihasilkan oleh kebenaran ini?
  • Statistik adalah apa yang kami gunakan ketika kami memiliki data dan ingin menemukan “kebenaran” atau model yang mendasari data. Faktanya, beberapa hal yang kita sebut statistik saat ini dulunya disebut “probabilitas terbalik”.

pada dasarnya, Ahli statistik, orang yang melakukan statistik, khususnya berkepentingan dengan menentukan cara menarik kesimpulan yang dapat diandalkan tentang kelompok besar dan peristiwa umum dari perilaku dan karakteristik sampel kecil yang dapat diamati.

Kesimpulan!!!! , Ahli statistik bersifat detektif karena mereka mencoba mencari jawaban atas pertanyaan seperti “Mengapa kami mendapatkan poin ini?” dan “apa kebenarannya?”.

Untuk mendapatkan kebenaran tersebut, dalam Statistika, ada dua aliran pemikiran utama :

  • Sudut pandang Frequentist berpendapat bahwa parameter model probabilistik adalah tetap, namun kita tidak mengetahuinya.
  • Sudut pandang Bayesian berpendapat bahwa parameter model tidak hanya tidak diketahui, tetapi juga acak. Dalam hal ini, kami akan mengkodekan keyakinan kami sebelumnya tentang penggunaan distribusi probabilitas.

Berikut ini video hebat dari Cassie Kozyrkov yang menjelaskan perbedaannya:

Setelah semua definisi jelas, mari kita mulai:

Variabel acak

Menjadi Ahli Statistik berarti berurusan dengan variabel acak setiap hari, tapi apa yang dimaksud dengan Variabel Acak?

Menurut Wikipedia: variabel acak (disebut juga kuantitas acak, variabel aleatori, atau variabel stokastik) adalah formalisasi matematis suatu besaran atau objek yang bergantung pada kejadian "acak".

Kita juga dapat mendeskripsikannya sebagai fungsi yang memetakan dari ruang sampel ke ruang terukur (misalnya IR).

Contoh: misalkan kamu ingin mengetahui berapa jam yang dihabiskan teman sekelasmu untuk menonton Netflix. Anda menggambar sampel 4 siswa, dan bertanya kepada mereka.

Pikirkan random variable (X)sebagai fungsi yang mengambil random studentsebagai masukan dan menghasilkan Watching hourssebagai bilangan bulat (bilangan real secara umum)

Secara abstrak, setiap kali saya mendengar istilah Variabel acak tanpa spesifikasi tentang eksperimen acak, saya menganggapnya sebagai kotak misteri, setiap kali dibuka kita mendapatkan nilai acak.

Untuk variabel acak diskrit, yaitu variabel acak yang hanya dapat mengambil nilai berbeda yang jumlahnya terbatas atau tak terbatas, distribusi probabilitas p menjelaskan seberapa besar kemungkinan masing-masing nilai acak tersebut, jadi p(a) mengacu pada probabilitas mengamati nilai a.

Sifat-sifat yang berguna dari variabel Acak

ekspektasidari suatu variabel acak adalah nilai rata-rata yang diambilnya.

Variansvariabel acak adalah ukuran seberapa tersebarnya variabel tersebut.

Kami biasanya menggunakan notasi x1, x2, . . . , xn untuk merujuk pada titik data yang kami amati. Kita biasanya berasumsi bahwa titik data sampel kita adalah independen dan terdistribusi secara identik, atau i.i.d, artinya titik data tersebut independen dan semuanya memiliki distribusi probabilitas yang sama.

Analisis Data Eksplorasi (EDA)

“Analisis data eksplorasi tidak akan pernah bisa menjadi keseluruhan cerita, tapi tidak ada hal lain yang bisa menjadi landasan.”- John Tukey

Setelah mendapatkan beberapa observasi, Analisis data eksplorasi (EDA) menyediakan alat untuk menganalisis dan menyelidikinya serta merangkum karakteristik utamanya.

PENYIAPAN MASALAH UMUM

Sekarang, dengan memiliki semua alat dan definisi, kami akan memperkenalkan pengaturan masalah umum untuk Ilmuwan Data (alias, Ahli Statistik):

Misalkan kita telah mengumpulkan beberapa titik sampel acak dari suatu populasi. Jika pengumpulan data dilakukan dengan benar, titik sampel seharusnya dapat mewakili populasi dengan baik, namun tidak akan sempurna. Dari data acak ini, kami ingin memperkirakan properti populasi (misalnya mean).

Kita akan meresmikan tujuan ini dengan mengasumsikan bahwa terdapat distribusi “benar” yang menjadi asal titik data kita, dan bahwa distribusi ini memiliki mean μ dan varians σ² tertentu. Kami juga akan berasumsi bahwa titik data kami adalah i.i.d. menurut distribusi ini.

Bagian selanjutnya, kita akan membahas beberapa konsep inferensi mendasar, dan bagaimana kita dapat mengatasi masalah statistik.

bis nächste mal, tschüss!!