Pelajaran yang didapat dari mengklasifikasikan sumber sinar-X yang tidak diketahui di kosmos

Astronomi telah menjadi disiplin data besar, dan basis data yang terus berkembang dalam astronomi modern menimbulkan banyak tantangan baru bagi para analis. Para ilmuwan lebih sering beralih ke kecerdasan buatan dan algoritma pembelajaran mesin untuk menganalisis kumpulan data multidimensi. Namun, ini bukan hanya tantangan metodologis dan teknis: ini juga merupakan tantangan visual! Visualisasi data mendorong penemuan di bidang astronomi dan juga membantu mengkomunikasikan temuan baru kepada masyarakat umum. Sejarah grafik informasi menunjukkan bagaimana transformasi data menjadi pengetahuan sangat penting untuk memahami data yang ada, subjek yang telah saya tulis sebelumnya di sini.

Masalah memvisualisasikan data yang kompleks dan mengeksplorasinya secara interaktif bukanlah hal baru atau terbatas pada penelitian. Contoh dari desain informasi digital dalam bioinformatika dan kedokteran (misalnya Genome Valence oleh Ben Fry atau Meviatis oleh Ricarda Schuhmann) menunjukkan bagaimana visualisasi dapat mendukung pemahaman struktur dalam kumpulan data dan memfasilitasi eksplorasi. Representasi dimensi data (yaitu nilai parameternya) dapat menghasilkan patung data yang dinamis dan estetis. Visualisasi seperti itu sering kali cukup indah, tetapi yang terpenting, fitur interaktifnya memungkinkan pengguna membuat perbandingan dan menafsirkan data dengan cepat.

Media digital saat ini memungkinkan kita untuk lebih dari sekadar merancang aplikasi tiga dimensi di layar yang interaktif. Baik augmented reality (AR) maupun virtual reality (VR) memungkinkan pengguna melihat data mereka dengan segar dan menjelajahi ruang parameter dalam 3D. Ada begitu banyak potensi untuk menggunakan teknologi ini di bidang desain informasi. Untuk VR, keuntungannya jelas:

  • Lebih banyak ruang! VR menawarkan bidang pandang yang lebih luas dibandingkan gambar 2D. Hal ini memungkinkan beberapa tampilan diatur dalam ruang, sehingga memudahkan untuk menarik referensi silang dan koneksi.
  • Lebih banyak dimensi! Dibandingkan dengan grafik 2D, visualisasi VR menawarkan parameter tambahan yang dapat mewakili data (misalnya suara, haptik, pencahayaan, interaksi).
  • Lebih banyak struktur! Persepsi ruang dan kedalaman lebih intuitif; memungkinkan bentuk dan volume dikenali lebih cepat.
  • Lebih menyenangkan! Membenamkan diri dalam data dan kemampuan untuk beralih dari ikhtisar ke detail dengan menskalakan ruang adalah pengalaman mendalam yang luar biasa.

Memahami sifat yang tidak diketahui

Terinspirasi oleh contoh penelitian di atas, hipotesis yang saya pilih untuk dieksplorasi untuk tesis sarjana saya di bidang Desain Informasi adalah:

Penyajian data ilmiah dengan media digital baru khususnya VR menawarkan potensi besar untuk analisis data dalam sains.

Saya ingin menguji hipotesis ini pada kumpulan data dari penelitian saya sebelumnya yang telah saya perjuangkan untuk mendapatkan gambarannya. Selama gelar PhD di bidang Astrofisika, saya terlibat dalam proyek EXTraS, yang bertujuan untuk secara otomatis mengklasifikasikan sumber sinar-X yang tidak diketahui dan baru ditemukan di kosmos. Sumbernya diamati oleh satelit sinar-X XMM-Newton dari Badan Antariksa Eropa (ESA). Saya mulai merancang Virtual Data Cosmos sebagai cara mengelompokkan data dengan properti serupa dan memvisualisasikan kelompok ini.

Karena semakin banyak data yang dikumpulkan oleh satelit sinar-X, arsip data satelit ini semakin bertambah setiap tahunnya. Catatan tersebut merinci jutaan sumber yang memancarkan sinar-X, dan sumber mana pun yang baru ditemukan dapat menghasilkan penemuan fisik baru. Oleh karena itu, klasifikasi sumber yang tidak diketahui menjadi sangat penting dalam astronomi modern dan, karena banyaknya data, algoritma cerdas semakin banyak diadopsi oleh para astronom di seluruh dunia.

Gambar di bawah menunjukkan gambar seluruh langit dalam panjang gelombang optik seperti yang terlihat dari Bumi. Pemindaian proyeksi ini dapat dianalogikan dengan peta dunia di mana “bidang galaksi” terletak di ekuator dan “pusat galaksi” berada di tengah peta. Sama seperti di peta dunia normal, terdapat garis bujur dan garis lintang, yang ditampilkan sebagai garis kotak putih. Ini biasanya disebut sebagai peta langit. Di atas gambar optik terdapat titik-titik putih; masing-masing mewakili wilayah yang diamati oleh satelit sinar-X XMM-Newton. Setiap titik putih mencakup beberapa sumber sinar-X yang tidak diketahui. Tujuan dari proyek ini adalah untuk mengklasifikasikan masing-masing sumber ini.

Untuk memahami sifat setiap sumber sinar-X, para astronom membandingkan fitur-fiturnya (khususnya sifat energik dan temporal yang diamati) dengan objek-objek dengan tipe klasifikasi yang diketahui seperti atau Galaksi Seyfert. Pertanyaan seperti ini membantu:

  • Apa korelasi antara properti sumber sinar-X dan tipe klasifikasi objek yang diketahui?
  • Dimana perbedaannya?
  • Apakah objek tak dikenal tersebut telah ditemukan di tempat lain dalam “spektrum elektromagnetik” yang dapat memberikan petunjuk lebih lanjut mengenai sifatnya?

Untuk menggambarkan kemiripan antara sumber sinar-X yang tidak diketahui dan yang diketahui, kami para astronom menggunakan statistik dan juga visualisasi. Dalam hal ini, algoritme pembelajaran mesin (“algoritme pohon keputusan yang diawasi” tepatnya) secara otomatis mengkarakterisasi setiap sumber dalam kumpulan data yang besar dan kompleks ini dengan membandingkan nilai parameter presisinya (misalnya intensitas sinar X yang diamati) dengan nilai objek yang diketahui. Pada akhirnya, algoritme menghitung probabilitas sumber sinar-X yang termasuk dalam berbagai jenis klasifikasi dan mengalokasikannya ke kelas yang paling mungkin.

Misalnya: Sumber sinar-X dengan ID 1 mempunyai probabilitas 45% untuk menjadi bintang tunggal, 30% untuk menjadi bintang biner, dan 0,01% untuk menjadi galaksi. Oleh karena itu, algoritme menetapkan kelas dengan probabilitas tertinggi sebagai klasifikasi akhir dari sumber yang tidak diketahui. Dalam hal ini, sumber ID 1 akan diklasifikasikan sebagai bintang tunggal.

Setelah algoritme mengklasifikasikan semua sumber yang tidak diketahui dengan cara ini, tugas astronom adalah menyaring dan mengontrol hasilnya dengan cermat. Bagaimana kinerja algoritmanya? Apakah itu membuat kesalahan? Karena lebih dari satu algoritma diuji, kita perlu membandingkan hasil masing-masing algoritma untuk menjawab pertanyaan-pertanyaan ini. Apakah algoritma yang berbeda mengklasifikasikan sumber tidak dikenal yang sama ke dalam kelas yang berbeda? Selain itu, sebagai seorang ilmuwan, seseorang juga ingin mengetahuimengapasuatu algoritma mengklasifikasikan suatu objek seperti itu. Astronom memerlukan pemahaman tentang hubungan antara berbagai parameter dan tipe klasifikasi sumber, dan melakukannya dengan bantuan visualisasi.

Keterbatasan ilmu pengetahuan tradisional yaitu

Metode yang umum dilakukan adalah membuat beberapa plot sebar di mana sifat sinar-X dari sumber kosmik yang tidak diketahui dibandingkan satu sama lain sambil mempertimbangkan hasil dari satu algoritma. Hal ini dilakukan dengan menetapkan warna dan simbol unik pada klasifikasi sumber tertentu dan menggambarkan sumber sinar-X dengan simbol kelas tertentu dalam plot. Kami para astronom kemudian dapat menganalisis apakah posisi sumber yang digambarkan dengan simbol yang sama membentuk pola yang membantu membedakan jenis klasifikasi yang berbeda.

Misalnya: plot sebar ini dibuat untuk menyelidiki hubungan antara parameter HR1 dan parameter HR2, HR3, dan HR4. Parameter adalah sifat abstrak yang digunakan untuk mendeskripsikan energi radiasi spesifik dari sumber kosmik dan memvisualisasikannya dalam bidang abstrak memungkinkan kita mencari pola yang mungkin menjadi ciri sifat berbagai objek. Titik data tersebut mewakili semua sumber kosmik tak dikenal yang diamati oleh satelit.

Dalam hal ini, segitiga hijau mewakili kelas galaksi Seyfert, sedangkan kotak ungu mewakili kelas bintang variabel tunggal yang ada di Bima Sakti kita. Kita melihat bahwa sumber-sumber tersebut tumpang tindih jika kita hanya melihat pada parameter HR1, namun sumber-sumber tersebut menempati wilayah yang sangat berbeda pada bidang HR1-HR2 pada plot sebar pertama. Oleh karena itu dari plot tersebut dapat disimpulkan bahwa sumber dengan nilai HR1 dan HR2 yang rendah termasuk dalam kelas kotak ungu (bintang variabel).

Namun bagaimana dengan sumber dengan nilai HR1 dan HR2 yang tinggi? Membandingkan parameter ini saja akan menempatkannya di kelas galaxy (hijau). Namun masih banyak kelas lain yang juga menempati wilayah ini, misal. segitiga biru, yang mewakili semacam sistem bintang binerdan ini membingungkan gambarannya. Untuk mendapatkan pemahaman yang lebih jelas sekarang kita perlu membandingkan bidang parameter HR1-HR2 dengan scatterplot lainnya. Jika sekarang kita melihat gambar kedua, yang mengilustrasikan bidang HR1-HR3, kita melihat bahwa sumber yang ditunjukkan dalam simbol hijau dan biru sedikit lebih terpisah. Dan dengan menggabungkan informasi plot pertama dan kedua, kita dapat mengidentifikasi kombinasi spesifik parameter HR1, H2, dan HR3 yang membedakan bintang variabel (ungu), galaksi (hijau ) dan sistem bintang biner(biru) .

Dengan setiap diagram sebar tambahan, kami secara bertahap membentuk model mental ruang parameter multidimensi di mana setiap kelas sumber ditempatkan di lokasi unik. Pada prinsipnya, inilah yang dilakukan algoritme dan itulah sebabnya parameter kami juga dikenal sebagai 'dimensi' kumpulan data. Namun, semakin besar jumlah parameter dan kelasnya, semakin sulit bagi manusia untuk menjaga gambaran seluruh hubungan. Kita tidak mungkin membayangkan lebih dari tiga dimensi sekaligus.

Dalam sampel kami, ukuran kumpulan data dan fakta bahwa terdapat lebih dari 50 parameter membuat mustahil untuk mendapatkan gambaran umum tentang semua hubungan antara nilai parameter dan klasifikasi sumber. Plot sebar yang diperlukan terlalu banyak dan, karena ukuran kumpulan data, banyak wilayah yang ditempati oleh beberapa kelas sumber. Simbol yang tumpang tindih membuatnya sangat sulit untuk melihat pola data.

Selain itu, plot ini sesuai dengan klasifikasi berdasarkan algoritma tunggal. Jadi, seiring bertambahnya jumlah algoritme yang digunakan, jumlah plot akan menjadi tidak dapat dikelola dengan cepat. Saya menyimpulkan bahwa visualisasi 2D tradisional ini tidak memungkinkan gambaran data yang tepat, dan merasa frustrasi karena mekanisme pengambilan keputusan pada algoritme tetap tidak jelas.

Merancang Kosmos Data Virtual

Memvisualisasikan data secara langsung

Untuk menemukan cara baru dalam memvisualisasikan kumpulan data besar ini, pertama-tama saya melakukan penelitian tentang sejarah dan prinsip visualisasi data. Saya terpesona oleh kreativitas para desainer dan ilmuwan dalam memetakan data mereka.

Keunggulan dalam grafik statistik terdiri dari ide-ide kompleks yang dikomunikasikan dengan jelas dan efisien.

Edward Tufte menciptakan istilah 'keunggulan grafis' dalam visualisasi data. Dia mendalilkan berbagai properti yang dibutuhkan grafik statistik agar berhasil. Teorinya adalah bahwa data harus ditampilkan secara langsung tanpa mengganggu pengguna oleh desain itu sendiri. Selain itu, grafik statistik harus memiliki tujuan yang jelas (baik deskripsi, eksplorasi, tabulasi, atau dekorasi) dan harus menunjukkan beberapa tingkat detail, dari gambaran kasar hingga struktur data yang halus.

Klaim serupa dibuat oleh “studi tahun 2015 tentang visualisasi data besar dalam VR dan AR”. Penulis menyimpulkan bahwa agar visualisasi data dapat berfungsi sebagai alat analisis, diperlukan data yang bersangkutan untuk direpresentasikan secara tepat. Implikasinya pada pekerjaan saya adalah pemetaan data harus dilakukan melalui coding. Artinya, nilai data itu sendiri akan menentukan estetika visual lingkungan virtual.

Selain itu, interaksi dan skalabilitas dalam adegan VR akan memungkinkan pengguna untuk benar-benar tenggelam dalam data dan benar-benar menyelaminya. Seseorang dapat dengan mudah berpindah-pindah dan mengambil perspektif berbeda pada kumpulan data. Demikian pula, pengguna akan dapat memperkecil dan mendapatkan gambaran umum, sehingga secara efektif memegang data di tangan mereka. Kumpulan data bahkan dapat diputar dan dieksplorasi seolah-olah itu adalah objek fisik.

Bagi saya, ini adalah aspek terpenting dari pendekatan VR: pendekatan ini menggabungkan keunggulan fisikalisasi data dengan kemungkinan untuk membentuk dan memanipulasi lingkungan data, yang tidak mungkin dilakukan di dunia nyata.

Terlepas dari bagaimana data sumber sinar-X disusun, ide prinsip saya adalah memisahkan kelompok parameter dan probabilitas sinar-X dan menampilkannya dalam ruang tiga dimensi. Tujuannya adalah visualisasi data interaktif dalam VR dimana data dapat dieksplorasi secara langsung. Dengan berinteraksi dengan lingkungan virtual yang konkrit, siapa pun dapat menjelajahi ruang data abstrak ini.

Solusi saya untuk masalah ini menghasilkan Virtual Data Cosmos. Saya akan menjelaskan konsep desainnya kepada Anda di sini. Penjelasan rinci tentang proses desain akan dijelaskan pada artikel selanjutnya di seri ini.

Menerapkan konsep desain

Saya ingin memastikan bahwa visualisasi pertama-tama akan memberikan gambaran umum tentang data kepada pengguna dan baru kemudian memungkinkan mereka untuk menjelaskan secara detail. Dengan memperbesar jenis klasifikasi yang dipilih, seseorang akhirnya akan mencapai DNA sumber sinar-X (yaitu, mereka akan menemukan rincian parameter spektralnya) dan oleh karena itu memahami mengapa algoritme menetapkan sumber tersebut ke kelas tertentu.

Pengalaman VR terdiri dari dua ruang; pengguna dapat memilih untuk memperbesar dan memperkecil untuk berpindah dari satu ruang ke ruang lainnya dengan lancar:

  • Ruang kelas mewakili seluruh kosmos dan mencakup semua titik data, yang dikelompokkan menurut klasifikasinya berdasarkan algoritme.
  • ruang parameter mewakili nilai parameter yang diamati dari subsampel sumber sinar-X yang dipilih pengguna, dan klasifikasinya berdasarkan algoritme yang dipilih.

Titik awalnya adalah menciptakan 'ruang kelas', di mana setiap jenis klasifikasi memiliki volume tiga dimensinya sendiri. Ruang kelas memvisualisasikan hasil klasifikasi sumber sinar-X dengan berbagai algoritma dan memungkinkan pengguna untuk mengeksplorasi distribusi probabilitas dalam database. Ini memunculkan pertanyaan seperti:

  • Bagaimana algoritma mengklasifikasikan sumber sinar-X yang tidak diketahui?
  • Berapa probabilitas suatu sumber termasuk dalam kelas sumber tersebut?
  • Klasifikasi alternatif apa yang bisa dilakukan?

Memvisualisasikan kumpulan data lengkap di ruang kelas merupakan momen yang sangat menyenangkan! Untuk pertama kalinya sejak dimulainya proyek EXTraS, kami dapat memvisualisasikan lebih dari 500.000 titik data dengan jelas tanpa kompromi, dan membandingkan hasil berbagai algoritme sekaligus. Saya merasa akhirnya mendapatkan gambaran yang jelas tentang hasilnya dan dapat dengan mudah melihat sebaran semua sumber sinar-X yang diklasifikasikan.

Berikut beberapa screenshot dari ruang kelas VR:

Langkah selanjutnya adalah memahami bagaimana suatu algoritma membedakan kelas-kelas yang berbeda. Dengan memperbesar dan membandingkan fitur dari berbagai sumber sinar-X yang dipilih, seseorang memasuki ruang parameter. Ada banyak hal yang bisa dilihat di sini, dan sekali lagi kami menghadapi masalah bagaimana memvisualisasikan semua dimensi parameter sekaligus.

Keinginan untuk memisahkan titik-titik data pada akhirnya mengarah pada pendekatan terakhir: membiarkan setiap sumber melakukan 'berjalan' melintasi ruang, setiap sumber memulai dari titik yang sama. Nilai parameternya digunakan untuk menentukan arah dan panjang setiap langkah. Pemetaan ini menghasilkan bahwa setiap sumber menghasilkan jalur (atau jejak) unik di ruang angkasa, dan objek dengan sifat serupa berakhir di lokasi serupa di kosmos virtual.

Misalnya, gambar berikut menunjukkan kemungkinan berjalannya tiga sumber yang termasuk dalam kelas berbeda. Gambar yang satu ini memungkinkan kita menarik kesimpulan yang sama dengan yang kita peroleh dari membandingkan ketiga diagram sebar di atas.

Dalam sketsa ini, empat langkah ditentukan berdasarkan nilai parameter HR1, HR2, HR3, dan HR4. Nilai-nilainya terutama menentukan arah langkah, sedangkan panjang langkah ditentukan oleh algoritma yang dipilih.

Kita melihat bahwa langkah HR1 dan HR2 telah membantu kita memisahkan bintang variabel dari galaksi atau sistem bintang biner. Parameter tambahan kemudian membantu membedakan dua kelas terakhir.

Kita dapat melihat bagaimana suatu algoritma mengklasifikasikan suatu objek berdasarkan warna jalur objek. Informasi lebih rinci mengenai pemetaan data akan diberikan pada artikel berikutnya.

Ini adalah tangkapan layar ruang parameter VR untuk sejumlah besar sumber yang diklasifikasikan ke dalam tiga kelas berbeda (bernama CV, BL, dan STAR):

Pada gambar di atas, terdapat tiga kelas: bintang variabel (biru), jenis galaksi elips yang sangat aktif (hijau muda) dan bintang normal (hijau tua). Kita dapat melihat bahwa sumber yang parameternya menghasilkan jalur serupa telah ditetapkan ke kelas yang sama. Kita juga dapat melihat situasi di mana nilai parameter menyebabkan jalur mengambil bentuk yang aneh, sehingga menyebabkan kebingungan pada algoritme.

Representasi ini menghasilkan pemahaman yang jauh lebih baik tentang mengapa algoritme pembelajaran mesin mengklasifikasikan suatu sumber dengan cara tertentu dan memperjelas mengapa algoritme tersebut gagal mengkarakterisasi sumber lain ketika jalurnya tumpang tindih.

Ringkasan

Menciptakan Virtual Data Cosmos meyakinkan saya tidak hanya akan hipotesis saya bahwa VR menawarkan potensi besar untuk analisis data ilmiah dalam sains, namun juga bahwa presentasi murni data besar dapat menciptakan ruang virtual yang menarik dan estetis bila ditentukan oleh parameter spesifik data. Pendekatan generatif ini menyiratkan bahwa dengan menjelajahi dunia maya, pengguna sebenarnya dapat mengkaji suatu ruang parameter abstrak yang belum tentu bersifat visual. Dengan berinteraksi dengan elemen virtual, visualisasi menjadi alat yang sangat berguna.

Skalabilitas dalam VR hanyalah salah satu keunggulan dibandingkan metode sains tradisional. Selain itu, visualisasi data yang mendalam juga menyenangkan untuk digunakan. Hal ini mendorong seseorang untuk fokus lebih lama pada data dan memiliki pemahaman yang lebih lengkap tentang informasi apa yang mungkin disembunyikan.

Tentu saja masih banyak lagi yang bisa dijelajahi di area ini. Setelah saya terbebas dari penggunaan metode konvensional untuk merepresentasikan data, merancang ruang parameter menggunakan sifat radiasi sumber menimbulkan banyak pertanyaan baru bagi saya. Bagaimana cara memisahkan parameter dengan lebih tepat? Apakah ada representasi yang lebih baik yang memungkinkan korelasi parameter dianalisis dengan lebih jelas? Saya akan berbicara lebih banyak tentang bagaimana saya meningkatkan versi pertama dengan memanipulasi parameter di artikel berikutnya dalam seri ini.

Contoh Virtual Data Cosmos menggambarkan bagaimana penerapan prinsip visualisasi data dalam VR dapat mendukung sains dengan memungkinkan pembuatan model mental untuk data multidimensi. Proyek ini menunjukkan bagaimana berpikir di luar kebiasaan dan menemukan cara-cara baru untuk memvisualisasikan data besar membuka banyak kemungkinan menarik bagi sains.

Saya harap saya dapat menginspirasi Anda untuk menciptakan pengalaman visualisasi data VR Anda sendiri. Panduan pengalaman VR yang saya buat tersedia di http://annok.de/vdc-2/

Selama bertahun-tahun saya di bidang astronomi, visualisasi data telah menjadi bagian penting dari penelitian saya. Menjelang akhir gelar PhD, saya menghadapi tantangan yang cukup umum dalam astronomi modern: memahami dan memvisualisasikan informasi dari kumpulan data yang besar. Karena saya juga mempelajari desain informasi di University of Applied Sciences, saya memulai eksplorasi visualisasi data dan bagaimana visualisasi data dapat menjadi alat dalam memproses data multidimensi dalam sains atau industri. Dalam rangkaian artikel ini saya akan menjelaskan petualangan saya, yang akhirnya mengarah pada pengembangan Virtual Data Cosmos.