บทเรียนจากการจำแนกแหล่งกำเนิดรังสีเอกซ์ที่ไม่รู้จักในจักรวาล

ดาราศาสตร์ได้กลายเป็นวินัยของข้อมูลขนาดใหญ่ และฐานข้อมูลที่เพิ่มมากขึ้นในดาราศาสตร์สมัยใหม่ก่อให้เกิดความท้าทายใหม่ๆ มากมายสำหรับนักวิเคราะห์ นักวิทยาศาสตร์หันมาใช้อัลกอริธึมปัญญาประดิษฐ์และการเรียนรู้ของเครื่องบ่อยขึ้นเพื่อวิเคราะห์ชุดข้อมูลหลายมิติ อย่างไรก็ตาม นี่ไม่ใช่แค่ความท้าทายด้านระเบียบวิธีและทางเทคนิคเท่านั้น แต่ยังเป็นความท้าทายด้านภาพด้วย! การสร้างภาพข้อมูลกำลังขับเคลื่อนการค้นพบทางดาราศาสตร์ และยังช่วยในการสื่อสารการค้นพบใหม่ๆ สู่สาธารณะอีกด้วย ประวัติความเป็นมาของกราฟิกข้อมูลแสดงให้เห็นว่าการเปลี่ยนแปลงข้อมูลเป็นความรู้มีความสำคัญต่อการทำความเข้าใจข้อมูลที่มีอยู่อย่างไร ซึ่งเป็นหัวข้อที่ฉันเขียนไว้ก่อนหน้านี้ว่า "ที่นี่"

ปัญหาในการแสดงภาพข้อมูลที่ซับซ้อนและการสำรวจข้อมูลแบบโต้ตอบนั้นไม่ใช่เรื่องใหม่หรือจำกัดอยู่เพียงการวิจัยเท่านั้น ตัวอย่างจากการออกแบบข้อมูลดิจิทัลในชีวสารสนเทศศาสตร์และการแพทย์ (เช่น "Genome Valence โดย Ben Fry" หรือ "Meviatis โดย Ricarda Schuhmann") แสดงให้เห็นว่าการแสดงภาพสามารถสนับสนุนความเข้าใจเกี่ยวกับโครงสร้างภายในชุดข้อมูลและอำนวยความสะดวกในการสำรวจได้อย่างไร การแสดงมิติข้อมูล (เช่น ค่าพารามิเตอร์) อาจส่งผลให้เกิดประติมากรรมข้อมูลแบบไดนามิกและสวยงาม การสร้างภาพข้อมูลดังกล่าวมักจะค่อนข้างสวยงามในตัวเอง แต่ที่สำคัญคือ คุณลักษณะเชิงโต้ตอบช่วยให้ผู้ใช้สามารถเปรียบเทียบและตีความข้อมูลได้อย่างรวดเร็ว

สื่อดิจิทัลในปัจจุบันช่วยให้เราก้าวไปไกลกว่าการออกแบบแอปพลิเคชันสามมิติแบบโต้ตอบบนหน้าจอ ทั้งความเป็นจริงเสริม (AR) และความเป็นจริงเสมือน (VR) ทำให้ผู้ใช้สามารถดูข้อมูลของตนใหม่และสำรวจ "ช่องว่างพารามิเตอร์" ในแบบ 3 มิติได้ มีศักยภาพมากในการใช้เทคโนโลยีเหล่านี้ในด้านการออกแบบข้อมูล สำหรับ VR มีข้อดีที่ชัดเจน:

  • พื้นที่เพิ่มขึ้น! VR ให้ขอบเขตการมองเห็นที่ใหญ่กว่าภาพ 2 มิติ ซึ่งช่วยให้สามารถจัดเรียงมุมมองได้หลายมุมมองในพื้นที่ ทำให้ง่ายต่อการวาดตัวอ้างอิงโยงและการเชื่อมต่อ
  • มีมิติมากขึ้น! เมื่อเปรียบเทียบกับกราฟิก 2D การแสดงภาพ VR มีพารามิเตอร์เพิ่มเติมที่สามารถแสดงข้อมูลได้ (เช่น เสียง ระบบสัมผัส แสง การโต้ตอบ)
  • โครงสร้างเพิ่มเติม! การรับรู้พื้นที่และความลึกเป็นไปตามสัญชาตญาณมากขึ้น ทำให้สามารถจดจำรูปร่างและปริมาตรได้รวดเร็วยิ่งขึ้น
  • สนุกยิ่งขึ้น! การดื่มด่ำกับข้อมูลและความสามารถในการเปลี่ยนจากภาพรวมไปสู่รายละเอียดโดยการขยายพื้นที่เป็นประสบการณ์ที่ดื่มด่ำที่ทรงพลัง

เข้าใจธรรมชาติของสิ่งที่ไม่รู้

แรงบันดาลใจจากตัวอย่างการวิจัยข้างต้น สมมติฐานที่ฉันเลือกสำรวจสำหรับวิทยานิพนธ์ระดับปริญญาตรีสาขาการออกแบบสารสนเทศคือ:

การนำเสนอข้อมูลทางวิทยาศาสตร์ด้วยสื่อดิจิทัลใหม่ๆ โดยเฉพาะ VR นั้นมีศักยภาพอันยอดเยี่ยมในการวิเคราะห์ข้อมูลทางวิทยาศาสตร์

ฉันต้องการทดสอบสมมติฐานนี้กับชุดข้อมูลจากการวิจัยครั้งก่อนซึ่งฉันต้องดิ้นรนเพื่อให้ได้ภาพรวม ระหว่างที่ฉันเรียนปริญญาเอกสาขาฟิสิกส์ดาราศาสตร์ ฉันมีส่วนร่วมในโครงการ EXTraS ซึ่งมีจุดมุ่งหมายเพื่อจำแนกแหล่งกำเนิดรังสีเอกซ์ที่ไม่รู้จักและเพิ่งค้นพบในจักรวาลโดยอัตโนมัติ แหล่งที่มาถูกสังเกตโดยดาวเทียมเอ็กซ์เรย์ XMM-นิวตันจากองค์การอวกาศยุโรป (ESA) ฉันเริ่มออกแบบ "Virtual Data Cosmos" เพื่อใช้จัดกลุ่มข้อมูลที่มีคุณสมบัติคล้ายกันและแสดงภาพกลุ่มเหล่านี้

เมื่อดาวเทียมเอ็กซ์เรย์เก็บรวบรวมข้อมูลมากขึ้นเรื่อยๆ การจัดเก็บข้อมูลของดาวเทียมเหล่านี้ก็เพิ่มขึ้นทุกปี บันทึกให้รายละเอียดแหล่งที่มาหลายล้านแห่งที่ปล่อยรังสีเอกซ์ และแหล่งที่มาใด ๆ ที่เพิ่งค้นพบสามารถนำไปสู่การค้นพบทางกายภาพครั้งใหม่ได้ การจำแนกแหล่งที่มาที่ไม่รู้จักจึงมีความสำคัญอย่างมากในดาราศาสตร์สมัยใหม่ และเนื่องจากปริมาณข้อมูลที่มีอยู่จริง อัลกอริธึมอันชาญฉลาดจึงถูกนำมาใช้โดยนักดาราศาสตร์ทั่วโลกมากขึ้นเรื่อยๆ

ภาพด้านล่างแสดงภาพท้องฟ้าทั้งหมดในช่วงความยาวคลื่นแสงเมื่อมองจากโลก ภาพสแกนการฉายภาพนี้คล้ายคลึงกับแผนที่โลกซึ่งมี "ระนาบกาแลคซี" อยู่บนเส้นศูนย์สูตร และ "ศูนย์กลางกาแลคซี" อยู่ตรงกลางแผนที่ เช่นเดียวกับในแผนที่โลกปกติ จะมีเส้นแวงและละติจูดแสดงเป็นเส้นตารางสีขาว โดยทั่วไปจะเรียกว่า แผนที่ท้องฟ้า ที่วางอยู่เหนือภาพออพติคอลคือจุดสีขาว แต่ละอันแสดงถึงบริเวณที่สังเกตได้จากดาวเทียมเอ็กซ์เรย์ XMM-นิวตัน จุดสีขาวแต่ละจุดมีแหล่งกำเนิดรังสีเอกซ์ที่ไม่รู้จักหลายแหล่ง วัตถุประสงค์ของโครงการคือการจำแนกแหล่งที่มาเหล่านี้แต่ละแห่ง

เพื่อทำความเข้าใจธรรมชาติของแหล่งกำเนิดรังสีเอกซ์แต่ละแหล่ง นักดาราศาสตร์จะเปรียบเทียบคุณลักษณะของมัน (โดยเฉพาะคุณสมบัติด้านพลังงานและเวลาที่สังเกตได้) กับคุณสมบัติของวัตถุที่มีประเภทการจำแนกประเภทที่ทราบ เช่น ดาวคู่ หรือ กาแล็กซีซีย์เฟิร์ต. คำถามเช่นนี้ช่วยได้:

  • อะไรคือความสัมพันธ์ระหว่างคุณสมบัติของแหล่งกำเนิดรังสีเอกซ์และคุณสมบัติของประเภทการจำแนกประเภทของวัตถุที่ทราบ?
  • ความแตกต่างอยู่ที่ไหน?
  • วัตถุไม่ทราบชื่อถูกค้นพบที่อื่นใน "สเปกตรัมแม่เหล็กไฟฟ้า" ซึ่งอาจให้เบาะแสเพิ่มเติมเกี่ยวกับธรรมชาติของมันหรือไม่

เพื่ออธิบายความคล้ายคลึงกันระหว่างแหล่งกำเนิดรังสีเอกซ์ที่ไม่รู้จักกับแหล่งกำเนิดรังสีเอกซ์ที่รู้จัก นักดาราศาสตร์จึงใช้สถิติและการมองเห็นด้วยภาพ ในกรณีนี้ อัลกอริธึมแมชชีนเลิร์นนิง (หรือจะเรียกว่า "อัลกอริธึมโครงสร้างการตัดสินใจที่มีการควบคุมดูแล") จะระบุแหล่งที่มาทุกแหล่งในชุดข้อมูลขนาดใหญ่และซับซ้อนนี้โดยอัตโนมัติ โดยการเปรียบเทียบค่าพารามิเตอร์ที่แม่นยำ (เช่น ความเข้มของรังสีเอกซ์ที่สังเกตได้) กับค่าของวัตถุที่รู้จัก ท้ายที่สุด อัลกอริธึมจะคำนวณความน่าจะเป็นของแหล่งกำเนิดรังสีเอกซ์ที่อยู่ในประเภทการจำแนกประเภทต่างๆ และจัดสรรให้กับคลาสที่มีแนวโน้มมากที่สุด

ตัวอย่างเช่น: แหล่งกำเนิดรังสีเอกซ์ที่มี ID 1 มีความน่าจะเป็น 45% ของการเป็นดาวดวงเดียว ความน่าจะเป็น 30% ของการเป็นดาวคู่ และความน่าจะเป็น 0.01% ของการเป็นกาแล็กซี อัลกอริธึมจึงกำหนดคลาสที่มีความน่าจะเป็นสูงสุดเป็นการจำแนกขั้นสุดท้ายของแหล่งที่มาที่ไม่รู้จัก ในกรณีนี้ ID แหล่งที่มา 1 จะถูกจัดประเภทเป็นดาวเดี่ยว

เมื่ออัลกอริธึมได้จำแนกแหล่งที่มาที่ไม่รู้จักทั้งหมดด้วยวิธีนี้แล้ว หน้าที่ของนักดาราศาสตร์ก็คือคัดกรองและควบคุมผลลัพธ์อย่างระมัดระวัง อัลกอริทึมทำงานอย่างไร? มันทำผิดพลาดหรือเปล่า? เนื่องจากมีการทดสอบอัลกอริธึมมากกว่าหนึ่งรายการ เราจึงต้องเปรียบเทียบผลลัพธ์ของอัลกอริธึมแต่ละอันเพื่อตอบคำถามเหล่านี้ อัลกอริธึมที่ต่างกันจัดประเภทแหล่งที่มาที่ไม่รู้จักเดียวกันออกเป็นคลาสที่ต่างกันหรือไม่ นอกจากนี้ ในฐานะนักวิทยาศาสตร์ เรายังต้องการทราบว่าทำไมอัลกอริทึมจึงจำแนกวัตถุตามที่มันทำ นักดาราศาสตร์ต้องการความเข้าใจความสัมพันธ์ระหว่างพารามิเตอร์ต่างๆ และประเภทการจำแนกแหล่งที่มา และทำสิ่งนี้โดยอาศัยความช่วยเหลือจากการมองเห็น

ข้อจำกัดของวิทยาศาสตร์ดั้งเดิม ได้แก่

วิธีการทั่วไปคือการสร้างแผนกระจายหลายรายการโดยเปรียบเทียบคุณสมบัติรังสีเอกซ์ของแหล่งกำเนิดจักรวาลที่ไม่รู้จักเข้าด้วยกัน โดยคำนึงถึงผลลัพธ์ของอัลกอริทึมเดียว ซึ่งทำได้โดยการกำหนดสีและสัญลักษณ์เฉพาะให้กับการจำแนกแหล่งที่มาเฉพาะ และแสดงแหล่งกำเนิดรังสีเอกซ์ด้วยสัญลักษณ์ประเภทเฉพาะในโครงเรื่อง จากนั้นนักดาราศาสตร์ก็สามารถวิเคราะห์ได้ว่าตำแหน่งของแหล่งกำเนิดที่มีรูปแบบสัญลักษณ์เดียวกันนั้นช่วยแยกแยะประเภทการจำแนกประเภทต่างๆ ได้หรือไม่

ตัวอย่างเช่น: แผนภูมิกระจายเหล่านี้ถูกสร้างขึ้นเพื่อตรวจสอบความสัมพันธ์ระหว่างพารามิเตอร์ HR1 และพารามิเตอร์ HR2, HR3 และ HR4 พารามิเตอร์เป็นคุณสมบัติเชิงนามธรรมที่ใช้อธิบายพลังงานรังสีจำเพาะของแหล่งกำเนิดจักรวาล และการแสดงภาพพวกมันในระนาบนามธรรมช่วยให้เราสามารถมองหารูปแบบที่อาจกำหนดลักษณะของวัตถุต่างๆ จุดข้อมูลแสดงถึงแหล่งที่มาของจักรวาลที่ไม่รู้จักทั้งหมดที่สำรวจโดยดาวเทียม

ในกรณีนี้ สามเหลี่ยมสีเขียวแสดงถึงประเภทของ กาแลคซีซีเฟิร์ต ในขณะที่สี่เหลี่ยมสีม่วงแสดงถึงประเภทของดาวแปรผัน เดี่ยวที่มีอยู่ในทางช้างเผือกของเรา เราจะเห็นว่าแหล่งที่มาทับซ้อนกันหากเราดูเฉพาะพารามิเตอร์ HR1 แต่แหล่งที่มาเหล่านั้นครอบครองพื้นที่ที่แตกต่างกันมากในระนาบ HR1-HR2 ในแผนภาพกระจายแรก ดังนั้นจากแผนภาพดังกล่าว เราสามารถสรุปได้ว่าแหล่งที่มาที่มีค่า HR1 และ HR2 ต่ำจัดอยู่ในคลาสสี่เหลี่ยมจัตุรัสสีม่วง (ดาวแปรผัน)

แต่แหล่งที่มาที่มีค่า HR1 และ HR2 สูงล่ะ การเปรียบเทียบเฉพาะพารามิเตอร์เหล่านี้จะจัดอยู่ในคลาส galaxy (สีเขียว) แต่ก็มีคลาสอื่นๆ อีกมากมายที่ครอบครองภูมิภาคนี้เช่นกัน เช่น สามเหลี่ยมสีน้ำเงิน ซึ่งเป็นตัวแทนของ ระบบดาวคู่ และทำให้ภาพสับสน เพื่อให้เข้าใจได้ชัดเจนขึ้น เราจำเป็นต้องเปรียบเทียบระนาบพารามิเตอร์ HR1-HR2 กับแผนภาพกระจายอื่นๆ หากตอนนี้เราดูภาพที่สองซึ่งแสดงให้เห็นระนาบ HR1-HR3 เราจะเห็นว่าแหล่งที่มาที่แสดงเป็นสัญลักษณ์สีเขียวและสีน้ำเงินนั้นแยกออกจากกันมากขึ้นเล็กน้อย และโดยการรวมข้อมูลของแปลงที่หนึ่งและสองเข้าด้วยกัน เราสามารถระบุชุดค่าผสมเฉพาะของพารามิเตอร์ HR1, H2 และ HR3 ที่สร้างความแตกต่างให้กับดาวแปรผัน (สีม่วง), กาแล็กซี (สีเขียว ) และ ระบบดาวไบนารี(สีน้ำเงิน)

ด้วยแผนภาพกระจายเพิ่มเติมแต่ละอัน เราจะค่อยๆ สร้างแบบจำลองทางจิตของพื้นที่พารามิเตอร์หลายมิติ โดยที่แต่ละซอร์สคลาสตั้งอยู่ในตำแหน่งที่ไม่ซ้ำกัน โดยหลักการแล้ว นี่คือสิ่งที่อัลกอริธึมทำ และเป็นสาเหตุที่ทำให้พารามิเตอร์ของเราเรียกอีกอย่างว่า "มิติข้อมูล" ของชุดข้อมูล อย่างไรก็ตาม ยิ่งจำนวนพารามิเตอร์และคลาสมากขึ้นเท่าใด มนุษย์ก็จะยิ่งยากขึ้นเท่านั้นที่จะเก็บภาพรวมของความสัมพันธ์ทั้งหมด เป็นไปไม่ได้เลยที่เราจะจินตนาการได้มากกว่าสามมิติในคราวเดียว

ในตัวอย่างของเรา ขนาดของชุดข้อมูลและข้อเท็จจริงที่มีพารามิเตอร์มากกว่า 50 ตัว ทำให้ไม่สามารถดูภาพรวมของความสัมพันธ์ทั้งหมดระหว่างค่าพารามิเตอร์และการจำแนกแหล่งที่มาได้ แผนกระจายที่ต้องการมีจำนวนมากเกินไป และเนื่องจากขนาดของชุดข้อมูล หลายภูมิภาคจึงถูกครอบครองโดยคลาสต้นทางหลายคลาส การทับซ้อนกันของสัญลักษณ์ทำให้มองเห็นรูปแบบข้อมูลได้ยากมาก

นอกจากนี้ แปลงเหล่านี้ยังสอดคล้องกับการจำแนกประเภทด้วยอัลกอริธึมเดียว ดังนั้นเมื่อเราเพิ่มจำนวนอัลกอริธึมที่ใช้งาน จำนวนแปลงก็จะไม่สามารถจัดการได้อย่างรวดเร็ว ฉันสรุปได้ว่าการแสดงภาพ 2 มิติแบบดั้งเดิมนี้ไม่อนุญาตให้มีภาพรวมที่เหมาะสมของข้อมูล และรู้สึกหงุดหงิดที่กลไกการตัดสินใจของอัลกอริทึมยังคงคลุมเครือ

การออกแบบจักรวาลข้อมูลเสมือน

การแสดงข้อมูลเป็นภาพโดยตรง

เพื่อที่จะคิดค้นวิธีใหม่ในการแสดงภาพชุดข้อมูลขนาดใหญ่นี้ อันดับแรกฉันได้ค้นคว้าเกี่ยวกับประวัติและหลักการของการแสดงข้อมูลเป็นภาพ ฉันรู้สึกทึ่งกับความคิดสร้างสรรค์ของนักออกแบบและนักวิทยาศาสตร์ในการจัดทำแผนที่ข้อมูลของพวกเขา

ความเป็นเลิศด้านกราฟิกทางสถิติประกอบด้วยแนวคิดที่ซับซ้อนซึ่งสื่อสารด้วยความชัดเจนและมีประสิทธิภาพ

Edward Tufte เป็นผู้กำหนดคำว่า "ความเป็นเลิศด้านกราฟิก" ในการสร้างภาพข้อมูล เขาตั้งสมมติฐานคุณสมบัติต่างๆ ที่กราฟิกทางสถิติจำเป็นต้องมีจึงจะประสบความสำเร็จ ทฤษฎีของเขาคือว่าข้อมูลควรแสดงโดยตรงโดยที่ผู้ใช้ไม่วอกแวกกับการออกแบบเอง นอกจากนี้ กราฟิกทางสถิติควรมีจุดประสงค์ที่ชัดเจน (ทั้งคำอธิบาย การสำรวจ การทำตาราง หรือการตกแต่ง) และควรแสดงรายละเอียดหลายระดับ ตั้งแต่ภาพรวมคร่าวๆ ไปจนถึงโครงสร้างที่ดีของข้อมูล

คำกล่าวอ้างที่คล้ายกันนี้จัดทำโดย «การศึกษาเกี่ยวกับการแสดงภาพข้อมูลขนาดใหญ่ใน VR และ AR ในปี 2558 ผู้เขียนสรุปว่าเพื่อให้การแสดงข้อมูลเป็นภาพเพื่อใช้เป็นเครื่องมือในการวิเคราะห์ จะต้องแสดงข้อมูลที่เกี่ยวข้องให้ครบถ้วน ความหมายสำหรับงานของฉันคือการแมปข้อมูลต้องทำผ่านการเขียนโค้ด ซึ่งหมายความว่าค่าข้อมูลเองจะกำหนดความสวยงามทางการมองเห็นของสภาพแวดล้อมเสมือนจริง

นอกจากนี้ การโต้ตอบและความสามารถในการปรับขนาดในฉาก VR จะช่วยให้ผู้ใช้ดื่มด่ำกับข้อมูลได้อย่างเต็มที่และดำดิ่งลงไปในข้อมูลอย่างแท้จริง เราสามารถเคลื่อนที่ไปรอบๆ และใช้มุมมองที่แตกต่างกันกับชุดข้อมูลได้อย่างง่ายดาย ในทำนองเดียวกัน ผู้ใช้จะสามารถซูมออกและดูภาพรวม โดยเก็บข้อมูลไว้ในมือได้อย่างมีประสิทธิภาพ ชุดข้อมูลสามารถหมุนและสำรวจได้ราวกับว่ามันเป็นวัตถุทางกายภาพ

สำหรับผม นี่เป็นส่วนที่สำคัญที่สุดของแนวทาง VR โดยเป็นการผสมผสานข้อดีของ "การสร้างข้อมูลทางกายภาพ" เข้ากับความเป็นไปได้ในการกำหนดรูปแบบและจัดการสภาพแวดล้อมของข้อมูล ซึ่งเป็นไปไม่ได้ในโลกแห่งความเป็นจริง

ไม่ว่าจะจัดระเบียบข้อมูลแหล่งกำเนิดรังสีเอกซ์อย่างไร แนวคิดหลักของฉันคือการดึงกลุ่มของพารามิเตอร์รังสีเอกซ์และความน่าจะเป็นออกจากกัน แล้วแสดงในพื้นที่สามมิติ เป้าหมายคือการสร้างภาพข้อมูลเชิงโต้ตอบใน VR ซึ่งสามารถสำรวจข้อมูลได้โดยตรง ด้วยการโต้ตอบกับสภาพแวดล้อมเสมือนจริงที่เป็นรูปธรรม ทุกคนจึงสามารถสำรวจพื้นที่ข้อมูลเชิงนามธรรมนี้ได้

วิธีแก้ปัญหาของฉันส่งผลให้มี Virtual Data Cosmos ฉันจะพูดคุยกับคุณเกี่ยวกับแนวคิดการออกแบบที่นี่ คำอธิบายโดยละเอียดของกระบวนการออกแบบจะอธิบายไว้ในบทความถัดไปในชุดนี้

การนำแนวคิดการออกแบบไปใช้

ฉันต้องการให้แน่ใจว่าการแสดงภาพจะให้ภาพรวมของข้อมูลแก่ผู้ใช้ก่อน จากนั้นจึงอนุญาตให้ผู้ใช้ลงรายละเอียดได้ เมื่อขยายประเภทการจำแนกประเภทที่เลือก ในที่สุดก็จะเข้าถึง DNA ของแหล่งกำเนิดรังสีเอกซ์ได้ (นั่นคือ พวกเขาจะพบรายละเอียดของพารามิเตอร์สเปกตรัมของมัน) และด้วยเหตุนี้จึงเข้าใจว่าเหตุใดอัลกอริทึมจึงกำหนดแหล่งกำเนิดให้กับคลาสใดคลาสหนึ่ง

ประสบการณ์ VR ประกอบด้วยสองพื้นที่; ผู้ใช้สามารถเลือกที่จะซูมเข้าและออกเพื่อย้ายจากที่หนึ่งไปยังอีกที่หนึ่งได้อย่างราบรื่น:

  • ห้องเรียนแสดงถึงจักรวาลทั้งหมดและรวมจุดข้อมูลทั้งหมด ซึ่งจัดกลุ่มตามการจำแนกประเภทตามอัลกอริทึม
  • พื้นที่พารามิเตอร์ แสดงถึงค่าพารามิเตอร์ที่สังเกตได้ของตัวอย่างย่อยของแหล่งกำเนิดรังสีเอกซ์ที่ผู้ใช้เลือก และการจำแนกประเภทตามอัลกอริธึมที่เลือก

จุดเริ่มต้นคือการสร้าง 'ห้องเรียน' ซึ่งภายในแต่ละประเภทจะมีปริมาตรสามมิติของตัวเอง ห้องเรียนจะแสดงภาพผลลัพธ์การจำแนกประเภทของแหล่งกำเนิดรังสีเอกซ์ด้วยอัลกอริธึมต่างๆ และช่วยให้ผู้ใช้สำรวจการแจกแจงความน่าจะเป็นภายในฐานข้อมูลได้ มันถามคำถามเช่น:

  • อัลกอริธึมจำแนกแหล่งกำเนิดรังสีเอกซ์ที่ไม่รู้จักได้อย่างไร
  • ความน่าจะเป็นที่แหล่งที่มาจะอยู่ในคลาสแหล่งที่มานั้นเป็นเท่าใด
  • การจำแนกประเภทอื่นอาจเป็นอะไรได้บ้าง?

การแสดงชุดข้อมูลทั้งหมดในห้องเรียนเป็นช่วงเวลาที่น่าตื่นเต้นมาก นับเป็นครั้งแรกนับตั้งแต่เริ่มต้นโครงการ EXTraS เราสามารถมองเห็นจุดข้อมูลมากกว่า 500,000 จุดได้อย่างชัดเจนโดยไม่มีการประนีประนอม และเปรียบเทียบผลลัพธ์ของอัลกอริธึมต่างๆ ทั้งหมดในคราวเดียว ฉันรู้สึกว่าในที่สุดฉันก็เห็นภาพรวมของผลลัพธ์ที่ชัดเจน และสามารถดูการกระจายตัวของแหล่งรังสีเอกซ์ที่จำแนกประเภททั้งหมดได้อย่างง่ายดาย

นี่คือภาพหน้าจอบางส่วนจากห้องเรียน VR:

ขั้นตอนต่อไปคือการทำความเข้าใจว่าอัลกอริทึมแยกแยะระหว่างคลาสต่างๆ ได้อย่างไร ด้วยการซูมเข้าและเปรียบเทียบคุณสมบัติของแหล่งรังสีเอกซ์ที่เลือกต่างๆ จะทำให้เข้าสู่พื้นที่พารามิเตอร์ มีอะไรให้ดูมากมายที่นี่ และเราประสบปัญหาอีกครั้งในการแสดงภาพมิติพารามิเตอร์ทั้งหมดพร้อมกัน

ความปรารถนาที่จะแยกจุดข้อมูลออกจากกันในที่สุดก็นำไปสู่แนวทางสุดท้าย นั่นคือเพื่อให้แต่ละแหล่งข้อมูลดำเนินการ 'เดิน' ผ่านอวกาศ โดยแต่ละแหล่งข้อมูลเริ่มต้นจากจุดเดียวกัน ค่าพารามิเตอร์ใช้เพื่อกำหนดทิศทางและความยาวของแต่ละขั้นตอน การทำแผนที่นี้ทำให้แต่ละแหล่งสร้างเส้นทาง (หรือร่องรอย) ที่ไม่ซ้ำกันในอวกาศ และวัตถุที่มีคุณสมบัติคล้ายคลึงกันก็ไปอยู่ในตำแหน่งที่คล้ายคลึงกันในจักรวาลเสมือน

ตัวอย่างเช่น รูปภาพต่อไปนี้แสดงการเดินที่เป็นไปได้ของแหล่งข้อมูลสามแหล่งที่อยู่ในคลาสที่ต่างกัน ภาพเดียวนี้ช่วยให้เราได้ข้อสรุปแบบเดียวกับที่เราได้รับจากการเปรียบเทียบแผนภูมิกระจายทั้งสามจากด้านบน

ในภาพร่างนี้มีการกำหนดสี่ขั้นตอนตามค่าของพารามิเตอร์ HR1, HR2, HR3 และ HR4 ค่าเหล่านี้กำหนดทิศทางของขั้นตอนเป็นหลัก ในขณะที่ความยาวขั้นตอนถูกกำหนดโดยอัลกอริธึมที่เลือก

เราเห็นว่าขั้นตอน HR1 และ HR2 ช่วยเราในการแยกดาวแปรแสงออกจากกาแลคซีหรือระบบดาวคู่อยู่แล้ว พารามิเตอร์เพิ่มเติมจะช่วยแยกความแตกต่างระหว่างสองคลาสหลัง

เราจะเห็นว่าอัลกอริทึมจำแนกวัตถุตามสีของเส้นทางของวัตถุได้อย่างไร ข้อมูลโดยละเอียดเพิ่มเติมเกี่ยวกับการแมปข้อมูลจะมีให้ในบทความถัดไป

นี่คือภาพหน้าจอของพื้นที่พารามิเตอร์ VR สำหรับแหล่งที่มาจำนวนมากซึ่งจัดเป็นสามคลาสที่แตกต่างกัน (ชื่อ CV, BL และ STAR):

ในภาพด้านบน มีสามประเภท: ดาวแปรผัน (สีน้ำเงิน) กาแลคซีทรงรีประเภทที่มีกัมมันตภาพมาก (สีเขียวอ่อน) และดาวฤกษ์ปกติ (สีเขียวเข้ม) เราจะเห็นได้ว่าแหล่งที่มาซึ่งมีพารามิเตอร์ที่สร้างเส้นทางที่คล้ายกันนั้นถูกกำหนดให้กับคลาสเดียวกัน นอกจากนี้เรายังสามารถเห็นสถานการณ์ที่ค่าพารามิเตอร์ทำให้เส้นทางมีรูปร่างแปลก ๆ ทำให้เกิดความสับสนในอัลกอริทึม

การเป็นตัวแทนนี้ให้ความเข้าใจที่ดีขึ้นมากว่าเหตุใดอัลกอริธึมการเรียนรู้ของเครื่องจึงจัดประเภทแหล่งที่มาในลักษณะใดลักษณะหนึ่ง และให้ความกระจ่างชัดเจนว่าเหตุใดจึงไม่สามารถระบุลักษณะแหล่งที่มาอื่นเมื่อเส้นทางซ้อนทับกัน

สรุป

การสร้าง Virtual Data Cosmos ไม่เพียงแต่ทำให้ฉันมั่นใจในสมมติฐานของฉันที่ว่า VR มีศักยภาพที่ยอดเยี่ยมสำหรับการวิเคราะห์ข้อมูลทางวิทยาศาสตร์ในสาขาวิทยาศาสตร์ แต่ยังทำให้การนำเสนอข้อมูลขนาดใหญ่อย่างแท้จริงสามารถสร้างพื้นที่เสมือนที่น่าสนใจและสวยงามได้เมื่อพิจารณาจากพารามิเตอร์เฉพาะของข้อมูล วิธีการกำเนิดนี้บอกเป็นนัยว่าโดยการสำรวจโลกเสมือนจริง ผู้ใช้สามารถตรวจสอบพื้นที่พารามิเตอร์นามธรรมที่ไม่จำเป็นต้องมองเห็นได้ ด้วยการโต้ตอบกับองค์ประกอบเสมือน การแสดงภาพจึงกลายเป็นเครื่องมือที่มีประโยชน์อย่างยิ่ง

ความสามารถในการปรับขนาดใน VR เป็นเพียงข้อได้เปรียบเหนือวิธีการทางวิทยาศาสตร์แบบดั้งเดิมเพียงอย่างเดียว นอกจากนี้ การแสดงข้อมูลที่สมจริงยังใช้งานได้อย่างสนุกสนานอีกด้วย โดยสนับสนุนให้คนเรามุ่งความสนใจไปที่ข้อมูลนานขึ้น และมีความสมบูรณ์มากขึ้นว่าข้อมูลใดอาจถูกซ่อนไว้

แน่นอนว่ายังมีอะไรอีกมากมายให้สำรวจในบริเวณนี้ เมื่อฉันเป็นอิสระจากการใช้วิธีการทั่วไปในการแสดงข้อมูล การออกแบบพื้นที่พารามิเตอร์โดยใช้คุณสมบัติการแผ่รังสีของแหล่งที่มาทำให้เกิดคำถามใหม่มากมายสำหรับฉัน จะแยกพารามิเตอร์ให้แม่นยำยิ่งขึ้นได้อย่างไร? มีการนำเสนอที่ดีกว่าที่จะช่วยให้วิเคราะห์ความสัมพันธ์ของพารามิเตอร์ได้ชัดเจนยิ่งขึ้นหรือไม่ ฉันจะพูดเพิ่มเติมเกี่ยวกับวิธีที่ฉันปรับปรุงจากเวอร์ชันแรกโดยการจัดการพารามิเตอร์ในบทความถัดไปในชุดนี้

ตัวอย่างของ Virtual Data Cosmos แสดงให้เห็นว่าการประยุกต์ใช้หลักการของการแสดงภาพข้อมูลใน VR สามารถสนับสนุนวิทยาศาสตร์โดยทำให้เกิดการสร้างแบบจำลองทางจิตสำหรับข้อมูลหลายมิติได้อย่างไร โปรเจ็กต์นี้แสดงให้เห็นว่าการคิดนอกกรอบและการคิดวิธีใหม่ๆ ในการแสดงข้อมูลขนาดใหญ่เป็นภาพสามารถเปิดโอกาสที่น่าตื่นเต้นมากมายสำหรับวิทยาศาสตร์ได้อย่างไร

ฉันหวังว่าฉันจะสามารถสร้างแรงบันดาลใจให้คุณสร้างประสบการณ์การแสดงภาพข้อมูล VR ของคุณเองได้ รับชมประสบการณ์ VR ที่ฉันสร้างขึ้นโดยละเอียดได้ที่ http://annok.de/vdc-2/

ในช่วงปีที่ฉันทำงานด้านดาราศาสตร์ การแสดงข้อมูลเป็นภาพเป็นส่วนสำคัญของการวิจัยของฉัน ในช่วงจบปริญญาเอก ฉันเผชิญกับความท้าทายที่ค่อนข้างพบได้ทั่วไปในดาราศาสตร์สมัยใหม่ นั่นคือ การทำความเข้าใจและการแสดงภาพข้อมูลของชุดข้อมูลขนาดใหญ่ เนื่องจากฉันกำลังศึกษาการออกแบบข้อมูลที่มหาวิทยาลัยวิทยาศาสตร์ประยุกต์ ฉันจึงเริ่มสำรวจการสร้างภาพข้อมูล และวิธีที่สิ่งนี้สามารถเป็นเครื่องมือในการประมวลผลข้อมูลหลายมิติในทางวิทยาศาสตร์หรืออุตสาหกรรมได้ ในบทความชุดนี้ ฉันจะอธิบายการผจญภัยของฉัน ซึ่งในที่สุดก็นำไปสู่การพัฒนา Virtual Data Cosmos