ด้วยการเกิดขึ้นของความก้าวหน้าในวิธีการเรียนรู้ของเครื่อง การทำเหมืองข้อมูล และสถาปัตยกรรมคอมพิวเตอร์ วิธีการทางวิทยาศาสตร์ข้อมูลจึงกลายเป็นศูนย์กลางของความสนใจในสาขาวิชาสหวิทยาการและสาขาวิชาที่กำลังจะมีขึ้นจำนวนมาก ในตอนแรกอาจดูเหมือนเป็นการกล่าวอ้างอย่างดุเดือดสำหรับเทคโนแครตหลายคนที่พยายามบังคับให้เทคโนโลยีใหม่มาแก้ไขปัญหาที่มีความคล่องตัวอยู่แล้ว ท้ายที่สุดทำไมต้องลองซ่อมของที่ยังไม่พังล่ะ? อย่างไรก็ตาม เมื่อคำนึงถึงอนาคตที่คาดว่าข้อมูลจะขยายออกไปหลายเท่า การศึกษาด้านสารสนเทศในสาขาใดก็ตามที่รวบรวมข้อมูลจำนวนมากจึงเป็นสิ่งจำเป็นในชั่วโมงนี้ ในบทความนี้ ฉันจะเน้นไปที่ด้านใดด้านหนึ่ง นั่นคือ วิทยาศาสตร์ข้อมูลทางดาราศาสตร์

การสังเกตการณ์ทางดาราศาสตร์รวบรวมข้อมูลจำนวนมาก

โดยปกติแล้ว การศึกษาทางดาราศาสตร์ ก่อนที่ฟิสิกส์ดาราศาสตร์จะเป็นของจริง จะต้องเกี่ยวข้องกับการสังเกตทางกายภาพของวัตถุบนท้องฟ้าด้วยซ้ำ Johannes Kepler นักดาราศาสตร์ฟิสิกส์ผู้ได้รับการยกย่องคนแรก พร้อมด้วยข้อมูลของ Tycho Brahe สามารถกำหนดกฎการเคลื่อนที่ของดาวเคราะห์ได้โดยการสังเกตวิถีโคจรของดาวเคราะห์ในระบบสุริยะของเราซ้ำแล้วซ้ำเล่า มันเกิดขึ้นกับเขาในกระบวนการสังเกตว่าวิถีของดาวเคราะห์ไม่สอดคล้องกับแบบจำลองทางเรขาคณิตของวงกลม แม้ว่าเราจะเชื่อกันโดยทั่วไปว่าดาวเคราะห์ทุกดวงเคลื่อนที่ในวงโคจรเป็นวงกลมก็ตาม

เมื่อคิดถึงเรื่องนี้เกือบสี่ศตวรรษต่อมา ฉันถูกบังคับให้จินตนาการถึงกระบวนการเปิดเผยความรู้จากธรรมชาติให้เป็นข้อมูลทางวิทยาศาสตร์ เคปเลอร์ทำการสังเกต วาดกราฟเหล่านั้น และลองใช้แบบจำลองต่างๆ เพื่ออธิบายรูปร่างของวิถีโคจร ในเวลานั้น กฎแรงโน้มถ่วงยังไม่ได้ถูกกำหนดขึ้น ดังนั้นแม้ว่าจะไม่มีคำอธิบายที่ชัดเจนว่าทำไมแบบจำลองเฮลิโอเซนตริกจึงใช้งานได้จริง แต่เรารู้เกี่ยวกับวิถีโคจรทรงรีของดาวเคราะห์ ย้อนกลับไปหนึ่งศตวรรษ เมื่อไอแซก นิวตันก่อตั้งกฎแห่งแรงโน้มถ่วง มีการคืนดีกันในทันทีสำหรับแนวคิดที่เป็นธรรมชาติมากและสามารถสัมผัสได้รอบตัวเรา และแบบจำลองทางคณิตศาสตร์ที่ก่อตั้งขึ้นเมื่อร้อยปีก่อน

ปัจจุบันนี้ จำนวนหอดูดาวดังกล่าวและจำนวนนักดาราศาสตร์เชิงสังเกตการณ์มีจำนวนมากกว่ามาก ไม่จำเป็นต้องพูดเลย สิ่งนี้ส่งผลให้เกิดการสะสมข้อมูลประเภทต่างๆ จำนวนมาก และคาดว่าปริมาณข้อมูลจะเพิ่มขึ้นในปีต่อๆ ไปเท่านั้น

ในยุคที่เราตระหนักถึงการเพิ่มขึ้นอย่างรวดเร็วที่กำลังจะเกิดขึ้น ก็ควรที่จะพัฒนาวิธีทางคณิตศาสตร์ ตัวเลข และการคำนวณเพื่อประมวลผล

ปัจจุบันเรามีเทคโนโลยีในการรับข้อมูลประเภทต่างๆ

ปัจจุบันดาวเทียมและกล้องโทรทรรศน์สามารถมองดูวัตถุดาวฤกษ์ในสเปกตรัมที่ต่างกันได้ เราสามารถเก็บข้อมูลในสเปกตรัมแสง อัลตราไวโอเลต และอินฟราเรด และแม้แต่ความถี่วิทยุ

ทั้งหมดนี้รวบรวมข้อมูลตั้งแต่เทราไบต์ไปจนถึงเพตะไบต์ (จากการสำรวจเช่น SDSS, AIS, GALEX เป็นต้น) ในเดือนตุลาคม พ.ศ. 2561 กล้องโทรทรรศน์อวกาศเจมส์ เวบบ์ ซึ่งเป็นกล้องโทรทรรศน์อินฟราเรด มีกำหนดเปิดตัว คาดว่าจะช่วยให้เรามองเห็นจักรวาลได้อย่างที่ไม่เคยมีมาก่อน เพื่อที่จะรวบรวมข้อมูลทั้งหมดให้เป็นข้อมูลและความรู้ที่เป็นประโยชน์ได้อย่างมีประสิทธิภาพ วิธีการทำเหมืองข้อมูลซึ่งมีการกำหนดสูตรโดยอาศัยการสัมผัสใกล้ชิดกับฟิสิกส์ จะต้องประมวลผลข้อมูลทั้งหมดนี้ร่วมกัน

และเรายังมีฮาร์ดแวร์สำหรับประมวลผลข้อมูลทั้งหมดนี้ด้วย!

การปรับปรุงในการประมวลผลแบบกระจายและการประมวลผลแบบคลัสเตอร์ และการประมวลผลแบบคลาวด์ได้เฟื่องฟูในช่วงสองทศวรรษที่ผ่านมา! นอกจากนั้น ยังมีวิศวกรจำนวนมากที่ทำงานอย่างต่อเนื่องเพื่อปลดล็อกศักยภาพของการประมวลผล GPU บริษัทที่อยู่เบื้องหลังความก้าวหน้าทางสถาปัตยกรรมดังกล่าว เช่น Apache (สำหรับ Spark และ Hadoop) และ NVIDIA (สำหรับ GPU) และบริษัทอื่นๆ เช่น AWS สำหรับแพลตฟอร์มคลาวด์ (และอื่นๆ อีกมากมาย) กำลังทำงานอย่างแข็งขันเพื่อปรับปรุงประสิทธิภาพของเฟรมเวิร์กของพวกเขา เพื่อให้สามารถนำไปใช้ในการประมวลผลแอปพลิเคชันข้อมูลขนาดใหญ่และเข้มข้นได้อย่างง่ายดาย

ข้อคิดสรุป

ในกระบวนการค้นหาความรู้นั้น มี 5 ขั้นตอนหลักที่เราจะต้องดำเนินการ:

  1. ความจำเป็นในการค้นหาความรู้
  2. การสร้างเครื่องมือเพื่อเก็บข้อมูลที่ต้องการ
  3. การใช้เครื่องมือที่พัฒนาขึ้นเพื่อรับข้อมูลที่จำเป็น
  4. กำลังประมวลผลข้อมูล
  5. การอนุมานแนวคิดและข้อเท็จจริงอย่างมีประสิทธิผลหลังการประมวลผลข้อมูล

ในทุกสาขาวิชา กระบวนการนี้เป็นแบบวนซ้ำ และเราพยายามอย่างต่อเนื่องที่จะเปิดเผยข้อเท็จจริงเกี่ยวกับโลกรอบตัวเรา และในขอบเขตนี้ เราอยู่ในยุคสำคัญของวิทยาศาสตร์ ในขณะที่เรากำลังประสบกับการเปลี่ยนกระบวนทัศน์ในการใช้เครื่องมือที่สามารถเพิ่มความเร็วและปริมาณของการคำนวณได้อย่างมาก

วิทยาศาสตร์ข้อมูลสามารถสนับสนุนขั้นตอนที่สี่ได้อย่างมาก และนี่ควรถูกมองว่าเป็นประโยชน์ในการขยายสาขาดาราศาสตร์ โครงสร้างพื้นฐานด้านการคำนวณที่มากขึ้นสามารถช่วยให้นักดาราศาสตร์ค้นพบข้อมูลเพิ่มเติมเกี่ยวกับจักรวาลของเราโดยการพัฒนาระบบผู้เชี่ยวชาญที่รับผิดชอบ

ในทำนองเดียวกันจำเป็นต้องเว้นพื้นที่ให้เพียงพอสำหรับการแทรกแซงของมนุษย์ ซึ่งแตกต่างจากการใช้ ML ทั่วไปในปัจจุบันในแชทบอทช่วยเหลือ เครื่องตรวจจับวัตถุ แผนที่ ฯลฯ ระบบในสารสนเทศทางดาราศาสตร์ควรดำเนินการวิธีการควบคู่กับความเข้าใจของมนุษย์เกี่ยวกับโลกรอบตัวเรา (และนี่คือกรณีของการศึกษาด้านสารสนเทศในใด ๆ สาขาวิทยาศาสตร์ธรรมชาติ) ดังนั้น ควรมุ่งเน้นไปที่การพัฒนาระบบที่เพิ่มความสามารถของมนุษย์มากกว่าการทำงานอย่างเป็นอิสระ เนื่องจากจินตนาการของมนุษย์และพลังของการอนุมานอาจไม่สามารถตั้งโปรแกรมได้