Уроки, извлеченные из классификации неизвестных источников рентгеновского излучения в космосе

Астрономия превратилась в дисциплину больших данных, и постоянно растущие базы данных в современной астрономии ставят перед аналитиками множество новых задач. Ученые все чаще обращаются к алгоритмам искусственного интеллекта и машинного обучения для анализа многомерных наборов данных. Однако это не только методологическая и техническая задача: это еще и визуальная задача! Визуализация данных способствует открытиям в астрономии, а также помогает сообщать о новых открытиях широкой публике. История информационных графиков показывает, насколько важно преобразование данных в знания для понимания имеющихся данных, о чем я ранее писал здесь.

Проблема визуализации сложных данных и их интерактивного изучения ни в коем случае не нова и не ограничивается исследованиями. Примеры цифрового информационного дизайна в биоинформатике и медицине (например, Genome Valence by Ben Fry или Meviatis by Ricarda Schuhmann) показывают, как визуализация может поддержать понимание структур в наборах данных и облегчить исследование. Представление размеров данных (то есть значений параметров) может привести к созданию динамических и эстетичных скульптур данных. Такие визуализации часто довольно красивы сами по себе, но, что особенно важно, их интерактивные функции позволяют пользователям быстро сравнивать и интерпретировать данные.

Современные цифровые медиа позволяют нам выйти за рамки разработки интерактивных трехмерных экранных приложений. И дополненная реальность (AR), и виртуальная реальность (VR) позволяют пользователям по-новому взглянуть на свои данные и исследовать пространства параметров в 3D. Существует огромный потенциал использования этих технологий в области информационного дизайна. Для VR преимущества очевидны:

  • Больше места! VR предлагает большее поле зрения, чем 2D-изображения. Это позволяет размещать несколько видов в пространстве, упрощая рисование перекрестных ссылок и соединений.
  • Больше размеров! По сравнению с 2D-графикой, визуализации VR предлагают дополнительные параметры, которые могут представлять данные (например, звук, тактильные ощущения, освещение, взаимодействие).
  • Больше структуры! Восприятие пространства и глубины стало более интуитивным; позволяет быстрее распознавать формы и объемы.
  • Еще веселее! Погружение в данные и возможность переходить от обзора к деталям путем масштабирования пространства - это мощный эффект погружения.

Понимание природы неизвестного

Вдохновленный приведенными выше примерами исследований, я решил исследовать гипотезу для своей бакалаврской диссертации по информационному дизайну:

Представление научных данных с помощью новых цифровых средств массовой информации, особенно виртуальной реальности, предлагает большой потенциал для анализа данных в науке.

Я хотел проверить эту гипотезу на наборе данных из моего предыдущего исследования, которое я изо всех сил пытался получить. Во время моей докторской диссертации по астрофизике я участвовал в проекте EXTraS, целью которого была автоматическая классификация неизвестных и вновь открытых источников рентгеновского излучения в космосе. Источники наблюдались с помощью рентгеновского спутника XMM-Newton Европейского космического агентства (ESA). Я приступил к разработке Virtual Data Cosmos как способ группировки данных со схожими свойствами и визуализации этих групп.

По мере того как рентгеновские спутники собирают все больше и больше данных, архивы данных с этих спутников ежегодно растут. В записях подробно описаны миллионы источников, излучающих рентгеновские лучи, из которых любой вновь обнаруженный источник может привести к новым физическим открытиям. Поэтому классификация неизвестных источников чрезвычайно важна в современной астрономии, и из-за огромного количества данных интеллектуальные алгоритмы все чаще используются астрономами во всем мире.

На изображении ниже показано изображение всего неба в оптическом диапазоне, если смотреть с Земли. Это проекционное сканирование можно рассматривать как аналог карты мира, на которой галактическая плоскость лежит на экваторе, а галактический центр находится в центре карты. Как и на обычной карте мира, здесь есть долгота и широта, показанные белыми линиями сетки. Обычно это называется картой неба. Поверх оптического изображения нанесены белые точки; каждая представляет собой область, наблюдаемую рентгеновским спутником XMM-Newton. Каждая белая точка включает несколько неизвестных источников рентгеновского излучения. Целью проекта было классифицировать каждый из этих источников.

Чтобы понять природу каждого источника рентгеновского излучения, астрономы сравнивают его характеристики (в частности, наблюдаемые энергетические и временные свойства) с характеристиками объектов с известными типами классификации, такими как двойная звезда или Сейфертовская галактика . Подобные вопросы помогают:

  • Каковы корреляции между свойствами источника рентгеновского излучения и свойствами объекта известного типа классификации?
  • Где отличия?
  • Был ли обнаружен неизвестный объект где-нибудь в электромагнитном спектре, что могло бы дать дополнительные подсказки о его природе?

Чтобы описать сходство между неизвестным и известным источником рентгеновского излучения, мы, астрономы, используем статистику, а также визуализацию. В этом случае алгоритмы машинного обучения (точнее, алгоритмы контролируемого дерева решений) автоматически характеризовали каждый источник в этом большом и сложном наборе данных, сравнивая их точные значения параметров (например, наблюдаемую интенсивность рентгеновского излучения) со значениями известных объектов. В конечном итоге алгоритмы вычисляют вероятность принадлежности источника рентгеновского излучения к разным типам классификации и относят его к наиболее вероятному классу.

Например: источник рентгеновского излучения с ID 1 с вероятностью 45% является одиночной звездой, с вероятностью 30% - двойной звездой и с вероятностью 0,01% - галактикой. Следовательно, алгоритм присваивает класс с наибольшей вероятностью в качестве окончательной классификации неизвестного источника. В этом случае источник ID 1 будет классифицирован как одиночная звезда.

Как только алгоритм классифицирует все неизвестные источники таким образом, задача астронома состоит в том, чтобы тщательно проверять и контролировать результаты. Как работал алгоритм? Делал ли он ошибки? Поскольку было протестировано более одного алгоритма, для ответа на эти вопросы потребуется сравнить результаты каждого из них. Разве разные алгоритмы классифицировали один и тот же неизвестный источник по разным классам? Кроме того, как ученый, каждый хочет знать, почему алгоритм классифицировал объект именно так. Астроном требует понимания взаимосвязи между различными параметрами и типами классификации источников, и делает это с помощью визуализации.

Ограничения традиционной науки, а именно

Типичным методом является создание нескольких диаграмм рассеяния, на которых рентгеновские свойства неизвестных космических источников сравниваются друг с другом с учетом результатов единого алгоритма. Это делается путем присвоения уникального цвета и символа определенной классификации источников и изображения источников рентгеновского излучения с символами определенных классов на графике. Затем мы, астрономы, можем проанализировать, образуют ли положения источников, изображенных с помощью одинаковых символов, шаблоны, которые помогают различать разные типы классификации.

Например: эти диаграммы рассеяния были созданы для исследования взаимосвязей между параметром HR1 и параметрами HR2, HR3 и HR4. Параметры представляют собой абстрактные свойства, используемые для описания конкретных энергий излучения космических источников, и их визуализация в абстрактной плоскости позволяет нам искать закономерности, которые могут характеризовать свойства различных объектов. Точки данных представляют все неизвестные космические источники, наблюдаемые спутником.

В этом случае зеленые треугольники представляют класс сейфертовских галактик, а фиолетовые квадраты изображают класс одиночных переменных звезд, которые существуют в пределах нашего Млечного Пути. Мы видим, что источники перекрываются, если смотреть только на параметр HR1, но они занимают очень разные области в плоскости HR1-HR2 на первой диаграмме рассеяния. Следовательно, из этого графика мы можем сделать вывод, что источники с низким значением HR1 и HR2 относятся к классу пурпурного квадрата (переменная звезда).

Но как насчет источников с высокими значениями HR1 и HR2? Сравнение только этих параметров поместит их в класс galaxy (зеленый). Но есть много других классов, которые также занимают этот регион, например синие треугольники, которые представляют собой своего рода двойную звездную систему, и это запутывает картину. Чтобы получить более четкое представление, нам теперь нужно сравнить плоскость параметров HR1-HR2 с другими диаграммами рассеяния. Если мы теперь посмотрим на второе изображение, которое иллюстрирует плоскость HR1-HR3, мы увидим, что источники, показанные зеленым и синим символами, немного больше разделены. И, объединив информацию первого и второго графиков, мы можем идентифицировать конкретные комбинации параметров HR1, H2 и HR3, которые различают переменные звезды (фиолетовый), галактики (зеленый ) и двойные звездные системы (синий).

С каждой дополнительной диаграммой рассеяния мы постепенно формируем мысленную модель многомерного пространства параметров, в котором каждый исходный класс расположен в уникальном месте. В принципе это то, что делают алгоритмы, и поэтому наши параметры также известны как «размеры» набора данных. Однако чем больше количество параметров и классов, тем труднее людям следить за всеми взаимосвязями. Для нас просто невозможно представить одновременно более трех измерений.

В нашей выборке размер набора данных и наличие более 50 параметров не позволили получить обзор всех взаимосвязей между значениями параметров и классификациями источников. Требуемых диаграмм рассеяния было слишком много, и из-за размера набора данных многие регионы были заняты несколькими классами источников. Перекрытие их символов затрудняло просмотр шаблонов данных.

Кроме того, эти графики соответствуют классификации по единому алгоритму. Поэтому по мере увеличения количества используемых алгоритмов количество графиков быстро станет неуправляемым. Я пришел к выводу, что эта традиционная двухмерная визуализация не позволяет получить надлежащий обзор данных, и был разочарован тем, что механизмы принятия решений алгоритма оставались непрозрачными.

Проектирование виртуального космоса данных

Непосредственная визуализация данных

Чтобы придумать новый способ визуализации этого набора больших данных, я сначала провел небольшое исследование истории и принципов визуализации данных. Я был очарован творчеством, с которым дизайнеры и ученые нанесли на карту свои данные.

Превосходство в статистической графике состоит из сложных идей, передаваемых с ясностью и эффективностью.

Эдвард Тафте ввел термин графическое совершенство в визуализации данных. Он постулировал различные свойства, которые необходимы для успешной статистической графики. Его теория заключалась в том, что данные должны отображаться напрямую, не отвлекая пользователя на сам дизайн. Кроме того, статистические графики должны служить четкой цели (описание, исследование, табулирование или оформление) и должны показывать несколько уровней детализации, от приблизительного обзора до тонкой структуры данных.

Аналогичные заявления были сделаны в исследовании 2015 года по визуализации больших данных в VR и AR. Авторы пришли к выводу, что для того, чтобы визуализация данных служила инструментом анализа, необходимо, чтобы соответствующие данные были точно представлены. Следствием для моей работы было то, что отображение данных должно было выполняться с помощью кодирования. Это означало, что сами значения данных будут определять визуальную эстетику виртуальной среды.

Кроме того, взаимодействие и масштабируемость в сцене VR позволят пользователю полностью погрузиться в данные и буквально погрузиться в них. Можно было легко передвигаться и смотреть на набор данных с разных точек зрения. Точно так же пользователь сможет уменьшить масштаб и получить обзор, эффективно держа данные в руках. Набор данных можно было даже развернуть и исследовать, как если бы он был физическим объектом.

Для меня это был самый важный аспект подхода VR: он сочетал в себе преимущество физикализации данных с возможностью формировать и манипулировать средой данных, что невозможно в реальном мире.

Независимо от того, как были организованы данные источника рентгеновского излучения, моя основная идея заключалась в том, чтобы разделить кластер параметров и вероятностей рентгеновского излучения и отобразить их в трехмерном пространстве. Целью была интерактивная визуализация данных в VR, в которой данные можно было бы исследовать напрямую. Взаимодействуя с конкретной виртуальной средой, любой может исследовать это абстрактное пространство данных.

Мое решение проблемы привело к созданию Virtual Data Cosmos. Я расскажу вам о концепции дизайна здесь. Подробное описание процесса проектирования будет объяснено в следующей статье этой серии.

Применение концепции дизайна

Я хотел убедиться, что визуализация сначала давала пользователю обзор данных, а только потом позволяла вдаваться в детали. Увеличивая выбранный тип классификации, можно, наконец, добраться до ДНК источника рентгеновского излучения (то есть найти детали его спектральных параметров) и, следовательно, понять, почему алгоритм отнес источник к определенному классу.

Опыт виртуальной реальности состоит из двух пространств; пользователи могут увеличивать и уменьшать масштаб, чтобы плавно перемещаться из одного пространства в другое:

  • Классная комната представляет собой весь космос и включает в себя все точки данных, сгруппированные в соответствии с их классификацией по алгоритмам.
  • Пространство параметров представляет наблюдаемые значения параметров выбранной пользователем подвыборки источников рентгеновского излучения и их классификацию по выбранному алгоритму.

Отправной точкой было создание «классной комнаты», в которой каждый тип классификации имеет свой собственный трехмерный объем. Классная комната визуализирует результаты классификации источников рентгеновского излучения с помощью различных алгоритмов и позволяет пользователям исследовать распределения вероятностей в базе данных. Это вызывает такие вопросы, как:

  • Как алгоритм классифицировал неизвестные источники рентгеновского излучения?
  • Какова вероятность принадлежности источника к этому классу источников?
  • Какая может быть альтернативная классификация?

Визуализация полного набора данных в классе была очень захватывающим моментом! Впервые с начала проекта EXTraS мы смогли четко визуализировать более 500 000 точек данных без компромиссов и одновременно сравнить результаты различных алгоритмов. Я почувствовал, что наконец получил четкое представление о результатах и ​​легко смог увидеть распределение всех засекреченных источников рентгеновского излучения.

Вот несколько скриншотов из комнаты VR-класса:

Следующим шагом было понять, как алгоритм различает разные классы. Увеличивая масштаб и сравнивая характеристики различных выбранных источников рентгеновского излучения, вы попадаете в пространство параметров. Здесь есть что посмотреть, и мы снова столкнулись с проблемой, как визуализировать все измерения параметров сразу.

Желание разделить точки данных в конечном итоге привело к окончательному подходу: позволить каждому источнику совершить «прогулку» в пространстве, причем каждый источник будет начинать с одной и той же точки. Их значения параметров использовались для определения направления и длины каждого шага. Это сопоставление показывает, что каждый источник создает уникальный путь (или след) в пространстве, а объекты с аналогичными свойствами оказываются в аналогичных местах виртуального космоса.

Например, на следующем изображении показаны возможные прогулки трех источников, принадлежащих к разным классам. Это одно изображение позволяет нам сделать те же выводы, которые мы получили при сравнении трех приведенных выше диаграмм рассеяния.

В этом эскизе четыре шага определены на основе значений параметров HR1, HR2, HR3 и HR4. Их значения в основном определяют направление шага, а длина шага определяется выбранным алгоритмом.

Мы видим, что шаги HR1 и HR2 уже помогают нам отделить переменные звезды от галактик или двойных звездных систем. Дополнительные параметры затем помогают различать последние два класса.

Мы можем видеть, как алгоритм классифицирует объект по цвету пути объекта. Более подробная информация о отображении данных будет дана в следующей статье.

Это снимок экрана пространства параметров VR для большого количества источников, которые были отнесены к трем различным классам (с именами CV, BL и STAR):

На изображении выше есть три класса: переменные звезды (синие), очень активные эллиптические галактики (светло-зеленые) и нормальные звезды (темно-зеленые). Мы видим, что источники, параметры которых генерируют аналогичный путь, были отнесены к одному и тому же классу. Мы также можем видеть ситуации, когда значения параметров заставляли путь принимать странную форму, вызывая путаницу для алгоритма.

Это представление позволило лучше понять, почему алгоритм машинного обучения определенным образом классифицировать источник, и прояснило, почему он не может охарактеризовать другие источники, когда их пути перекрываются.

Резюме

Создание виртуальных данных Cosmos убедило меня не только в моей гипотезе о том, что виртуальная реальность предлагает большой потенциал для научного анализа данных в науке, но и в том, что чистое представление больших данных может создавать интересные и эстетичные виртуальные пространства, если они определяются конкретными параметрами данных. Этот генеративный подход подразумевает, что, исследуя виртуальный мир, пользователи могут фактически исследовать абстрактное пространство параметров, которое не обязательно является визуальным по своей природе. Взаимодействуя с виртуальными элементами, визуализация становится чрезвычайно полезным инструментом.

Масштабируемость в VR - лишь одно преимущество перед традиционными методами науки. Кроме того, с иммерсивной визуализацией данных приятно работать. Это побуждает больше сосредоточиться на данных и получить более полное представление о том, какая информация в противном случае могла бы быть скрыта.

Конечно, в этой области есть еще много интересного. Когда я освободился от использования обычных методов для представления данных, проектирование пространства параметров с использованием свойств излучения источников вызвало у меня много новых вопросов. Как можно точнее разделить параметры? Есть ли лучшие представления, которые позволили бы еще более четко проанализировать корреляции параметров? Я расскажу больше о том, как я улучшил первую версию, управляя параметрами, в следующей статье этой серии.

Пример Virtual Data Cosmos показывает, как применение принципов визуализации данных в VR может поддержать науку, позволяя создавать ментальные модели для многомерных данных. Этот проект показывает, как нестандартное мышление и придумывание новых способов визуализации больших данных открывает много захватывающих возможностей для науки.

Надеюсь, мне удалось вдохновить вас на создание собственного опыта визуализации данных VR. Обзор созданного мной опыта виртуальной реальности доступен на http://annok.de/vdc-2/.

За годы моей работы в астрономии визуализация данных была основной частью моих исследований. Ближе к концу своей докторской степени я столкнулся с проблемой, довольно распространенной в современной астрономии: понимание и визуализация информации большого набора данных. Поскольку я также изучал информационный дизайн в Университете прикладных наук, я начал свое исследование визуализации данных и того, как это может быть инструментом для обработки многомерных данных в науке или промышленности. В этой серии статей я опишу свое приключение, которое в конечном итоге привело к разработке Virtual Data Cosmos.