Введение

Потребность машинного обучения (ML) в дополнительных вычислениях резко возросла. Больше вычислений означает большее потребление энергии и, следовательно, больше выбросов парниковых газов в атмосферу. Оценка энергопотребления моделей машинного обучения может помочь измерить их влияние на окружающую среду и попробовать более экологичные стратегии. Дэвид Паттерсон и др. в [1] рассчитать энергопотребление и углеродный след нескольких недавних крупных моделей обработки естественного языка (NLP) и улучшить ранее опубликованные оценки для поиска нейронной архитектуры, которые нашли Evolved Трансформер. В соответствии с тем, что они обнаружили во время своих экспериментов, они выделяют три возможности (использование редко активируемых глубоких нейронных сетей (DNN), вычисления с учетом географического местоположения и использование конкретной цели). процессоры (ускорители)) для повышения энергоэффективности и сокращения выбросов CO2 (двуокиси углерода и всех других парниковых газов, таких как метан, закись азота...). Эти возможности уменьшают углеродный след в ~100–1000 раз. Кроме того, они согласны с некоторыми ранее опубликованными документами по некоторым нормам публикации статей по ОД, которые вы можете найти в заключительном разделе этого резюме.

Примечание. В статье основное внимание уделяется обучению.

Возможности повышения энергоэффективности и сокращения выбросов парниковых газов

Ниже перечислены возможности, отмеченные [1] для повышения эффективности вычислений машинного обучения.

Улучшение алгоритма/программы

Лучший алгоритм может сэкономить много времени, а меньшее время означает меньшее потребление энергии и, следовательно, меньше выбросов парниковых газов. Более того, программа, реализующая алгоритм, является важным фактором, влияющим на скорость выполнения алгоритма. Модель Evolved Transformer (Medium) использует в 1,6 раза меньше FLOPS и в 1,1–1,3 раза меньше времени, чем Transformer (Big), при чуть более высокой точности.

Улучшение процессора

Процессор Google Tensor Processing Unit (TPU) версии 2 (v2) работает с Transformer (Big)/Evolved Transformer в 4,3/5,2 раза быстрее, чем NVIDIA. Графический процессор P100. TPU v2 потребляет меньше энергии: в 1,3 раза меньше для Transformer и в 1,2 раза меньше для Evolved Transformer. Чистый прирост производительности/ватт составляет 5,6X и 6,2X соответственно.

Улучшение центра обработки данных

Полезным количественным показателем эффективности центра обработки данных является энергопотребление помимо энергии вычислительного оборудования внутри центров обработки данных. Например, если накладные расходы для центра обработки данных составляют 50 %, эффективность использования энергии (PUE) равна 1,5. Облачные центры обработки данных примерно в 2 раза более энергоэффективны, чем обычные корпоративные центры обработки данных, благодаря другим факторам, таким как загрузка центра обработки данных. Масанет и др. в [3] обнаружили, что глобальное энергопотребление центров обработки данных увеличилось всего на 6 % по сравнению с 2010 годом, несмотря на то, что вычислительная мощность увеличилась на 550 % за тот же период времени [4]. Таким образом, облачные вычисления являются лучшим выбором из-за лучшего управления в этой области.

PUE = (общая мощность объекта) / (мощность ИТ-оборудования)

Улучшение баланса энергопотребления или вычисление с учетом географических данных

Передача электричества на большие расстояния дороже и менее эффективна, чем передача информации в виде фотонов по оптическим волокнам [5]. Облачные вычисления позволяют таким компаниям, как Google, иметь глобальный портфель центров обработки данных, многие из которых размещены там, где электросеть чище, как в Финляндия (охлаждение, составляющее ~70% энергопотребления инфраструктуры, может быть выполнено более эффективным способом с использованием окружающей среды), или где компании могут покупать чистую энергию напрямую, как в Айове. В 2021 году Google объявила о новой цели своей энергетической стратегии: к 2030 году она намерена перевести все свои центры обработки данных и офисы на безуглеродную энергию 24 часа в сутки 7 дней в неделю.

На следующем рисунке [1] показаны возможности, отмеченные Дэвидом Паттерсоном и др.

Одобрение предыдущих призывов к новым нормам публикации ML

В следующем контрольном списке перечислены нормы, соблюдение которых может помочь сообществу машинного обучения понять реальный парниковый эффект обучения и способы его уменьшения.

1. Приглашаем больше исследователей измерять энергопотребление и выбросы в эквиваленте CO2 (или получать приблизительную оценку с помощью такого инструмента, как калькулятор выбросов ML [2]) и публиковать данные. Это связано с тем, что в настоящее время трудно точно оценить выбросы в эквиваленте CO2, поскольку вся необходимая информация редко публикуется или общедоступна (например, центр обработки данных, оборудование, структура энергопотребления). Авторы считают, что мощность будет включена в предстоящие бенчмарки MLPerf, что является важным шагом в правильном направлении.

2 – эффективность должна сопровождаться точностью и другими показателями публикации исследований машинного обучения по моделям, требующим больших вычислительных ресурсов.

3. Больше исследователей должны публиковать информацию о количестве ускорителей и времени, затрачиваемом ими на обучение моделей с интенсивными вычислениями, чтобы стимулировать прогресс в снижении затрат на обучение. Это связано с тем, что сокращение времени обучения имеет значение как потому, что «время — деньги», так и потому, что более дешевое обучение позволяет участвовать большему количеству людей.

Заключение

Глобальное изменение климата представляет собой угрозу для экономики, здоровья человека и окружающей среды, и сообщество машинного обучения должно внести свой вклад в ограничение выбросов углекислого газа, поскольку машинное обучение становится повсеместным и все более требовательным к вычислительным ресурсам и энергии. С этой целью следует принять новые издательские нормы и возможности, такие как лучшее программное обеспечение (алгоритм/программа), лучшее оборудование (ускорители, такие как TPU для нейронных сетей), лучшее управление центром обработки данных (облачные вычисления) и вычисления с учетом географического положения (Айова, где энергия производится чисто) следует учитывать.

Рекомендации

[1] Паттерсон, Дэвид и др. «Выбросы углерода и обучение больших нейронных сетей». препринт arXiv arXiv:2104.10350 (2021).

[2] Лакост, Александр и др. «Количественная оценка выбросов углерода при машинном обучении». препринт arXiv arXiv:1910.09700 (2019).

[3] Масанет, Эрик и Шехаби, Арман и Лей, Нуоа и Смит, Сара и Куми, Джонатан. «Повторная калибровка оценок энергопотребления глобальных центров обработки данных». Наука. 367. 984–986. 10.1126/science.aba3758 (2020).

[4] Масанет Э., 24 марта 2021 г., Анализ энергопотребления ЦОД: прошлое, настоящее и будущее, лекция на Калифорнийский университет Санта-Барбары (UCSB)

[5] Армбруст, Майкл и др. «Обзор облачных вычислений. Общ.” ACM. 53. 50–58. 10.1145/1721654.1721672 (2010).