สรุป “การปล่อยก๊าซคาร์บอนและโครงข่ายประสาทเทียมขนาดใหญ่”

การแนะนำ

ความต้องการการประมวลผลที่มากขึ้นของแมชชีนเลิร์นนิง (ML) ได้เติบโตขึ้นอย่างมาก การคำนวณมากขึ้น หมายถึงการใช้พลังงานมากขึ้น และปล่อยก๊าซเรือนกระจกมากขึ้นในชั้นบรรยากาศตามมา การประมาณการใช้พลังงานของแบบจำลอง ML สามารถช่วยวัดผลกระทบต่อสิ่งแวดล้อมและลองใช้กลยุทธ์ที่เป็นมิตรต่อสิ่งแวดล้อมมากขึ้น เดวิด แพตเตอร์สัน และคณะ ใน [1] คำนวณการใช้พลังงานและรอยเท้าคาร์บอนของโมเดลขนาดใหญ่ล่าสุดหลายโมเดลสำหรับการประมวลผลภาษาธรรมชาติ (NLP) และปรับปรุงการประมาณค่าที่เผยแพร่ก่อนหน้านี้สำหรับการค้นหาสถาปัตยกรรมประสาทที่พบว่ามีวิวัฒนาการ หม้อแปลงไฟฟ้า จากสิ่งที่พวกเขาพบระหว่างการทดลอง พวกเขาเน้นโอกาสสามประการ (การใช้ เครือข่าย Deep Neural Networks (DNN) ที่เปิดใช้งานอย่างกระจัดกระจาย การคำนวณที่ทราบตำแหน่งทางภูมิศาสตร์ และการใช้ วัตถุประสงค์เฉพาะ ตัวประมวลผล (เครื่องเร่งความเร็ว)) เพื่อปรับปรุงประสิทธิภาพการใช้พลังงานและการปล่อยก๊าซคาร์บอนไดออกไซด์เทียบเท่า (คาร์บอนไดออกไซด์และก๊าซเรือนกระจกอื่นๆ ทั้งหมด เช่น มีเทน ไนตรัสออกไซด์ …) โอกาสเหล่านั้นลดรอยเท้าคาร์บอนลง ~100–1000X นอกจากนี้ พวกเขาเห็นด้วยกับเอกสารที่ตีพิมพ์ก่อนหน้านี้บางฉบับเกี่ยวกับบรรทัดฐานบางประการสำหรับการเผยแพร่เอกสาร ML ซึ่งคุณสามารถดูได้ในส่วนสุดท้ายของบทสรุปนี้

หมายเหตุ: บทความนี้มุ่งเน้นไปที่การฝึกอบรม

โอกาสในการปรับปรุงประสิทธิภาพพลังงานและการปล่อยก๊าซเรือนกระจก

โอกาสที่เน้นโดย [1] สำหรับการประมวลผล ML ที่มีประสิทธิภาพมากขึ้นมีดังต่อไปนี้

อัลกอริทึม/การปรับปรุงโปรแกรม

อัลกอริธึมที่ดีกว่าสามารถประหยัดเวลาได้มาก และเวลาที่น้อยลงหมายถึงการใช้พลังงานน้อยลง และส่งผลให้ก๊าซเรือนกระจกน้อยลงด้วย นอกจากนี้ โปรแกรมที่ใช้อัลกอริธึมยังเป็นปัจจัยสำคัญในความรวดเร็วในการดำเนินการอัลกอริธึม รุ่น Evolved Transformer (Medium) ใช้เวลา 1.6XFLOPS น้อยกว่า และ 1.1–1.3X เวลาน้อยกว่า Transformer (Big) โดยมีความแม่นยำสูงกว่าเล็กน้อย

การปรับปรุงโปรเซสเซอร์

หน่วยประมวลผล Tensor ของ Google (TPU) เวอร์ชัน 2 (v2) โปรเซสเซอร์ใช้งาน Transformer (Big)/Evolved Transformer 4.3X/5.2X เร็วกว่าของ NVIDIA P100 GPU TPU v2 ใช้พลังงานน้อยลง: น้อยกว่า 1.3X สำหรับ Transformer และ 1.2X น้อยกว่าสำหรับ Evolved Transformer ประสิทธิภาพสุทธิที่เพิ่มขึ้น/วัตต์คือ 5.6X และ 6.2X ตามลำดับ

การปรับปรุงดาต้าเซ็นเตอร์

ตัวชี้วัดเชิงปริมาณที่มีประโยชน์สำหรับประสิทธิภาพของศูนย์ข้อมูลคือค่าใช้จ่ายด้านพลังงานที่เกินกว่าสิ่งที่ขับเคลื่อนอุปกรณ์คอมพิวเตอร์ภายในศูนย์ข้อมูล ตัวอย่างเช่น หากค่าใช้จ่ายสำหรับศูนย์ข้อมูลคือ 50% ประสิทธิภาพการใช้พลังงาน (PUE) จะเป็น 1.5 ศูนย์ข้อมูลระบบคลาวด์มีประสิทธิภาพด้านพลังงานประมาณ 2 เท่าเมื่อเทียบกับศูนย์ข้อมูลระดับองค์กรทั่วไป เนื่องจากปัจจัยอื่นๆ เช่น การใช้งานศูนย์ข้อมูล มาซาเน็ต และคณะ ใน [3] พบว่าการใช้พลังงานของศูนย์ข้อมูลทั่วโลกเพิ่มขึ้นเพียง 6% เมื่อเทียบกับปี 2010 แม้ว่าความสามารถในการประมวลผลจะเพิ่มขึ้น 550% ในช่วงเวลาเดียวกันก็ตาม [4] ดังนั้นการประมวลผลแบบคลาวด์จึงเป็นทางเลือกที่ดีกว่าเนื่องจากมีการจัดการที่ดีขึ้นในพื้นที่นี้

PUE = (กำลังไฟฟ้าของสิ่งอำนวยความสะดวกทั้งหมด) / (กำลังของอุปกรณ์ IT)

การปรับปรุงการผสมผสานพลังงานหรือคอมพิวเตอร์ที่รับรู้ตามภูมิศาสตร์

การส่งกระแสไฟฟ้าระยะไกลมีราคาแพงกว่าและมีประสิทธิภาพน้อยกว่าการส่งข้อมูลเป็นโฟตอนผ่านเส้นใยนำแสง [5] การประมวลผลแบบคลาวด์ช่วยให้บริษัทต่างๆ เช่น Google มีศูนย์ข้อมูลทั่วโลก ซึ่งหลายแห่งถูกวางไว้ในตำแหน่งที่กริดสะอาดกว่าเช่น ฟินแลนด์ (การทำความเย็นซึ่งประกอบด้วย ~ 70% ของการใช้พลังงานโครงสร้างพื้นฐานสามารถทำได้อย่างมีประสิทธิภาพมากขึ้นโดยใช้ สิ่งแวดล้อม) หรือที่ที่บริษัทต่างๆ สามารถซื้อพลังงานสะอาดได้โดยตรง เช่น ไอโอวา ในปี 2021 Google ได้ประกาศเป้าหมายใหม่ในกลยุทธ์ด้านพลังงาน: ภายในปี 2030 Google ตั้งเป้าที่จะใช้งานศูนย์ข้อมูลและสำนักงานทั้งหมดโดยใช้พลังงานที่ปราศจากคาร์บอนตลอด 24 ชั่วโมงทุกวัน

รูปต่อไปนี้ [1] แสดงให้เห็นถึงโอกาสที่ David Patterson และคณะเน้นย้ำ

การรับรองการเรียกร้องก่อนหน้าสำหรับบรรทัดฐานการตีพิมพ์ ML ใหม่

รายการตรวจสอบต่อไปนี้แสดงรายการบรรทัดฐานหากปฏิบัติตามในการเผยแพร่ ML อาจช่วยให้ชุมชน ML เข้าใจผลกระทบภาวะเรือนกระจกที่แท้จริงของการฝึกอบรมและวิธีลดผลกระทบดังกล่าว

1- นักวิจัยจำนวนมากขึ้นได้รับการสนับสนุนให้วัดการใช้พลังงานและการปล่อยก๊าซคาร์บอนไดออกไซด์ที่เทียบเท่ากัน (หรือรับค่าประมาณโดยประมาณโดยใช้เครื่องมือ เช่น ML Emissions Calculator [2]) และเผยแพร่ข้อมูล เนื่องจากในปัจจุบันการประเมินการปล่อยก๊าซคาร์บอนไดออกไซด์ที่เทียบเท่ากันอย่างแม่นยำเป็นเรื่องยาก เนื่องจากข้อมูลที่จำเป็นทั้งหมดไม่ค่อยได้รับการรายงานหรือเปิดเผยต่อสาธารณะ (เช่น ศูนย์ข้อมูล ฮาร์ดแวร์ พลังงานผสม) ผู้เขียนเชื่อว่าอำนาจจะรวมอยู่ใน "การวัดประสิทธิภาพ MLPerf" ที่กำลังจะมีขึ้น ซึ่งเป็นก้าวสำคัญในทิศทางที่ถูกต้อง

2- ประสิทธิภาพควรมาพร้อมกับ ความแม่นยำและ มาตรการอื่นๆ สำหรับการเผยแพร่งานวิจัย ML เกี่ยวกับแบบจำลองที่เน้นการคำนวณ

3- นักวิจัยจำนวนมากขึ้นควรเผยแพร่จำนวนตัวเร่งความเร็วและเวลาในการฝึกโมเดลที่เน้นการประมวลผลเพื่อสร้างแรงบันดาลใจให้เกิดความก้าวหน้าในการลดต้นทุนการฝึกอบรม เป็นเพราะการลดเวลาการฝึกอบรมมีความสำคัญ ทั้งเพราะ “เวลาคือเงิน” และเนื่องจาก การฝึกอบรมที่ถูกกว่าทำให้ผู้คนมีส่วนร่วมได้มากขึ้น

บทสรุป

การเปลี่ยนแปลงสภาพภูมิอากาศโลกเป็นภัยคุกคามต่อเศรษฐกิจ สุขภาพของมนุษย์ และสิ่งแวดล้อม และชุมชน ML จำเป็นต้องทำหน้าที่ในส่วนของตนเพื่อจำกัดการปล่อยก๊าซคาร์บอน เนื่องจาก ML กำลังแพร่หลายมากขึ้น มีการประมวลผลและหิวโหยพลังงานมากขึ้น เพื่อจุดประสงค์นี้ ควรใช้บรรทัดฐานการเผยแพร่ใหม่ และโอกาสต่างๆ เช่น ซอฟต์แวร์ที่ดีขึ้น (อัลกอริธึม/โปรแกรม) ฮาร์ดแวร์ที่ดีขึ้น (ตัวเร่งความเร็วเช่น TPU สำหรับเครือข่ายประสาทเทียม) การจัดการศูนย์ข้อมูลที่ดีขึ้น (การประมวลผลแบบคลาวด์) และการประมวลผลที่รับรู้ทางภูมิศาสตร์ (ไอโอวาที่พลังงาน ผลิตออกมาอย่างสะอาด) ควรคำนึงถึง

อ้างอิง

[1] แพตเตอร์สัน, เดวิด และคณะ “การปล่อยก๊าซคาร์บอนและการฝึกอบรมโครงข่ายประสาทเทียมขนาดใหญ่” arXiv พิมพ์ล่วงหน้า arXiv:2104.10350 (2021)

[2]ลาคอสท์ อเล็กซานเดอร์ และคณะ “การวัดปริมาณการปล่อยก๊าซคาร์บอนของแมชชีนเลิร์นนิง” arXiv พิมพ์ล่วงหน้า arXiv:1910.09700 (2019)

[3] มาซาเน็ต, เอริค & เชฮาบี, อาร์มาน & เล่ย, นูอา & สมิธ, ซาราห์ & คูมีย์, โจนาธาน “การปรับเทียบประมาณการการใช้พลังงานของศูนย์ข้อมูลทั่วโลกใหม่” วิทยาศาสตร์ 367.984–986. 10.1126/science.aba3758 (2020)

[4] Masanet E., 24 มีนาคม 2021, “การวิเคราะห์พลังงานของศูนย์ข้อมูล: อดีต ปัจจุบัน และอนาคต” บรรยายที่ มหาวิทยาลัยแคลิฟอร์เนีย ซานตาบาร์บารา (UCSB)

[5] อาร์มบรัส, ไมเคิล และคณะ “มุมมองของคลาวด์คอมพิวติ้ง ชุมชน” พลอากาศเอก 53. 50–58. 10.1145/1721654.1721672 (2010)