การกำหนดข้อกำหนดและแนวคิดหลักในโครงข่ายประสาทเทียม (ตอนที่ 2)

ในส่วนที่ 1 ของ “ข้อกำหนดและแนวคิดหลักในโครงข่ายประสาทเทียม” ฉันได้แนะนำ perceptron หลายชั้น (MLP) และวิธีป้อนข้อมูลใน เลเยอร์อินพุต และแสดงผ่าน เลเยอร์เอาต์พุต ซึ่งเป็นเลเยอร์ผลลัพธ์ของคุณ ฉันยังเขียนเกี่ยวกับวิธีการที่เลเยอร์เหล่านี้เชื่อมโยงถึงกัน และแต่ละเลเยอร์จะมี เซลล์ประสาท จำนวนหนึ่งต่อเลเยอร์ ฉันพูดถึงแล้วว่าผลรวมของเซลล์ประสาททั้งหมดที่ชี้ไปยังเลเยอร์ถัดไปนั้นถูกรวมไว้ในฟังก์ชันการเปิดใช้งานอย่างไร

สำหรับส่วนที่สองของซีรีส์ ฉันจะหารือเกี่ยวกับวิธีการวิเคราะห์การคาดการณ์ที่เกิดขึ้นในการส่งต่อของเราเพื่อเพิ่มประสิทธิภาพโครงข่ายประสาทเทียมของเรา

สำหรับส่วนที่เหลือของโพสต์นี้ ฉันจะอธิบายโครงข่ายประสาทเทียมโดยใช้การเปรียบเทียบของนักกีฬา ฉันเป็นนักเรียนนักกีฬาเทนนิส D1 ที่มหาวิทยาลัยอเมริกัน และเมื่อฉันเริ่มเรียนรู้เกี่ยวกับการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึก แนวคิด ML และ DL บางอย่างโดนใจฉันมาก เพราะมันคล้ายกับการทำงานของจิตใจของนักกีฬาเป็นอย่างมาก ตัวอย่างเช่น การคาดการณ์ครั้งแรกของโครงข่ายประสาทเทียมของเราสามารถเปรียบเทียบได้อย่างง่ายดายกับการแข่งขันครั้งแรกของนักกีฬา ไม่ว่าฉันจะเล่นเทนนิสทัวร์นาเมนต์ใดก็ตาม จะต้องมีเป้าหมาย เป้าหมายคือสิ่งที่เป็นกลาง เป็นสิ่งที่ฉันสามารถวัดผลการปฏิบัติงานของฉันได้ ไม่ว่าจะเป็นการชนะการแข่งขันหรือว่าฉันมีเป้าหมายเฉพาะเจาะจงในการแข่งขันนั้น ฉันสามารถวัดผลงานของฉันเทียบกับเป้าหมายบางอย่างได้ เช่นเดียวกับอัลกอริธึมโครงข่ายประสาทเทียมของเรา เราจำเป็นต้องมีมาตรฐานในการวัดว่าการคาดการณ์ของเราอยู่ใกล้หรือไกลแค่ไหนเมื่อเทียบกับเป้าหมายที่แท้จริง นี่คือจุดที่ ฟังก์ชันการสูญเสีย ของเราเข้ามามีบทบาท ฟังก์ชันการสูญเสียคือฟังก์ชันที่ให้ผลตอบรับแก่โมเดลของคุณ มันจะให้คะแนนการสูญเสียซึ่งจะช่วยให้เราพิจารณาว่าโมเดลทำงานได้ดีเพียงใด

ตอนนี้เรามีมาตรฐานในการวัดแล้ว โครงข่ายประสาทเทียมของเราก็สามารถดำเนินการย้อนกลับได้ มีมาตรฐานที่สามารถพึ่งพาได้เพื่อปรับแต่งน้ำหนักและอคติที่ส่งผลต่อการส่งบอลไปข้างหน้าของเรา โดยจะคำนวณว่าการเชื่อมต่อเอาท์พุตแต่ละครั้งมีส่วนทำให้เกิดข้อผิดพลาดในการสูญเสียมากน้อยเพียงใด เราใช้ฟังก์ชันเครื่องมือเพิ่มประสิทธิภาพสำหรับขั้นตอนนี้ เช่น “Adam”, “Stochastic Gradient Descent” และอื่นๆ อีกมากมาย ฟังก์ชันเครื่องมือเพิ่มประสิทธิภาพเหล่านี้จะช่วยให้คุณสามารถ "เพิ่มประสิทธิภาพ" โมเดลของคุณเพื่อให้เหมาะกับข้อมูลของคุณได้ดีขึ้น ในแง่กีฬา นี่คือจุดที่คุณย้อนกลับไปที่สนามฮาร์ดหลา ขึ้นอยู่กับระดับประสิทธิภาพของคุณผ่านทางมาตรฐาน (ฟังก์ชันการสูญเสีย) โค้ชของคุณจะให้ข้อเสนอแนะที่เหมาะสมเพื่อให้คุณเพิ่มประสิทธิภาพ (ฟังก์ชันเพิ่มประสิทธิภาพ) เกมของคุณให้มากที่สุดเท่าที่จะเป็นไปได้ เป็นไปได้.

ดังที่เราเห็นจากโค้ดด้านบน เราได้สร้างโครงข่ายประสาทเทียมที่เรียบง่ายมาก ซึ่งประกอบด้วยเลเยอร์อินพุตที่มีเซลล์ประสาท 4 ตัว เลเยอร์ที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 4 ตัว และเลเยอร์เอาต์พุตที่มีเซลล์ประสาทหนึ่งตัว ซึ่งทั้งหมดพันรอบฟังก์ชันการเปิดใช้งานตามลำดับ ในส่วนที่ 1 และส่วนที่ 2 เราได้กล่าวถึงฟังก์ชันการสูญเสียและฟังก์ชันออพติไมเซอร์ซึ่งก็คือเอนโทรปีข้ามไบนารีและอดัมตามลำดับ ปิดท้ายนี้ ฉันต้องการพูดคุยเกี่ยวกับอัตราการเรียนรู้ (lr) และบรรทัดสุดท้ายของโค้ด "เมตริก"

อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์ที่ควบคุมความเร็วที่เราไปถึงโซลูชันที่ดีที่สุด วิธีคิดที่ดีคือ เราใช้ฟังก์ชันเพิ่มประสิทธิภาพเพื่อปรับแต่งการเชื่อมต่อของโมเดลตามคะแนนการสูญเสีย และเรากำลังบอกโมเดลด้วยอัตราที่ต้องการเพื่อลดคะแนนการสูญเสียของเรา มีข้อดีและข้อเสียอยู่ที่การมีอัตราการเรียนรู้ที่มากขึ้นจนถึงอัตราการเรียนรู้ที่น้อยลง Aurelien Géron กล่าวว่าอัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์ที่สำคัญที่สุดของแบบจำลองของเรา หากอัตราการเรียนรู้น้อยเกินไป โมเดลจะใช้เวลาในการเรียนรู้นานเกินไป และหากอัตราการเรียนรู้สูงเกินไป โมเดลอาจพลาดจุดข้อมูลบางส่วนที่เราต้องปรับปรุงโมเดลของเรา นี่คือสิ่งที่ฉันต้องการเรียกว่ากระบวนการในอาชีพนักกีฬา จำเป็นต้องมีความสมดุลที่ดีเสมอกับความสามารถในการเรียนรู้อย่างรวดเร็วเมื่อเทียบกับการดำเนินกระบวนการไปพร้อมกัน การเรียนรู้เร็วเกินไปไม่ได้เป็นประโยชน์เสมอไป เพราะคุณอาจข้ามขั้นตอนไปบ้าง แต่การเรียนรู้ช้าเกินไปไม่ได้ช่วยคุณในการแสวงหาการเป็นนักกีฬาที่เก่งที่สุด

สุดท้ายนี้ ฉันจะพูดถึงหน่วยเมตริกใน ML และ DL หากคุณไปที่ เว็บไซต์ TensorFlow คุณจะพบหน้าเมตริก

เมตริกเป็นเพียงวิธีการหนึ่งในการพิจารณา ประสิทธิภาพโดยรวม ของโมเดลของคุณ สิ่งนี้ไม่ส่งผลต่อลักษณะการทำงานของโมเดลของคุณ มันเป็นเพียงวิธีที่ ML Engineer สามารถดูประสิทธิภาพของโมเดลได้ จากประสิทธิภาพดังกล่าว วิศวกรสามารถทำการเปลี่ยนแปลงที่เหมาะสมเพื่อปรับปรุงประสิทธิภาพของแบบจำลองได้ ในด้านกีฬานี่คือคะแนนสุดท้าย ผลลัพธ์ที่ได้ คะแนนหรือผลลัพธ์สุดท้ายโดยทั่วไปเป็นตัวบ่งชี้ที่ดีว่านักกีฬาอยู่ที่ไหนและแต่ละคนต้องไปที่ไหนต่อไป

หวังว่านี่จะเป็นข้อมูล!

ข้อมูลอ้างอิง:

บันทึกการเรียนรู้ของเครื่อง

“การเรียนรู้ของเครื่องแบบลงมือปฏิบัติด้วย Scikit-Learn, Keras และ TensorFlow” — Aurelien Géron

การกำหนดข้อกำหนดและแนวคิดหลักในโครงข่ายประสาทเทียม (ตอนที่ 2)

คำถามในหัวข้อ