จากฟิสิกส์สู่วิทยาศาสตร์ข้อมูล: ความงามและพลังของความคล้ายคลึงโคไซน์

คุณเคยสงสัยหรือไม่ว่าเว็บไซต์ต่างๆ ยังคงรู้ว่าคุณหมายถึงอะไร แม้ว่าคุณจะสะกดคำในแถบค้นหาแล้วก็ตาม หากเป็นเช่นนั้น บทความนี้เหมาะสำหรับคุณ! เราจะพูดถึงแนวคิด คณิตศาสตร์ และตัวอย่างที่แนะนำทีละขั้นตอนของวิธีคำนวณความคล้ายคลึงกันระหว่างคำต่างๆ ในเว็บไซต์ต่างๆ มากมายด้วยวิธีความคล้ายคลึงโคไซน์

และอย่ากังวลหากแนวคิดเรื่องตรีโกณมิติเพียงอย่างเดียวดูน่ากังวลสำหรับคุณในตอนนี้ งานชิ้นนี้จะแนะนำคุณเกี่ยวกับสัญชาตญาณของแนวคิดที่เกี่ยวข้องทั้งหมด ตั้งแต่ความหมายของโคไซน์ไปจนถึงตรรกะของดอทโปรดัค ไม่จำเป็นต้องมีความรู้มาก่อน

คำในปริภูมิเวกเตอร์

ใน "บทความก่อนหน้า" ของฉัน เราได้กล่าวถึงวิธีที่โมเดลภาษา AI แปลงคำเป็นตัวเลขโดยวิธีการฝังคำ ผลลัพธ์ของกระบวนการนี้เป็นเมทริกซ์ขนาดใหญ่โดยแต่ละแถวมีคำและแต่ละคอลัมน์มีค่าของมิติที่ระบุของคำ ในบทความ เรายังกล่าวถึงวิธีที่ "BERT" (โมเดลที่ขับเคลื่อน ChatGPT) สร้าง 768 มิติสำหรับแต่ละคำด้วยโครงข่ายประสาทเทียมของหม้อแปลง

แต่ถ้าคุณจำได้ ก่อนที่เราจะเจาะลึกเกี่ยวกับ BERT เราใช้ตัวอย่างที่ง่ายกว่านี้เพื่อแสดงแนวคิดของการฝังคำ เราจะกลับมาที่ตัวอย่างง่ายๆ สำหรับบทความนี้:

ในตัวอย่างนี้ เราเลือกคำสามคำ ได้แก่ 'หิมะ' 'สกี' และ 'ราฟาเอล' และเราได้คุณลักษณะที่เป็นไปได้สามประการของคำเหล่านี้ โดยกำหนดให้แต่ละจุดมีค่าเป็น 0 หรือ 1 ขึ้นอยู่กับว่าเป็นหรือไม่ ปรากฏในคำพูดของเรา เนื่องจากเรากำลังจัดการกับคุณสมบัติสามอย่างเท่านั้น ไม่ใช่ 768 เราจึงสามารถพล็อตแต่ละจุดในแกน 3 มิติและสร้างการแสดงเชิงเส้นของแต่ละคำได้ กล่าวอีกนัยหนึ่ง เราสามารถแสดงคำในปริภูมิเวกเตอร์ได้

ตอนนี้เราสามารถแสดงคำต่างๆ ในรูปแบบเวกเตอร์ได้แล้ว เราก็เริ่มใช้วิธีการ ความคล้ายคลึงโคไซน์ เพื่อระบุว่าคำเหล่านั้นอยู่ห่างจากกันแค่ไหน และด้วยเหตุนี้ จึงใช้ตัวเลขนั้นในรูปแบบที่มีประโยชน์หลายประการ

แต่เดี๋ยวก่อน โคไซน์คืออะไร

พูดตามตรง — ฉันไม่คิดว่าฉันเข้าใจความหมายที่แท้จริงของฟังก์ชันโคไซน์เมื่อเรียนครั้งแรกในโรงเรียนมัธยมปลาย บางทีฉันอาจยุ่งเกินไปกับการจัดชั้นเรียนมากกว่าที่ควรจะเป็น หรือเป็นวัยรุ่นที่ปรับตัวไม่ดี หรือฉันไม่รู้ บางทีมันอาจจะอธิบายได้ไม่ดีนัก! ความจริงก็คือ ไม่นานหลังจากนั้นฉันก็เข้าใจฟังก์ชันโคไซน์จริงๆ

ฟังก์ชันโคไซน์บอกเราถึงสัดส่วนของเส้นตรงที่สามารถประกอบเป็นองค์ประกอบในแนวนอนได้ ผมขออธิบายด้วยปัญหาทางฟิสิกส์ที่เรียบง่ายแต่ยังใช้ไม่ได้จริงอย่างมาก:

ลองจินตนาการว่าคุณกำลังผลักก้อนหินขนาดยักษ์ขึ้นไปบนยอดเขา มันเป็นก้อนหินหนัก ดังนั้นคุณต้องออกแรงมาก! แรงส่วนหนึ่งเกิดขึ้นกับการวางเท้าของคุณ เมื่อคุณเคลื่อนที่ ในแนวนอน,และส่วนหนึ่งเกิดขึ้น ในแนวตั้ง ขณะที่คุณกำลังดันขึ้นไป โดยการแบ่งแรงออกเป็นองค์ประกอบทั้งสอง เราก็สามารถจำลองปัญหานี้ด้วยรูปสามเหลี่ยมได้ทันที!

ในตัวอย่างด้านบน โคไซน์ของมุมระหว่างเส้น c ซึ่งแสดงถึงแรงลัพธ์ของเรา และเส้น a ซึ่งแสดงถึงฝีเท้าของเรา สามารถบอกเราได้ว่า แรง c สามารถนำมาประกอบกับองค์ประกอบแนวนอนของมัน a — หรืออีกนัยหนึ่งก็คือ แรงที่กระทำบนก้อนหินนั้นสามารถอธิบายได้ด้วยการใช้เท้าของเรา

สมมติว่าเราวัดฝีเท้าของเราให้มีค่าเป็น 4 และสมมติว่าเราวัดแรงลัพธ์ให้มีค่าเป็น 5 โคไซน์ของมุมระหว่างพวกมันคือ 4 หารด้วย 5 หรือ 0.8 สิ่งนี้บอกเราว่า 80% ของพลังผลลัพธ์นั้นมาจากฝีเท้าของเรา

หากคุณไม่คุ้นเคยกับสัญลักษณ์ใดๆ ข้างต้น อาจดูล้นหลามไปบ้าง แต่ฉันหวังว่าภาพรวมตรงนี้จะชัดเจน เมื่อเรามีเวกเตอร์แล้ว เราก็สามารถสร้างรูปสามเหลี่ยมได้ และเราสามารถใช้คุณสมบัติตรีโกณมิติเพื่อสร้างการอนุมานอันทรงพลังเกี่ยวกับสิ่งที่เวกเตอร์พยายามนำเสนอ

วิธีอื่นในการคำนวณโคไซน์

ตัวอย่างที่แสดงด้านบนเกี่ยวข้องกับสามเหลี่ยมมุมฉาก — อันที่มีมุม 90 องศา แต่เมื่อเราจัดการกับสามเหลี่ยมที่ซับซ้อนมากขึ้น คณิตศาสตร์ก็ดูแตกต่างออกไปเล็กน้อย แม้ว่าสัญชาตญาณเกี่ยวกับโคไซน์จะยังคงเหมือนเดิม นั่นคือมันแสดงถึงการมีส่วนร่วมในแนวนอนของเวกเตอร์ผลลัพธ์ แต่เราจำเป็นต้องมีวิธีอื่นในการคำนวณ ขอผมยกตัวอย่างสูตรใหม่ด้วยปัญหาทางฟิสิกส์ที่แปลกประหลาดอีกอย่างหนึ่ง นั่นคือปัญหาที่คุณขว้างลูกบอลชายหาด แต่มีลมแรงพัดมาและดันลูกบอลไปข้างหลังเล็กน้อยจากจุดที่คุณตั้งใจจะขว้าง

ในกรณีนี้ แรงลัพธ์ของเราดูเหมือนจะเล็กกว่าส่วนประกอบในแนวนอนอย่างเห็นได้ชัด แต่เมื่อพิจารณาให้ละเอียดยิ่งขึ้นจะพบว่าไม่ได้เป็นเช่นนั้นจริงๆ แรงลัพธ์จะคำนึงถึงองค์ประกอบแนวนอนของการขว้างซึ่งแสดงด้วยเส้น a แต่ยังคำนึงถึงองค์ประกอบแนวนอนของลมที่พัดไปในทิศทางตรงกันข้ามด้วย ความคล้ายคลึงของโคไซน์ยังคงแสดงถึงสัดส่วนแนวนอนของแรง แต่เราไม่สามารถ เพียง พิจารณาเส้น a เพื่อแสดงองค์ประกอบแนวนอนด้วยภาพได้อีกต่อไป ส่วนหนึ่งยังอยู่ในองค์ประกอบแนวนอนของเส้น c ข่าวดีก็คือว่า มีสูตรทั่วไปสำหรับฟังก์ชันโคไซน์ที่ใช้กับสามเหลี่ยมชนิดใดก็ได้ หากคุณสนใจที่จะรับสูตรเชิงลึก ลิงก์นี้ ที่นี่ เหมาะสำหรับคุณ! เพื่อให้บทความนี้สั้นลง ผมจะประกาศสมการด้านล่างพร้อมกับวิธีแก้ไขปัญหา

ดังที่เราเห็น 0.95 หรือ 95% ของแรงผลลัพธ์ยังคงสามารถอธิบายได้ด้วยองค์ประกอบแนวนอนของการขว้างและลมที่พัด นี่เป็นตัวอย่างที่ดีที่แสดงให้เห็นว่าการพิจารณาทิศทางมีความสำคัญเพียงใดเมื่อต้องรับมือกับเวกเตอร์

Rafa ฉันเข้าใจโคไซน์แล้ว— แต่ความคล้ายคลึงโคไซน์คืออะไร

ความคล้ายคลึงกันของโคไซน์เป็นวิธีการที่ใช้ในการเปรียบเทียบว่าเวกเตอร์มีความสัมพันธ์กันอย่างไร โดยพิจารณาจากโคไซน์ของมุมที่พวกมันสร้าง หรืออีกนัยหนึ่ง โดยการคำนวณโคไซน์ของมุมระหว่างเวกเตอร์สองตัว เรากำลังคำนวณความคล้ายคลึงโคไซน์ของพวกมัน ไม่มีกลอุบายที่นี่ - นั่นคือคำจำกัดความของความคล้ายคลึงโคไซน์อย่างแท้จริง

ความคล้ายคลึงกันของโคไซน์ระหว่างเวกเตอร์สองตัวใดๆ ยังคงพยายามตอบคำถามเกี่ยวกับการระบุแหล่งที่มาในแนวนอน นั่นเป็นเพราะว่าแม้ว่าเวกเตอร์ทั้งสองจะดูเป็นแนวนอนในตอนแรก แต่เราก็สามารถหมุนระนาบอ้างอิงเพื่อสร้างหนึ่งในนั้นขึ้นมาได้

ณ จุดนี้ มันจะยุติธรรมสำหรับคุณที่จะถาม - อะไรคือเรื่องใหญ่เกี่ยวกับเรื่องนี้? หากสามารถตีความคำต่างๆ ได้ว่าเป็นเส้นที่ประกอบเป็นสามเหลี่ยม ความคล้ายคลึงโคไซน์ของคำเหล่านั้นจะมีพลังอะไรมาก? และคำตอบก็คือ ความคล้ายคลึงของโคไซน์ใช้ได้กับปัญหาที่ไม่ได้เริ่มต้นด้วยรูปสามเหลี่ยมด้วย

ในรายงานฉบับที่แล้ว เราได้พูดคุยเกี่ยวกับวิธีที่ BERT ซึ่งเป็นโมเดลที่ขับเคลื่อน ChatGPT ใช้มิติข้อมูล 768 สำหรับแต่ละคำ นั่นหมายความว่าทุกคำมีเวกเตอร์ 768 ค่า ซึ่งมากเกินไปที่จะลงจุดในตารางและคาดว่าจะสร้างรูปสามเหลี่ยมได้ เรื่องใหญ่เกี่ยวกับความคล้ายคลึงโคไซน์คือมีวิธีที่สามในการคำนวณ ซึ่งเป็นวิธีที่ใช้ได้กับทุกมิติ

วิธีการขั้นสุดท้ายในการคำนวณความคล้ายคลึงของโคไซน์

สมการที่สรุปความคล้ายคลึงโคไซน์สำหรับมิติใดๆ ก็ตามจะพิจารณาองค์ประกอบที่แตกต่างกันสององค์ประกอบ ได้แก่ ดอทโปรดัคระหว่างเวกเตอร์หลายมิติ และขนาด (เช่น ความยาว) ของเวกเตอร์แต่ละตัว เราสามารถแสดงมันทางคณิตศาสตร์ได้ดังนี้:

ผลิตภัณฑ์ดอทเป็นแนวคิดในพีชคณิตเชิงเส้นที่อธิบายผลการคูณของเส้นหนึ่งไปยังอีกเส้นหนึ่งในทิศทางเดียวกัน ในการคำนวณผลคูณดอท เราต้องแยกเส้นออกเป็นส่วนประกอบ คูณค่าภายในแต่ละส่วนประกอบ แล้วบวกเข้าด้วยกัน ฉันสร้างอินโฟกราฟิกสามขั้นตอนต่อไปนี้เพื่อช่วยให้เราเห็นภาพได้ดีขึ้นเล็กน้อย

ภาพประกอบที่น่าทึ่งอย่างหนึ่งของดอทโปรดัคสามารถพบได้ในเกมแข่งรถ เช่น Mario Kart และที่นี่ ฉันให้เครดิตเต็มที่กับทีมงาน Better Explained สำหรับการคิดตัวอย่างนี้ ใน Mario Kart มักจะมี 'ตัวเร่งความเร็ว' อยู่บนพื้น ขึ้นอยู่กับมุมที่คุณไปถึงตัวเร่งความเร็ว 'การเร่งความเร็ว' จะเปลี่ยนไป วิธีที่ดีที่สุดในการเพิ่ม 'บูสต์' ให้สูงสุดคือการมาจากด้านหลังในทิศทางที่แน่นอนที่บูสเตอร์ชี้ไป แต่ยิ่งเราไปถึงมุมมากเท่าไร เราก็จะยิ่งได้รับ "แรงกระตุ้น" น้อยลงเท่านั้น คิดว่าดอทโปรดัคเป็นค่าที่บูสต์ต้องใช้ในท้ายที่สุด หรือตามปริมาณที่รถเร่งความเร็วไปในทิศทางที่มันกำลังดำเนินไป

ส่วนที่สองของสมการความคล้ายคลึงโคไซน์คือการคูณระหว่างความยาวของเวกเตอร์ ในตัวอย่างก่อนหน้านี้ เราได้รวมความยาวของเส้นไว้ด้วย แต่ในปัญหาข้อมูลที่เกี่ยวข้องกับคำ เราจะมีเพียงตัวเลขสำหรับลักษณะเฉพาะของแต่ละคำ — หรือพิกัดในอวกาศ โชคดีที่มีวิธีคำนวณความยาวของเวกเตอร์ด้วยพิกัดจำนวนเท่าใดก็ได้ ในการคำนวณความยาวหรือที่เรียกว่าขนาด เราจะยกกำลังสองของแต่ละพิกัด จากนั้นบวกเข้าด้วยกัน และสุดท้าย นำรากที่สองของตัวเลขนั้น

ตามตัวอย่าง เราสามารถใช้สูตรกับคำสามคำของเราคือ 'หิมะ' 'สกี' และ 'ราฟาเอล' และได้ค่าต่อไปนี้สำหรับความยาวเวกเตอร์:

การคำนวณความคล้ายคลึงโคไซน์แบบทีละขั้นตอนสำหรับหกมิติ

หากคุณทำมาได้ขนาดนี้ ยินดีด้วย เรากำลังจะมาถึงส่วนที่ดีที่สุดแล้ว ตอนนี้เรามาคำนวณความคล้ายคลึงโคไซน์ของคำสามคำ แต่ละคำมีเวกเตอร์หกมิติ เพื่อที่เราจะได้ไม่สามารถพลอตค่าในอวกาศ 3 มิติและสร้างรูปสามเหลี่ยมที่เรียบร้อยได้ โปรดจำไว้ว่า ในกรณีการใช้งานด้านวิทยาศาสตร์ข้อมูลจำนวนมาก เรามีมิติข้อมูลที่เป็นไปได้หลายร้อยมิติ ดังนั้นแม้จะถึงหกมิติแล้ว เรายังคงนำเสนอปัญหาด้วยวิธีที่ค่อนข้างง่าย!

ขั้นตอนที่ 1: สร้างเมทริกซ์ของการแสดงตัวเลข (เช่น การฝังคำ)

ในตัวอย่างด้านล่าง เรายังคงใช้คำสามคำต่อไป โดยเข้ารหัสแต่ละคุณสมบัติที่เลือกของคำด้วย 0 หรือ 1 ขึ้นอยู่กับการไม่มีหรือมีอยู่ของคุณสมบัติ “โปรดจำไว้ว่าในตัวอย่างที่ซับซ้อนกว่านี้” ค่าเหล่านั้นมีแนวโน้มที่จะต่อเนื่องและเราอาจไม่มีความหมายโดยธรรมชาติสำหรับเรา แต่ในกรณีของเรา เราจะยึดถือตัวเลขที่ง่ายและคุณสมบัติที่สมเหตุสมผลเพื่อให้แน่ใจว่ามีความเข้าใจแนวคิดอย่างสมบูรณ์

ขั้นตอนที่ 2: คำนวณผลคูณดอทของเวกเตอร์คำแต่ละคำ

ในการคำนวณผลคูณดอทระหว่างคำสองคำใดๆ เราจะแบ่งเวกเตอร์คำออกเป็นหกมิติ จากนั้นคูณค่าคำสำหรับแต่ละมิติ แล้วบวกเข้าด้วยกัน ต่อไปนี้เป็นตัวอย่างรหัสสีสำหรับดอทโปรดัคระหว่าง "หิมะ" และ "สกี":

เมื่อคำนวณ dot-product สำหรับทั้งสามคำ เราจะได้ตารางค่าต่อไปนี้ ดูเหมือนว่า 'การเล่นสกี' และ 'หิมะ' จะผลักดันซึ่งกันและกันไปในทิศทางเดียวกับ 'การเล่นสกี' และ 'การเล่นสเก็ต' ดูเหมือนจะไม่มีการ 'ผลักดัน' ระหว่าง 'หิมะ' และ 'การเล่นสเก็ต'

ขั้นตอนที่ 3: คำนวณความยาวของเวกเตอร์

แม้ว่าเราไม่สามารถมองเห็นเวกเตอร์ในหกมิติได้ แต่คณิตศาสตร์ของการคำนวณความยาวของเวกเตอร์ก็ใช้ได้เช่นกัน เมื่อใช้สมการจากก่อนหน้านี้ เราจะค้นหาค่าต่อไปนี้สำหรับความยาวหรือขนาดเวกเตอร์คำของเรา

ขั้นตอนที่ 4: คำนวณความคล้ายคลึงของโคไซน์

ขั้นตอนสุดท้ายเป็นเพียงการหารง่ายๆ โดยนำผลคูณดอทของคู่คำหารด้วยความยาวของคำทั้งสอง การทำเช่นนี้ทำให้เราได้ตารางความคล้ายคลึงโคไซน์สุดท้าย ซึ่งฉันหวังว่าจะให้ผลลัพธ์ที่คาดเดาได้และคาดหวังได้พอสมควร

"หิมะ" และ "การเล่นสกี" มีความคล้ายคลึงกัน 78% โดยให้องค์ประกอบหนึ่งเป็นแนวนอนสำหรับอีกองค์ประกอบหนึ่ง ประมาณ 78% ขององค์ประกอบของสิ่งหนึ่งสามารถอธิบายได้ด้วยองค์ประกอบในอีกองค์ประกอบหนึ่ง ค่านั้นมาเป็น 63% สำหรับ 'สกี' และ 'สเก็ต' และค่าของ 'หิมะ' และ 'สเก็ต' ไม่มีความคล้ายคลึงกัน

แม้ว่าตัวอย่างนี้ดูเหมือนไม่เป็นไปตามอำเภอใจ แต่ฉันหวังว่าคุณจะรู้สึกว่ากระบวนการนี้ค่อนข้างตรงไปตรงมาและมีประสิทธิภาพอย่างมากในความสามารถในการทำงานกับทุกมิติ เราสามารถใช้สี่ขั้นตอนเดียวกันสำหรับสิบสองมิติ หรือยี่สิบหรือเจ็ดร้อยหกสิบแปด — และคณิตศาสตร์ก็น่าจะได้ผลเช่นกัน ใครจะรู้ว่าการผลักก้อนหินมีส่วนเกี่ยวข้องกับคำที่คล้ายคลึงกันมาก...

ค่าความคล้ายคลึงโคไซน์ที่สำคัญบางส่วน

ตลอดบทความนี้ เราได้เห็นว่าความคล้ายคลึงของโคไซน์เชื่อมโยงกับทิศทางโดยธรรมชาติอย่างไร มีค่าสำคัญสามค่าสำหรับความคล้ายคลึงโคไซน์ที่ฉันต้องการให้คุณจำไว้เป็นพิเศษ สำหรับค่าคีย์แต่ละค่า ฉันนำเสนอตัวอย่างคู่คำที่หวังว่าจะช่วยให้สัญชาตญาณของคำเหล่านี้แข็งแกร่งขึ้น

-1: เมื่อความคล้ายคลึงของโคไซน์เป็นลบอย่างสมบูรณ์

โดยทั่วไปแล้ว 'ร้อน' และ 'เย็น' จะใช้ในลักษณะตรงข้ามกัน พวกมันสามารถสร้างแบบจำลองได้เป็นอย่างดีเนื่องจากเวกเตอร์ไปในทิศทางตรงกันข้ามทำให้เกิดมุม 180° ที่สมบูรณ์แบบระหว่างพวกมัน โคไซน์ของ 180°คือ -1 ดังนั้นเมื่อคุณเห็นความคล้ายคลึงของโคไซน์เป็น -1 คุณควรคิดว่าคำที่อยู่ข้างใต้นั้นตรงกันข้ามกัน

0: เมื่อความคล้ายคลึงของโคไซน์เป็นกลางอย่างสมบูรณ์

โดยทั่วไปแล้ว 'เปียโน' และ 'มะพร้าว' จะไม่ถูกใช้ในประโยคเดียวกัน พวกมันสามารถสร้างแบบจำลองได้เป็นอย่างดีว่าเป็นเวกเตอร์ที่ไปในทิศทางตั้งฉากทำให้เกิดมุม 90° ที่สมบูรณ์แบบระหว่างพวกมัน โคไซน์ของ 90°คือ 0 ดังนั้นเมื่อคุณเห็นความคล้ายคลึงของโคไซน์เป็น 0 คุณควรคิดว่าคำที่ซ่อนอยู่นั้นไม่เกี่ยวข้องกัน

1: เมื่อความคล้ายคลึงของโคไซน์เป็นบวกอย่างสมบูรณ์

ตลอดบทความนี้ เราใช้คำว่า 'line' และ 'vector' สลับกันได้ เพราะในบริบทของเรา คำว่า 'line' และ 'vector' มีความหมายเหมือนกัน พวกมันสามารถสร้างแบบจำลองได้เป็นอย่างดีเนื่องจากเวกเตอร์ไปในทิศทางเดียวกันทำให้พวกมันมีมุม 0° ระหว่างพวกมัน โคไซน์ของ 0°คือ 1 ดังนั้นเมื่อคุณเห็นความคล้ายคลึงของโคไซน์เป็น 1 คุณควรคิดว่าทั้งสองคำเป็นคำที่มีความหมายเหมือนกัน

การประยุกต์ใช้ความคล้ายคลึงโคไซน์ในทางปฏิบัติ

วันนี้เราได้สำรวจการประยุกต์ใช้ความคล้ายคลึงโคไซน์ทั้งทางทฤษฎีและจริงด้วยตัวอย่างจากฟิสิกส์และการประมวลผลภาษาธรรมชาติ แต่ความจริงก็คือความคล้ายคลึงของโคไซน์สามารถใช้กับปัญหาใดๆ ที่สามารถแสดงด้วยเวกเตอร์ได้ การจำแนกประเภทรูปภาพ การตรวจจับความผิดปกติ การติดฉลากเอกสาร — และอื่นๆ — ความคล้ายคลึงของโคไซน์อาจถูกนำไปใช้ในทางใดทางหนึ่ง ความคล้ายคลึงกันของโคไซน์ใช้ได้กับมิติจำนวนเท่าใดก็ได้ ดังนั้นปัญหาของความซับซ้อนทั้งหมดสามารถช่วยได้ด้วยเลนส์ตรีโกณมิตินี้ และใช่ ความคล้ายคลึงกันของโคไซน์มักจะถูกใช้เพื่อให้รู้ว่าแม้ฉันจะพิมพ์แย่มาก แต่ฉันก็สนใจ Python ในตัวอย่างด้านล่าง นั่นเป็นเพราะว่า 'pithon' และ 'python' น่าจะมีความคล้ายคลึงกันของโคไซน์ที่สูงมาก!

สรุป — และมองไปข้างหน้า

ความคล้ายคลึงกันของโคไซน์เป็นวิธีการคำนวณระยะทางที่ทรงพลังและหลากหลายซึ่งพวกเราหลายคนควรจะเชี่ยวชาญ ในส่วนนี้ เราได้พูดถึงความหมายพื้นฐานของฟังก์ชันโคไซน์และวิธีคำนวณโคไซน์ที่แตกต่างกันสามวิธี นอกจากนี้เรายังสำรวจตัวอย่างทีละขั้นตอนของการคำนวณความคล้ายคลึงโคไซน์สำหรับคำสามคำที่เข้ารหัสในหกมิติ ฉันหวังว่าคุณจะพบว่าการอ่านนี้ให้ข้อมูลและเข้าถึงได้ — และตอนนี้ คุณสามารถบอกเพื่อนของคุณได้ว่าเครื่องมือค้นหาคำนวณความคล้ายคลึงกันระหว่างคำต่างๆ อย่างไร! ฉันแน่ใจว่าพวกเขาจะไม่มองคุณด้วยสีหน้าสับสนและทิ้งคุณไว้เป็นเด็กที่มีชื่อเสียงมากขึ้น ฉันแน่ใจ.

ในตอนต่อไปของซีรีส์นี้ เราจะย้อนกลับไปที่หัวข้อโครงข่ายประสาทเทียม และสำรวจรายละเอียดเพิ่มเติมว่าพวกเขาเรียนรู้ผ่านวิธีการไล่ระดับสีได้อย่างไร เราจะสำรวจแนวคิดพื้นฐานบางอย่างในแบบจำลองแคลคูลัสและระบบประสาท พร้อมด้วยคำอธิบายและแผนภูมิที่ใช้งานง่ายและสนุกสนาน! ฉันหวังว่าจะได้พบคุณ!

แหล่งข้อมูลเพิ่มเติม

กฎโคไซน์ (Khan Academy, 2010)
สูตรขนาด (Math Insight, 2023)
อธิบายผลิตภัณฑ์ Dot (อธิบายดีกว่า 2023)

จากฟิสิกส์สู่วิทยาศาสตร์ข้อมูล: ความงามและพลังของความคล้ายคลึงโคไซน์

คำถามในหัวข้อ