การเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกมีอิทธิพลต่อเกือบทุกอุตสาหกรรม โดยตัวอย่างที่สำคัญคือโดเมนทางการเงิน การใช้แมชชีนเลิร์นนิงช่วยให้สามารถวิเคราะห์และสร้างแบบจำลองของระบบการเงินที่ซับซ้อนได้โดยละเอียด โดยมีตัวอย่างสำคัญบางส่วน ได้แก่ การตรวจจับการฉ้อโกง การประเมินความเสี่ยง และการซื้อขายแบบอัลกอริทึม ในระดับสูง การเรียนรู้ของเครื่องสามารถใช้ได้ในทุกกรณี เนื่องจากช่วยให้เราได้รับความสัมพันธ์และรูปแบบจากข้อมูล

ฉันทำงานในทีม Enterprise Graph Services ในฐานะนักศึกษาฝึกงาน ซึ่งฉันได้เรียนรู้เกี่ยวกับวิธีที่ Capital One ผสานรวมการฝังเข้ากับขั้นตอนการทำงานของพวกเขา ในฐานะสถาบันการเงิน Capital One จัดการกับกราฟและเวกเตอร์ตั้งแต่ธุรกรรมบัตรเครดิตไปจนถึงธุรกิจอื่นๆ และกรณีการใช้งานของลูกค้า

ภาพรวม

ทีมงานของเราทำงานในบริการที่ต้องใช้การสืบค้นกราฟและการค้นหาความคล้ายคลึงในการฝัง เครื่องมือนี้มีประโยชน์สำหรับการตรวจจับการฉ้อโกงและกรณีการใช้งานข้อมูลธุรกรรมอื่นๆ ฉันทำงานเกี่ยวกับการค้นหาความคล้ายคลึงกันของเครื่องมือเป็นหลัก ด้านล่างนี้เป็นภาพรวมของสิ่งที่ฉันทำงานอยู่

การฝังโหนด

การฝังโหนดเป็นการนำเสนอเวกเตอร์มิติต่ำที่มีคุณสมบัติหลักของแต่ละโหนดในโครงสร้างกราฟ การฝังเหล่านี้เข้ารหัสข้อมูลเชิงโครงสร้างและความหมาย ซึ่งช่วยให้สามารถนำเทคนิคการเรียนรู้ของเครื่องจักรไปใช้กับข้อมูลได้ ในกราฟ แต่ละโหนดแสดงถึงเอนทิตี เช่น บัญชีหรือผู้ขาย การฝังโหนดช่วยให้แต่ละโหนดสามารถแมปกับปริภูมิเวกเตอร์ต่อเนื่อง ซึ่งระยะห่างระหว่างโหนดสามารถสะท้อนถึงความคล้ายคลึงกัน

การค้นหาความคล้ายคลึง

การค้นหาความคล้ายคลึงกันเป็นตัวอย่างหนึ่งของกรณีการใช้งานดาวน์สตรีมที่ใช้เพื่อค้นหาเพื่อนบ้านที่ใกล้ที่สุด

ฉันสำรวจไลบรารี NMSLIB โดยเฉพาะ ซึ่งเป็นชุดเครื่องมือยอดนิยมสำหรับการดำเนินการค้นหาความคล้ายคลึงกับการฝังมิติสูง

NMSLIB

NMSLIB เป็นไลบรารีโอเพ่นซอร์สที่ให้กรอบการทำงานสำหรับการดำเนินการค้นหาเพื่อนบ้านที่ใกล้ที่สุด (ANN) โดยประมาณ ย่อมาจากไลบรารีพื้นที่ที่ไม่ใช่หน่วยเมตริก และได้รับการออกแบบมาให้รวดเร็วและยืดหยุ่นสำหรับพื้นที่ขนาดใหญ่และมีมิติสูง ห้องสมุดมีอัลกอริธึมหลายอย่างสำหรับ ANN รวมถึงกราฟโลกใบเล็กที่สามารถนำทางได้แบบมีลำดับชั้น (HNSW)

ใน HNSW ขอบจะเชื่อมต่อเวกเตอร์ดัชนีที่อยู่ใกล้กันเพื่อสร้างกราฟ จากนั้น เมื่อค้นหา กราฟผลลัพธ์จะถูกสำรวจบางส่วนเพื่อค้นหาเพื่อนบ้านที่ใกล้ที่สุดโดยประมาณกับเวกเตอร์แบบสอบถามที่ให้มา อัลกอริธึมนี้จะไปที่ผู้สมัครที่ใกล้เคียงที่สุดกับเวกเตอร์แบบสอบถามเสมอ โดยมุ่งไปทางเพื่อนบ้านที่ใกล้ที่สุดของแบบสอบถามเสมอ ในการเลือกเวกเตอร์ที่อัลกอริทึมสามารถเริ่มการสำรวจเส้นทางได้ อัลกอริธึมจะสร้างลำดับชั้นของกราฟโดยที่ชั้นล่างสุดจะมีเวกเตอร์ทั้งหมด และชุดย่อยแบบสุ่มของเวกเตอร์จากเลเยอร์ที่อยู่ด้านล่างจะถูกเพิ่มลงในแต่ละเลเยอร์

ในระหว่างการค้นหา เราจะเริ่มจากเวกเตอร์แบบสุ่มในเลเยอร์บนสุด จากนั้นสำรวจบางส่วนเพื่อค้นหาเวกเตอร์ที่ใกล้ที่สุดกับเวกเตอร์แบบสอบถามในเลเยอร์นั้น และใช้สิ่งนั้นเป็นจุดเริ่มต้นใหม่ในเลเยอร์ถัดไป เมื่อเราไปถึงชั้นล่างสุดแล้ว เรายังคงดำเนินการสำรวจ แต่กลับติดตามเพื่อนบ้านที่ใกล้ที่สุด k ที่เยี่ยมตลอดทางแทน

ต่อไปนี้เป็นภาพรวมว่า NMSLIB เหมาะสมกับกระบวนการค้นหาความคล้ายคลึงกันอย่างไร:

ในขั้นตอนการจัดทำดัชนี เราสร้างโครงสร้างที่ดึงข้อมูลรายการที่คล้ายกันได้อย่างมีประสิทธิภาพ ตัวอย่างของวิธีการจัดทำดัชนี ได้แก่ HNSW, sw-graphs และ k-d tree

ในขั้นตอนการประมวลผลการสืบค้น NMSLIB จะได้รับเวกเตอร์การสืบค้นและส่งกลับชุดของเวกเตอร์จากชุดข้อมูลที่คล้ายกับการสืบค้นมากที่สุด

ในขั้นตอนการค้นหาความคล้ายคลึงกัน การค้นหาเพื่อนบ้านที่ใกล้ที่สุดโดยประมาณจะใช้โครงสร้างการจัดทำดัชนีเพื่อตัดพื้นที่การค้นหา และตรวจสอบเฉพาะชุดย่อยของเวกเตอร์ที่น่าจะคล้ายกับเวกเตอร์แบบสอบถามเท่านั้น

สุดท้าย ขั้นตอนการดึงข้อมูลจะส่งคืนชุดของเวกเตอร์ที่คล้ายกับข้อความค้นหามากที่สุด วิธีการจัดทำดัชนี HNSW ใช้การเรียกคืนเพื่อประเมินผลลัพธ์ ซึ่งวัดสัดส่วนของเวกเตอร์ที่เกี่ยวข้องซึ่งดึงมาจากเพื่อนบ้านที่ใกล้ที่สุด k ที่ส่งคืน

ประสบการณ์

Capital One Tech Incubator ก่อตั้งขึ้นในปี 2018 เพื่อมอบประสบการณ์การเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูลให้กับนักศึกษา ตลอดหลักสูตร ผู้ฝึกงานจะนำสิ่งที่เรียนรู้ในห้องเรียนและอื่นๆ มาใช้กับแอปพลิเคชัน Capital One ในโลกแห่งความเป็นจริงในด้านวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง ผู้ฝึกงานซึ่งจัดกลุ่มตามความสนใจเป็นทีมจะจับคู่กับผู้ร่วมงานด้านเทคโนโลยีของ Capital One เพื่อเป็นแนวทางในโครงการของพวกเขา

การฝึกงานระหว่างภาคเรียนฤดูใบไม้ผลินี้เป็นทั้งความต้องการและประโยชน์อย่างมากเหมือนในช่วงปีการศึกษาและในพื้นที่ที่สอดคล้องกับความสนใจของฉันอย่างใกล้ชิด ฉันรู้สึกให้กำลังใจที่ได้ทำงานที่เกี่ยวข้องกับทีมและสื่อสารอย่างมีประสิทธิภาพกับเพื่อนนักศึกษาฝึกงานและผู้จัดการของฉัน แม้ว่าการฝึกงานจะเป็นแบบผสมผสานก็ตาม ฉันได้เรียนรู้ทักษะด้านเทคนิคและความสัมพันธ์ระหว่างบุคคลมากมายที่ฉันจะส่งเสริมและนำไปใช้ในกิจการในอนาคตต่อไป ฉันยังได้รับข้อมูลเชิงลึกว่าบริษัทชั้นนำใช้การพัฒนาล่าสุดในพื้นที่แมชชีนเลิร์นนิงอย่างไร ซึ่งเป็นด้านที่ฉันหวังว่าจะได้รับความเชี่ยวชาญต่อไป

โอกาสนี้ตอกย้ำความสนใจของฉันในพื้นที่นี้ผ่านประสบการณ์ตรงโดยอนุญาตให้ฉันนำสิ่งที่เรียนรู้ในห้องเรียนจากประสบการณ์ครั้งก่อนและระหว่างการฝึกงานนี้ไปใช้กับการใช้งานจริง แพลตฟอร์ม Capital One ที่ให้บริการผ่าน Tech Incubator ช่วยให้เกิดความสะดวกในการสื่อสารและสร้างสภาพแวดล้อมที่ส่งเสริม