1. การจดจำการกระทำของมนุษย์ในภาพนิ่งโดยใช้ ConViT (arXiv)

ผู้แต่ง : Seyed Rohollah Hosseyni, Hasan Taheri, Sanaz Seyedin, Ali Ahmad Rahmani

บทคัดย่อ : การทำความเข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของภาพมีบทบาทสำคัญในงานการจดจำภาพหลายอย่าง แม้ว่า Convolutional Neural Networks (CNN) จะแสดงให้เห็นถึงผลลัพธ์ที่น่าประทับใจในการตรวจจับวัตถุเดี่ยวๆ แต่ก็ขาดความสามารถในการแยกความสัมพันธ์ระหว่างส่วนต่างๆ ของภาพ ซึ่งเป็นปัจจัยสำคัญในการจดจำการกระทำของมนุษย์ เพื่อแก้ไขปัญหานี้ บทความนี้เสนอโมดูลใหม่ที่ทำงานเหมือนกับเลเยอร์แบบหมุนวนโดยใช้ Vision Transformer (ViT) โมเดลการรู้จำการกระทำที่เสนอประกอบด้วยสององค์ประกอบ ส่วนแรกคือเครือข่าย Convolutional ระดับลึกที่แยกคุณลักษณะเชิงพื้นที่ระดับสูงออกจากภาพ และองค์ประกอบที่สองของแบบจำลองใช้ Vision Transformer ที่แยกความสัมพันธ์ระหว่างส่วนต่างๆ ของภาพโดยใช้ แผนผังคุณลักษณะที่สร้างโดยเอาต์พุตของ CNN แบบจำลองที่นำเสนอได้รับการประเมินบนชุดข้อมูลการดำเนินการ Stanford40 และ PASCAL VOC 2012 และบรรลุผล mAP 95.5% และ 91.5% ตามลำดับ ซึ่งมีแนวโน้มที่ดีเมื่อเทียบกับวิธีการล้ำสมัยอื่นๆ

2. การเรียนรู้แบบขัดแย้งและความร่วมมือร่วมกันเพื่อการรับรู้การดำเนินการภายใต้การดูแลตนเอง (arXiv)

ผู้แต่ง: Tianyu Guo, "Mengyuan Liu", "Hong Liu", "Wenhao Li", "Jingwen Guo", "Tao Wang", "Yidi Li"

บทคัดย่อ : เมื่อพิจารณาถึงความสามารถในการแยกแยะในระดับอินสแตนซ์ วิธีการเรียนรู้แบบเปรียบเทียบ รวมถึง MoCo และ SimCLR ได้รับการดัดแปลงจากงานการเรียนรู้การแสดงภาพต้นฉบับ เพื่อแก้ปัญหางานการจดจำการกระทำตามโครงกระดูกที่ดูแลตนเอง วิธีการเหล่านี้มักจะใช้สตรีมข้อมูลหลายรายการ (เช่น ข้อต่อ การเคลื่อนไหว และกระดูก) สำหรับการเรียนรู้แบบรวมกลุ่ม ขณะเดียวกัน วิธีสร้างพื้นที่คุณลักษณะที่เลือกปฏิบัติภายในสตรีมเดียวและรวบรวมข้อมูลจากหลายสตรีมอย่างมีประสิทธิผลยังคงเป็นปัญหาที่เปิดกว้าง ด้วยเหตุนี้ ขั้นแรกเราจึงใช้วิธีการเรียนรู้แบบเปรียบเทียบแบบใหม่ที่เรียกว่า BYOL เพื่อเรียนรู้จากข้อมูลโครงกระดูก และกำหนด SkeletonBYOL ให้เป็นพื้นฐานที่เรียบง่ายแต่มีประสิทธิภาพสำหรับการจดจำการกระทำตามโครงกระดูกที่มีการดูแลตนเอง แรงบันดาลใจจาก SkeletonBYOL เรายังนำเสนอกรอบการทำงาน Adversarial and Collaborative Learning (ACL) ร่วมกัน ซึ่งรวมเอา Cross-Model Adversarial Learning (CMAL) และ Cross-Stream Collaborative Learning (CSCL) โดยเฉพาะอย่างยิ่ง CMAL เรียนรู้การแสดงแบบสตรีมเดียวโดยการสูญเสียฝ่ายตรงข้ามข้ามโมเดลเพื่อให้ได้คุณลักษณะที่เลือกปฏิบัติมากขึ้น เพื่อรวบรวมและโต้ตอบกับข้อมูลหลายสตรีม CSCL ได้รับการออกแบบโดยการสร้างป้ายกำกับหลอกที่คล้ายคลึงกันของการเรียนรู้แบบ Ensemble เป็นการกำกับดูแลและการสร้างคุณลักษณะที่เป็นแนวทางสำหรับสตรีมแต่ละรายการ การทดลองอย่างละเอียดถี่ถ้วนกับชุดข้อมูลสามชุดจะตรวจสอบคุณสมบัติเสริมระหว่าง CMAL และ CSCL และยังตรวจสอบด้วยว่าวิธีการของเราสามารถทำงานได้อย่างดีเมื่อเทียบกับวิธีการล้ำสมัยโดยใช้โปรโตคอลการประเมินที่หลากหลาย รหัสและโมเดลของเราเปิดเผยต่อสาธารณะที่ \url{https://github.com/Levigty/ACL}