1. สู่ลักษณะทั่วไปของโดเมนสำหรับการตรวจจับวัตถุ 3 มิติหลายมุมมองใน Bird-Eye-View(arXiv)

ผู้แต่ง : “Shuo Wang”, “Xinhai Zhao”, “Hai-Ming Xu”, “Zehui Chen”, “Dameng Yu”, “Jiahao Chang”, “Zhen Yang”, “Feng Zhao”

บทคัดย่อ : การตรวจจับวัตถุ 3 มิติแบบหลายมุมมอง (MV3D-Det) ใน Bird-Eye-View (BEV) ได้รับความสนใจอย่างกว้างขวางเนื่องจากมีต้นทุนต่ำและมีประสิทธิภาพสูง แม้ว่าจะมีการนำเสนออัลกอริธึมใหม่สำหรับการตรวจจับวัตถุ 3 มิติด้วยกล้องเท่านั้นอย่างต่อเนื่อง แต่อัลกอริธึมส่วนใหญ่อาจเสี่ยงต่อประสิทธิภาพลดลงอย่างมาก เมื่อโดเมนของภาพอินพุตแตกต่างจากการฝึก ในบทความนี้ เราจะวิเคราะห์สาเหตุของช่องว่างโดเมนสำหรับงาน MV3D-Det ก่อน จากสมมติฐานการเปลี่ยนแปลงโควาเรียต เราพบว่าช่องว่างส่วนใหญ่มาจากการกระจายคุณลักษณะของ BEV ซึ่งกำหนดโดยคุณภาพของทั้งการประมาณความลึกและการแสดงคุณลักษณะของภาพ 2 มิติ เพื่อให้ได้การคาดการณ์ความลึกที่มีประสิทธิภาพ เราขอเสนอให้แยกการประมาณความลึกออกจากพารามิเตอร์ที่แท้จริงของกล้อง (เช่น ความยาวโฟกัส) ด้วยการแปลงการทำนายความลึกของระบบเมตริกเป็นความลึกที่ไม่แปรเปลี่ยนตามสเกล และดำเนินการเสริมเปอร์สเปคทีฟแบบไดนามิกเพื่อเพิ่มความหลากหลาย ของพารามิเตอร์ภายนอก (เช่น ท่ากล้อง) โดยการใช้โฮโมกราฟี ยิ่งไปกว่านั้น เรายังปรับเปลี่ยนค่าทางยาวโฟกัสเพื่อสร้างโดเมนหลอกหลายโดเมน และสร้างการสูญเสียการฝึกฝ่ายตรงข้ามเพื่อส่งเสริมให้การแสดงคุณลักษณะมีความไม่เชื่อเรื่องพระเจ้าในโดเมนมากขึ้น แนวทางของเราที่เรียกว่า DG-BEV ช่วยลดประสิทธิภาพที่ลดลงในโดเมนเป้าหมายที่มองไม่เห็นได้สำเร็จโดยไม่กระทบกระเทือนใดๆ โดยไม่ทำให้ความแม่นยำของโดเมนต้นทางลดลง การทดลองอย่างกว้างขวางกับชุดข้อมูลสาธารณะต่างๆ รวมถึง Waymo, nuScenes และ Lyft แสดงให้เห็นถึงลักษณะทั่วไปและประสิทธิผลของแนวทางของเรา เท่าที่เราทราบ นี่เป็นการศึกษาอย่างเป็นระบบครั้งแรกในการสำรวจวิธีการสรุปโดเมนสำหรับ MV3D-Det

2. I2P-Rec: การจดจำภาพบนแผนที่ Point Cloud ขนาดใหญ่ผ่านการฉายภาพแบบ Bird's Eye View (arXiv)

ผู้แต่ง: อี้ซวน ลี, ซูหัง เจิ้ง, จู หยู่, เป่ยหนาน หยู่, สีหยวน เฉา, หลุน หลัว, ฮุยเหลียงเสิน

บทคัดย่อ : การจดจำสถานที่เป็นเทคนิคที่สำคัญสำหรับรถยนต์ขับเคลื่อนอัตโนมัติเพื่อให้บรรลุความเป็นอิสระอย่างเต็มที่ เนื่องจากสามารถคาดเดาอัลกอริธึมการแปลออนไลน์เบื้องต้นได้ แม้ว่าวิธีการปัจจุบันที่ใช้รูปภาพหรือพอยต์คลาวด์จะได้รับประสิทธิภาพที่น่าพอใจ แต่การแปลรูปภาพบนแผนที่พอยต์คลาวด์ขนาดใหญ่ยังคงเป็นปัญหาที่ยังไม่มีใครสำรวจ งานจับคู่ข้ามโมดัลนี้ท้าทายเนื่องจากความยากลำบากในการแยกคำอธิบายที่สอดคล้องกันจากรูปภาพและพอยต์คลาวด์ ในบทความนี้ เราเสนอวิธี I2P-Rec เพื่อแก้ไขปัญหาโดยการแปลงข้อมูลข้ามโมดัลเป็นแบบโมดัลเดียวกัน โดยเฉพาะอย่างยิ่ง เราใช้ประโยชน์จากความสำเร็จล่าสุดของเครือข่ายการประมาณความลึกเพื่อกู้คืน point cloud จากรูปภาพ จากนั้นเราจะฉายพอยต์คลาวด์ลงในภาพ Bird's Eye View (BEV) การใช้อิมเมจ BEV เป็นตัวแทนระดับกลาง เราจะแยกคุณสมบัติระดับโลกด้วย Convolutional Neural Network ตามด้วยเลเยอร์ NetVLAD เพื่อทำการจับคู่ เราประเมินวิธีการของเราในชุดข้อมูล KITTI ผลการทดลองแสดงให้เห็นว่า ด้วยข้อมูลการฝึกชุดเล็กๆ เท่านั้น I2P-Rec จึงสามารถบรรลุอัตราการเรียกคืนที่ Top-1 มากกว่า 90\% นอกจากนี้ ยังสามารถสรุปสภาพแวดล้อมที่ไม่รู้จักได้ดี โดยบรรลุอัตราการเรียกคืนที่ Top-1\% มากกว่า 80\% และ 90\% เมื่อทำการแปลภาพตาข้างเดียวและภาพสเตอริโอบนแผนที่ point cloud ตามลำดับ