ฉันกำลังเล่นกับ py-faster-rcnn บนชุดข้อมูลที่กำหนดเอง (ประมาณ 3,000 รูปภาพ, 7 คลาสที่แตกต่างกัน รวมถึงพื้นหลัง) และทำตามบทช่วยสอนเหล่านี้:
https://github.com/zeyuanxy/fast-rcnn/blob/master/help/train/README.md (บทช่วยสอน Fast-RCNN) https://github.com/deboc/py-faster-rcnn/tree/master/help (บทช่วยสอนที่เร็วกว่า RCNN)
ฉันกำลังใช้โซลูชัน end2end กับเครือข่าย VGG16 ทุกอย่างทำงานได้ดี คาดหวังผลลัพธ์ของฉัน ดังนั้นฉันจึงมีคำถาม:
- จำเป็นต้องมีการปรับมาตรฐานแบบใดบนรูปภาพและคำอธิบายประกอบ bbox
- คล้ายกับคำถามก่อนหน้า: มีสองตัวเลือกการกำหนดค่า: BBOX_NORMALIZE_TARGETS และ BBOX_NORMALIZE_TARGETS_PRECOMPUTED ฉันควรคำนวณค่าเฉลี่ยและมาตรฐานก่อนการฝึกอบรมและใช้ตัวเลือกเหล่านี้สำหรับการปรับมาตรฐาน bbox หรือไม่
- ฉันแก้ไข num_output ที่เลเยอร์ cls_score และ bbox_pred (ตามหัวข้อนี้: https://github.com/rbgirshick/py-faster-rcnn/issues/1) แต่ในโซลูชัน end2end มีเลเยอร์ rpn_cls_score และ rpn_bbox_pred เช่นกัน ฉันควรแก้ไข num_outputs ของสิ่งเหล่านี้ด้วยหรือไม่ หากฉันควรฉันจะคำนวณจำนวนเอาต์พุตสำหรับ 7 คลาสได้อย่างไร