Saya bermain dengan py-faster-rcnn pada kumpulan data khusus (sekitar 3000 gambar, 7 kelas berbeda, termasuk latar belakang), dan mengikuti tutorial berikut:
https://github.com/zeyuanxy/fast-rcnn/blob/master/help/train/README.md (Tutorial Fast-RCNN) https://github.com/deboc/py-faster-rcnn/tree/master/help (Tutorial RCNN lebih cepat)
Saya menggunakan solusi end2end dengan jaringan VGG16. Semuanya berfungsi dengan baik, harapkan hasilnya, jadi saya punya beberapa pertanyaan:
- Normalisasi seperti apa yang diperlukan pada gambar dan anotasi bbox?
- Hal ini mirip dengan pertanyaan sebelumnya: Ada dua pilihan konfigurasi: BBOX_NORMALIZE_TARGETS dan BBOX_NORMALIZE_TARGETS_PRECOMPUTED. Haruskah saya menghitung mean dan std sebelum pelatihan dan menggunakan opsi ini untuk normalisasi bbox?
- Saya memodifikasi num_output di lapisan cls_score dan bbox_pred (menurut thread ini: https://github.com/rbgirshick/py-faster-rcnn/issues/1), tetapi dalam solusi end2end ada juga lapisan rpn_cls_score dan rpn_bbox_pred. Haruskah saya mengubah num_outputs ini juga? Jika saya harus melakukannya, bagaimana saya bisa menghitung jumlah output untuk 7 kelas?