Я играю с py-быстрее-rcnn на настраиваемом наборе данных (около 3000 изображений, 7 разных классов, включая фон) и следую этим руководствам:
https://github.com/zeyuanxy/fast-rcnn/blob/master/help/train/README.md (учебник Fast-RCNN) https://github.com/deboc/py-faster-rcnn/tree/master/help (учебник Faster-RCNN)
Я использую решение end2end с сетью VGG16. Все работает нормально, ожидайте моих результатов, поэтому у меня есть несколько вопросов:
- Какие виды нормализации необходимы для изображений и аннотаций bbox?
- Это похоже на предыдущий вопрос: есть два варианта конфигурации: BBOX_NORMALIZE_TARGETS и BBOX_NORMALIZE_TARGETS_PRECOMPUTED. Должен ли я рассчитывать среднее значение и стандартное отклонение перед тренировкой и использовать эти параметры для нормализации bbox?
- Я изменил num_output на слоях cls_score и bbox_pred (согласно этой теме: https://github.com/rbgirshick/py-faster-rcnn/issues/1), но в решении end2end также есть слои rpn_cls_score и rpn_bbox_pred. Должен ли я также изменить num_outputs из них? Если бы я мог, то как я мог бы рассчитать количество выходов для 7 классов?