Thắc mắc về Single Shot MultiBox Detector

deep-learning
object-detection
computer-vision

#1

Chào mọi người! Em mới tìm hiểu về thuật toán Single Shot MultiBox Detector(SSD) cho bài toán Object detection qua paper. Theo em hiểu trong quá trình training thuật sẽ tiến hành tìm các default box trong feature map sao cho phù hợp. Sau khi training, các object có thể được phát hiện ở các box trên các tầng feature map khác nhau. Em hiện chưa hiểu rõ làm thế nào tổng hợp các box trên các feature map rồi suy ra được bounding box trên ảnh gốc? Ngoài ra, em cũng chưa hình dung được cách tác giả sử dụng các filter 3 x 3 trên các layer để phân loại đối tượng như thế nào? Mong mọi người giúp đỡ!