Thảo luận về feature map trong detect object

yolo

#1

E chào mọi người.Em có đang tìm hiểu về thuật toán trong yolov3 nhưng em vẫn hiểu tại sao người ta lại sử dụng 3 feature map có kích thước khác nhau để detect thay vì một feature map và tại sao những feature map to lại dùng để detect object nhỏ và những feature map nhỏ lại dùng để detect những object to .Em đọc các blog trên mạng nhưng thấy giải thích khá chung chung.Theo em hiểu là trong yolov3 sử dụng anchors box để làm cơ sở cho việc tạo ra bounding box ,và mỗi một cell sẽ có nhiều anchors box với kích thước và ratio khác nhau để detect những những vật thể có hình dạng kích thước khác nhau vì thế nếu chỉ sử dụng một feature map duy nhất thì số lượng anchors trên mỗi cell sẽ phải lớn để có thể detect được các vật thể đa dạng về hình dạng và kích thước ,trong khi đó nếu mà object có kích thước lớn thì số vị trí của nó trên một bức ảnh sẽ ít hơn so với một object nhỏ nên từ đó thay vì sử dụng một feature map có nhiều anchors box để detect thì sẽ phân chia nhiệm vụ ra những feature map có kích thước nhỏ (tương ứng với việc chia ít cell) trên bức ảnh thì sẽ có những anchors lớn để detect những object to còn những feature map có kích thước lớn(tương ứng với chia nhiều cell trên bức ảnh) thì sẽ có những anchors nhỏ để detect được những object nhỏ.Em thấy cách hiểu của mình cứ sao sao .Em đau hết đầu với cái này mong người chỉ giúp em với ạ. Em cảm ơn.