Cách xử lý dataset với 3 classes

deep-learning
computer-vision

#1
  • Mọi người cho em hỏi cách xử lý dataset với bộ dataset gồm 5000 ảnh trong đó có tầm 3000 súng ngắn, 1000 súng dài,1000 dao trong bài toán object detection ( em chia ra tập train/val 80/20)
  1. Các model đã dùng để xử lý
  • Em đã sử dụng FasterRCNN với backbone Resnet50 thì thấy bị nhận nhầm khá nhiều, và không detect được các ảnh nhỏ

  • Hiện tại em đang sử dụng model EfficientDet-D1 thì nó xảy ra 1 hiện tượng là loss val hầu như đến tầm 0.76 là không xuống nữa hầu như bị đóng băng quanh quẩn nó, và lúc loss lên chút rồi lại xuống, và train loss vẫn đang giảm nhưng đánh giá thì thấy kết quả không cao Screenshot%20from%202021-04-16%2017-17-42

  1. Thắc mấc
  • Em không hiểu sao hiện tượng val loss nó đóng băng quanh 1 giá trị khi ko thay đổi quanh nó quá nhiều

  • Có phải việc đóng băng đó do data của mình hay không, và cách giải quyết ạ

  • Em đang tính dùng ensemble model vì data bị lệch thì 1 model cho súng ngắn và 1 model cho súng dài, dao ( ai đã từng sử dụng ensemble model cho object detection có thể cho em xem source code hoặc github nào không ạ )

P/s : em sử dụng github này : https://github.com/signatrix/efficientdet ( Em đã chỉnh sửa classes, image_size)

Em cảm ơn mọi người !