Hỏi về giải pháp phân loại ảnh

image-classification

#1

Chào các anh chị,

Hiện tại nhóm em đang gặp vấn đề như thế này:

Bài toán: Nhận dạng nhãn hiệu bia từ nắp chai. Input là hàng loạt các ảnh nắp bia được chụp với tiêu cự cố định, output là nhãn hiệu bia của nắp đó.

Vấn đề: Ảnh chụp thực tế có nhiều ảnh bị mờ, quá sáng, quá tối hoặc nắp bị nghiêng nên độ chính xác không cao. Hiện tại có khoảng 70 loại bia nên những hình ảnh như thế này dễ bị nhận nhầm qua loại bia khác

Giải pháp: Do nhóm em không có người chuyên về Machine learning nên không biết có giải pháp nào để tối ưu vấn đề này không. Em định đi theo hướng xác định ngưỡng output để phân loại nhãn bia. Ví dụ posibility trên 0.85 thì lấy kết quả đó luôn, còn dưới 0.85 thì sẽ phân tích xem nó hay rơi vào loại bia nào thì lấy theo kết quả đó. tuy nhiên cách này tốn nhiều cơm với không chính xác lắm nên cũng chưa biết làm như thế nào.

Các anh chị có input nào cho bài toán của em không ạ?


#2

Em vừa tìm được tên gọi của cái hướng em đưa ra: Decision tree (https://medium.com/greyatom/decision-trees-a-simple-way-to-visualize-a-decision-dc506a403aeb) Cảm nhận cá nhân của em nếu dùng cách này thì mình phải biết được chính xác out put của mỗi node, điều mà hiện tại em không biết làm như thế nào. Các anh chị cho em ý kiến nha.


#3

Bạn có thể tìm thêm với từ khóa ‘image augmentations’:

Ý tưởng là làm biến đổi ảnh trong tập training sao cho nó bị biến dạng nhiều nhưng vẫn giữ nguyên label của chúng. Khi ảnh training bị biến dạng mà mô hình vẫn dự đoán tốt thì khả năng cao là các ảnh trong tập test cũng được dự đoán tốt.


#4

Cám ơn anh Tiệp.

Đây là tăng độ chính xác cho model. Trong trường hợp tăng độ chính xác lên mà nó vẫn còn tỉ lệ nhận diện sai như của em thì làm sao anh nhỉ.


#5

Thì anh nghĩ có thể do dữ liệu. Em có thể thu thập thêm dữ liệu hoặc làm sạch dữ liệu hiện có rồi train lại mô hình.


#6

Bạn có thể tìm hiểu thêm về bootstrapping cho noisy data https://arxiv.org/pdf/1412.6596.pdf