[Hỏi] Làm sao để phát hiện vật thể dịch chuyển trong 2 bức ảnh có góc chụp gần giống nhau?

deep-learning
computer-vision
object-detection

#1

Chào anh chị em trong group, em đang có một một bài toán như sau:

Làm thế nào để phát hiện xem các vật thể trong 1 căn phòng có dịch chuyển hay không nếu dữ liệu đầu vào là hai bức ảnh (RGB) được chụp vào 2 thời điểm khác nhau và góc chụp của 2 bức ảnh là gần giống nhau nhưng không hoàn toàn giống nhau?

Em có suy nghĩ đến sử dụng DL để predict depth-map rồi từ đó reconstruct ra 3d objects -> convert thành cloud points -> dùng thuật toán Iterative closest point (ICP) để merge 2 clouds này và tính distance.

Tuy nhiên sau khi thử vài phương pháp depth estimation em thấy depthmap khá là noisy ở phần viền object. Khiến cho ICP gặp khó khăn để merge và difference tính ra ở cuố́i khá là lớn. Thậm chí object ko di chuyển tí nào thì difference vẫn ra khá to.

Anh chị em có approach nào khác hay hơn ko ạ? Rất mong được trao đổi ý tưởng cùng anh chị em trong Forum ML cơ bản :smiley:

[Bổ sung] Em có data khoảng vài nghìn cặp ảnh, có dán nhãn là có/không dịch chuyển.


#2

Cái này hay mà khó đấy, Geometry có thể giai quyết được sự phức tạp này,


#3

Không biết dùng Optical Flow có ổn không? :thinking: