Tìm hiểu về Tích chập (Convolution)

convolution

#1

Chào mọi người.

Mình đang tìm hiểu về Tích chập. Mình đã đọc định nghĩa, ứng dụng, cách tính, … trên khá nhiều trang. Nhưng chưa thấy trang nào nói đến “hiện tượng tích chập trong thực tế”. Như tích phân của vận tốc là quãng đường, đạo hàm của vận tốc là gia tốc, giao thoa sóng có thể nhìn thấy qua giao thoa sóng mặt nước. Vậy tích chập có thể hình dung qua hiện tượng gì?


#2

Khi bạn muốn thực hiện việc trộn 2 tín hiệu lại thì sẽ dùng convolution. Ví dụ trong xử lý ảnh có phương pháp lọc nhiễu là gaussian blur ứng dụng cái này


#3

Tích chập bạn hiểu đơn giản là cách não chúng ta trích xuất thông tin ở mức trừu tượng hơn (khái quát hoá thông tin). Giống như các kích thích thị giác nhận thông tin và gửi đến các tế bào thần kinh riêng lẻ. Ví dụ nhìn con chó cảnh một đống lông giống hệt con mèo. Và khi đc hỏi đó là con mèo hay con có thì bạn sẽ tập trung nhìn vào một phần nào đó để tìm ra sự khác biệt giữa chó và mèo để đưa ra kết luận (ví dụ nhìn vào tai, hay mũi). Hoặc như ví dụ ở hình 1, làm thế nào để trừu tượng hoá định nghĩa: cái ghế?

Hình 1: Với người định nghĩa khái quát một chiếc nghế là một thứ gì đó để ngồi. Nhưng với máy tính đây không phải là việc dễ dàng do khả năng khái quát hoá (generalization) chưa được như con người. Nguồn ảnh: Fei-Fei Li

39

Hình 2: các biểu diễn ở các mức sâu hơn trong xử lý ảnh giúp nhận ra các đặc trưng ở mức cao hơn. Nguồn ảnh: NIPS15

Tổng quan hơn, đối với xử lý ảnh thì từ pixel -> edge -> texton -> motif -> part -> object. Với text thì từ word -> clause -> sentence -> story. Tích chập cùng với max pooling và các phương pháp khác của DL đều nhằm cải thiện vấn đề này từ đó cho kết quả tối ưu hơn.


#4

Gimp convolution matrix

Một bài viết về sử dụng convolution trong thực tế chỉnh sửa ảnh