weight và bias trong fully-connected layer

classification
nlp

#1

Em chào moi người, Em có một số thắc mắc về weight và bias mong mọi người giải đáp giúp em ạ. Trong fully-connected layer có giá trị nút sau bằng tổng wx + bias của các nút trước. em được biết weight tự động sinh ra ngẫu nhiên, nhưng em thắc mắc cái gì sinh ra weight? Và tại sao lại cần cộng với bias ?


#2

Ban đầu weights được khởi tạo ngẫu nhiên theo phân phối nào đó, tuyệt đại đa số sẽ là phân phối Gauss (normal distribution). Quá trình huấn luyện mô hình chính là quá trình điều chỉnh weights để đạt kết quả tối ưu.

Nguyên nhân cần cộng thêm bias bởi nó giúp tăng khả năng biểu diễn của mô hình. Ví dụ, một layer có dạng y = Wx + b, phần Wx sẽ có dạng một đường thẳng/mặt phẳng/hyper-plane đi qua gốc tọa độ. Cộng thêm b giúp đồ thị có thể xê dịch dọc theo các trục -> tăng khả năng biểu diễn.


#3

Vâng, em đã hiểu. Em cảm ơn anh nhiều ạ! :blush:


#4

Bạn có thể tìm hiểu về Xavier initialization, để biết các weigh được tạo thế nào, còn vì sao cần phải cộng với bias thì bạn nên đọc lại các bài về regession đầu tiên của anh Tiệp.