A novel adaptive learning rate scheduler for deep neural networks

deep-learning
classification

#1

Link paper

Rahul Yedida, Snehanshu Saha

(Submitted on 20 Feb 2019 (v1), last revised 13 Mar 2019 (this version, v2))

Optimizing deep neural networks is largely thought to be an empirical process, requiring manual tuning of several hyper-parameters, such as learning rate, weight decay, and dropout rate. Arguably, the learning rate is the most important of these to tune, and this has gained more attention in recent works. In this paper, we propose a novel method to compute the learning rate for training deep neural networks with stochastic gradient descent. We first derive a theoretical framework to compute learning rates dynamically based on the Lipschitz constant of the loss function. We then extend this framework to other commonly used optimization algorithms, such as gradient descent with momentum and Adam. We run an extensive set of experiments that demonstrate the efficacy of our approach on popular architectures and datasets, and show that commonly used learning rates are an order of magnitude smaller than the ideal value.

Comments: v2; added more experiments and adaptive versions of other optimization algorithms
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)
Cite as: arXiv:1902.07399 [cs.LG]
(or arXiv:1902.07399v2 [cs.LG] for this version)

Souce Code [Keras]


#2

Tóm tắt bài báo*:

I. Chủ đề (Topic):

Điều chỉnh linh động thông số mạng học sâu, cụ thể là learning rate (tốc độ học)

II. Tính mới (Novelty):

  • Giải thích lý thuyết việc tính linh động learning rate

  • Ứng dụng phương thức trong tối ưu gradient descent, Adam

  • Test kết quả với các kiến trúc mạng phổ biến và nhiều dataset khác nhau

  • Kết quả: chất lượng tốt hơn, train nhanh nhơn với ít epoch hơn. Learning rate lớn không quá tệ như ta nghĩ.
    III. Motivation

  • Chất lượng của DL ảnh hưởng rất nhiều bởi bộ thông số (hyperparameteres), chọn bộ thông số chuẩn rất mất thời gian và công sức.

  • Learning rate là bộ thông số quan trọng nhất. Nhỏ quá - hội tụ lâu, lớn quá - không hội tụ được,

  • Phương thức thông thường: giảm từ từ learning rate theo epoch làm tăng chất lượng DL, hội tụ nhanh hơn

  • Nhận định về không nên dùng learning rate quá lớn có thể không đúng. Dùng learnign rate lớn thậm chí có thể cho kết quả tốt hơn, và cho hiệu ứng regularization [2]

IV. Phương Thức (Proposed Method): một số nhận định đáng lưu ý

  • Càng ở các lớp sâu, giá trị gradient càng nhỏ --> giá trị maximum của gradient ở layer cuối là quan trọng, tương ứng với giá chị lớn hơn nhỏ nhất cuả hằng số Lipschitz.
  • Từ công thức loss tương ứng (root mean square error, cross-entropy loss, .v.v.) suy ra giá trị hằng số tương ứng để điều chỉnh learning rate
  • Tác giả cũng đề cập trường hợp hàm loss có regularization
  • Mở rộng kết quả cho các kỹ thuật tối ưu khác như Adam với momentum, RMSprop, bias correction,

V. Kết Quả

5.1. Điều kiện thí nghiệm:

  • Dataset CIFAR10, CIFAR100,MNIST
  • Augmentation bằng flipping và translation
  • Ảnh được normalized về 0-1, bỏ giá trị mean
  • Base line: cùng kiến trúc mạng với giá trị learning rate cố định (như ở bài báo gốc),
  • Kiến trúc mạng:
    • modified Lenet cho MNIST
    • DenseNet, ResNet20, ResNet56, ResNet164 cho CIFAR10, CIFAR100
  • Learning rate được tính adaptive sau mỗi epoch

5.2. Kết quả chính

  • MNIST.

    • Learning rate giá trị lớn hơn giá trị thường dùng. Chì với 20 epoch nhưng cho chất lượng tương đương 300 epochs
      image
  • CIFAR-10.

    • (ResNet20 v1 - Fig. 3) Giá trị learning rate (Fig.3, hình phải) giảm nhanh hơn.

      • Tuy nhiên epoch đầu tiên, thuật toán chọn giá trị learning rate khá thấp 8e-3 do việc khởi tạo ngẫu nhiên, nhưng sau đó learnign rate sẽ tăng cao rồi từ từ giảm xuống giống với [2]. image
    • (DenseNet - Fig. 4) cho kết quả tương tự. Learning rate ở 2 epoch đầu rất nhỏ 1e-8 nhưng sau đó tăng lên rất nhanh.
      image

  • CIFAR-100: cho cùng kết quả tương tự.

    image

Chú thích

  • Mấy thuật ngữ thông dụng như learning rate, weight decay .v.v. mình sẽ dùng từ tiếng Anh để các bạn tiện đối chiếu với tài liệu tiếng Anh.
  • Phần lý thuyết về thuật toán được lược bỏ. Chi tiết xem thêm từ bài báo

[2] Leslie N Smith and Nicholay Topin. Super-convergence: Very fast training of neural networks using large learning rates. arXiv:1708.07120, 2017. arXiv preprint


#3

Em đọc trong bài viết trên này và bài báo trong link. Em vẫn không hiểu tại sao họ thí nghiệm với MNIST, CIFAR nhưng lại không thấy thí nghiệm với ImageNet ?


#4

ImageNet chắc lớn quá, họ o đủ tài nguyên để thí nghiệm thôi.