GithubHelp home page GithubHelp logo

read-papers's Introduction

About

  • Daiki Chiba
  • Data Scientist @ invox corporation
  • Interested in
    • Machine Learning
      • Computer Vision
      • Search System
      • Recommed System
      • Graph
    • mlops
    • Data Science
    • Algorithm
    • Rust
    • Vim

Experiences

  • BS in Physics
  • Kaggle Competition Expert (🥇0🥈1 🥉1)

Language

Socials

read-papers's People

Contributors

daikichiba9511 avatar

Watchers

 avatar

read-papers's Issues

Adaptivity without Compromise: A Momentumized, Adaptive, Dual Averaged Gradient Method for Stochastic Optimization

title

どんなもの

  • adagrad系最適化手法
  • adamでよく知られてるような以下三つの問題にに対してのアプローチを試みてる
     * 多くの問題でnon-adaptiveなSGD-Mの手法に負ける
     * 凸最適みたいな設定でも全体的な収束に失敗することがある
     * 使用されている指数移動平均更新は、スパースな勾配が与えられたときに非スパースになるため、スパースな問題には適していない。
  • 他の手法よりも直接的ではない正則化が働いてるので他の手法よりもdecayが少ない?
  • decaying regularizationがoptimzierにパラメータ空間の早いiterationでのいい領域を探索を可能にしてる、かつ後半のfine-tuning epochsでは悪い影響はない

先行研究と比べてどこがすごい?

  • sota
  • 凸最適に対して、強い収束理論がある
  • スパースな問題にも使える
  • 検証にかなり気合が入ってる

More than 20,000 hours of GPU
time were needed to perform the grid search and final evaluation mentioned above

技術や手法のキモはどこ?

  • adagradのdual averagingに基づいてる
  • DA+momentum+adaptivity
  • effectiveなstepsizeに二乗根の代わりに3乗根を使ってる

どうやって有効と判断した?

  • 理論的に収束レートを判断してる
  • 実験ではSGD,Adam,AdaGradと比較して判断
  • シードの影響をなくすために多いので10少なくても5のバリエーションを各実験で試してる
  • タスクは以下
     * CIFAR10 image classification
     * ILSVRC 2012 ImageNet image classification
     * fastMRI challenge MRI reconstruction
     * Machine translation with a recurrent neural network
     * Masked language modeling with a Transformer

議論はある?

  • SGD/Adamはweight decayがデフォルトでは十分な汎化性能が得られなかったため、learning rateをチューニングする前にweight decayを減らした方がいい
  • Learning rateSGD/Adamと直接的な比較はできないので、最適値を探すためにlearning rate sweepする必要がある
  • momemtumで問題が起きないようにすべき

次に読むべき論文は?

  • adamの収束についての理論

Alexandre Défossez, Léon Bottou, Francis Bach, and Nicolas Usunier. A simple convergence
proof of adam and adagrad, 2020.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.