GithubHelp home page GithubHelp logo

rl's Introduction

프로그래머를 위한 강화학습 도서온라인강의 소스코드를 제공하는 사이트입니다.

코드에 사용한 프로그램 버전은 다음과 같습니다.

  • python3.7.7
  • tensorflow2.2
  • numpy1.19.3

도서는 Yes24 에서 구입할 수 있습니다.

동영상 강의는 인프런 에서 들을 수 있습니다.

목차

  • 시작하며

  • 01장 강화학습 기본 개념

    • 1.1 강화학습이란
    • 1.2 확률과 확률 과정
    • 1.3. 마르코프 연쇄
    • 1.4 마르코프 보상 과정
  • 02장 강화학습 기본 알고리즘

    • 2.1 마르코프 결정 과정
    • 2.2 MDP 행동 가치 함수
    • 2.3 MDP 최적 가치 함수
    • 2.4 강화학습에 사용되는 다양한 용어
    • 2.5 다이내믹 프로그래밍
    • 2.6 몬테카를로 방법
    • 2.7 TD와 SARSA
    • 2.8 Q 러닝
  • 03장 인공지능의 개념

    • 3.1 머신러닝
    • 3.2 선형 회귀 분석
    • 3.3 분류 분석
    • 3.4 딥러닝
    • 3.5 개발 환경 설치
    • 3.6 텐서플로우
  • 04장 함수 근사법

    • 4.1 미분
    • 4.2 편미분
    • 4.3 스칼라와 벡터
    • 4.4 그래디언트
    • 4.5 경사하강법
    • 4.6 확률적 경사하강법
    • 4.7 강화학습에서 편미분과 경사하강법의 표기법
    • 4.8 함수 근사법
  • 05장 가치 기반 강화학습과 DQN 알고리즘

    • 5.1 DQN 알고리즘
    • 5.2 카트폴
    • 5.3 탐험과 탐욕의 문제
    • 5.4 DQN 알고리즘 기본 구조
    • 5.5 DQN 알고리즘 전체 코드 리뷰
    • 5.6 DQN 알고리즘 세부 구조 살펴보기
    • 5.7 DQN 알고리즘 학습 결과 분석
  • 06장 정책 기반 강화학습 REINFORCE 알고리즘

    • 6.1 인공신경망 다시 보기
    • 6.2 정책 그래디언트
    • 6.3 REINFOFCE 알고리즘 동작 방식
    • 6.4 REINFOFCE 알고리즘 기본 구조
    • 6.5 REINFORCE 알고리즘 전체 코드 리뷰
    • 6.6 REINFORCE 알고리즘 세부 구조 살펴보기
    • 6.7 REINFORCE 알고리즘 학습 결과 분석
  • 07장 정책 기반 A2C 알고리즘

    • 7.1 액터 크리틱 알고리즘
    • 7.2 어드밴티지 액터 크리틱
    • 7.3 A2C 알고리즘 기본 구조
    • 7.4 A2C 알고리즘 전체 코드 리뷰
    • 7.5 A2C 알고리즘 세부 구조 살펴보기
    • 7.6 A2C 알고리즘 학습 결과 분석
  • 08장 정책 기반 PPO 알고리즘

    • 8.1 중요도 샘플링
    • 8.2 오프 폴리시 정책 그래디언트
    • 8.3 클리핑 기법
    • 8.4 GAE
    • 8.5 PPO 알고리즘 기본 구조
    • 8.6 PPO 알고리즘 전체 코드 리뷰
    • 8.7 PPO 알고리즘 세부 구조 살펴보기
    • 8.8 PPO 알고리즘 알고리즘 학습 결과 분석
  • 09장 인공신경망 튜닝

    • 9.1 인공신경망 튜닝 개요
    • 9.2 입력 데이터 전처리
    • 9.3 비용 함수의 선택
    • 9.4 활성화 알고리즘
    • 9.5 가중치 초기화
    • 9.6 최적화 알고리즘
    • 9.7 노드와 은닉층 개수에 대한 논의
    • 9.8 PPO 알고리즘 인공신경망 튜닝
    • 9.9 PPO 알고리즘 튜닝 코드 적용
    • 9.10 PPO 알고리즘 튜닝 결과 분석
  • 10장 그리드 서치 기반 최적화 기법

    • 10.1 그리드 서치 개념
    • 10.2 그리드 서치 코딩
    • 10.3 그리드 서치 전체 코드
    • 10.4 그리드 서치 결과 분석
    • 10.5 그리드 서치 파라미터 튜닝 적용
  • 11장 베이지안 최적화 기법

    • 11.1 빈도주의 확률과 베이지안 확률
    • 11.2 베이지안 확률 계산
    • 11.3 베이지안 최적화 패키지 소개
    • 11.4 베이지안 최적화 패키지 활용
    • 11.5 베이지안 최적화 전체 코드
    • 11.6 베이지안 최적화 결과 분석
  • 마무리하며

rl's People

Contributors

multicore-it avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.