Light

sinyeong10 / rl Goto Github PK

View Code? Open in Web Editor NEW

This project forked from multicore-it/rl

0.0 0.0 0.0 17.51 MB

Reinforcement Learning For Programmer

Jupyter Notebook 100.00%

rl's Introduction

`프로그래머를 위한 강화학습` `도서`와 `온라인강의` 소스코드를 제공하는 사이트입니다.

코드에 사용한 프로그램 버전은 다음과 같습니다.

python3.7.7
tensorflow2.2
numpy1.19.3

도서는 Yes24 에서 구입할 수 있습니다.

동영상 강의는 인프런 에서 들을 수 있습니다.

목차

시작하며
01장 강화학습 기본 개념
- 1.1 강화학습이란
- 1.2 확률과 확률 과정
- 1.3. 마르코프 연쇄
- 1.4 마르코프 보상 과정
02장 강화학습 기본 알고리즘
- 2.1 마르코프 결정 과정
- 2.2 MDP 행동 가치 함수
- 2.3 MDP 최적 가치 함수
- 2.4 강화학습에 사용되는 다양한 용어
- 2.5 다이내믹 프로그래밍
- 2.6 몬테카를로 방법
- 2.7 TD와 SARSA
- 2.8 Q 러닝
03장 인공지능의 개념
- 3.1 머신러닝
- 3.2 선형 회귀 분석
- 3.3 분류 분석
- 3.4 딥러닝
- 3.5 개발 환경 설치
- 3.6 텐서플로우
04장 함수 근사법
- 4.1 미분
- 4.2 편미분
- 4.3 스칼라와 벡터
- 4.4 그래디언트
- 4.5 경사하강법
- 4.6 확률적 경사하강법
- 4.7 강화학습에서 편미분과 경사하강법의 표기법
- 4.8 함수 근사법
05장 가치 기반 강화학습과 DQN 알고리즘
- 5.1 DQN 알고리즘
- 5.2 카트폴
- 5.3 탐험과 탐욕의 문제
- 5.4 DQN 알고리즘 기본 구조
- 5.5 DQN 알고리즘 전체 코드 리뷰
- 5.6 DQN 알고리즘 세부 구조 살펴보기
- 5.7 DQN 알고리즘 학습 결과 분석
06장 정책 기반 강화학습 REINFORCE 알고리즘
- 6.1 인공신경망 다시 보기
- 6.2 정책 그래디언트
- 6.3 REINFOFCE 알고리즘 동작 방식
- 6.4 REINFOFCE 알고리즘 기본 구조
- 6.5 REINFORCE 알고리즘 전체 코드 리뷰
- 6.6 REINFORCE 알고리즘 세부 구조 살펴보기
- 6.7 REINFORCE 알고리즘 학습 결과 분석
07장 정책 기반 A2C 알고리즘
- 7.1 액터 크리틱 알고리즘
- 7.2 어드밴티지 액터 크리틱
- 7.3 A2C 알고리즘 기본 구조
- 7.4 A2C 알고리즘 전체 코드 리뷰
- 7.5 A2C 알고리즘 세부 구조 살펴보기
- 7.6 A2C 알고리즘 학습 결과 분석
08장 정책 기반 PPO 알고리즘
- 8.1 중요도 샘플링
- 8.2 오프 폴리시 정책 그래디언트
- 8.3 클리핑 기법
- 8.4 GAE
- 8.5 PPO 알고리즘 기본 구조
- 8.6 PPO 알고리즘 전체 코드 리뷰
- 8.7 PPO 알고리즘 세부 구조 살펴보기
- 8.8 PPO 알고리즘 알고리즘 학습 결과 분석
09장 인공신경망 튜닝
- 9.1 인공신경망 튜닝 개요
- 9.2 입력 데이터 전처리
- 9.3 비용 함수의 선택
- 9.4 활성화 알고리즘
- 9.5 가중치 초기화
- 9.6 최적화 알고리즘
- 9.7 노드와 은닉층 개수에 대한 논의
- 9.8 PPO 알고리즘 인공신경망 튜닝
- 9.9 PPO 알고리즘 튜닝 코드 적용
- 9.10 PPO 알고리즘 튜닝 결과 분석
10장 그리드 서치 기반 최적화 기법
- 10.1 그리드 서치 개념
- 10.2 그리드 서치 코딩
- 10.3 그리드 서치 전체 코드
- 10.4 그리드 서치 결과 분석
- 10.5 그리드 서치 파라미터 튜닝 적용
11장 베이지안 최적화 기법
- 11.1 빈도주의 확률과 베이지안 확률
- 11.2 베이지안 확률 계산
- 11.3 베이지안 최적화 패키지 소개
- 11.4 베이지안 최적화 패키지 활용
- 11.5 베이지안 최적화 전체 코드
- 11.6 베이지안 최적화 결과 분석
마무리하며

rl's People

Contributors

Recommend Projects

React

A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow

An Open Source Machine Learning Framework for Everyone
Django

The Web framework for perfectionists with deadlines.
Laravel

A PHP framework for web artisans
D3

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
web

Some thing interesting about web. New door for the world.
server

A server is a program made to process requests and deliver data to clients.
Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization

Some thing interesting about visualization, use data art
Game

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.
Microsoft

Open source projects and samples from Microsoft.
Google

Google ❤️ Open Source for everyone.
Alibaba

Alibaba Open Source for everyone
D3

Data-Driven Documents codes.
Tencent

China tencent open source team.

Jobs