transformer-evolution's Introduction

transformer-evolution

Transformer 이후 나온 Pretrained Language Model을 이해하기 위해서 간단하게 구현 하였습니다.

환경

Python(=3.6)

$ pip install torch
$ pip install pandas
$ pip install tqdm
$ pip install wget
$ pip install sentencepiece
$ pip install wandb

train data 준비

Naver Movie 데이터를 사용 했습니다.

$ python common_data.py --mode download

data 폴더 아래 'ratings_test.txt', 'ratings_train.txt' 두개의 파일을 다운로드 합니다.

pretrain data 준비

web-crawler를 이용하세요.

$ git clone https://github.com/paul-hyun/web-crawler.git
$ cd web-crawler
$ python kowiki.py

다운로드 된 kowiki_yyyymmdd.csv 파일을 /data/kowiki.csv로 복사해 주세요.

vocab 생성

kowiki 데이터를 sentencepiece를 이용해서 생성 합니다.
vocab size는 8,000개 입니다.

$ python vocab.py

'kowiki.model', 'kowiki.vocab' vocab 관련한 두개의 파일을 생성 합니다.

data 생성

pretrain 및 train data를 모델에서 사용하기 좋은 형태로 미리 만들어 놓습니다.
세부 처리는 각 모델에서 필요에 따라 처리 합니다.

$ python common_data.py --mode prepare

data 폴더 아래 'kowiki.json' 파일이 생성 됩니다.

기타

사용하는 GPU 자원의 한계로 config 설정은 hidden 및 관련 parameter 1/2로 줄여서 테스트 했습니다. (config_half.json)
GPU 자원이 충분한 경우 config.json을 사용하면 됩니다.

모델

Transformer

기본이 되는 Transformer 모델 입니다.
논문은 Attention Is All You Need를 참고 하세요.

GPT

GPT 모델 입니다.
논문은 Improving Language Understanding by Generative Pre-Training를 참고 하세요.

BERT

BERT 모델 입니다.
논문은 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding를 참고 하세요.

결과

ITEM	Pretrain	epoch	loss	accuracy
transformer-pre:0	0	19	0.3054	0.8312
gpt-pre:60-lm:0	60	19	0.3015	0.8442
bert-pre:40	40	19	0.3507	0.8175

loss

accuracy

자세한 내용은 아래를 참고 하세요.

https://app.wandb.ai/cchyun/transformer-evolution

참고

transformer-evolution's People

Contributors

Stargazers

Watchers

transformer-evolution's Issues

SpanBERT 데이터 형태 문의드립니다.

우선 좋은 코드 공유해주셔서 감사합니다.

개인 데이터로 spanbert를 pre train하려고 합니다.

위 이미지는 loader에서 하나의 batch sample입니다.
최대 길이를 128로 줬는데 아마 collate에서 72로 잘라서 들어간 것 같구요.
배치에서 가장 긴 마스킹이 10이어서 나머지는 10 길이로 데이터가 생성되었네요.

문제는 gpu에 올렸을 때 두세개의 배치는 loss까지 계산이 되다가 그 뒤에 쿠다 에러가 뜹니다.
cpu에서 한 개의 샘플로는 loss까지 계산이 되구요.
gpu에서도 중간에 print를 찍어보면 두세번 정도는 배치 계산이 들어가고 loss까지 출력이 되더라구요.

gpu 메모리 사이즈에는 전혀 이상이 없습니다.

혹시 데이터 shape이 저게 맞을지, (제가 커스텀 데이터로 학습시킨 BertTokenizer를 사용하기 때문에 dataset만드는 코드를 조금 바꿨거든요. 다만 형태는 똑같이 들어갔다고 보는데..)
그리고 이런 문제 없이 잘 돌아가셨을까요?

Recommend Projects

paul-hyun / transformer-evolution Goto Github PK