Erwin Tugas Akhir

Task

Memprediksi Hoax dari gambar dan text (Binary Classification).

Notebooks

BDC - EfficientNetB7.ipynb
BDC - Main Notebook.ipynb

Tambahan

Keterangan	Laman Kontent
Website sumber data	turnbackhoax.id
Kaggle Data
Model

Preprocess Data

Preprocessing data.

Script preprocess:

Preprocess code/
      |------- RPU.py
      |------- Preprocess.py

Keterangan :

RPU.py => Script Preprocess, Augmentasi, dan Up-sampling data gambar
Preprocess.py => Script Preprocess pada data text

Data Gambar

Checking Missing Data
Karena ukuran gambar yang berbeda - beda maka diambil sample tengah - tengah tiap gambar.
Resize gambar ke ukuran 512 x 512
Upsampling dengan Augmentasi data.
Up Sampling data gambar kelas 0 sebesar : 50%, 100%, dan 200%, dengan menggunakan augmentasi. Augmentasi yang akan digunakan pada data gambar yaitu:
Rotasi secara acak pada rentang -70 sd. 70 derajad

Data Text

Drop duplicate value pada data text

Masking Content sebelum di normalize [Encode]
Melakukan masking untuk kata kata yang mengandung URL, Hashtag, Tag, Emoji

# Contoh
Website Google adalah http://google.com
Jangan lupa pakai masker #StaySafe
@jokowi adalah presiden RI
Lucu 😂

# Encode
Website Google adalah MASKURLS1MASK
Jangan lupa pakai masker MASKHASHTAGS1MASK
MASKTAGS1MASK adalah presiden RI
Lucu MASKEMOJIS1MASK

Normalize text
Melakukan normalisasi text yang berkaita dengan tanda baca berdasarkan kaidah penulisan bahasa Indonesia.

# Contoh
Budi membayar2.000 ban yang dibelinya senilai rp.2.000.000

# Preprocessed
Budi membayar 2.000 ban yang dibelinya senilai rp. 2.000.000

Decode mask content
Mengembalikan konten yang di encode sebelumnya.

# Contoh
Website Google adalah MASKURLS1MASK

# Decode
Website Google adalah http://google.com

Clear String Punctuation
Menghapus tanda baca dari data text
De-emojized
Mengubah emoji yang ada pada text menjadi kata-kata yang melambangkan emoji tersebut
```
🙏 -> folded hands
😃 -> grinning face with big eyes
```
Fixxing misstype / typo [Manual 😂]
Membenarkan kata - kata yang misstype atau typo dengan cara membuat vocabulary dari data text pada Data Latih BDC.xlsx lalu mengexportnya ke file .txt untuk dilakukan pemeriksaan secara manual.

Modelling

Images

Model	Best Accuracy	Best F1 Score
EfficientNet B5	82,6%	89,5%
EfficientNet B7	83,5%	90,5%

Teks

Model	Best Accuracy	Best F1 Score
Fasttext ID on Embedding + Simple CNN	86,2%	92,2%
Bert Base Indonesian	86.6 - 87 %	92.6 - 92.8 %

Note:

EfficientNetB7 akurasinya jadi lebih stabil dengan weight noise-student
Model CNN pada Fasttext sangat simple, jadi mungkin akurasinya bisa bertamabah lagi jika dioptimalisasi atau menggunakan RNN.
Masih ada banyak kata yang misspel sehingga cukup banya katak yang tidak mendapatkan vector dari Fastext.
Model Bert yang di gunakan adalah cahya/bert-base-indonesian-522M.
Dari model model yang ada bert dapat mengklasifikasikan hoax lebih baik dari model - model lainnya namun tetap memiliki kesulitan dalam mengenali kelas 0.

ravanargha / erwin Goto Github PK

erwin's Introduction

Erwin Tugas Akhir

Task

Tambahan

Script preprocess:

Keterangan :

Data Gambar

Data Text

Modelling

Images

Teks

Note:

erwin's People

Contributors

Watchers

Recommend Projects

Recommend Topics

Recommend Org

Jobs