Memprediksi Hoax dari gambar dan text (Binary Classification
).
BDC - EfficientNetB7.ipynb
BDC - Main Notebook.ipynb
Keterangan | Laman Kontent |
---|---|
Website sumber data | turnbackhoax.id |
Kaggle Data | |
Model |
Preprocessing data.
Preprocess code/
|------- RPU.py
|------- Preprocess.py
RPU.py
=> ScriptPreprocess
,Augmentasi
, danUp-sampling
data gambarPreprocess.py
=> ScriptPreprocess
pada data text
- Checking Missing Data
- Karena ukuran gambar yang berbeda - beda maka diambil sample tengah - tengah tiap gambar.
- Resize gambar ke ukuran 512 x 512
- Upsampling dengan Augmentasi data.
Up Sampling data gambar kelas 0 sebesar : 50%, 100%, dan 200%, dengan menggunakanaugmentasi
. Augmentasi yang akan digunakan pada data gambar yaitu:
Rotasi secara acak pada rentang -70 sd. 70 derajad
- Drop
duplicate value
pada data text - Masking Content sebelum di normalize [Encode]
Melakukan masking untuk kata kata yang mengandungURL, Hashtag, Tag, Emoji
# Contoh Website Google adalah http://google.com Jangan lupa pakai masker #StaySafe @jokowi adalah presiden RI Lucu ๐ # Encode Website Google adalah MASKURLS1MASK Jangan lupa pakai masker MASKHASHTAGS1MASK MASKTAGS1MASK adalah presiden RI Lucu MASKEMOJIS1MASK
- Normalize text
Melakukan normalisasi text yang berkaita dengan tanda baca berdasarkan kaidah penulisan bahasa Indonesia.# Contoh Budi membayar2.000 ban yang dibelinya senilai rp.2.000.000 # Preprocessed Budi membayar 2.000 ban yang dibelinya senilai rp. 2.000.000
- Decode mask content
Mengembalikan konten yang diencode
sebelumnya.# Contoh Website Google adalah MASKURLS1MASK # Decode Website Google adalah http://google.com
- Clear String Punctuation
Menghapus tanda baca dari data text - De-emojized
Mengubahemoji
yang ada pada text menjadi kata-kata yang melambangkanemoji
tersebut๐ -> folded hands ๐ -> grinning face with big eyes
- Fixxing misstype / typo [Manual ๐]
Membenarkan kata - kata yang misstype atau typo dengan cara membuat vocabulary dari data text padaData Latih BDC.xlsx
lalu mengexportnya ke file.txt
untuk dilakukan pemeriksaan secara manual.
Model | Best Accuracy | Best F1 Score |
---|---|---|
EfficientNet B5 | 82,6% | 89,5% |
EfficientNet B7 | 83,5% | 90,5% |
Model | Best Accuracy | Best F1 Score |
---|---|---|
Fasttext ID on Embedding + Simple CNN | 86,2% | 92,2% |
Bert Base Indonesian | 86.6 - 87 % | 92.6 - 92.8 % |
- EfficientNetB7 akurasinya jadi lebih stabil dengan weight
noise-student
- Model CNN pada Fasttext sangat simple, jadi mungkin akurasinya bisa bertamabah lagi jika dioptimalisasi atau menggunakan RNN.
- Masih ada banyak kata yang misspel sehingga cukup banya katak yang tidak mendapatkan vector dari
Fastext
. - Model
Bert
yang di gunakan adalah cahya/bert-base-indonesian-522M. - Dari model model yang ada bert dapat mengklasifikasikan hoax lebih baik dari model - model lainnya namun tetap memiliki kesulitan dalam mengenali kelas
0
.