GithubHelp home page GithubHelp logo

erwin's Introduction

Erwin Tugas Akhir

Task

Memprediksi Hoax dari gambar dan text (Binary Classification).

  1. BDC - EfficientNetB7.ipynb
  2. BDC - Main Notebook.ipynb

Tambahan

Keterangan Laman Kontent
Website sumber data turnbackhoax.id
Kaggle Data
Model

Preprocessing data.

Script preprocess:

Preprocess code/
      |------- RPU.py
      |------- Preprocess.py

Keterangan :

  1. RPU.py => Script Preprocess, Augmentasi, dan Up-sampling data gambar
  2. Preprocess.py => Script Preprocess pada data text

Data Gambar

  1. Checking Missing Data
  2. Karena ukuran gambar yang berbeda - beda maka diambil sample tengah - tengah tiap gambar.
    prep 1
  3. Resize gambar ke ukuran 512 x 512
  4. Upsampling dengan Augmentasi data.
    Up Sampling data gambar kelas 0 sebesar : 50%, 100%, dan 200%, dengan menggunakan augmentasi. Augmentasi yang akan digunakan pada data gambar yaitu:
    Rotasi secara acak pada rentang -70 sd. 70 derajad
    prep 2

Data Text

  1. Drop duplicate value pada data text
  2. Masking Content sebelum di normalize [Encode]
    Melakukan masking untuk kata kata yang mengandung URL, Hashtag, Tag, Emoji
    # Contoh
    Website Google adalah http://google.com
    Jangan lupa pakai masker #StaySafe
    @jokowi adalah presiden RI
    Lucu ๐Ÿ˜‚
    
    # Encode
    Website Google adalah MASKURLS1MASK
    Jangan lupa pakai masker MASKHASHTAGS1MASK
    MASKTAGS1MASK adalah presiden RI
    Lucu MASKEMOJIS1MASK
    
  3. Normalize text
    Melakukan normalisasi text yang berkaita dengan tanda baca berdasarkan kaidah penulisan bahasa Indonesia.
    # Contoh
    Budi membayar2.000 ban yang dibelinya senilai rp.2.000.000
    
    # Preprocessed
    Budi membayar 2.000 ban yang dibelinya senilai rp. 2.000.000
    
  4. Decode mask content
    Mengembalikan konten yang di encode sebelumnya.
    # Contoh
    Website Google adalah MASKURLS1MASK
    
    # Decode
    Website Google adalah http://google.com
    
  5. Clear String Punctuation
    Menghapus tanda baca dari data text
  6. De-emojized
    Mengubah emoji yang ada pada text menjadi kata-kata yang melambangkan emoji tersebut
    ๐Ÿ™ -> folded hands
    ๐Ÿ˜ƒ -> grinning face with big eyes
    
  7. Fixxing misstype / typo [Manual ๐Ÿ˜‚]
    Membenarkan kata - kata yang misstype atau typo dengan cara membuat vocabulary dari data text pada Data Latih BDC.xlsx lalu mengexportnya ke file .txt untuk dilakukan pemeriksaan secara manual.

Modelling

Images

Model Best Accuracy Best F1 Score
EfficientNet B5 82,6% 89,5%
EfficientNet B7 83,5% 90,5%

Teks

Model Best Accuracy Best F1 Score
Fasttext ID on Embedding + Simple CNN 86,2% 92,2%
Bert Base Indonesian 86.6 - 87 % 92.6 - 92.8 %

Note:

  1. EfficientNetB7 akurasinya jadi lebih stabil dengan weight noise-student
  2. Model CNN pada Fasttext sangat simple, jadi mungkin akurasinya bisa bertamabah lagi jika dioptimalisasi atau menggunakan RNN.
  3. Masih ada banyak kata yang misspel sehingga cukup banya katak yang tidak mendapatkan vector dari Fastext.
  4. Model Bert yang di gunakan adalah cahya/bert-base-indonesian-522M.
  5. Dari model model yang ada bert dapat mengklasifikasikan hoax lebih baik dari model - model lainnya namun tetap memiliki kesulitan dalam mengenali kelas 0.

erwin's People

Contributors

ravanargha avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    ๐Ÿ–– Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. ๐Ÿ“Š๐Ÿ“ˆ๐ŸŽ‰

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google โค๏ธ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.