GithubHelp home page GithubHelp logo

nlp-k31's Introduction

Phân loại văn bản tiếng Việt

Đề tài nghiên cứu về bài toán phân loại văn bản tiếng Việt, được nhóm sinh viên thực hiện trong quá trình học môn Xử lý ngôn ngữ tự nhiên Nâng cao - Khoá 31 trường Đại học Khoa học Tự nhiên, ĐHQG-HCM

Nhóm Sinh viên tham gia đề tài

Nội dung chính của Project này gồm 3 thư mục chính

classification

Thư mục có chứa model đã được huấn luyện sẵn trên 02 bộ dữ liệu Foody và VNTC. Để chạy kiểm thử model, có thể chạy theo các lệnh sau:

  • Đối với việc chạy phân loại thư mục
$ python classificationRoot.py --text "Nội dung cần phân loại"
  • Đối với việc chạy phân loại phản hồi tích cực và tiêu cực
$ python classificationSVM2.py --text "Nội dung cần phân loại"

phoBert

Thư mục chứa file train và các tài liệu liên quan khi nhóm thực hiện trên mô hình phoBert.

Colab

Trong đây bao gồm 3 file Google Colab:

  • phobert được thử chạy trên Colab
  • transformers_bartpho
  • Ví dụ về TF-IDF

Kết quả thử nghiệm

Kết quả các thử nghiệm kết hợp mô hình SVM và các đặc trưng Tfidf trên hai bộ dữ liệu VNTC và Foody.

  • Trên bộ dữ liệu VNTC
Mô hình F1 % Accuracy
TfidfVectorizer(ngram_range=(1, 2), max_df=0.8) 92.37 92.37
Mô hình kết hợp phoBert 85.05 85.05
  • Trên bộ dữ liệu Foody | Mô hình | F1 % |Accuracy | |-------------------------------------------------|----------|---------| | TfidfVectorizer(ngram_range=(1, 2), max_df=0.8) | 87.41|87.41| | Mô hình kết hợp phoBert | 85.27 | 85.27 |

Lời cảm ơn

Xin chân thành cảm ơn các nhóm phát triển sklearn, fasttext đã tạo ra những công cụ hữu ích để nhóm sử dụng trong các thử nghiệm của mình. Nhóm xin chân thành cảm ơn mã nguồn đã chia sẻ từ nhóm UndertheSea cũng như những đóng góp của nhóm UndertheSea dành cho cộng đồng.

Dự án sử dụng tập dữ liệu VNTCFoody trong các thử nghiệm. Xin vui lòng kiểm tra lại thông tin trên website hoặc báo cáo khoa học tương ứng để biết thông tin về bản quyền và trích dẫn khi sử dụng tập dữ liệu này.

nlp-k31's People

Contributors

viettham1998 avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.