Dự án bao gồm: 1. Xây dựng bộ dữ Instructions Vietnamese (chất lượng, nhiều, và đa dạng). 2.LLM Training, Finetuning, Evaluating & Testing trên Open-source mô hình ngôn ngữ: Bloomz,T5, UL2, LLaMA (1&2), OpenLLaMA, GPT-J pythia etc. 3. Ứng dụng và Giao diện Người dùng (UI)
Hi anh, ở mục Vietnamese Alpaca 52k (Translated using GPT-3.5) em check thấy chỉ có file alpaca_translate_GPT_35_10_20k.json --> hình như chỉ mới translation được 20k data, chưa hoàn thành translation 52k bằng GPT-3.5 đúng không ạ ?
Cảm ơn bạn đã đóng góp và triển khai cho cộng đồng!
Hiện tại longtext đã ra đời, do hiện tại mình bị giới hạn về phần cứng, rất vui nếu bạn có thể mở rộng thêm các bộ dataset32k cho tiếng việt để cộng đồng cùng nghiên cứu.
Hi team,
Mình có tìm thấy 1 open source có generate bộ data về medical, team có thể xem qua và dịch nó ra tiếng Việt,
Mình xin phép gửi link đính kèm: https://github.com/CogStack/opengpt