tiepvupsu / ebookmlcb Goto Github PK

ebook Machine Learning cơ bản

License: Other

TeX 15.91% Jupyter Notebook 83.08% Python 0.96% Shell 0.02% Perl 0.03% Gnuplot 0.01% Dockerfile 0.01%

ebookmlcb's Introduction

Mã nguồn cuốn ebook "Machine Learning cơ bản", Vũ Hữu Tiệp.

ebook Machine Learning cơ bản pdf-black_white, pdf-color.

Mọi hình thức sao chép, in ấn đều cần được sự đồng ý của tác giả. Mọi chia sẻ đều cần được dẫn nguồn tới https://github.com/tiepvupsu/ebookMLCB hoặc https://machinelearningcoban.com.

Hiện sách giấy không còn được bán nữa.

Nếu bạn gặp bất cứ lỗi nào hoặc cho rằng nội dung có thể được cải thiện, bạn có thể tạo một issue tại đây.

Click Star nếu bạn thấy nội dung cuốn sách có ích. Cảm ơn bạn.

ebookmlcb's People

Contributors

Stargazers

Watchers

Forkers

dnhdang94 tuvovan duytk5 danhtrancong tkv-machinelearning tuanchunglc tiephoangdev hanhnguyenduc letrongminh anhnamxtanh nguyenthanhxuan freesources xyzlat gstearmit ducviet00 anhlt309 untilyou58 tungpham1999 nguyetvo reddevil1310 nguyenhaitrieu10 trunknx akipham15 sinhmd minhdang15111997 anhduc2203 callmetoy datle1998 leoyoungbkit anvt thanhdzung eneim minhld99 huybk194 nguyenchanh2201 littlewind ntung pppnnn nguyentrihai93 trieutuanvnu alexlevn daokimluc duclong06 viettriit2110 anhzin freitit nntoan-apcs nlebang tbm98 identa manhtran91 phamvu-it thanhbinh01234 computerline1z anhngml conglinhcse phuonghx kidogb nguyenbaopc linhndt mrgonext namld chuvanan tuanlha tnlanh99 thiminhnhut bazzil29 haint manhlab pnlinh nguyenlanh anpeata mai-hao ltruong7 vub elbination tuankiet1708 bomcon123456 huynguyenvu1996 thanhcj thaonhiennguyen-erika lontaixanh97 ntcvantud trungnghiahoang96 khiemnd5 investlab lucthanca marcohatran nghiadangtrong manleebk kaidduong hieunguyen1053 piggy18 doshidev99 binhlvit nambcn97 thanhcong250899nd ndangducbn 1612026 hoan-nv

ebookmlcb's Issues

Error dowload file

Không tải được file mong arthur khắc phục

Trang 69: Có nên giả sử xác suất có dạng Bernoulli trước và ta đi tìm phân phối này không?

Trang 135: hàm kmeans_display không tìm được

Các điểm có thể làm rõ hơn

Có một vài chỗ nếu Tiệp có thể viết rõ ràng hơn thì sẽ tốt hơn

Trang 70: không nên kí hiệu là x_i^j cho vị trí (i,j) vì dễ gây hiểu nhầm với số mũ.
Trang 69: Có nên giả sử xác suất có dạng Bernoulli trước và ta đi tìm phân phối này không?
Trang 75: "đây chính là bài toán tối ưu cho 4.38". Theo mình là 4.9 thì mới chính xác
Trang 189: Chưa được rõ ý. Có nên nói ngay từ đầu ta sẽ đi tìm lý do tại sao hàm sigmoid được dùng nhiều nhất. Thay vì cuối cùng mới đưa ra.
Trang 215: Có một câu hỏi là tại sao ta bỏ hết hệ số bias "b" tất cả neuron ra? Có lợi gì?
Trang 223: Cùng chiều với vector thì có thể hiểu được. còn cùng chiều với ma trận là như thế nào?

Trang 214: Từ biểu diễn nên cho vào ngoặc kép. Mặc dù, mình không tìm được từ nào hay hơn :)

Copy paste từ #3

Trang 132 của sách, phần K-means clustering

Chào anh,

Em phát hiện anh đánh máy nhầm ở trang 132, phần k-means clustering.
"
10.2.3. Tóm tắt thuật toán
Tới đây, ta có thể tóm tắt thuật toán K-means cụming như sau.
"
Trân trọng,
Tân

Source Code trong bản pdf thiếu hoặc không thực hiện được

Tiệp check lại những điểm này nhé. Mình ghi lại lâu lâu rồi không rõ đã được sửa chưa

Trang 135: hàm kmeans_display không tìm được
MNIST hiện tại không download được bằng fetch_mldata, nên ghi chú là dùng fetch_openml thay thế
Trang 209-210: hàm pred(W, X) hình như không đầy đủ.
Dù sao thì cám ơn Tiệp vì đã bỏ công sức viết một cuốn sách tốt, có giá trị tra cứu rất tốt.

Trang 209-210: hàm pred(W, X) hình như không đầy đủ.

Các anchor (ref) bị lỗi nên chỉ hiển thị ??

Chào Tiệp,

mình đọc sách ở đây https://github.com/tiepvupsu/ebookMLCB/blob/master/book_ML.pdf
thì phát hiện các anchor (ref) bị lỗi nên chỉ hiển thị ??
Mình xem trên Chrome của MacOs X. Mình cũng kiểm lại trên Windows thì lỗi ?? cũng bị tương tự như vậy.

Bạn có thể xem lại được không?
Cám ơn bạn.

Thân.

Trang 110: chú thích số 23 để không hợp lý trong bản in, dễ hiểu nhầm thành 0^23.

Copy paste từ #3

Có thể nhầm giữa việc chia tập huấn luyện và kiểm tra phần ví dụ trang 123

Em chào anh Tiệp,
Em đang đọc quyển Machine Learning Cơ bản của anh, ở trang 123 anh có viết:

Tiếp theo, 130 mẫu dữ liệu được lấy ra ngẫu nhiên tạo thành tập huấn luyện, 20 mẫu còn lại được dùng để kiểm tra.

print(’Labels:’, np.unique(iris_y))
# split train and test
np.random.seed(7)
X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size=130)

print(’Training size:’, X_train.shape[0], ’, test size:’, X_test.shape[0])

Nhưng khi in ra lại ngược lại, em không biết đây có phải là do anh viết nhầm hay do em hiểu sai

Labels: [0 1 2]
Training size: 20 , test size: 130

Cám ơn anh rất nhiều.

MNIST hiện tại không download được bằng fetch_mldata, nên ghi chú là dùng fetch_openml thay thế

Trang 75: "đây chính là bài toán tối ưu cho 4.38". Theo mình là 4.9 thì mới chính xác

Hình 14.2 nên nới dài ra một chút.

Copy paste từ #3

Trang 68: môi trường xun quanh -> môi trường xung quanh

Có những thuật toán machine learning không luôn trải nghiệm trên một tập dữ liệu cố định. Ví dụ, học củng cố (reinforcement learning) trải nghiệm trực tiếp với môi trường xun quanh

Trang 215: Có một câu hỏi là tại sao ta bỏ hết hệ số bias "b" tất cả neuron ra? Có lợi gì?

Trang 70: không nên kí hiệu là x_i^j cho vị trí (i,j) vì dễ gây hiểu nhầm với số mũ.

Build latex bị lỗi.

Chào anh Tiep,

Em đã git hết project của anh về định buid lại sau đó chuyển qua định dạng ebook cho máy đọc sách nhưng khi em build thì bị lỗi ạ.

Đây là log em build bị lỗi .
https://i.imgur.com/JRuyL9z.png[https://i.imgur.com/JRuyL9z.png](url)

Em dùng linux.
Mong anh xem qua bài của em và giúp em khắc phục lỗi này.

Cám ơn anh về tài liệu rất quí báu cho cộng đồng ML.

P/S: À còn một điều nữa trang web https://fundaml.com/ hiện tại ko còn vào dc nữa ạ, anh tạm dừng dự án hay sao ạ ?

Trang 76: Hình 4.1 có 2 đường cùng nét liền. Hình này không rõ trục tung

Copy paste từ #3

Trang 355: Hàm g(x) là một hàm lõm

Ebook không còn truy cập được.

Em chào anh,

Em có được giới thiệu về cuốn sách của anh, nhưng khi vào repo này vào hôm nay (2/7/2023) em không thể truy cập được vào phần deployment tại địa chỉ http://tabpipes.machinelearningcoban.com/. Em biết có rất nhiều người biết đến sách của anh, nhiều trang web có upload lại một cách không chính thống nhưng em cũng không muốn sử dụng những sách từ những nguồn đó để học vì như vậy là không tôn trọng tác giả. Rất mong anh cập nhật lại để em và rất nhiều người khác có thể truy cập được tài liệu từ những nguồn chính thức và đảm bảo.

Em xin cảm ơn anh!

12.3. GDM

Chapter 12 GDM, the part I code myself, is different from the result in the book; I checked the code of Mr Tiep also encountered the same situation. Then I detect; specifically, it is the one that initially creates the y value: we use the np.random.random(1000) function, we will return an array with shape (1000,) if we do not notice y.reshape(-1, 1) to match matrix addition and subtraction operations, it will be confusing (because py is different in size, it will treat it as broadcasting). Yes, grad will return a vector, but it returns a matrix because of the confusion above. That leads to consequences; later on, the code does not run correctly.
Source code fix : https://bit.ly/3mFp8N1 or https://bit.ly/3iOXImD

Trang 223: Cùng chiều với vector thì có thể hiểu được. còn cùng chiều với ma trận là như thế nào?

Lỗi chính tả và đánh máy

Dưới đây là các lỗi mình ghi lại được từ bản in. Tiệp thấy lỗi nào đã sửa rồi thì bỏ qua nhé.

Trang 48: Mục lục 2.4.5 bị đẩy dòng
Trang 61: hiep => hiệp trong "3.1.9 Ma trận hiệp phương sai"
Trang 146: NCB => NBC
Trang 149: Hình 11.1 dấu bằng ở "2/3(4/20)^2" có vẻ không chính xác. Đổi chỗ với dấu xấp xỉ có vẻ chuẩn hơn?
Trang 176: o.w. => trường hợp còn lại
Trang 198: ove => one
Trang 205: "c=max_i z_i" => c = max z_i
Trang 270: Có nhiều dấu = ở "Không âm và giảm dần"

Khác

Trang 76: Hình 4.1 có 2 đường cùng nét liền. Hình này không rõ trục tung
Trang 110: chú thích số 23 để không hợp lý trong bản in, dễ hiểu nhầm thành 0^23.
Hình 14.2 nên nới dài ra một chút.
Trang 214: Từ biểu diễn nên cho vào ngoặc kép. Mặc dù, mình không tìm được từ nào hay hơn :)

14. Logistic Regression - Lỗi 0 feature trong MNIST

Chào anh, trong chương 14. Logistic Regression, phần 14.5. Xử lý chữ số viết tay, thì sau khi chạy code phân biệt số 0 và 1 em đã gặp lỗi như sau: found array with 0 feature(s) (shape=(138000, 0)) while a minimum of 1 is required.
Theo như em tìm hiểu thì cách khởi tạo X0 và X1 là chưa chính xác và sẽ trả về một array rỗng, vì y_all đang là một Pandas string nên không áp dụng được cách filter của np.where.
Em đã chỉnh sửa lại bằng cách chuyển X_all và y_all sang numpy array và thu được kết quả giống như trong sách (gần 100%), kiểm thử trên toàn bộ dữ liệu cũng đạt kết quả gần 92% như trong sách (với X_all và y_all đều là mảng trong numpy).
Em nghĩ rằng cách chỉnh sửa như vậy là chính xác hơn. Mong nhận được phản hồi sớm từ anh ạ.
Em xin cảm ơn.