LOI MO DAU Vang đỏ là một dạng phố biến của rượu vang được làm từ những loại nho đậm màu.. Theo đó, những chất hóa học có trong vỏ và hạt của trái nho đỏ có tác dụng làm giảm lượng hormo
Trang 1
BO GIAO DUC VA DAO TAO
TRUONG DAI HQC NGUYEN TAT THÀNH
KHOA CONG NGHE THONG TIN
NGUYEN TAT THANH
DO AN MON HOC HOC MAY VA UNG DUNG tén dé tai: Ung dung Machine Learning vào dự đoán chât
lượng rượu vang đỏ của Bồ Dao Nha
Trang 2
BO GIAO DUC VA DAO TAO
TRUONG DAI HQC NGUYEN TAT THÀNH
KHOA CONG NGHE THONG TIN
NGUYEN TAT THANH
DO AN MON HOC HOC MAY VA UNG DUNG ren dai: Ung dung Machine Learning vao dw doan chat
lượng rượu vang đó của Bồ Dao Nha
Sinh viên thực hiện: Nguyễn Phúc Tài
Tp HCM, tháng 08 năm 2023
Trang 3
LOI MO DAU
Vang đỏ là một dạng phố biến của rượu vang được làm từ những loại nho đậm màu Nó
thường được pha trộn giữa màu đỏ, đen, hoặc tím Màu rượu vang phụ thuộc vào màu cảu
vỏ nho và thời gian vỏ nho tiệp xúc với nước ép nho Đây là loại Tượu vang được yêu thích nhất trên thế giới Các giống nho đỏ được trông pho biến hơn các giống nho trắng Vì chất tannin trong rượu vang đỏ Đ1úp rượu có thê lưu trữ lâu hơn rượu vang trăng Phần lớn các bộ sưu tập rượu vang ngon đều là rượu vang đỏ Vang đỏ nặng hơn rượu vang trắng, mặc dù nó không phải lúc nào cũng có nồng độ cồn cao hơn
Điều đặc biệt và hấp dẫn của rượu vang là hàng trăm mùi hương khác nhau của rượu vang đỏ đều đến từ trái nho Rượu vang có những hương vị đặc trưng và hấp dẫn là say mê lòng người như quả anh đào, quả phúc bồn tử, backberry, mật ong Hay mùi g6 soi, mui khói thuốc, bánh mì cháy, mùi da thuộc Các nhà sản xuất rượu vang thường pha trộn giữa các loại nho để tạo ra những hương vị đặc trưng
Vang đỏ được sử dụng rộng rãi và phố biến nhất trong tất cả các dòng rượu vang tại Việt Nam Trên thị trường các loại rượu vang cũng rat đa dạng từ kiêu dáng chủng loại, cùng như xuất xứ Những chai vang đỏ giá chỉ vải trăm nghìn cho đến những chai vang cao cấp có giá vài chục triệu đồng Tuy từng nhu cầu và mục đích sử dụng, khách hàng hoàn toàn có thể lựa chọn cho mình những chai vang phù hợp với túi tiền của mình
LỜI CÁM ƠN
Đầu tiên, em xin gửi lời cảm ơn chân thành đến Trường Đại học Nguyễn Tất Thành đã đưa môn học Học máy và ứng dụng vào trương trình giảng dạy Đặc biệt, em xin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn - cô Võ Thị Hồng Thắm đã dạy dỗ, truyền đạt những kiến thức quý báu cho em trong suốt thời gian học tập vừa qua Trong thời gian
tham gia lớp học của thầy em đã có thêm cho mình nhiều kiến thức bô ích, tỉnh thần học
tập hiệu quả, nghiêm túc Đây chắc chăn sẽ là những kiến thức quý báu, là hành trang đề em có thể vững bước sau này
Bộ môn Học máy và ứng dụng là môn học thu vi, vô cùng bổ ích và có tính thực tế cao
Đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên Tuy nhiên,
do vốn kiến thức còn nhiều hạn chế và khả năng tiếp thu thực tế còn nhiều bỡ ngỡ Mặc
dù em đã cô gắng hết sức nhưng chắc chắn bài tiêu luận khó có thể tránh khỏi những thiếu
sót và nhiều chỗ còn chưa chính xác, kính mong thầy xem xét và góp ý để bài tiêu luận
của em được hoàn thiện hơn
Em xin chan thanh cam on
Trang 4TRUONG DAI HOC NGUYEN TAT THANH TRUNG TÂM KHẢO THÍ
BM-ChT-
KY THI KET THUC HOC PHAN HOC KY 3 NAM HOC 2021 - 2022 PHIEU CHAM THI TIEU LUAN/DO AN
Lớp học phần: 20DTHI1D Môn thi: Học máy và ứng dụng
Nhóm sinh viên thực hiện : 1 Mai Phan Huy - 5 22 2222222222
2 Nguyễn Phúc Tài 3 Trần Thiện Nhã
4 Lê Quang TÚ ác HH He,
Ngày thị: 25/08/2023
Đề tải tiểu luận/báo cáo của sinh viên :Ứng dụng Machine Learning vào dự đoán chất
lượng rượu vang đỏ của Bồ Đào Nha Phân đánh giá của giảng viên (căn cứ trên thang rubrics của môn học):
Tiêu chí (theo
Diem dat được
Câu trúc của báo cáo
Trang 5MUC LUC
LỜI MỞ ĐẦU 1 5c 1212212112112 2121121112221 1 1 11g11 a 1 LỜI CÁM ƠN 00c c2 2 02T 12H t2 2221221 H11 ru re 1
2.1.3 K@t qua dat Que ccccsccscsvseesscseesesecsseseesusevsessssesevstssesevssesvsseees 10
2.1.4 Két qua chua dat Gue 00.0 00ccccccccccscsccscesceseesessessceessvsecevesvesessvstsseeevsseeteeees 12 2.2, N@hiém clu nur GOAL ccc 12201212212 211 1125111115111 5 xnxx ke 12
QQ Dee BRU ec cc ccc ccc cccecsessecscssssssssressssressesiessessessvssssessnsasanssrearessssresntevarers 12
2.2.2, Thuật toán sử dụng 0 00 121129111122 HH ke 13
2.2.4 Kết quả chưa đạt được 5c ch 1 run 13
CHƯƠNG IHI -22- 2 S5 E22E15212E1712111171121211211211 2121222212222 1e rei 13 TONG QUAN VE DU LIEU BI THIEU TRONG HỌC MÁY 55s: 13 BaD GiGi Hi ue ee ccc cccecccccecsessessecsecsessessessnsessaresissressesseseesssesesansaesesevasneaneeees 13 3.2 Cac loai dit Hi@u bi thidue ooo cccccccscssceccsveseesessesseseeessestsetesvevsteevevseens 13
3
Trang 63.4 Cách ngăn ngừa thiếu dữ liệu 2 TỰ HH HH an 15
4.4 Mô hình dự đoán L0 122211221122 1121115222521 11 152151 kx nh hưu 29
CHU ONG Voi cocccccccccccsssessessessessessesevssvssrsssssscssessessessvssessussessusavesacsuesavssesevsasansevssecenees 35 Kt La eee cece - 5 ST E1 211211212 1 1 HH1 HH0 1 n1 HH ng ty 35
Tài liệu tiếng Anh - nung na 36 300809091
Trang 7DANH MUC HINH
Hình I Dữ liệu điểm học sinh :¿: 2222222222112 re 8
Hình 2 Dữ liệu điểm đại học 222222222222 0001121211010 9
DANH MUC BANG
Bang 1: Cac nhân tố và thang đo 9 Bảng 2: Các biên nhân khâu 10 Bảng 3:Báng xem xét sự thành công của diễn viên 15 Bảng 4: Cây quyết định dự đoán thời tiết 22
- _ Tên của hình (đồ thị, hình vẽ) đặt ở bên dưới hình (đồ thị, hình vẽ)
ki HIEU CAC CUM TU VIET TAT
Chữ viết tắt Ý nghĩa CSDL Cơ sở dữ liệu ID3 Iterative Dichotomiser 3 WTP Willingness to pay Random Forest Rung ngau nhién
Data Mining Khai phá dữ liệu
CHUONG I Tổng quan đề tài 1.1 Lí do chọn đề tài
- Chất tannin trong vang đỏ đến từ vỏ, hạt hà cuống trái nho Đây là chất tạo ra độ chát đặc trưng của vang đỏ Hễn hợp tannin này cùng với nước, polyphenol và Procyanidins (chat này cũng có trong trà xanh và sô cô la đen) giúp ức chế các mang bam cholesterol xấu trong máu Qua đó tác động tích cực lên tim mạch và kéo dài tuổi thọ
5
Trang 8Ngoài việc tốt cho tìm mạch thì rượu vang đỏ còn cung cấp nhiều lợi ích cho phái đẹp Cụ
thê rượu vang đỏ có tác dụng: - Uống rượu vang bảo vệ thị lực: Uống rượu vang đỏ ở mức độ vừa phải có thể bảo vệ thị
lực nhờ hợp chất Resveratrol có tác dụng ngăn chặn mạch máu khỏi bị ton hại Nó trực tiếp ngăn chặn sự phát triển các mạch máu bắt thường bên trong cũng như bên ngoài máu Thành phần này con co thê giúp ngăn ngừa các tác động tiêu cực của lối sống ít vận động Như công việc ngôi một chỗ của nhân viên văn phòng, hoặc tính trạng không trọng lượng của các phi hành gia
- Uống rượu vang ngăn ngừa bệnh ung thư: Uống vang đỏ thường xuyên và điều độ giúp ngăn ngừa giảm nguy cơ ung thư vú ở phụ nữ Theo đó, những chất hóa học có trong vỏ và hạt của trái nho đỏ có tác dụng làm giảm lượng hormon eoesfrogen và tăng cường hormone testosterone cua phụ nữ thời kỳ mãn kinh
- Uống Tượu vang đỏ tốt cho hệ tim mạch: Các thành phần Polyphenol của vang đỏ có thể ức chế quá trình tông hợp một loại protein liên quan tới bệnh tìm mạch Nó có tác dụng chống oxi hóa, ngăn chặn tác hại gây bệnh của các gốc tự do.Polyphenol chống được bệnh tim nhờ khá năng ức chế sản xuất Endothelin-1 (một loại protein gây co mạch máu, làm giảm lượng oxy tới tim và đóng vai trò chủ chốt trong bệnh mach vành) Polyphenol nằm trong vỏ quả nho và vì vậy, chỉ riêng rượu vang đỏ có đặc tính chồng bệnh tim Dùng vang đỏ một cách điều độ làm giảm tỷ lệ tử vong do tim mạch đến dưới 40% Nó có 3 cơ chế tác dụng: Chống oxy hóa, giãn mạch, chống huyết khối Màng quả nho và hạt mầm chứa nhiều polyphenol Thành phần rượu (alool etylic) giup polyphenol hap thu dé dang qua ruột non, nồng độ polyphenol trong rượu nho gấp 3-4 lần ở nước ép quả nho; Do đó hoạt tính của rượu vang hơn hăn (so với ăn nho) rượu vang đỏ có nhiều triển vọng để
phòng chữa xơ vữa động mạch, ung thư, bệnh do virus, sa sút trí tuệ
- Uống rượu vang đỏ tốt cho phổi: Một hợp chất tự nhiên có trong vang đỏ là Resveratrol có thê giúp chông lại bệnh phôi kinh niên và khí thủng ( có không khí trong mô) Chât này có trong nho đỏ đóng vai trò làm giảm chất hóa học trong phối Đây là nguyên nhân chính gây ra bệnh viêm phôi Khi tiém resveratrol vào các mẫu thử chất lưu trong phối của những người hút thuốc lá và những bệnh nhân bị chứng tắc phối kinh niên Nó làm giảm interleukin 8 (một tác nhân gây ra chứng viêm phối)
- Uống rượu vang đỏ tốt cho hệ tiêu hóa: Uống vang đỏ mỗi ngày còn tốt cho lợi khuẩn đường ruột sông ở niêm mạc ruột già Vang đỏ có thê hợp chất chống oxy hóa polyphenol có nhiều trong rượu vang đỏ Đã ảnh hưởng đến sự cân bằng các loại vi khuân đường ruột Được biết, một số tác dụng có lợi khác của hợp chất polyphenol được chứng minh Như giảm huyết áp, giảm triglyceride, tăng cholesterol HDL (cholesterol có lợi cho sức khỏe)
- Ngoài ra, vang đỏ còn có rất nhiều tác dụng đối với sức khỏe con người như: giảm độ
béo phì, điều hòa huyết áp, kéo dài tuổi thọ, tốt cho da
Trang 91.2 Mục tiêu nghiên cứu - Từ nội dung được nêu trong phần tổng quan, sinh viên xác định mục tiêu nghiên cứu của đồ án là: “ Ứng dụng thuật toán Rừng ngẫu nhiên (Random Forests) vào phân loại chat
lượng rượu vang đỏ ”
1.3 Đối tượng nghiên cứu - Rượu vang đỏ - P Cortez, A Cerdeira, F Almeida, T Matos va J Reis M6 hinh hoa - sở thích rượu vang băng cách khai thác dữ liệu từ các đặc tính hóa lý Trong Hệ thông Hỗ trợ Quyết định, Elsevier, 47(4):547-553, 2009
CHƯƠNG II Các nghiên cứu liên quan
2.1.Nghiên cứu trong nước 2.1.1 Dữ liệu
Dữ liệu vào của hệ thống là điểm tong kết các môn học của học sinh khối 12 của một số
trường THPT trên địa bản tính Bình Phước trong năm học 2017 — 2018 Tống cộng hơn một xế om dữ liệu của hơn một nghìn học sinh 12, được lưu trỡ trong file Excel:
BANG TONG HỢP KÝT QL A G anh < NAM NAM HOC 2017
TRƯỜNG TIPT PHL RIÊX Khái 12 - Lớp 12A1 - Cá sâm
Tein | Li | His | Sinh Tie | Vin | Se Bie |Ngag?| GDCD | Cagh¿ | TD | COQP| Die TK| Hye | SP Dank hoa
F F Đ E E
Trang 10Quốc gia Thành phố Hồ Chí Minh
Trường - Ngành Nhôm ngành Khói tài Điểm chuẩn 2017
Đại Học F ich E TPHCM Kho tính X +8
lôi + A01 A
Hình 2 Dữ liệu điểm đại học
2.1.2.Thuật toán sử dụng - Chuẩn hóa dữ liệu để đưa vào mô hình Random Forest Regression và cũng là thuật đó
được sử dụng
Khi có điểm tông kết của học sinh khối 12, việc chuẩn hóa dữ liệu được tiên hành như
sau: Loại bỏ những thuộc tính thừa (Môn không tham gia thi tốt nghiệp) Loại bỏ những bán ghi không phù hợp (Những học sinh không đủ điều kiện tham gia thi tốt nghiệp) Đánh số báo danh cho các bản ghi đề phân biệt Làm tròn điểm tông kết của môn học (a): sử dụng hàm mround (a, b) trong excel để làm tròn số đến hàng b và các phép thêm bớt
thích hợp để tạo ra điểm c chính là điểm dùng để huấn luyện
- Tập dữ liệu : Trong hơn một nghìn bản ghi của dữ liệu được đưa vào thí nghiệm, chia
80% để huấn luyện và 20% để kiểm tra Các môn học được chia ra để huấn luyện riêng, mỗi môn một model nhỏ khác nhau, vì tính chất độc lập của từng môn, mỗi học sinh giỏi
một hoặc một số môn này không đồng nghĩa với việc giỏi các môn còn lại - Ví dụ minh họa về xây dựng một cây đô thị theo CART :
Giả sử đối với mon Vat ly, điểm tông kết của các em lần lượt là (9, 8, 8.5, 8.8, 9.4, 9.1) va điểm thi thực tế đạt được lần lượt tương ứng là (7.5, 6, 6.25, 6.5, 7.75, 8)
9>7.5(1) 8>6(2) 8.5 > 6.25 (3) 8.8 > 6.5 (4)
9.4 > 7.75 (5)
9.17 8 (6) Trong đó, công thirc tinh square loss dé tim diém chia tốt nhất là:
SL= Yier(Y; — Be)*+ Die — Bs)?
Ta có bảng tính điểm chia tốt nhất:
Trang 11Ta lập được cây đồ thị như sau:
Ta tiếp tục tính điểm chia tốt nhất đề tính các node tiếp theo trong đồ thị:
Cây đồ thị được vẽ tiếp như sau:
- Các thiết lập: Sử dụng thư viện xlrd dé đọc file excel và thư viện numpy đê thao tác với các máng sô Ví dụ minh họa về đọc dữ liệu:
Trang 12Đọc dữ liệu Tiếp theo, ta tiền hành khởi tạo X chính là dữ liệu độc lập (la điểm tổng kết năm học), còn Y chính là dữ liệu phụ thuộc (là điểm thi tốt nghiệp) lần lượt cho 9 môn học
Khởi tạo biến Tiên hành import module RandomForestRegressor tu thư viện sklearn.ensemble và tạo
các reøressor với các thông sô tương ứng cho các môn học
Các repressor trong chương trình
2.1.3 Kết quả đạt được
Đề đánh giá mô hình, sử dụng hàm RMSE (Root Mean Square Error) tính độ lệch trung bình bình phương theo công thức cải tiên của phương pháp sai số trong tỷ lệ phần trăm MAPE (Mean Absolute Percentage Error):
10
Trang 13Trong do: - Predictedi là kết quả dự đoán cuối cùng của mô hình (trung bình kết quả của các cây
con) của học sinh thứ 1
- Actuali là điểm thi tốt nghiệp thực tế của học sinh thir i
- Nlà số lượng học sinh được dự đoán Khi chọn tham số n_estimator=100 dé cho d6 chinh xac tương đối tốt, với số lượng 100
thì độ chính xác không thay đôi
Ta có kết quả độ lệch của mô hình:
Table I Độ sai số của mô hình (Độ sai số nhỏ nhất là 0 trơng đương độ chính xác
100% Ngoài ra, khi so sánh kết quả với một số phương pháp hồi quy khác, ta thay
II