1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án môn học học máy và ứng dụng đề tài ứng dụng machine learning vào dự đoán chất lượng rượu vang đỏ của bồ đào nha

27 4 2
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng Machine Learning vào dự đoán chất lượng rượu vang đỏ của Bồ Đào Nha
Tác giả Mai Phan Huy, Nguyễn Phúc Tài, Trần Thiện Nhã, Lê Quang Tú
Người hướng dẫn ThS. Võ Thị Hồng Thắm
Trường học Trường Đại học Nguyễn Tất Thành
Chuyên ngành Học máy và ứng dụng
Thể loại Đồ án môn học
Năm xuất bản 2023
Thành phố Tp HCM
Định dạng
Số trang 27
Dung lượng 1,71 MB

Nội dung

LOI MO DAU Vang đỏ là một dạng phố biến của rượu vang được làm từ những loại nho đậm màu.. Theo đó, những chất hóa học có trong vỏ và hạt của trái nho đỏ có tác dụng làm giảm lượng hormo

Trang 1

BO GIAO DUC VA DAO TAO

TRUONG DAI HQC NGUYEN TAT THÀNH

KHOA CONG NGHE THONG TIN

NGUYEN TAT THANH

DO AN MON HOC HOC MAY VA UNG DUNG tén dé tai: Ung dung Machine Learning vào dự đoán chât

lượng rượu vang đỏ của Bồ Dao Nha

Trang 2

BO GIAO DUC VA DAO TAO

TRUONG DAI HQC NGUYEN TAT THÀNH

KHOA CONG NGHE THONG TIN

NGUYEN TAT THANH

DO AN MON HOC HOC MAY VA UNG DUNG ren dai: Ung dung Machine Learning vao dw doan chat

lượng rượu vang đó của Bồ Dao Nha

Sinh viên thực hiện: Nguyễn Phúc Tài

Tp HCM, tháng 08 năm 2023

Trang 3

LOI MO DAU

Vang đỏ là một dạng phố biến của rượu vang được làm từ những loại nho đậm màu Nó

thường được pha trộn giữa màu đỏ, đen, hoặc tím Màu rượu vang phụ thuộc vào màu cảu

vỏ nho và thời gian vỏ nho tiệp xúc với nước ép nho Đây là loại Tượu vang được yêu thích nhất trên thế giới Các giống nho đỏ được trông pho biến hơn các giống nho trắng Vì chất tannin trong rượu vang đỏ Đ1úp rượu có thê lưu trữ lâu hơn rượu vang trăng Phần lớn các bộ sưu tập rượu vang ngon đều là rượu vang đỏ Vang đỏ nặng hơn rượu vang trắng, mặc dù nó không phải lúc nào cũng có nồng độ cồn cao hơn

Điều đặc biệt và hấp dẫn của rượu vang là hàng trăm mùi hương khác nhau của rượu vang đỏ đều đến từ trái nho Rượu vang có những hương vị đặc trưng và hấp dẫn là say mê lòng người như quả anh đào, quả phúc bồn tử, backberry, mật ong Hay mùi g6 soi, mui khói thuốc, bánh mì cháy, mùi da thuộc Các nhà sản xuất rượu vang thường pha trộn giữa các loại nho để tạo ra những hương vị đặc trưng

Vang đỏ được sử dụng rộng rãi và phố biến nhất trong tất cả các dòng rượu vang tại Việt Nam Trên thị trường các loại rượu vang cũng rat đa dạng từ kiêu dáng chủng loại, cùng như xuất xứ Những chai vang đỏ giá chỉ vải trăm nghìn cho đến những chai vang cao cấp có giá vài chục triệu đồng Tuy từng nhu cầu và mục đích sử dụng, khách hàng hoàn toàn có thể lựa chọn cho mình những chai vang phù hợp với túi tiền của mình

LỜI CÁM ƠN

Đầu tiên, em xin gửi lời cảm ơn chân thành đến Trường Đại học Nguyễn Tất Thành đã đưa môn học Học máy và ứng dụng vào trương trình giảng dạy Đặc biệt, em xin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn - cô Võ Thị Hồng Thắm đã dạy dỗ, truyền đạt những kiến thức quý báu cho em trong suốt thời gian học tập vừa qua Trong thời gian

tham gia lớp học của thầy em đã có thêm cho mình nhiều kiến thức bô ích, tỉnh thần học

tập hiệu quả, nghiêm túc Đây chắc chăn sẽ là những kiến thức quý báu, là hành trang đề em có thể vững bước sau này

Bộ môn Học máy và ứng dụng là môn học thu vi, vô cùng bổ ích và có tính thực tế cao

Đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên Tuy nhiên,

do vốn kiến thức còn nhiều hạn chế và khả năng tiếp thu thực tế còn nhiều bỡ ngỡ Mặc

dù em đã cô gắng hết sức nhưng chắc chắn bài tiêu luận khó có thể tránh khỏi những thiếu

sót và nhiều chỗ còn chưa chính xác, kính mong thầy xem xét và góp ý để bài tiêu luận

của em được hoàn thiện hơn

Em xin chan thanh cam on

Trang 4

TRUONG DAI HOC NGUYEN TAT THANH TRUNG TÂM KHẢO THÍ

BM-ChT-

KY THI KET THUC HOC PHAN HOC KY 3 NAM HOC 2021 - 2022 PHIEU CHAM THI TIEU LUAN/DO AN

Lớp học phần: 20DTHI1D Môn thi: Học máy và ứng dụng

Nhóm sinh viên thực hiện : 1 Mai Phan Huy - 5 22 2222222222

2 Nguyễn Phúc Tài 3 Trần Thiện Nhã

4 Lê Quang TÚ ác HH He,

Ngày thị: 25/08/2023

Đề tải tiểu luận/báo cáo của sinh viên :Ứng dụng Machine Learning vào dự đoán chất

lượng rượu vang đỏ của Bồ Đào Nha Phân đánh giá của giảng viên (căn cứ trên thang rubrics của môn học):

Tiêu chí (theo

Diem dat được

Câu trúc của báo cáo

Trang 5

MUC LUC

LỜI MỞ ĐẦU 1 5c 1212212112112 2121121112221 1 1 11g11 a 1 LỜI CÁM ƠN 00c c2 2 02T 12H t2 2221221 H11 ru re 1

2.1.3 K@t qua dat Que ccccsccscsvseesscseesesecsseseesusevsessssesevstssesevssesvsseees 10

2.1.4 Két qua chua dat Gue 00.0 00ccccccccccscsccscesceseesessessceessvsecevesvesessvstsseeevsseeteeees 12 2.2, N@hiém clu nur GOAL ccc 12201212212 211 1125111115111 5 xnxx ke 12

QQ Dee BRU ec cc ccc ccc cccecsessecscssssssssressssressesiessessessvssssessnsasanssrearessssresntevarers 12

2.2.2, Thuật toán sử dụng 0 00 121129111122 HH ke 13

2.2.4 Kết quả chưa đạt được 5c ch 1 run 13

CHƯƠNG IHI -22- 2 S5 E22E15212E1712111171121211211211 2121222212222 1e rei 13 TONG QUAN VE DU LIEU BI THIEU TRONG HỌC MÁY 55s: 13 BaD GiGi Hi ue ee ccc cccecccccecsessessecsecsessessessnsessaresissressesseseesssesesansaesesevasneaneeees 13 3.2 Cac loai dit Hi@u bi thidue ooo cccccccscssceccsveseesessesseseeessestsetesvevsteevevseens 13

3

Trang 6

3.4 Cách ngăn ngừa thiếu dữ liệu 2 TỰ HH HH an 15

4.4 Mô hình dự đoán L0 122211221122 1121115222521 11 152151 kx nh hưu 29

CHU ONG Voi cocccccccccccsssessessessessessesevssvssrsssssscssessessessvssessussessusavesacsuesavssesevsasansevssecenees 35 Kt La eee cece - 5 ST E1 211211212 1 1 HH1 HH0 1 n1 HH ng ty 35

Tài liệu tiếng Anh - nung na 36 300809091

Trang 7

DANH MUC HINH

Hình I Dữ liệu điểm học sinh :¿: 2222222222112 re 8

Hình 2 Dữ liệu điểm đại học 222222222222 0001121211010 9

DANH MUC BANG

Bang 1: Cac nhân tố và thang đo 9 Bảng 2: Các biên nhân khâu 10 Bảng 3:Báng xem xét sự thành công của diễn viên 15 Bảng 4: Cây quyết định dự đoán thời tiết 22

- _ Tên của hình (đồ thị, hình vẽ) đặt ở bên dưới hình (đồ thị, hình vẽ)

ki HIEU CAC CUM TU VIET TAT

Chữ viết tắt Ý nghĩa CSDL Cơ sở dữ liệu ID3 Iterative Dichotomiser 3 WTP Willingness to pay Random Forest Rung ngau nhién

Data Mining Khai phá dữ liệu

CHUONG I Tổng quan đề tài 1.1 Lí do chọn đề tài

- Chất tannin trong vang đỏ đến từ vỏ, hạt hà cuống trái nho Đây là chất tạo ra độ chát đặc trưng của vang đỏ Hễn hợp tannin này cùng với nước, polyphenol và Procyanidins (chat này cũng có trong trà xanh và sô cô la đen) giúp ức chế các mang bam cholesterol xấu trong máu Qua đó tác động tích cực lên tim mạch và kéo dài tuổi thọ

5

Trang 8

Ngoài việc tốt cho tìm mạch thì rượu vang đỏ còn cung cấp nhiều lợi ích cho phái đẹp Cụ

thê rượu vang đỏ có tác dụng: - Uống rượu vang bảo vệ thị lực: Uống rượu vang đỏ ở mức độ vừa phải có thể bảo vệ thị

lực nhờ hợp chất Resveratrol có tác dụng ngăn chặn mạch máu khỏi bị ton hại Nó trực tiếp ngăn chặn sự phát triển các mạch máu bắt thường bên trong cũng như bên ngoài máu Thành phần này con co thê giúp ngăn ngừa các tác động tiêu cực của lối sống ít vận động Như công việc ngôi một chỗ của nhân viên văn phòng, hoặc tính trạng không trọng lượng của các phi hành gia

- Uống rượu vang ngăn ngừa bệnh ung thư: Uống vang đỏ thường xuyên và điều độ giúp ngăn ngừa giảm nguy cơ ung thư vú ở phụ nữ Theo đó, những chất hóa học có trong vỏ và hạt của trái nho đỏ có tác dụng làm giảm lượng hormon eoesfrogen và tăng cường hormone testosterone cua phụ nữ thời kỳ mãn kinh

- Uống Tượu vang đỏ tốt cho hệ tim mạch: Các thành phần Polyphenol của vang đỏ có thể ức chế quá trình tông hợp một loại protein liên quan tới bệnh tìm mạch Nó có tác dụng chống oxi hóa, ngăn chặn tác hại gây bệnh của các gốc tự do.Polyphenol chống được bệnh tim nhờ khá năng ức chế sản xuất Endothelin-1 (một loại protein gây co mạch máu, làm giảm lượng oxy tới tim và đóng vai trò chủ chốt trong bệnh mach vành) Polyphenol nằm trong vỏ quả nho và vì vậy, chỉ riêng rượu vang đỏ có đặc tính chồng bệnh tim Dùng vang đỏ một cách điều độ làm giảm tỷ lệ tử vong do tim mạch đến dưới 40% Nó có 3 cơ chế tác dụng: Chống oxy hóa, giãn mạch, chống huyết khối Màng quả nho và hạt mầm chứa nhiều polyphenol Thành phần rượu (alool etylic) giup polyphenol hap thu dé dang qua ruột non, nồng độ polyphenol trong rượu nho gấp 3-4 lần ở nước ép quả nho; Do đó hoạt tính của rượu vang hơn hăn (so với ăn nho) rượu vang đỏ có nhiều triển vọng để

phòng chữa xơ vữa động mạch, ung thư, bệnh do virus, sa sút trí tuệ

- Uống rượu vang đỏ tốt cho phổi: Một hợp chất tự nhiên có trong vang đỏ là Resveratrol có thê giúp chông lại bệnh phôi kinh niên và khí thủng ( có không khí trong mô) Chât này có trong nho đỏ đóng vai trò làm giảm chất hóa học trong phối Đây là nguyên nhân chính gây ra bệnh viêm phôi Khi tiém resveratrol vào các mẫu thử chất lưu trong phối của những người hút thuốc lá và những bệnh nhân bị chứng tắc phối kinh niên Nó làm giảm interleukin 8 (một tác nhân gây ra chứng viêm phối)

- Uống rượu vang đỏ tốt cho hệ tiêu hóa: Uống vang đỏ mỗi ngày còn tốt cho lợi khuẩn đường ruột sông ở niêm mạc ruột già Vang đỏ có thê hợp chất chống oxy hóa polyphenol có nhiều trong rượu vang đỏ Đã ảnh hưởng đến sự cân bằng các loại vi khuân đường ruột Được biết, một số tác dụng có lợi khác của hợp chất polyphenol được chứng minh Như giảm huyết áp, giảm triglyceride, tăng cholesterol HDL (cholesterol có lợi cho sức khỏe)

- Ngoài ra, vang đỏ còn có rất nhiều tác dụng đối với sức khỏe con người như: giảm độ

béo phì, điều hòa huyết áp, kéo dài tuổi thọ, tốt cho da

Trang 9

1.2 Mục tiêu nghiên cứu - Từ nội dung được nêu trong phần tổng quan, sinh viên xác định mục tiêu nghiên cứu của đồ án là: “ Ứng dụng thuật toán Rừng ngẫu nhiên (Random Forests) vào phân loại chat

lượng rượu vang đỏ ”

1.3 Đối tượng nghiên cứu - Rượu vang đỏ - P Cortez, A Cerdeira, F Almeida, T Matos va J Reis M6 hinh hoa - sở thích rượu vang băng cách khai thác dữ liệu từ các đặc tính hóa lý Trong Hệ thông Hỗ trợ Quyết định, Elsevier, 47(4):547-553, 2009

CHƯƠNG II Các nghiên cứu liên quan

2.1.Nghiên cứu trong nước 2.1.1 Dữ liệu

Dữ liệu vào của hệ thống là điểm tong kết các môn học của học sinh khối 12 của một số

trường THPT trên địa bản tính Bình Phước trong năm học 2017 — 2018 Tống cộng hơn một xế om dữ liệu của hơn một nghìn học sinh 12, được lưu trỡ trong file Excel:

BANG TONG HỢP KÝT QL A G anh < NAM NAM HOC 2017

TRƯỜNG TIPT PHL RIÊX Khái 12 - Lớp 12A1 - Cá sâm

Tein | Li | His | Sinh Tie | Vin | Se Bie |Ngag?| GDCD | Cagh¿ | TD | COQP| Die TK| Hye | SP Dank hoa

F F Đ E E

Trang 10

Quốc gia Thành phố Hồ Chí Minh

Trường - Ngành Nhôm ngành Khói tài Điểm chuẩn 2017

Đại Học F ich E TPHCM Kho tính X +8

lôi + A01 A

Hình 2 Dữ liệu điểm đại học

2.1.2.Thuật toán sử dụng - Chuẩn hóa dữ liệu để đưa vào mô hình Random Forest Regression và cũng là thuật đó

được sử dụng

Khi có điểm tông kết của học sinh khối 12, việc chuẩn hóa dữ liệu được tiên hành như

sau: Loại bỏ những thuộc tính thừa (Môn không tham gia thi tốt nghiệp) Loại bỏ những bán ghi không phù hợp (Những học sinh không đủ điều kiện tham gia thi tốt nghiệp) Đánh số báo danh cho các bản ghi đề phân biệt Làm tròn điểm tông kết của môn học (a): sử dụng hàm mround (a, b) trong excel để làm tròn số đến hàng b và các phép thêm bớt

thích hợp để tạo ra điểm c chính là điểm dùng để huấn luyện

- Tập dữ liệu : Trong hơn một nghìn bản ghi của dữ liệu được đưa vào thí nghiệm, chia

80% để huấn luyện và 20% để kiểm tra Các môn học được chia ra để huấn luyện riêng, mỗi môn một model nhỏ khác nhau, vì tính chất độc lập của từng môn, mỗi học sinh giỏi

một hoặc một số môn này không đồng nghĩa với việc giỏi các môn còn lại - Ví dụ minh họa về xây dựng một cây đô thị theo CART :

Giả sử đối với mon Vat ly, điểm tông kết của các em lần lượt là (9, 8, 8.5, 8.8, 9.4, 9.1) va điểm thi thực tế đạt được lần lượt tương ứng là (7.5, 6, 6.25, 6.5, 7.75, 8)

9>7.5(1) 8>6(2) 8.5 > 6.25 (3) 8.8 > 6.5 (4)

9.4 > 7.75 (5)

9.17 8 (6) Trong đó, công thirc tinh square loss dé tim diém chia tốt nhất là:

SL= Yier(Y; — Be)*+ Die — Bs)?

Ta có bảng tính điểm chia tốt nhất:

Trang 11

Ta lập được cây đồ thị như sau:

Ta tiếp tục tính điểm chia tốt nhất đề tính các node tiếp theo trong đồ thị:

Cây đồ thị được vẽ tiếp như sau:

- Các thiết lập: Sử dụng thư viện xlrd dé đọc file excel và thư viện numpy đê thao tác với các máng sô Ví dụ minh họa về đọc dữ liệu:

Trang 12

Đọc dữ liệu Tiếp theo, ta tiền hành khởi tạo X chính là dữ liệu độc lập (la điểm tổng kết năm học), còn Y chính là dữ liệu phụ thuộc (là điểm thi tốt nghiệp) lần lượt cho 9 môn học

Khởi tạo biến Tiên hành import module RandomForestRegressor tu thư viện sklearn.ensemble và tạo

các reøressor với các thông sô tương ứng cho các môn học

Các repressor trong chương trình

2.1.3 Kết quả đạt được

Đề đánh giá mô hình, sử dụng hàm RMSE (Root Mean Square Error) tính độ lệch trung bình bình phương theo công thức cải tiên của phương pháp sai số trong tỷ lệ phần trăm MAPE (Mean Absolute Percentage Error):

10

Trang 13

Trong do: - Predictedi là kết quả dự đoán cuối cùng của mô hình (trung bình kết quả của các cây

con) của học sinh thứ 1

- Actuali là điểm thi tốt nghiệp thực tế của học sinh thir i

- Nlà số lượng học sinh được dự đoán Khi chọn tham số n_estimator=100 dé cho d6 chinh xac tương đối tốt, với số lượng 100

thì độ chính xác không thay đôi

Ta có kết quả độ lệch của mô hình:

Table I Độ sai số của mô hình (Độ sai số nhỏ nhất là 0 trơng đương độ chính xác

100% Ngoài ra, khi so sánh kết quả với một số phương pháp hồi quy khác, ta thay

II

Ngày đăng: 04/09/2024, 17:50

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w