Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
7,08 MB
Nội dung
ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU Đề tài: PHÂN TÍCH BỘ DỮ LIỆU WINE QUALITYWHITE QUA CÁC THUẬT TOÁN TRÊN ORANGE Giảng viên: TS.GVC Nguyễn Quốc Hùng Mã lớp học phần: 22C1INF50905963 Nhóm thực hiện: Nhóm 03 Nguyễn Thị Ngọc Ánh - 31211021708 (Trưởng nhóm) Nguyễn Thị Ngọc Cẩm - 31211026212 Diệp Thanh Quý - 31211023401 TP Hồ Chí Minh, tháng 10 năm 2022 MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG BIỂU LỜI MỞ ĐẦU BẢNG PHÂN CÔNG CÁC THÀNH VIÊN .7 Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU 1.1.1 Dữ liệu gì? 1.1.2 Tổng quan Khoa học liệu 1.1.3 Khoa học liệu phát triển .10 1.1.4 Ứng dụng Khoa học liệu 11 1.2 GIỚI THIỆU ĐỀ TÀI 13 Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG .14 2.1 CÁC PHƯƠNG PHÁP CỦA EXCEL .14 2.1.1 Phương pháp thống kê mô tả 14 2.1.1.1 Thống kê công cụ Descriptive statistics .14 2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal 15 2.1.1.3 Hợp liệu với Consolidate 16 2.1.1.4 Tổng hợp liệu đa chiều với PivotTable 18 2.1.2 Phương pháp phân tích dự báo 19 2.1.2.1 Phương pháp trung bình trượt (Moving average): 19 2.1.2.2 Phương pháp san mũ (Exponential Smoothing): 20 2.1.2.3 Phương pháp hồi quy (Regression) 21 2.1.3 Phương pháp phân tích tối ưu 23 2.2 TỔNG QUAN VỀ ORANGE 26 2.2.1 Mô tả 26 2.2.2 Chức .26 2.2.2.1 Nhóm Data .26 2.2.2.4 Nhóm Evaluate 31 2.2.2.5 Nhóm Unsupervised 31 2.2.2.6 Nhóm educational 31 2.3 PHÂN LỚP DỮ LIỆU (HỌC CÓ GIÁM SÁT) .31 2.3.1 Bài toán phân lớp liệu 31 Báo cáo đồ án học phần Khoa học liệu (DS) 2.3.1.1 Giới thiệu .31 2.3.1.2 Quá trình phân lớp liệu ứng dụng .31 2.3.2 Một số phương pháp phân lớp 32 2.3.2.1 Hồi quy Logistic (Logistic Regression) 32 2.3.2.2 Cây định (Decision Tree) 32 2.3.2.3 SVM (Support Vector Machine) 33 2.3.3 Các phương pháp đánh giá mô hình phân lớp 34 2.3.3.1 Ma trận nhầm lẫn (Confusion matrix) 34 2.3.3.2 Phân chia liệu Hold-out 35 2.3.3.3 K-fold cross validation 35 2.4 PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU (HỌC KHÔNG GIÁM SÁT) .35 2.4.1 Bài toán phân cụm liệu 35 2.4.2 Các phương pháp phân cụm thường dùng 35 2.4.2.1 Phân cụm theo phân cấp (Hierarchical clustering) 35 2.4.2.2 Phân cụm phân hoch (Partitioning Clustering) 36 2.4.3 Các phương pháp đánh giá phân cụm liệu 36 2.4.3.1 Đánh giá (external validation) 36 2.4.3.2 Đánh giá nội (internal validation) 37 2.4.3.3 Đánh giá tương đối (relative validation) .37 2.4.4 Minh họa mơ hình phân cụm orange 37 Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 38 3.1 PHÂN TÍCH DỮ LIỆU .38 3.1.2 Tiền xử lý liệu 38 Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 58 4.1 NHỮNG CÔNG VIỆC ĐÃ THỰC HIỆN 58 4.1.1 Tóm tắt 58 4.1.2 Kết luận .58 4.2 TRONG TƯƠNG LAI VÀ SỰ PHÁT TRIỂN 58 4.3 KHUYẾN NGHỊ 59 TÀI LIỆU THAM KHẢO .60 Báo cáo đồ án học phần Khoa học liệu (DS) DANH MỤC HÌNH ẢNH Hình 1: Hộp thoại Subtotal 17 Hình 2: Hộp thoại Consolidate 18 Hình 3: Hộp thoại Create PivotTable 19 Hình 4: Số liệu bán hàng tháng siêu thị ABC hộp thoại Moving Average .20 Hình 5: Lượng thịt bị bán tháng hộp thoại Exponential Smoothing 21 Hình 6: Doanh thu chi phí 22 Hình 7: Hộp thoại Regresstion .23 Hình 8: Kết hồi quy 24 Hình 9: Số liệu dự án phân tích tối ưu 24 Hình 10: Thiết lập bảng tính Excel 25 Hình 11: Hộp thoại Solver Parameters 25 Hình 12: Hộp thoại Solver Results 26 Hình 13: Khung cửa sổ File 27 Hình 14: Ví dụ q trình phân tích liệu bắt đầu với tiện ích File nhóm Data 28 Hình 15: Khung cửa sổ Datasets 28 Hình 16: Khung cửa sổ Data Table 29 Hình 17: Khung cửa sổ Data Info 30 Hình 18: Khung cửa sổ Tree Viewer .30 Hình 20: Ví dụ định .33 Hình 21: Ví dụ ma trận nhầm lẫn 34 Hình 22: Minh họa mơ hình phân cụm orange 37 Hình 1: Các bước thực tiền xử lý 39 Hình 2: Lấy liệu Wine quality- White Datasets .39 Hình 3: Dữ liệu Wine quality- White 40 Hình 4: Xử lý liệu Preprocess 40 Hình 5: Dữ liệu sau tiền xử lý 41 Hình 6: Chuyển kiểu liệu Categorical 41 Hình 7: Làm ẩn biến “quality” .42 Hình 8: Chuyển sang biến Tốt Không tốt 42 Hình 9: Đánh giá rượu trắng theo thang 10 44 Hình 10: Biểu đồ đánh giá rượu vang trắng 44 Hình 11: Biểu đồ thể tính axit cố định 45 Hình 12: Biểu đồ thể tính axit dễ bay .46 Báo cáo đồ án học phần Khoa học liệu (DS) Hình 13: Biểu đồ thể nồng độ axit xitrid 46 Hình 14: Biểu đồ thể lượng đường dư 47 Hình 15: Biểu đồ thể lượng muối clorua 48 Hình 16: Biểu đồ thể số SO2 tự 48 Hình 17: Biểu đồ thể tổng lượng SO .49 Hình 18: Biểu đồ thể tỷ trọng rượu vang trắng .50 Hình 19: Biểu đồ thể nồng độ pH 50 Hình 20: Biểu đồ thể nồng độ Sunfat .51 Hình 21: Thực lấy 70% liệu 52 Hình 22: Thực lấy 30% liệu 52 Hình 23: Loại bỏ biến “ Đánh giá” 30% liệu 53 Hình 24: Đưa liệu vào thực phân lớp liệu 53 Hình 25: Kết ma trận nhằm lẫn phương pháp định 54 Hình 26: Chuyển biến mục tiêu biến “Đánh giá” 54 Hình 27: Kết ma trận nhầm lẫn phương pháp SVM .55 Hình 28: Kết ma trận nhầm lẫn phương pháp hồi quy 55 Hình 29: Kết phân tích ROC biến “Tốt” 56 Hình 30: Kết phân tích ROC biến “Khơng tốt” 56 Hình 31: Mơ hình sau hồn thành phân lớp liệu Orange 57 Hình 32: Dự báo kết Predictions 57 Hình 33: Kết dự báo Table .58 Báo cáo đồ án học phần Khoa học liệu (DS) DANH MỤC BẢNG BIỂU Bảng 1: Số liệu bán hàng tháng 11 cửa hàng XYZ 14 Bảng 2: Kết thống kê công cụ Descriptive Statistics 15 Bảng 3: Số liệu số lượng hàng nhân viên bán tháng 12 15 Bảng 4: Bảng tổng hợp số hàng mà nhân viên bán 16 Bảng 5: Doanh thu mặt hàng 17 Bảng 6: Bảng hợp doanh thu mặt hàng 17 Bảng 7: : Dữ liệu hàng nhập tháng 12 18 Bảng 1: Các biến liệu 41 Bảng 2: Thống kê chất lượng rượu 41 Bảng 3: Thống kê lượng đánh giá 42 Bảng 4: Thống kê tính axit cố định (Fixed acidity) 43 Bảng 5: Thống kê tính axit dễ bay (volatile acidity) 43 Bảng 6: Thống kê lượng axit xitric (Citric Acid) 44 Bảng 7: Thống kê lượng đường dư (Residual sugar) .45 Bảng 8: Thống kê lượng muối clorua (Chlorides) 45 Bảng 9: Thống kê Lưu huỳnh đi-oxit tự – SO 2 (Free sulfur dioxide) 46 Bảng 10: Thống kê tổng SO 2 (Total sulfur dioxide) .47 Bảng 11: Thống kê tỷ trọng (Density) 47 Bảng 12: Thống kê độ pH 48 Bảng 13: Thống kê nồng độ Sunfat (Sulphates) rượu 49 Bảng 14: Thống kê nồng độ Alcohol .49 Báo cáo đồ án học phần Khoa học liệu (DS) LỜI MỞ ĐẦU Trong thời đại mà người sử dụng, tương tác với internet nhiều nay, với công số hóa nhiều doanh nghiệp lựa chọn sử dụng liệu để phân tích đưa định, nắm bắt chủ động trước xu hướng phát triển, rút ngắn trình đổi Với lý đó, sinh viên thời đại hội nhập, chuyển đổi số hiểu rõ vai trò Khoa học liệu, ngành thiết yếu thời đại Thật may mắn với sinh viên chúng tơi có hội tiếp xúc với Khoa học liệu chương trình học tập trường khơng sở lý thuyết mà cịn thực hành liệu có phần mềm Orange Điều giúp tơi hiểu rõ cách sử dụng, phân tích liệu phần mềm hoàn thiện kiến thức Khoa học liệu Chúng tơi cảm ơn thầy thầy TS Nguyễn Quốc Hùng giúp đỡ, định hướng đưa lời khuyên để hồn thành dự án tốt với khả suốt trình thực dự án Sau đây, chúng tơi xin trình bày lý lựa chọn đề tài Rượu vang biết đến thức uống có cồn, có hương vị đặc sắc, đa dạng, có loại mang hương vị hoa thơm mát, hay vị chua nồng, có lại mang hương gỗ nhè nhẹ Những hương vị ngâm ủ loại nho khác điều kiện thích hợp, yếu tố ảnh hưởng đến hương vị rượu vang trắng Chúng tơi sử dụng cơng cụ để phân tích liệu Datasets để đánh giá mức độ ảnh hưởng yếu tố khác đến chất lượng rượu vang trắng độ axit cố định, độ axit dễ bay hơi, axit xitric, lượng đường dư, clo, lưu huỳnh đioxit tự do, tổng lưu huỳnh đioxit, tỷ trọng, pH, hàm lượng sunfat, nồng độ cồn đến chất lượng rượu vang Từ đó, đưa nhận xét đắn chất lượng rượu, đồng thời tìm hiểu yếu tố tác động đến chất lượng rượu vang trắng Để nhà sản xuất có điều chỉnh lên q trình sản xuất thành phẩm rượu vang phù hợp với yêu cầu người tiêu dùng định hướng sản xuất sản phẩm rượu vang theo mong muốn nhà sản xuất Với tìm hiểu nghiêm túc tất kiến thức học môn Khoa học liệu, áp dụng phương pháp phân tích liệu để xây dựng nên mơ hình đánh giá chất lượng rượu vang sở liệu từ liệu Wine quality-white Từ đó, nhóm tìm hiểu nhân tố ảnh hưởng đến chất lượng rượu vang đưa đánh giá đắn chúng Dưới báo cáo kết dự án đánh giá chất lượng rượu vang từ liệu Wine quality - white Trong trình thực dự án, tránh khỏi Báo cáo đồ án học phần Khoa học liệu (DS) sai sót, chúng tơi mong nhận góp ý thầy để phần báo cáo kết đồ án kết thúc mơn học hồn thiện Báo cáo đồ án học phần Khoa học liệu (DS) BẢNG PHÂN CÔNG CÁC THÀNH VIÊN TT Họ tên Công việc phụ trách 1.1 Giới thiệu Khoa học liệu 2.1.3 Phương pháp phân tích Nguyễn Thị Ngọc Ánh tối ưu (Trưởng nhóm) 2.3 Phân lớp liệu Chương 4.3 Khuyến nghị Lời mở đầu 2.1.2 Phương pháp phân tích dự báo Nguyễn Thị Ngọc Cẩm 2.2 Tổng quan ORANGE Chương 4.2 Khoa học liệu tương lai phát triển 1.2 Giới thiệu đề tài 2.1.1 Phương pháp thống kê mô tả Diệp Thanh Quý 2.4 Phân cụm liệu Chương 4.1 Những công việc thực Mức độ hoàn thành 100% 100% 100% Báo cáo đồ án học phần Khoa học liệu (DS) Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU 1.1.1 Dữ liệu gì? Ngành Khoa học liệu ngành có tiềm không mà tương lai công ty cần đến Đối tượng làm việc ngành liệu Dữ liệu (Data) tập hợp kiện, chẳng hạn số, từ, hình ảnh, nhằm đo lường, quan sát mô tả vật Những thứ đơn giản quanh ta đất, nước, lửa, gió, bão, chứa đựng thông tin liên quan đến chúng Hay ghi ghép lại giấy từ thời xa xưa, nét khắc chữ, hình gỗ, đá lưu trữ đến bây giờ, cho thấy văn minh nhân loại từ cổ chí kim Tất liệu, theo thời gian lượng liệu có nhiều hơn, người lại có nhu cầu lưu trữ lại liệu nhiều mà lại dễ tìm, khó bị Máy tính phát minh năm 1936 nhằm phục vụ nhu cầu lưu trữ lượng liệu người, sau Internet điện thoại thơng minh lưu trữ lượng lớn liệu có hệ thống giúp người dùng dễ dàng sử dàng sử dụng tìm kiếm Trong tại, thu thập liệu từ nhiều nguồn nhiều cách khác nhau: lấy từ nguồn có sẵn mạng xã hội Facebook, Tik Tok, ; từ quan nhà nước; tự thu thập thông tin cách vấn khách hàng hay khảo sát nhiều tảng khác nhau, Đối với cơng ty liệu trở thành yếu tố quan trọng, tài sản q cơng ty cần có giúp giải toán nhiều lĩnh vực từ kinh doanh đến ngành nghề khác y tế, khoa học, giáo dục, truyền thông, Không vậy, liệu sử dụng, xử lý áp dụng hợp lý bước đẩy doanh nghiệp hơn, giúp doanh nghiệp dự đốn thị trường dễ dàng hơn, có định xác Vào tháng 1/2021, số người sử dụng internet toàn giới đạt 4,66 tỉ người, tăng 316 triệu người (7,3%) so với kỳ năm ngối Hiện tại, tỷ lệ sử dụng internet tồn cầu 59,5% Tuy nhiên, bùng phát Covid-19 ảnh hưởng khơng nhỏ đến số lượng người dùng internet Vì vậy, số thực tế cao Thơng qua số, nói lên nhu cầu cần có liệu người tăng dần, phổ biến liệu trải rộng khắp giới Sự phát triển xã hội không ngừng, tiến tới cách mạng thay đổi xã hội, bùng nổ sau cách mạng công nghệ 4.0 tạo nhiều đổi liệu Sự xuất Dữ liệu lớn (Big Data), nơi tập hợp liệu có quy mơ lớn, mang tính phong phú biến động nhanh Hiện Big Data không chịu 10 Báo cáo đồ án học phần Khoa học liệu (DS) Bảng 7: Thống kê lượng đường dư (Residual sugar) Lượng đường dư rượu trắng -> 10 > 10 24.36% 75.64% Hình 14: Biểu đồ thể lượng đường dư Lượng đường dư rượu trắng phần lớn mức 0-10 g/l với số lượng 3705 chiếm tỷ lệ lớn 75.64% Còn lại liệu với lượng đường có rượu 10 g/l với số lượng 1193 chiếm 24.36% Chlorides Số lượng Phần trăm 564 11.51% → 0.03 3171 64.74% 0.031 → 0.05 > 0.05 1163 23.75% 47 Báo cáo đồ án học phần Khoa học liệu (DS) Lượng muối clorua rượu Bảng 8: Thốngvang kê lượng muối clorua (Chlorides) trắng 3500 3000 2500 2000 1500 1000 500 Lượng 64.74% 23.75% 11.51% -> 0.03 0.031 -> 0.05 > 0.05 Số lượng Hình 15: Biểu đồ thể lượng muối clorua muối clorua rượu vang trắng, qua 4898 liệu có 3171 liệu chứa hàm lượng muối từ 0.031-0.05 với tỷ lệ cao 64.74% Hàm lượng lớn 0.05 chiếm 23.75%, hàm lượng thấp từ 0-0.03 có tỷ lệ thấp 11.51% Lưu huỳnh đi-oxit tự – SO2 (Free sulfur Số lượng Phần trăm dioxide) 01 → 30 2071 42,28% 30,5 → 80 2777 56,70% >80 50 1,02% Bảng 9: Thống kê Lưu huỳnh đi-oxit tự – SO 2 (Free sulfur dioxide) Chỉ số SO2 tự có rượu trắng 1,02% 42,28% 01 -> 30 30,5 → 80 >80 56,70% Hình 16: Biểu đồ thể số SO2 tự Ở số Lưu huỳnh đi-oxit tự do, nồng độ từ 01-30 mg/l có số lượng 2071 chiếm 42.28% Nồng độ từ 30.5-80 mg/dm3 với số lượng 2777 chiếm 56.7% tổng số 48 Báo cáo đồ án học phần Khoa học liệu (DS) lượng sữ liệu phân tích Với nồng độ 80 mg/l, có 50 mẫu liệu thỏa mãn kết chiếm 1.02% tổng số Từ số liệu trên, ta thấy với mức nồng độ, hai mức nồng độ từ 01-30 30.5-80 không cách biệt lớn Mức 80% chiếm số lượng nhỏ tổng số 4898 liệu đem phân tích Tổng SO2 - Total Số lượng Phần trăm sulfur dioxide ≤ 200 4507 92,02% >20 391 7,98% Bảng 10: Thống kê tổng SO2 (Total sulfur dioxide) Tổng SO2 có rượu trắng 0.0798 0.9202 ≤ 200 >200 Hình 17: Biểu đồ thể tổng lượng SO Thơng thường chai rượu vang trắng có tổng nồng độ Lưu huỳnh đi-oxit 200mg/l Theo tiêu chuẩn Hoa Kỳ, nồng độ lưu huỳnh đi-oxit an toàn từ 10mgl đến 350mg/l SO 2 có rượu trắng phần lớn mức nhỏ 200 với tỷ lệ 92.02% Mức lớn 200 nhỏ 391/4898 chiếm tỷ lệ 8% Mặc dù chưa vượt khỏi ngưỡng an tồn số lượng rượu vang có nồng độ lớn 200mg/l Density Số lượng 0.98711 → 0.9938 0.99382 → 1.00295 1695 3203 Phần trăm 34.61% 65.39% Bảng 11: Thống kê tỷ trọng (Density) 49 Báo cáo đồ án học phần Khoa học liệu (DS) Tỷ trọng 34.61% 65.39% 0.98711 -> 0.9938 0.99382 -> 1.00295 Hình 18: Biểu đồ thể tỷ trọng rượu vang trắng Bảng thống kê thể khối lượng riêng rượu trắng phần lớn chiếm từ 0.99382 → 1.00295 với tỷ lệ 65.39%, lại với mẫu liệu rượu có khối lượng riêng từ 0.98711 → 0.9938 chiếm tỷ lệ 34.61% pH < 3.0 3.0 →3.3 >3.3 Số lượng 438 3455 1005 Phần trăm 8,94% 70,54% 20,52% Bảng 12: Thống kê độ pH Độ pH rượu trắng >3.3 20.52% 3.0 →3.3 70.54% < 3.0 8.94% 500 1000 1500 2000 2500 3000 3500 4000 Phần trăm Hình 19: Biểu đồ thể nồng độ pH Từ biểu đồ trên, ta nhận thấy rằng: + Độ pH rượu trắng phần lớn dao động mức 3-3.3 với tỷ lệ 70.54% Đây độ pH lý tưởng thành phẩm rượu vang, nhiều nhà sản xuất lựa chọn + Mẫu có độ pH 3.3 chiếm khoảng 20.52% Cịn lại liệu có độ pH 3.0 với tỷ lệ 8.94% 50 Báo cáo đồ án học phần Khoa học liệu (DS) Những thành phẩm có độ pH thấp cao vùng pH từ 3-3.3 bị ảnh hưởng đến chất lượng rượu vang Sulphates Số lượng Phần trăm < 0.5 2800 57,17% 0.5 → 2098 42,83% Bảng 13: Thống kê nồng độ Sunfat (Sulphates) rượu Nồng độ Sulphates rượu trắng 43% 57% < 0.5 0.5 → Hình 20: Biểu đồ thể nồng độ Sunfat Đối với rượu trắng điển hình có 1g/l, 0.5g/l tốt cho người sử dụng Ở tiêu nồng độ Sulphates, mức nồng độ 0.5 g/l có tỷ lệ 57% với số lượng 2800 liệu Không chệnh lệch lớn với mức nồng độ 0.5, mức 0.5-1 chiếm tỷ lệ lớn với 2098 liệu có tỷ lệ 42.83% Alcohol Số lượng Phần trăm → 14 4896 99,96% > 14 0,04% Bảng 14: Thống kê nồng độ Alcohol Nồng độ cồn (Alcohol) rượu vang trắng thay đổi từ 5% đến 14%, trung bình mức 10% Nhìn vào bảng số liệu, nồng độ alcohol rượu vang trắng dao động từ 5-14 với tỷ lệ gần tuyệt đối 99.96% Với tỷ lệ ta bỏ qua nồng độ 14 liệu Wine quality white công nhận liệu có nồng độ alcahol dao động từ đến 14 3.2 THỰC HIỆN PHÂN LỚP DỮ LIỆU VÀ KẾT QUẢ 51 Báo cáo đồ án học phần Khoa học liệu (DS) Từ file liệu xử lý tiền liệu trước có tên: winequality-white, ta tiếp tục sử dụng Data Sampler để tiến hành lấy mẫu huấn luyện 70% phục vụ cho việc phân lớp liệu Sau dùng Data Save để lưu lại với tên: Hình 21: Thực lấy 70% liệu winequalitywhite_Data Sử dụng Data Sampler để tiến hành lấy mẫu thử nghiệm Lấy 30% mẫu liệu từ file liệu xử lý tiền liệu trước Hình 22: Thực lấy 30% liệu 52 Báo cáo đồ án học phần Khoa học liệu (DS) Từ Data Sampler với liệu lấy 30%, loại bỏ liệu biến “Đánh giá” để tiến hành thử nghiệm cách dùng Select Columns để loại bỏ Sau chọn Save để lưu liệu tên: winequality-white_Forecast Hình 23: Loại bỏ biến “ Đánh giá” 30% liệu Lấy liệu 70% tước tên winequality-white_Data trích xuất từ liệu tiền xử dùng để đưa vào File Training Dùng kết Training dùng để làm đầu vào cho Test and Score Hình 24: Đưa liệu vào thực phân lớp liệu 53 Báo cáo đồ án học phần Khoa học liệu (DS) Kéo xuống mục 12 “Đánh giá” đưa vào biến mục tiêu (target), sau chọn Apply, liệu truyền xử lý theo mơ hình phân lớp hồi quy Cây định (Tree), Hồi quy Logistic (Logistic Regression) SVM Từ Test and Score tạo liên kết phía bên phải với đầu Ma trận nhầm lẫn (Confussion Matrix) Phân tích ROC (ROC Analysis) Hình 25: Chuyển biến mục tiêu biến “Đánh giá” Hình 26: Kết ma trận nhằm lẫn phương pháp định 54 Báo cáo đồ án học phần Khoa học liệu (DS) Hình 27: Kết ma trận nhầm lẫn phương pháp SVM Hình 28: Kết ma trận nhầm lẫn phương pháp hồi quy Nhận xét: Tại phương pháp Confusion Matrix, kết cần quan sát số rượu vang trắng “Tốt”, mơ hình tin tưởng mơ hình có tỷ lệ dự đốn lớn rượu vang trắng “Tốt” Ở phương pháp hồi quy có tỷ lệ sai lầm loại sai lầm loại 40,7% 18,4% Ở tỷ lệ sai lầm loại nhỏ phương pháp, lựa chọn phương pháp hồi quy phù hợp 55 Báo cáo đồ án học phần Khoa học liệu (DS) Hình 29: Kết phân tích ROC biến “Khơng tốt” Hình 30: Kết phân tích ROC biến “Tốt” Một mơ hình hiệu có tỉ lệ dự báo false positive rate (FPR) thấp tỉ lệ dự báo true positive rate (TPR) cao, hay ROC tiệm cận với điểm (0;1) đồ thị mơ hình hiệu Trong hai đồ thị “Tốt” đồ thị “Khơng tốt”, ta quan sát mơ hình hồi quy có đường cong tiệm cận đường thẳng (0;1) nhất, khẳng định mơ hình hiệu Kết luận: Mơ hình Logistic Regression mơ hình hiệu nhất: AUC (Area Under the Curve), phần diện tích đường ROC lớn Do giá trị lớn mơ hình hiệu 56 Báo cáo đồ án học phần Khoa học liệu (DS) Đường ROC tiệm cận với đường (0;1) Có CA (Accuracy) hay tính xác cao Có sai lầm loại thấp Sau đánh giá hiệu mơ hình phân lớp, với hiệu tốt mơ hình Logistic Regression chọn dùng để dự báo Sử dụng liệu winequality-white_Forecast.xlsx để dùng làm tập thử nghiệm sau cho nghiên cứu Sau đó, dùng cơng cụ Predictions dự báo kết theo phương pháp Logistic Hình 31: Mơ hình sau hồn thành phân lớp liệu Orange Regression 57 Báo cáo đồ án học phần Khoa học liệu (DS) Dưới kết dự báo hiển thị Table: Hình 33: Kết dự báo Table Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 58 Báo cáo đồ án học phần Khoa học liệu (DS) 4.1 NHỮNG CÔNG VIỆC ĐÃ THỰC HIỆN 4.1.1 Tóm tắt Nhóm làm đồ án với mục đích tìm cách dự báo chất lượng loại rượu vang trắng việc phân tích sở liệu Wine quality-white Wine quality-white sở liệu lấy từ Đại học Minho thuộc Bồ Đào Nha năm 2009 Nhóm xây dựng mơ hình để dự báo chất lượng loại rượu vang trắng tốt hay không tốt tính dựa thang điểm từ 0-6 khơng tốt từ 7-10 tốt Đồng thời tìm hiểu mối tương quan chất lượng rượu với 11 yếu tố khác tính axit cố định, tính axit dễ bay hơi, pH, lượng đường dư, Thực lấy mẫu liệu xong, huấn luyện liệu phân lớp liệu phương pháp phân lớp khác nhau, nhóm bắt đầu đánh giá phương pháp phân lớp để có phương pháp tối ưu Ở nghiên cứu này, nhóm tìm phương pháp phân lớp hồi quy logistics có tính xác cao để tiến hành dự đoán chất lượng rượu vang trắng tốt hay không tốt 4.1.2 Kết luận Mục tiêu ban đầu nhóm đặt dự đốn chất lượng rượu vang trắng tốt hay không tốt đạt Các tảng lý thuyết đề chương áp dụng để xây dựng mơ hình dự đốn để đảm bảo ước tính từ phân tích xác có tính quán cao 4.2 TRONG TƯƠNG LAI VÀ SỰ PHÁT TRIỂN Rượu vang văn hóa lâu đời xuất phát từ phương Tây, vừa thức uống giải trí vừa có lợi ích cho sức khỏe uống lượng vừa phải Nó khơng mang ý nghĩa lịch sử mà minh chứng cho sáng tạo người xưa Hiện nay, với sáng tạo máy móc đại, ngành rượu vang hoạt động kinh doanh sinh lợi nhuận Tiềm ngành sản xuất đồ uống có cồn ln lớn, với cạnh tranh khốc liệt nhà sản xuất Để phát triển ngành rượu vang có chỗ đứng thị trường, người sản xuất phải kết hợp hài hòa giữ yếu tố bên để thành phẩm sản phẩm rượu vang tốt, phù hợp với thị hiếu Bên cạnh đó, lưu tâm đến hành vi bên tác động đến động người tiêu dùng giống cách quan tâm đến yếu tố để sản xuất thành phẩm rượu vang chất lượng Mùi vị hương thơm rượu vang trắng thứ mà người tiêu dùng định nghĩa chất lượng rượu vang bị hút cách rượu chuyển đổi cảm giác đầy tinh tế cho người thưởng thức Do đó, yếu tố ảnh hưởng đến chất lượng rượu vang độ axit cố định, độ axit dễ bay hơi, axit xitric, lượng đường dư, clo, lưu huỳnh 59 Báo cáo đồ án học phần Khoa học liệu (DS) đioxit tự do, tổng lưu huỳnh đioxit, tỷ trọng, pH, hàm lượng sunfat, nồng độ cồn đến chất lượng rượu vang thứ cần phải đặc biệt quan tâm Chúng tin với bề dày lịch sử rượu vang nói chung rượu vang trắng nói riêng, tương lai ngành rượu vang luôn rộng mở Bởi mặt hàng ln có khách hàng trung thành, nhà sản xuất quan tâm cải tiến chất lượng từ bên đến bên ngồi, ứng dụng khoa học cơng nghệ theo kịp với đổi thời đại Những yếu tố giúp chúng tơi có kỳ vọng phát triển rượu vang tương lai 4.3 KHUYẾN NGHỊ Sau thực xong nghiên cứu Wine Quality-White - Chất lượng rượu trắng chúng tơi có khuyến nghị sau đây: Mơ hình nghiên cứu thông qua ứng dụng Orange với phương pháp phân lớp liệu đưa kết dự báo ước tính chất lượng rượu trắng tốt hay không tốt tác động từ 11 yếu tố đầu vào đề cập phần Chính xác hơn, ảnh hưởng lẫn yếu tố đầu vào ta chưa xác định được, yếu tố tạo tác động đến rượu chưa xác định rõ, ảnh hưởng nhiều yếu tố lên rượu dự đốn nên khơng thể chắn 100% rượu trắng chịu tác động nhiều hay có chất lượng rượu Sau bước nghiên cứu, nhóm chúng tơi tìm kết với độ xác cao 77,4% theo phương pháp hồi quy Logistic (Logistic Regression) Có mơ hình tốt chúng tơi nhận thấy cần cải thiện để nâng cao tính xác thực nghiên cứu Nhóm khuyến nghị nên đưa thêm yếu tố đầu vào sau để nghiên cứu xa hơn: Chất lượng nguyên liệu làm rượu: nho, lúa mạch, …: nguyên liệu làm rượu trắng tác động đến độ ngon, ngọt, hương thơm rượu Nhiệt độ: yếu tố ảnh hưởng đến chất lượng rượu từ quy trình làm đến quy trình bảo quản Các nghiên cứu lĩnh vực rượu trắng chịu tác động từ yếu tố đầu vào cần sâu hơn, để giải nhiều vấn đề, tìm mối liên quan yếu tố đầu vào tác động riêng lẻ yếu tố đến biến phụ thuộc chất lượng rượu trắng 60 Báo cáo đồ án học phần Khoa học liệu (DS) TÀI LIỆU THAM KHẢO aws (không ngày tháng). Khoa học liệu gì? Được truy lục từ Amazon Web Services: https://aws.amazon.com/vi/what-is/data-science/ Công, N H (2020, 05 14). Dự đoán chất lượng rượu số kỹ thuật phân loại Được truy lục từ HelpEx: https://bom.so/KFLO8S Hùng, N Q (2022) Slide môn Khoa học liệu. Luân, T (2021, 01 29). Lượng người dùng internet toàn giới đạt 4,66 tỉ Được truy lục từ Báo Điện tử VOV: https://bom.so/NG0M9J 61 Báo cáo đồ án học phần Khoa học liệu (DS)