1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Môn khoa học dữ liệu phân loại rượu bằng dự báo của mô hình phân lớp trên phần mềm orange

33 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC UI HỌC PHẦN C UEH TRƯỜNG KINHNG KINH TẾT THÚC , LUẬN KẾT TT VÀ QUẢN LÝ NHN LÝ NHÀ NƯỚC UEHC UEH TIỂU LUẬN U LUẬN KẾT TN KẾT THÚC T THÚC HỌC PHẦN C PHẦN - MÔNN - MÔN KHOA HỌC PHẦN C DỮ LIỆU LI PHÂN LOẠI RƯỢU BẰNG DỰ BÁO CỦA MÔ HÌN PHÂN LỚP TRÊN PHẦN MỀM ORANGE Giảng viên: ThS Võ Thành Đức Mã lớp học phần: 23C1INF50905910 1 BẢN LÝ NHNG THÀNH VIÊN Tên thành viên Mã số sinh v sinh viên Mức độ thc độ tham g tham gia Nguyễn Phạm n Phạm Phươnm Phương Anhng Anh 31211020809 100% Lâm Phương Anhng Nhi 31211023343 100% Nguyễn Phạm n Tường Phúcng Phúc 31211020685 100% Huỳnh Ngọc Thiênc Thiên Trang 31211021176 100% Phạm Phươnm Đình Sách 31211028148 100% MỤC LỤCC LỤC LỤCC YÊU CẦUU 1 BẢNG THÀNNG THÀNH VIÊN 2 MỤC LỤCC LỤC LỤCC 3 DANH MỤC LỤCC HÌNH ẢNG THÀNNH 1 LỜI MỞ ĐẦI MỞ ĐẦU ĐẦUU 2 NỘI DUNG I DUNG BÀI 3 1 Giới thiệui thiệu đề tàu đề tài tài 3 1.1 Khái quát 3 1.1.1 Rượu vangu vang 3 1.1.2 Bối cảnh i cảnh chunnh chung 3 1.2 Lý do chọc Thiênn đề tài tài 4 1.3 Ý nghĩa dự báo báo 4 1.4 Câu hỏi dự bái dự báo báo 5 1.5 Toàn bộ bài là bài làm 5 2 Về tài bộ bài là dữ liệu liệu đề tàu 6 2.1 Tổng quátng quát dữ liệu liệu đề tàu 6 2.2 Các thuộ bài làc tính 7 2.3 Trự báoc quan hóa dữ liệu liệu đề tàu 8 2.4 Xếp hạng p hạm Phươnng giá trị thông thông tin của các ba các biếp hạng n dữ liệu liệu đề tàu .15 2.5 Tiề tàin xử lý dữ lý dữ liệu liệu đề tàu 16 3 Xây dụng mô hng mô hình phân lới thiệup 16 4 Đánh giá và lự báoa chọc Thiênn mô hình 17 4.1 Phương Anhng pháp xác thự báoc chéo K-fold và Holdout 17 4.2 Phương Anhng pháp Ma Trận Nhầm n Nhầm Lẫnm Lẫnn 19 4.3 Phương Anhng pháp ROC Analysis 22 4.4 Lự báoa chọc Thiênn mô hình 23 5 Phân loạm Phươni dữ liệu liệu đề tàu mới thiệui 24 6 Ứng dụngng dụng mô hng mô hình 27 6.1 Ứng dụngng dụng mô hng của các ba mô hình phân lới thiệup: 27 6.2 Ý nghĩa của các ba phân lới thiệup trong lĩnh vự báoc công nghiệu đề tàp sảnh chunn xuất rượut rượu vangu 28 TÀI LIỆU THAM U THAM KHẢNG THÀNO 28 DANH MỤC LỤCC HÌNH ẢN LÝ NHNH Hình 1.1 Toàn bộ bài là quá trình trên phầm Lẫnn mề tàim Orange .7 Hình 2.1: Tổng quátng quan bộ bài là dữ liệu liệu đề tàu 8 Hình 2.2 Chi tiếp hạng t bộ bài là dữ liệu liệu đề tàu 10 Hình 2.3 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba biếp hạng n Alcohol .10 Hình 2.4 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba thuộ bài làc tính Color Intensity .11 Hình 2.5: Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba biếp hạng n Ash 11 Hình 2.6 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba biếp hạng n Alcalinity Ash 12 Hình 2.7 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba biếp hạng n Magnesium 12 Hình 2.8 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba biếp hạng n Total Phenols 13 Hình 2.9 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba biếp hạng n Flavanoids 13 Hình 2.10 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba biếp hạng n Malic Acid 14 Hình 2.11 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba biếp hạng n Nonflavanoid Phenols 14 Hình 2.12 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba biếp hạng n Prothocyanins .15 Hình 2.13 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba biếp hạng n Hue .15 Hình 2.14 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba biếp hạng n OD280/ OD315 of diluted wines 16 Hình 2.15 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba biếp hạng n Proline 16 Hình 2.16 Biểu đồ thu đồ thể hi thểu đồ th hiệu đề tàn phân bổng quát của các ba các loạm Phươni rượu vangu trong bộ bài là dữ liệu liệu đề tàu Wine 17 Hình 2.17 Bảnh chunng thểu đồ th hiệu đề tàn giá trị thông thông tin của các ba các biếp hạng n .17 Hình 4.1 Kếp hạng t quảnh chun đánh giá hương Anhng pháp xác thự báoc chéo K-fold 19 Hình 4.2 Kếp hạng t quảnh chun đánh giá hương Anhng pháp Holdout 20 Hình 4.3 Kếp hạng t quảnh chun các chỉ số sối cảnh 20 Hình 4.4 Ma trận Nhầm n nhầm Lẫnm lẫnn ba biếp hạng n 21 Hình 4.5 Kếp hạng t quảnh chun đánh giá phương Anhng pháp LR bằng Ma tng Ma trận Nhầm n nhầm Lẫnm lẫnn 22 Hình 4.6 Kếp hạng t quảnh chun đánh giá phương Anhng pháp Tree bằng Ma tng Ma trận Nhầm n nhầm Lẫnm lẫnn 22 Hình 4.7 Kếp hạng t quảnh chun đánh giá phương Anhng pháp SVM bằng Ma tng Ma trận Nhầm n nhầm Lẫnm lẫnn .23 Hình 4.8 Kếp hạng t quảnh chun đánh giá ba phương Anhng pháp SVM, LR và Tree bằng Ma tng ROC Analysis 24 Hình 4.9 Kếp hạng t quảnh chun đánh giá phương Anhng pháp SVM và Tree 24 Hình 4.10 Kếp hạng t quảnh chun đánh giá phương Anhng pháp LR và Tree .25 Hình 5.1 Bộ bài là dữ liệu liệu đề tàu Wine.Moi 26 Hình 5.2 Chi tiếp hạng t bộ bài là dữ liệu liệu đề tàu Wine.Moi 27 Hình 5.3 Kếp hạng t quảnh chun phân loạm Phươni rượu vangu cho bộ bài là dữ liệu liệu đề tàu Wine.Moi .27 Hình 5.4 Kếp hạng t quảnh chun phân loạm Phươni của các ba trường Phúcng hợu vangp rượu vangu loạm Phươni 1 28 Hình 5.5 Kếp hạng t quảnh chun phân loạm Phươni của các ba trường Phúcng hợu vangp rượu vangu loạm Phươni 2 29 Hình 5.6 Kếp hạng t quảnh chun phân loạm Phươni của các ba trường Phúcng hợu vangp rượu vangu loạm Phươni 3 29 Hình 5.7 Lưu bộ bài là dữ liệu liệu đề tàu đã đượu vangc phân loạm Phươni 30 DANH MỤC LỤCC BẢN LÝ NHNG BIỂU LUẬN U Bảnh chunng 2.1: Các thuộ bài làc tính của các ba bộ bài là dữ liệu liệu đề tàu Wine 7 DANH MỤC LỤCC TỪ VIẾT T VIẾT THÚC T TẮTT Từ viết t viết tắtt tắtt Ý nghĩa LR Logistic Regression Hồ thể hii quy Logistic SVM Support Vector Machine Máy hỗ trợ Ve trợu vang Vectơng Anh Tree Decision Tree Cây quyếp hạng t đị thông nh TP True Positive FN False Negative FP False Positive LỜNG KINHI MỞ ĐẦU ĐẦN - MÔNU Khoa học Thiênc dữ liệu liệu đề tàu là lĩnh vự báoc nghiên cứu chuyêu chuyên sâu về tài dữ liệu liệu đề tàu, nhằng Ma tm khám phá thông tin có ý nghĩa cho hoạm Phươnt độ bài làng kinh doanh Đây là mộ bài làt phương Anhng pháp đa ngành, kếp hạng t hợu vangp các nguyên t)c và phương Anhng pháp thự báoc hành từ toán h toán học Thiênc, thối cảnh ng kê, trí tuệu đề tà nhân tạm Phươno và kỹ thuận Nhầm t máy tính đểu đồ th phân tích khối cảnh i lượu vangng lới thiệun dữ liệu liệu đề tàu Các nhà khoa học Thiênc dữ liệu liệu đề tàu sử lý dữ dụng mô hng nộ bài lài dung phân tích đểu đồ th đặt và git và giảnh chuni đáp các câu hỏi dự bái như: sự báo kiệu đề tàn gì đã xảnh chuny ra, tạm Phươni sao lạm Phươni xảnh chuny ra, sự báo kiệu đề tàn gì sẽ xảnh chuny ra, và kếp hạng t quảnh chun thu đượu vangc có thểu đồ th đượu vangc sử lý dữ dụng mô hng vào mụng mô hc đích gì Sự báo kếp hạng t hợu vangp giữ liệua trí thông minh của các ba con ngường Phúci và tự báo độ bài làng hóa của các ba hệu đề tà thối cảnh ng giúp khoa học Thiênc dữ liệu liệu đề tàu thự báoc hiệu đề tàn phân tích chi tiếp hạng t và hiểu đồ thu biếp hạng t sâu s)c hơng Anhn về tài dữ liệu liệu đề tàu Mụng mô hc tiêu là đảnh chunm bảnh chuno rằng Ma tng kếp hạng t quảnh chun thu đượu vangc là chính xác nhất rượut, và quá trình này mang lạm Phươni cái nhìn tổng quátng thểu đồ th và thông tin giúp đị thông nh hình quyếp hạng t đị thông nh trong lĩnh vự báoc kinh doanh Việu đề tàc kếp hạng t hợu vangp kiếp hạng n thứu chuyêc về tài rượu vangu vang và kỹ năng trong lĩnh vự báoc khoa học Thiênc dữ liệu liệu đề tàu, chúng ta sẽ thất rượuy rõ dữ liệu liệu đề tàu có thểu đồ th đóng vai trò quan trọc Thiênng trong việu đề tàc đưa ra quyếp hạng t đị thông nh thông minh, tối cảnh i ưu hóa hiệu đề tàu suất rượut sảnh chunn xuất rượut và nâng cao chất rượut lượu vangng của các ba sảnh chunn phẩm m cuối cảnh i cùng Nhìn xa hơng Anhn, chúng ta cũng sẽ xem xét cách mà dữ liệu liệu đề tàu có thểu đồ th hỗ trợ Ve trợu vang trong việu đề tàc đáp ứu chuyêng với thiệui nhữ liệung thách thứu chuyêc ngày càng tăng trong ngành rượu vangu vang, từ toán h biếp hạng n đổng quáti khí hận Nhầm u đếp hạng n sự báo đa dạm Phươnng trong sở thích thích của các ba ngường Phúci tiêu dùng Qua tiểu đồ thu luận Nhầm n này, chúng em hy vọc Thiênng sẽ khám phá nhữ liệung khía cạm Phươnnh mới thiệui, hiểu đồ thu rõ sâu s)c về tài ngành công nghiệu đề tàp rượu vangu vang và thất rượuy rõ giá trị thông của các ba việu đề tàc áp dụng mô hng khoa học Thiênc dữ liệu liệu đề tàu trong việu đề tàc tạm Phươno ra nhữ liệung thay đổng quáti tích cự báoc và bề tàin vữ liệung Trong quá trình nghiên cứu chuyêu, chúng em đã học Thiênc đượu vangc cách áp dụng mô hng kiếp hạng n thứu chuyêc từ toán h môn học Thiênc Khoa học Thiênc dữ liệu liệu đề tàu vào thự báoc tếp hạng , từ toán h việu đề tàc lự báoa chọc Thiênn đề tài tài đếp hạng n quá trình thu thận Nhầm p dữ liệu liệu đề tàu và phân tích Chúng em đã làm quen với thiệui các công cụng mô h và phương Anhng pháp nghiên cứu chuyêu mới thiệui mà chúng em chưa có kinh nghiệu đề tàm trưới thiệuc đó Sự báo hỗ trợ Ve trợu vang và hưới thiệung dẫnn từ toán h thầm Lẫny đã giúp chúng em tự báo tin hơng Anhn trong việu đề tàc xử lý dữ lý các thách thứu chuyêc trong quá trình nghiên cứu chuyêu Nhữ liệung góp ý và lờng Phúci nhận Nhầm n xét từ toán h thầm Lẫny sẽ là nguồ thể hin độ bài làng viên quý báu đểu đồ th chúng em có thểu đồ th hoàn thiệu đề tàn và cảnh chuni thiệu đề tàn bài tiểu đồ thu luận Nhầm n, từ toán h đó rút ra nhữ liệung bài học Thiênc quý giá cho các dự báo án tương Anhng lai Đồ thể hing thờng Phúci, chúng em xin chân thành cảnh chunm ơng Anhn vì cơng Anh hộ bài lài đượu vangc tham gia vào quá trình học Thiênc tận Nhầm p và nghiên cứu chuyêu này, mang lạm Phươni cho chúng em nhữ liệung trảnh chuni nghiệu đề tàm và kiếp hạng n thứu chuyêc sâu s)c NỘI DUNG I DUNG BÀI 1 Giới thiệui thiệu đề tàu đề tài tài 1.1 Khái quát 1.1.1 Rượu vangu vang Rượu vangu vang không chỉ số là mộ bài làt loạm Phươni đồ thể hi uối cảnh ng; nó là mộ bài làt biểu đồ thu tượu vangng của các ba sự báo sang trọc Thiênng, lị thông ch sử lý dữ và sự báo kếp hạng t nối cảnh i con ngường Phúci với thiệui nề tàin văn hóa Với thiệui hơng Anhn mộ bài làt ngàn năm lị thông ch sử lý dữ , rượu vangu vang đã trở thích thành mộ bài làt phầm Lẫnn không thểu đồ th thiếp hạng u của các ba cuộ bài làc sối cảnh ng và thưở thích ng thứu chuyêc ẩm m thự báoc trên kh)p thếp hạng giới thiệui Nguyên t)c cơng Anh bảnh chunn của các ba sảnh chunn xuất rượut rượu vangu vang bao gồ thể him quy trình tinh tếp hạng từ toán h quảnh chun nho, lên men, ủa các b và lên men thứu chuyê hai, sau đó là quá trình lọc Thiênc và đóng chai Hàng ngàn loạm Phươni vang, phân loạm Phươni theo giối cảnh ng nho, vùng đất rượut sảnh chunn xuất rượut, mứu chuyêc độ bài là đường Phúcng, và thờng Phúci gian ủa các b, tạm Phươno nên mộ bài làt sự báo đa dạm Phươnng không ngừ toán hng đểu đồ th khám phá Giối cảnh ng nho độ bài làc đáo trên từ toán hng vùng đất rượut khác nhau cũng làm nổng quáti bận Nhầm t nhữ liệung đặt và gic tính riêng biệu đề tàt Rượu vangu vang không chỉ số là nưới thiệuc uối cảnh ng, mà là mộ bài làt trảnh chuni nghiệu đề tàm thưở thích ng thứu chuyêc, sự báo kếp hạng t hợu vangp của các ba hương Anhng vị thông , mùi hương Anhng và cảnh chunm giác vị thông , tạm Phươno ra mộ bài làt trảnh chuni nghiệu đề tàm độ bài làc đáo Ngoài ra, rượu vangu vang thường Phúcng xuất rượut hiệu đề tàn trong các dị thông p đặt và gic biệu đề tàt, lễn Phạm hộ bài lài và bữ liệua tiệu đề tàc, không chỉ số là mộ bài làt sảnh chunn phẩm m mà còn là biểu đồ thu tượu vangng của các ba sự báo kếp hạng t nối cảnh i xã hộ bài lài và thị thông nh vượu vangng Sự báo đa dạm Phươnng và phong phú của các ba rượu vangu vang không chỉ số làm phong phú thêm cuộ bài làc sối cảnh ng mà còn làm nổng quáti bận Nhầm t văn hóa và lối cảnh i sối cảnh ng trên kh)p thếp hạng giới thiệui Do đó, rượu vangu vang không chỉ số là thứu chuyêc uối cảnh ng, mà là mộ bài làt cánh cử lý dữ a mở thích ra với thiệui thếp hạng giới thiệui phứu chuyêc tạm Phươnp của các ba nghệu đề tà thuận Nhầm t, khoa học Thiênc và trảnh chuni nghiệu đề tàm con ngường Phúci 1.1.2 Bố sinh vi cảnh chunnh chung Theo thối cảnh ng kê của các ba Statista (2023), thị thông trường Phúcng rượu vangu vang toàn cầm Lẫnu đạm Phươnt giá trị thông 348,5 t USD vào năm 2022 và dự báo kiếp hạng n sẽ đạm Phươnt 408,2 t USD vào năm 2027 Việu đề tàt Nam có tiề tàim năng phát triểu đồ thn ngành công nghiệu đề tàp rượu vangu vang nhờng Phúc điề tàiu kiệu đề tàn khí hận Nhầm u và thổng quát như/ng thuận Nhầm n lợu vangi, cũng như bề tài dày lị thông ch sử lý dữ và văn hóa sảnh chunn xuất rượut rượu vangu vang lâu đờng Phúci Tuy nhiên, ngành công nghiệu đề tàp rượu vangu vang Việu đề tàt Nam vẫnn đang ở thích giai đoạm Phươnn phát triểu đồ thn ban đầm Lẫnu, cầm Lẫnn có sự báo đầm Lẫnu tư và phát triểu đồ thn mạm Phươnnh mẽ hơng Anhn nữ liệua Việu đề tàc phát triểu đồ thn ngành công nghiệu đề tàp rượu vangu vang sẽ mang lạm Phươni nhiề tàiu lợu vangi ích cho Việu đề tàt Nam, đặt và gic biệu đề tàt trong lĩnh vự báoc kinh tếp hạng và du lị thông ch Ngành công nghiệu đề tàp rượu vangu vang có thểu đồ th đóng góp đáng kểu đồ th cho tăng trưở thích ng kinh tếp hạng của các ba Việu đề tàt Nam, tạm Phươno ra nhiề tàiu việu đề tàc làm và tăng thu nhận Nhầm p cho ngường Phúci dân Rượu vangu vang là mộ bài làt sảnh chunn phẩm m văn hóa, có thểu đồ th thu hút khách du lị thông ch đếp hạng n Việu đề tàt Nam Với thiệui nhữ liệung tiề tàim năng và lợu vangi ích to lới thiệun như vận Nhầm y, việu đề tàc phát triểu đồ thn ngành công nghiệu đề tàp rượu vangu vang là mộ bài làt hưới thiệung đi đúng đ)n đểu đồ th Việu đề tàt Nam nâng cao giá trị thông sảnh chunn xuất rượut nông nghiệu đề tàp, thúc đẩm y phát triểu đồ thn kinh tếp hạng - xã hộ bài lài, bảnh chuno tồ thể hin và phát huy giá trị thông văn hóa truyề tàin thối cảnh ng 1.2 Lý do chọn đề tàn đề tài tài Khai thác dữ liệu liệu đề tàu là quá trình trích xuất rượut, khám phá các tri thứu chuyêc từ toán h mộ bài làt lượu vangng dữ liệu liệu đề tàu lới thiệun Khai thác dữ liệu liệu đề tàu có thểu đồ th đượu vangc áp dụng mô hng trong nhiề tàiu lĩnh vự báoc khác nhau, bao gồ thể him cảnh chun ngành công nghiệu đề tàp rượu vangu vang Việu đề tàc này không chỉ số đáp ứu chuyêng nhu cầm Lẫnu của các ba thị thông trường Phúcng hiệu đề tàn đạm Phươni mà còn mang lạm Phươni nhữ liệung cơng Anh hộ bài lài vàng đểu đồ th hiểu đồ thu rõ hơng Anhn về tài mô hình kinh doanh, sở thích thích của các ba ngường Phúci tiêu dùng và tạm Phươno ra nhữ liệung cảnh chuni tiếp hạng n độ bài làt phá trong quy trình sảnh chunn xuất rượut rượu vangu vang Đểu đồ th phụng mô hc vụng mô h đề tài tài nghiên cứu chuyêu, nhóm nghiên cứu chuyêu chọc Thiênn bộ bài là dữ liệu liệu đề tàu Wine từ toán h trang Kaggle biểu đồ thu diễn Phạm n kếp hạng t quảnh chun phân tích hóa học Thiênc của các ba 3 loạm Phươni rượu vangu đượu vangc thu hoạm Phươnch từ toán h nho đượu vangc trồ thể hing tạm Phươni chung mộ bài làt vùng ở thích Ý nhưng có giối cảnh ng khác nhau 1.3 Ý nghĩa dự báo báo Mộ bài làt trong nhữ liệung quan tâm chính khi khai thác dữ liệu liệu đề tàu cho đề tài tài này là khảnh chun năng tối cảnh i ưu hóa quy trình phân loạm Phươni rượu vangu Bằng Ma tng cách sử lý dữ dụng mô hng dữ liệu liệu đề tàu về tài các thành phầm Lẫnn hóa học Thiênc và nồ thể hing độ bài là của các ba chúng, các nhà sảnh chunn xuất rượut có thểu đồ th xây dự báong các mô hình phân lới thiệup đểu đồ th phân loạm Phươni rượu vangu vang, và từ toán h đó là nguồ thể hin gối cảnh c của các ba chúng dự báoa vào các thuộ bài làc tính khác nhau Kếp hạng t quảnh chun dự báo báo kì vọc Thiênng có ý nghĩa quan trọc Thiênng đối cảnh i các doanh nghiệu đề tàp sảnh chunn xuất rượut rượu vangu và đối cảnh i với thiệui ngường Phúci tiêu dùng Đối cảnh i với thiệui các doanh nghiệu đề tàp sảnh chunn xuất rượut rượu vangu, mô hình phân lới thiệup có thểu đồ th giúp học Thiên: 1 Cảnh chuni thiệu đề tàn chất rượut lượu vangng rượu vangu: Dự báo báo có thểu đồ th giúp các nhà sảnh chunn xuất rượut rượu vangu xác đị thông nh các yếp hạng u tối cảnh ảnh chunnh hưở thích ng đếp hạng n chất rượut lượu vangng rượu vangu, chẳng hạn ng hạm Phươnn như giối cảnh ng nho, vùng trồ thể hing nho, phương Anhng pháp sảnh chunn xuất rượut, Từ toán h đó, các nhà sảnh chunn xuất rượut rượu vangu có thểu đồ th cảnh chuni thiệu đề tàn quy trình sảnh chunn xuất rượut của các ba mình đểu đồ th tạm Phươno ra rượu vangu vang có chất rượut lượu vangng cao hơng Anhn 2 Tối cảnh i ưu hóa sảnh chunn xuất rượut và phân phối cảnh i: Dự báo báo có thểu đồ th giúp các nhà sảnh chunn xuất rượut rượu vangu xác đị thông nh nhu cầm Lẫnu của các ba thị thông trường Phúcng, xu hưới thiệung tiêu dùng, Từ toán h đó, các nhà sảnh chunn xuất rượut rượu vangu có thểu đồ th tối cảnh i ưu hóa sảnh chunn xuất rượut và phân phối cảnh i rượu vangu vang của các ba mình đểu đồ th đáp ứu chuyêng nhu cầm Lẫnu của các ba thị thông trường Phúcng 3 Phát triểu đồ thn các sảnh chunn phẩm m mới thiệui: Dự báo báo có thểu đồ th giúp các nhà sảnh chunn xuất rượut rượu vangu xác đị thông nh nhu cầm Lẫnu của các ba ngường Phúci tiêu dùng, thị thông trường Phúcng tiề tàim năng, Từ toán h đó, các nhà sảnh chunn xuất rượut rượu vangu có thểu đồ th phát triểu đồ thn các sảnh chunn phẩm m mới thiệui phù hợu vangp với thiệui nhu cầm Lẫnu của các ba thị thông trường Phúcng Đối cảnh i với thiệui ngường Phúci tiêu dùng, mô hình phân lới thiệup có ích trong việu đề tàc: 1 Tìm hiểu đồ thu thêm về tài rượu vangu vang: Dự báo báo có thểu đồ th giúp ngường Phúci tiêu dùng hiểu đồ thu rõ hơng Anhn về tài các loạm Phươni rượu vangu vang, giối cảnh ng nho, vùng trồ thể hing nho, Từ toán h đó, ngường Phúci tiêu dùng có thểu đồ th lự báoa chọc Thiênn loạm Phươni rượu vangu phù hợu vangp với thiệui sở thích thích và ngân sách của các ba mình 2 Mua rượu vangu vang trự báoc tuyếp hạng n: Dự báo báo có thểu đồ th giúp ngường Phúci tiêu dùng cá nhân hóa trảnh chuni nghiệu đề tàm mua s)m rượu vangu vang trự báoc tuyếp hạng n, chẳng hạn ng hạm Phươnn như đề tài xuất rượut các loạm Phươni rượu vangu phù hợu vangp với thiệui sở thích thích của các ba ngường Phúci tiêu dùng, Chẳng hạnng hạnn: Mộ bài làt nhà sảnh chunn xuất rượut rượu vangu có nh cầm Lẫnu phân loạm Phươni mộ bài làt chai rượu vangu vang dự báoa trên các thông tin về tài nồ thể hing độ bài là thành phầm Lẫnn Flavanoid và S)c màu Quy trình thông thường Phúcng sẽ yêu cầm Lẫnu nhà sảnh chunn xuất rượut tra cứu chuyêu lạm Phươni các bưới thiệuc sảnh chunn xuất rượut trưới thiệuc đó đểu đồ th xác đị thông nh loạm Phươni của các ba chai rượu vangu Nhưng khi áp dụng mô hng mô hình phân lới thiệup, nhà sảnh chunn xuất rượut dễn Phạm dàng biếp hạng t đượu vangc chai rượu vangu thuộ bài làc loạm Phươni 1 - loạm Phươni đang đượu vangc ưa chuộ bài làng Từ toán h đó, nhà sảnh chunn xuất rượut rượu vangu có thểu đồ th tăng giá bán của các ba rượu vangu vang đó Mô hình phân lới thiệup đã tiếp hạng t kiệu đề tàm thờng Phúci gian bỏi dự bá ra đểu đồ th phân loạm Phươni chai rượu vangu và hỗ trợ Ve trợu vang việu đề tàc ra quyếp hạng t đị thông nh nhanh chóng hơng Anhn 1.4 Câu hỏi dự bái dự báo báo Dự báoa trên ý nghĩa dự báo báo của các ba khai thác dữ liệu liệu đề tàu, nhóm mong muối cảnh n từ toán h các dữ liệu liệu đề tàu về tài đặt và gic tính hóa học Thiênc, phương Anhng pháp phân lới thiệup dự báo báo 03 loạm Phươni rượu vangu khác nhau (đượu vangc trồ thể hing tạm Phươni chung mộ bài làt vùng) có hiệu đề tàu quảnh chun ra sao Cụng mô h thểu đồ th, nhóm mong muối cảnh n trảnh chun lờng Phúci đượu vangc các câu hỏi dự bái sau: 1 Các đặt và gic tính hóa học Thiênc nào là quan trọc Thiênng nhất rượut đểu đồ th phân biệu đề tàt 03 loạm Phươni rượu vangu? 2 Mô hình phân lới thiệup nào có độ bài là chính xác cao nhất rượut đối cảnh i 03 loạm Phươni rượu vangu khác nhau? 3 Đối cảnh i với thiệui bộ bài là dữ liệu liệu đề tàu mới thiệui, mô hình phân lới thiệup cho ra kếp hạng t quảnh chun phân loạm Phươni rượu vangu như thếp hạng nào? Đểu đồ th trảnh chun lờng Phúci đượu vangc các câu hỏi dự bái này, nhóm sẽ sử lý dữ dụng mô hng các kỹ thuận Nhầm t và thuận Nhầm t toán của các ba khai thác dữ liệu liệu đề tàu đểu đồ th xây dự báong mô hình phân lới thiệup Mô hình phân lới thiệup sẽ đượu vangc huất rượun luyệu đề tàn trên tận Nhầm p dữ liệu liệu đề tàu quá khứu chuyê gồ thể him các mẫnu rượu vangu với thiệui các đặt và gic tính hóa học Thiênc đã đượu vangc đo lường Phúcng Sau khi mô hình đượu vangc huất rượun luyệu đề tàn, nhóm sẽ sử lý dữ dụng mô hng mô hình đểu đồ th dự báo đoán loạm Phươni rượu vangu của các ba các mẫnu rượu vangu mới thiệui Kếp hạng t quảnh chun dự báo báo của các ba mô hình sẽ đượu vangc đánh giá dự báoa trên các tiêu chí như độ bài là chính xác, độ bài là nhạm Phươny, độ bài là đặt và gic hiệu đề tàu, và giúp nhóm hiểu đồ thu đượu vangc khảnh chun năng phân biệu đề tàt của các ba mô hình đối cảnh i với thiệui 03 loạm Phươni rượu vangu khác nhau 1.5 Toàn bộ tham g bài làm Toàn bộ bài là quá trình khai thác dữ liệu liệu đề tàu, xây dự báong và đánh giá mô hình phân lới thiệup đề tàiu đượu vangc thự báoc hiệu đề tàn trên phầm Lẫnn mề tàim Orange (Hình 1.1) Đầm Lẫnu tiên, nhóm tiếp hạng n hành trự báoc quan hóa và xếp hạng p hạm Phươnng mứu chuyêc độ bài là thông tin nhận Nhầm n đượu vangc từ toán h bộ bài là dữ liệu liệu đề tàu đượu vangc thu thận Nhầm p từ toán h trưới thiệuc Bộ bài là dữ liệu liệu đề tàu này sau đó đượu vangc dùng làm tận Nhầm p dữ liệu liệu đề tàu huất rượun luyệu đề tàn ba mô hình phân lới thiệup là Support Vector Machine (SVM), Hồ thể hii quy Logistic (LR) và Cây quyếp hạng t đị thông nh (Tree) Nhóm đánh giá lạm Phươni từ toán hng mô hình bằng Ma tng các phương Anhng pháp kiểu đồ thm đị thông nh và đưa ra kếp hạng t luận Nhầm n mô hình SVM là phù hợu vangp nhất rượut Cuối cảnh i cùng, bộ bài là dữ liệu liệu đề tàu mới thiệui thiếp hạng u nhãn loạm Phươni rượu vangu đượu vangc đưa vào mô hình đểu đồ th dự báo báo và phân loạm Phươni Hình 1.1 Toàn bộ quá tr quá trình trên phần mềm On mềm Orangm Orange 2 Về tài bộ tham g dữ liệu liệu đề tàu 2.1 Tổng quátng quát dữ liệu liệu đề tàu Bài báo cáo này sử lý dữ dụng mô hng bộ bài là dữ liệu liệu đề tàu Wine hay Classifying wine varieties từ toán h kho dữ liệu liệu đề tàu Kho lưu trữ liệu Máy học Thiênc của các ba Đạm Phươni học Thiênc California tạm Phươni Irvine (UCI) Đượu vangc thu thận Nhầm p bở thích i M Linchman vào năm 2013, bộ bài là dữ liệu liệu đề tàu là kếp hạng t quảnh chun nghiên cứu chuyêu phân tích hóa học Thiênc về tài rượu vangu vang đượu vangc trồ thể hing ở thích cùng mộ bài làt khu vự báoc ở thích Ý nhưng có nguồ thể hin gối cảnh c từ toán h ba giối cảnh ng cây trồ thể hing khác nhau Đểu đồ th quan sát tổng quátng quan bộ bài là dữ liệu liệu đề tàu, nhóm thự báoc hiệu đề tàn các bưới thiệuc sau:  Bưới thiệuc 1: Lưu vào máy bộ bài là dữ liệu liệu đề tàu, đặt và git tên là Wine  Bưới thiệuc 2: Trên phầm Lẫnn mề tàim Orange, sử lý dữ dụng mô hng widget File (đặt và git tên là “Gối cảnh c”) và chọc Thiênn nguồ thể hin là bộ bài là dữ liệu liệu đề tàu Wine Hình 2.1: Tổng quanng quan bộ quá tr dữ liệu liệuu Kếp hạng t quảnh chun cho thất rượuy: ► Bộ bài là dữ liệu liệu đề tàu có 178 dòng, tương Anhng ứu chuyêng với thiệui 178 mẫnu rượu vangu đượu vangc ghi nhận Nhầm n; ► Có 13 thuộ bài làc tính dạm Phươnng dữ liệu liệu đề tàu sối cảnh nói lên liề tàiu lượu vangng từ toán hng thành phầm Lẫnn đượu vangc tìm thất rượuy trong mỗ trợ Vei loạm Phươni rượu vangu; ► Có 01 thuộ bài làc tính Wine là dạm Phươnng dữ liệu liệu đề tàu phân loạm Phươni 2.2 Các thuộ tham gc tính Bảnh chunng 2.1 giảnh chuni thích từ toán hng thuộ bài làc tính biểu đồ thu diễn Phạm n thành phầm Lẫnn hóa học Thiênc, từ toán h đó ảnh chunnh hưở thích ng đếp hạng n kếp hạng t quảnh chun phân loạm Phươni rượu vangu: Hình 2.16 Biểu đồ thu đồ thể hi thểu đồ th hiệun phân bổng quan của biến a các loại rượu i rượu trongu trong bộ quá tr dữ liệu liệuu Wine 2.4 Xết tắtp hạnng giá trị thông thông tin của bộ dữa các biết tắtn dữ liệu liệu đề tàu Nhằng Ma tm kiểu đồ thm tra lạm Phươni mứu chuyêc hữ liệuu ích (mứu chuyêc độ bài là thông tin nhân đượu vangc) của các ba các biếp hạng n Đầm Lẫnu vào cho việu đề tàc phân lới thiệup, nhóm tiếp hạng n hành như sau tạm Phươno widget Rank, nối cảnh i với thiệui Data table đểu đồ th xem mứu chuyêc độ bài là thông tin nhận Nhầm n đượu vangc Thông sối cảnh đối cảnh i với thiệui 1 thuộ bài làc tính càng gầm Lẫnn 1 thì mình càng nhận Nhầm n đượu vangc nhiề tàiu thông tin từ toán h thuộ bài làc tính đó Chẳng hạn ng hạm Phươnn như trong Hình 2.16, biếp hạng n Flavanoids có thông sối cảnh Information gain, Gain ratio và Gini cao nhất rượut Có thểu đồ th kếp hạng t luận Nhầm n rằng Ma tng thuộ bài làc tính này có liên quan nhiề tàiu nhất rượut với thiệui biếp hạng n mụng mô hc tiêu, tứu chuyêc thuộ bài làc tính này sẽ hữ liệuu ích nhất rượut trong việu đề tàc xác đị thông nh loạm Phươni rượu vangu phầm Lẫnn nhiề tàiu Hình 2.17 Bảng thể ng thểu đồ th hiệun giá trị thông thông tin của biến a các biết bộ dữn 2.5 Tiề tàin xử lý dữ lý dữ liệu liệu đề tàu Đểu đồ th giúp cho việu đề tàc tiếp hạng p cận Nhầm n và sử lý dữ dụng mô hng bộ bài là dữ liệu liệu đề tàu trong thự báoc tếp hạng đượu vangc nhanh chóng và tiệu đề tàn lợu vangi hơng Anhn, quá trình tiề tàin xử lý dữ lý dữ liệu liệu đề tàu có thểu đồ th giúp làm sạm Phươnch và nhất rượut quán dữ liệu liệu đề tàu, giúp cảnh chuni thiệu đề tàn chất rượut lượu vangng dữ liệu liệu đề tàu, từ toán h đó làm tăng tính chính xác và hiệu đề tàu quảnh chun trong quá trình khai phá dữ liệu liệu đề tàu Vì vận Nhầm y mà quá trình này là mộ bài làt bưới thiệuc quan trọc Thiênng không thểu đồ th thiếp hạng u trong quá trình tiếp hạng p cận Nhầm n và phân tích dữ liệu liệu đề tàu Tiề tàin xử lý dữ lý dữ liệu liệu đề tàu gồ thể him có 4 bưới thiệuc kỹ thuận Nhầm t chính: Làm sạm Phươnch dữ liệu liệu đề tàu (data cleaning), tích hợu vangp dữ liệu liệu đề tàu (data integration), tích hợu vangp và biếp hạng n đổng quáti dữ liệu liệu đề tàu (data transformation and normalization), thu giảnh chunm dữ liệu liệu đề tàu (data reduction) Tuy nhiên, do bộ bài là dữ liệu liệu đề tàu này không có Missing Values và Meta Attributes nên không cầm Lẫnn tiề tàin xử lý dữ lý dữ liệu liệu đề tàu 3 Xây dụng mô hng mô hình phân lới thiệup Do dữ liệu liệu đề tàu nhóm sử lý dữ dụng mô hng đểu đồ th thự báoc hiệu đề tàn đã đượu vangc g)n nhãn và có biếp hạng n Mụng mô hc tiêu Wine vận Nhầm y nên nhóm quyếp hạng t đị thông nh thự báoc hiệu đề tàn mô hình phân lới thiệup theo ba phương Anhng pháp: 1 Hồ thể hii quy Logistic (Logistic Regression LR): Mô hình xác suất rượut dự báo đoán giá trị thông đầm Lẫnu ra rờng Phúci rạm Phươnc từ toán h mộ bài làt tận Nhầm p các giá trị thông đầm Lẫnu vào (biểu đồ thu diễn Phạm n dưới thiệui dạm Phươnng vector); 2 Cây quyếp hạng t đị thông nh (Tree Decision): Cây tạm Phươno ra mộ bài làt phân lới thiệup dữ liệu liệu đề tàu: mọc Thiêni điểu đồ thm dữ liệu liệu đề tàu sẽ tương Anhng ứu chuyêng với thiệui mộ bài làt và chỉ số mộ bài làt đường Phúcng dẫnn trong cây, và do đó với thiệui mộ bài làt và chỉ số mộ bài làt lá 3 Support Vector Machine (SVM): mộ bài làt thuận Nhầm t toán có giám sát, SVM nhận Nhầm n dữ liệu liệu đề tàu vào, xem chúng như nhữ liệung các vector trong không gian và phân loạm Phươni chúng vào các lới thiệup khác nhau bằng Ma tng cách xây dự báong mộ bài làt siêu phẳng hạn ng trong không gian nhiề tàiu chiề tàiu làm mặt và git phân cách các lới thiệup dữ liệu liệu đề tàu Đểu đồ th tiếp hạng n hành xây dự báong mô hình phân lới thiệup, nhóm thự báoc hiệu đề tàn các bưới thiệuc sau:  Bưới thiệuc 1: Trong phầm Lẫnn mề tàim Orange, tạm Phươno widget SVM, Tree và LR;  Bưới thiệuc 2: Nối cảnh i ba widget vừ toán ha tạm Phươno với thiệui widget Gối cảnh c 4 Đánh giá và lự báoa chọn đề tàn mô hình Sau khi xây dự báong mô hình phân lới thiệup, việu đề tàc đánh giá lạm Phươni mô hình là mộ bài làt điề tàiu cầm Lẫnn thiếp hạng t Việu đề tàc đánh giá mô hình đượu vangc thự báoc chất rượut là đánh giá khảnh chun năng dự báo báo 03 loạm Phươni rượu vangu từ toán h tận Nhầm p dữ liệu liệu đề tàu huất rượun luyệu đề tàn Nhóm tiếp hạng n hành đánh giá bằng Ma tng các phương Anhng pháp là xác thự báoc chéo K-fold, Random sampling, Ma trận Nhầm n nhầm Lẫnm lẫnn và ROC Analysis Điề tàiu này đượu vangc thự báoc hiệu đề tàn như nộ bài lài dung bên dưới thiệui 4.1 Phương phápng pháp xác thự báoc chéo K-fold và Holdout  Bưới thiệuc 1: Tạm Phươno widget Test and Score, nối cảnh i với thiệui các widget SVM, Tree  Bưới thiệuc 2: Với thiệui phương Anhng pháp xác thự báoc chéo K-fold, ở thích mụng mô hc Cross validation, chọc Thiênn “number of folds” là 5

Ngày đăng: 23/03/2024, 14:59

w