Dữ liệu liên quan đến business dùng để phân tích: Bộ dữ liệu được sP dụng để phân tích có liên quan đến cái biến thể màu đỏ và trắng của rượu vang.. Ví dụ, KNN có thể dự đoán giá trị nh
Xác định bài toán liên quan đến Business cần để phân tích
Thông tin chung
Rượu vang là sản phẩm được làm từ nho, nơi đường trong nho được lên men và chuyển đổi thành cồn trong quá trình ủ Với lịch sP hình thành và phát triển từ hàng ngàn năm trước đây Từ việc được coi là một loại đồ uống xa xỉ và chỉ dành cho những người quý tộc, đến hiện nay, rượu vang đã trở thành một phần không thể thiếu của nền văn hóa ẩm thực và đồ uống của nhiều quốc gia trên thế giới.
Phân loại
Rượu vang được phân thành rượu đỏ, rượu trắng, rượu hồng, và nhiều loại khác nhau với đa dạng hương vị, chất lượng và giá thành.
Vang trắng thông thường, Champagne, vang sủi: 10-12%, trong đó Moscato thường có thể chỉ ở 5-7%, Riesling của Đức có thể gặp những dòng 8-9%, và vang trắng Chardonnay có thể lên đến 13-14%.
Vang đỏ thường có độ cồn từ 12-15%, trong đó vang Bourgogne và Bordeaux từ 12-14%, các dòng vang ở California (Mỹ), Chile, Argentina thường có độ cồn cao từ 13.4-15.5% Vang từ nho phơi khô Amarone, Recioto của vùngValpolicella ở Bắc Ý có độ cồn cao từ 15-16%.
Thị trường
- Năm 2022, tổng sản lượng rượu vang trên toàn cầu đạt gần 26 tỷ lít, trong đó Ý chiếm đến 5 tỷ lít, dẫn đầu danh sách Các quốc gia tiếp theo trong danh sách sản xuất nhiều rượu vang gồm có Tây Ban Nha, Pháp, Mỹ và Trung Quốc Mỹ và Pháp là hai quốc gia tiêu thụ nhiều rượu vang nhất với lượng tiêu thụ lần lượt là 3,4 tỷ lít và 2,5 tỷ lít
- Xuất khẩu rượu vang toàn cầu đạt mức kỷ lục 37,6 tỷ euro (32,7 tỷ bảng Anh, 40,5 tỷ USD) vào năm 2022 Tăng 9% vào năm 2021 do giá trung bình tăng mạnh.
- Tổng giá trị rượu vang nhập khẩu vào Việt Nam năm 2022 đạt 97 triệu USD,tăng 53,5% so với năm 2021 Theo thống kê rượu vang Pháp chiếm tổng sản lượng rượu vang ở thị trường Việt Nam tiếp theo đó là rượu vang Chile, Ý và các nước khác.
Xu hướng
Trong quá khứ, xu hướng sP dụng rượu vang thường được nghĩ ngay đến vang đỏ Tuy nhiên, từ những năm 1995, xu hướng tiêu thụ rượu vang đã thay đổi mạnh mẽ Khi đó, mỗi 100 chai rượu vang được tiêu thụ, có 80% là vang đỏ, 15% là vang trắng và 4% là vang sủi.
Hiện nay trên thị trường Việt Nam, rượu vang đỏ vẫn được ưa chuộng nhất bởi người tiêu dùng thường là nam giới, họ thích hương vị đậm đà và nồng độ cao
Ngoài ra, ở các vùng nổi tiếng trên thế giới như Bordeaux, Burgundy,Tuscany, Piedmont và California, người dùng sẽ nhận thấy độ cồn của phần lớn các chai vang đều ở mức 13-14%, một số ít chai vang cao cấp ở California hoặc vang châu Âu trong niên vụ ấm như 2015 có thể lên đến 15-15.5% nhưng không phải số nhiều Thực tế, tại các thị trường châu Âu, Mỹ, xu hướng của người tiêu dùng am hiểu là lựa chọn vang có độ cô đọng, phức hợp, tinh tế, và độ cồn nhẹ nhàng hơn
Thị trường rượu vang tăng cường đặc biệt được thúc đẩy bởi xu hướng tiêu thụ rượu ngày càng tăng ở các nước đang phát triển Đồng thời, sự gia tăng nhu cầu tiêu thụ rượu vang ở các thị trường châu Á, nơi người dùng thích uống vang với độ cồn cao hơn.
Dữ liệu liên quan đến business dùng để nghiên cứu
Bộ dữ liệu được sP dụng để phân tích có liên quan đến cái biến thể màu đỏ và trắng của rượu vang Các bộ dữ liệu này có thể được xem là các tác vụ phân loại hoặc hồi quy Các hạng được sắp xếp theo thứ tự và không cân bằng (ví dụ: có nhiều loại rượu có chất lượng bình hơn các loại rượu vang xuất sắc và kém chất lượng)
Các thuật toán phát hiện ngoại lệ có thể được sP dụng để dò ra một vài loại rượu vang có chất lượng xuất sắc và kém chất lượng Ngoài ra, các biến đầu vào có thể không hoàn toàn liên quan Vì vậy, việc thP nghiệm các phương pháp để lựa chọn và phân loại đặc điểm có thể rất thú vị.
- Các biến đầu vào (dựa trên các xét nghiệm hóa lý):
- Biến đầu ra (dựa trên dữ liệu cảm quan):
(Hình ảnh khái quát của tập dữ liệu)
3 Lựa chọn 2 thuật toán phù hợp để phân tích
Lựa chọn 2 mô hình phù hợp để phân tích
K-Nearest Neighbors
K-Nearest Neighbors (KNN) là một trong những thuật toán học máy có giám sát đơn giản nhất được sP dụng nhiều trong khai phá dữ liệu và học máy.
KNN hoạt động dựa trên ý tưởng rằng những dữ liệu tương tự nhau sẽ tồn tại gần nhau trong một không gian Khi mô hình gặp một điểm dữ liệu không được gắn nhãn, nó sẽ đo khoảng cách đến K láng giềng gần nhất, từ đó đặt tên, và sau đó điểm dữ liệu không được gắn nhãn sẽ được phân loại là thuộc về lớp có nhiều cá thể huấn luyện nhất trong số K láng giềng gần nhất.
KNN có thể được sP dụng cho cả bài toán phân loại và hồi quy Trong bài toán phân loại, một đối tượng được phân loại bằng cách bầu chọn của các láng giềng của nó, với đối tượng được gán vào lớp phổ biến nhất trong số K láng giềng gần nhất Trong bài toán hồi quy, đầu ra là giá trị thuộc tính cho đối tượng Giá trị này là trung bình của các giá trị của K láng giềng gần nhất.
Một điểm đáng chú ý là KNN thuộc loại “lazy learning”, có nghĩa là nó chỉ lưu trữ tập dữ liệu huấn luyện thay vì trải qua một giai đoạn huấn luyện Điều này cũng có nghĩa là tất cả các tính toán xảy ra khi một phân loại hoặc dự đoán đang được thực hiện.
Tuy nhiên, KNN cũng có một số hạn chế Khi tập dữ liệu tăng lên, KNN trở nên ngày càng không hiệu quả, làm giảm hiệu suất mô hình tổng thể Nó thường được sP dụng cho các hệ thống đề xuất đơn giản, nhận dạng mẫu, khai thác dữ liệu, dự đoán thị trường tài chính, phát hiện xâm nhập và nhiều hơn nữa Ứng dụng của KNN:
Phân loại: KNN được sP dụng để phân loại dữ liệu vào các nhóm khác nhau dựa trên các đặc trưng của chúng Ví dụ, trong phân loại email là spam hay không spam, thuật toán KNN có thể xác định xem một email có thuộc vào nhóm spam hay không dựa trên nội dung và cấu trúc của email đó.
Phân loại hình ảnh: Trong lĩnh vực nhận dạng hình ảnh, KNN được sP dụng để phân loại các hình ảnh vào các nhãn tương ứng Ví dụ, KNN có thể xác định xem một hình ảnh có chứa một đối tượng nhất định (ví dụ: xe hơi, con mèo) hay không dựa trên các đặc trưng của hình ảnh đó.
Gợi ý: KNN cũng được sP dụng trong các hệ thống gợi ý, chẳng hạn như gợi ý sản phẩm trong một cPa hàng trực tuyến Thuật toán KNN có thể đề xuất các sản phẩm tương tự dựa trên sở thích và hành vi của người dùng.
Dự đoán: KNN cũng có thể được sP dụng để dự đoán một giá trị số trong một tập dữ liệu Ví dụ, KNN có thể dự đoán giá trị nhà dựa trên các thuộc tính của các căn nhà khác trong khu vực đó.
Nén dữ liệu: KNN cũng có thể được sP dụng để nén dữ liệu Bằng cách xác định các điểm dữ liệu gần nhất với một điểm dữ liệu mới, ta có thể giảm số lượng dữ liệu cần lưu trữ trong một tập dữ liệu lớn.
Random Forest
Random Forest là một thuật toán học máy có giám sát, được sP dụng rộng rãi để phân loại hoặc dự đoán một biến mục tiêu dựa trên một hoặc nhiều biến đầu vào.
Cấu trúc của Random Forest gồm nhiều cây quyết định, mỗi cây được xây dựng dựa trên một thuật toán ngẫu nhiên Mỗi cây quyết định trong Random Forest được xây dựng từ một tập con ngẫu nhiên của dữ liệu huấn luyện và sP dụng một tập con ngẫu nhiên của các thuộc tính.
Khi dự đoán, mỗi cây quyết định trong Random Forest đưa ra một dự đoán độc lập và kết quả cuối cùng được quyết định bằng cách bầu chọn hoặc lấy trung bình của các dự đoán từ tất cả các cây Điều này giúp giảm thiểu hiện tượng overfitting (quá khớp), một vấn đề thường gặp khi sP dụng một cây quyết định duy nhất.
Random Forest có thể được sP dụng cho cả bài toán phân loại (classification) và hồi quy (regression) Nó cũng có thể xP lý dữ liệu thiếu và dữ liệu bị lỗi.
Tuy nhiên, Random Forest cũng có một số hạn chế Khi tập dữ liệu tăng lên, Random Forest trở nên ngày càng không hiệu quả, làm giảm hiệu suất mô hình tổng thể
Random Forest được ứng dụng trong nhiều lĩnh vực:
Ngân hàng: Random Forest được sP dụng để xác định rủi ro cho vay.
Phân loại và hồi quy: Random Forest có thể được sP dụng cho cả các bài toán phân loại và hồi quy.
Khai phá dữ liệu: Random Forest được sP dụng để phân tích và hiểu dữ liệu.
Máy thị giác: Random Forest cũng được sP dụng trong lĩnh vực nhận dạng hình ảnh
Demo và trực quan hóa dữ liệu
- SP dụng công cụ KNIME Analytics Platform
- Konstanz Information Miner (KNIME) là công cụ Data Analyst phân tích, báo cáo và tích hợp dữ liệu nguồn mở được xây dựng để phân tích quy trình làm việc dựa trên GUI KNIME có 2 sản phẩm chính là KNIME Analytics Platform và KNIME Server. Trong đó KNIME Analytics Platform là một nguồn mở được sP dụng để làm sạch và thu thập dữ liệu Nó giúp mọi người truy cập các thành phần có thể tái sP dụng và tạo Data Science workflows.
- 2 thuật toán được dùng để phân tích: K-Nearest Neighbors và Random Forest
KNN có khả năng dự đoán loại rượu dựa trên các đặc trưng của rượu vang. Điều này có thể hữu ích để phân loại rượu vang vào các danh mục như loại vang đỏ, vang trắng, hay các loại vang khác nhau Đồng thời, được sP dụng để phân cụm các loại rượu vang dựa trên đặc trưng để nhóm các loại có các đặc tính tương tự vào các cụm, giúp hiểu rQ hơn về sự tương đồng giữa chúng Thuật toán này có thể linh hoạt với các loại đặc trưng khác nhau, bao gồm cả các thông số về hóa học, độ cồn, acid, và nhiều yếu tố khác, giúp trong việc xác định những yếu tố nào đóng góp nhiều vào tính chất của rượu vang
+ Tổng quan của mô hình khi áp dụng thuật toán KNN để phân tích và dự đoán xu hướng:
Xu hướng rượu vang đỏ chất lượng cao xuất hiện
Node Tên gọi Tính năng
Nút CSV Reader được sP dụng để đọc dữ liệu từ file CSV (Comma- Separated Values), cụ thể là tệp dữ liệu về rượu
Kiểm tra giá trị bị thiếu, các hàng trống và kiểu dữ liệu bị sai có trong tệp
Row Filter Lọc ra dữ liệu rượu vang đỏ
Lọc các giá trị và thêm chúng vào cột “red_high_quality” với quy tắc chuẩn:
1: Quality phải đạt từ 6 đến 9 2: Nồng độ cồn bắt đầu tự mức 12
Chia tập dữ liệu thành hai phần: 1: 80% cho dữ liệu huấn luyện 2: 20% cho dữ liệu kiểm tra
Dùng thuật toán để dự đoán xu hướng rượu vang đỏ có chất lượng cao xuất hiện
Dùng để hỗ trợ quản lý, đặt và tùy chỉnh các giá trị màu sắc dành cho các phần tP rượu vang đỏ chất lượng cao và các thành phần rượu vang còn lại trong tệp dữ liệu
Thể hiện kết quả rượu vang đỏ chất lượng cao lọc được thông qua biểu đồ tròn sau quá trình phân tích
Dùng để đánh giá độ chính xác và hiển thị kết quả hiệu suất của mô hình học máy bằng cách so sánh dự
- Kết quả: Các kết quả của mô hình được thể hiện qua số liệu và biểu đồ: Qua số liệu được thể hiện trên biểu đồ tròn sau khi được phân tích, có thể nhận thấy trong tệp dữ liệu có 8% rượu vang đỏ đạt chất lượng cao và 92% các loại còn lại Hiệu suất và độ chính xác so với giá trị thực thế là hơn 90%.
Xu hướng rượu vang trắng chất lượng cao xuất hiện
Node Tên gọi Tính năng
Nút CSV Reader được sP dụng để đọc dữ liệu từ file CSV (Comma-Separated Values), cụ thể là tệp dữ liệu về rượu
Kiểm tra giá trị bị thiếu, các hàng trống và kiểu dữ liệu bị sai có trong tệp
Row Filter Lọc ra dữ liệu rượu vang trắng
Lọc các giá trị và thêm chúng vào cột “white_high_quality” với quy tắc chuẩn:
1: Quality phải đạt từ mức 6 đến 9
2: Nồng độ cồn bắt đầu tự mức 12
Chia tập dữ liệu thành hai phần:1: 80% cho dữ liệu huấn luyện2: 20% cho dữ liệu kiểm tra
Dùng thuật toán để dự đoán xu hướng rượu vang trắng có chất lượng cao xuất hiện
Dùng để hỗ trợ quản lý, đặt và tùy chỉnh các giá trị màu sắc dành cho các phần tP rượu vang trắng chất lượng cao và các thành phần rượu vang còn lại trong tệp dữ liệu
Thể hiện kết quả rượu vang trắng chất lượng cao lọc được thông qua biểu đồ tròn sau quá trình phân tích
Dùng để đánh giá độ chính xác và hiển thị kết quả hiệu suất của mô hình học máy bằng cách so sánh dự đoán của mô hình với giá trị thực tế trong tập dữ liệu kiểm thP
- Kết quả: Các kết quả của mô hình được thể hiện qua số liệu và biểu đồ: Qua số liệu được thể hiện trên biểu đồ tròn sau khi được phân tích, có thể nhận thấy trong tệp dữ liệu có 16% rượu vang trắng đạt chất lượng cao và 84% các loại còn lại Hiệu suất và độ chính xác so với giá trị thực thế là hơn 87%.
Xu hướng rượu vang chất lượng thấp xuất hiện
Node Tên gọi Tính năng
Nút CSV Reader được sP dụng để đọc dữ liệu từ file CSV (Comma-Separated Values), cụ thể là tệp dữ liệu về rượu
Kiểm tra giá trị bị thiếu, các hàng trống và kiểu dữ liệu bị sai có trong tệp
Lọc các giá trị và thêm chúng vào cột “low_wine_quality” với quy tắc không chuẩn: Quality phải từ mức 5 trở xuống
Chia tập dữ liệu thành hai phần: 1: 80% cho dữ liệu huấn luyện 2: 20% cho dữ liệu kiểm tra
Dùng thuật toán để dự đoán xu hướng rượu vang chất lượng thấp xuất hiện
Color Manager Dùng để hỗ trợ quản lý, đặt và tùy chỉnh các giá trị màu sắc dành cho các phần tP rượu vang chất lượng thấp và các thành phần rượu vang khác trong tệp dữ liệu
Thể hiện kết quả rượu vang chất lượng thấp lọc được thông qua biểu đồ tròn sau quá trình phân tích
Dùng để đánh giá độ chính xác và hiển thị kết quả hiệu suất của mô hình học máy bằng cách so sánh dự đoán của mô hình với giá trị thực tế trong tập dữ liệu kiểm thP
- Kết quả: Các kết quả của mô hình được thể hiện qua số liệu và biểu đồ: Qua số liệu được thể hiện trên biểu đồ tròn sau khi được phân tích, có thể nhận thấy trong tệp dữ liệu có 36% rượu vang chất lượng thấp và 64% các loại rượu vang còn lại Hiệu suất và độ chính xác so với giá trị thực thế là trên 75%.
Random Forest có khả năng thực hiện cả nhiệm vụ phân loại (classification) và dự đoán (regression), phù hợp cho các loại bài toán khác nhau, bao gồm việc phân loại loại rượu vang hoặc dự đoán các đặc điểm của chúng Thuật toán này có khả năng xP lý một lượng lớn các đặc trưng (features) mà không cần quá trình giảm chiều dữ liệu. Điều này làm cho nó phù hợp cho các tập dữ liệu có nhiều đặc trưng đa dạng, như là thông tin về các yếu tố của rượu vang
+ Tổng quan của mô hình khi áp dụng thuật toán Random Forest để phân tích và dự đoán xu hướng:
Xu hướng rượu vang đỏ chất lượng cao xuất hiện
Node Tên gọi Tính năng
Nút CSV Reader được sP dụng để đọc dữ liệu từ file CSV (Comma-Separated Values), cụ thể là tệp dữ liệu về rượu
Kiểm tra giá trị bị thiếu, các hàng trống và kiểu dữ liệu bị sai có trong tệp
Row Filter Lọc ra dữ liệu rượu vang đỏ
Lọc các giá trị và thêm chúng vào cột “red_high_quality” với quy tắc chuẩn:
1: Quality phải đạt từ 6 đến 9
2: Nồng độ cồn bắt đầu tự mức 12
Chia tập dữ liệu thành hai phần: 1: 80% cho dữ liệu huấn luyện 2: 20% cho dữ liệu kiểm tra
Random Forest Learner huấn luyện mô hình Random Forest trên tập dữ liệu huấn luyện cụ thể, tạo ra một tập hợp các cây quyết định (decision trees) độc lập, mỗi cây được xây dựng trên một phần nhỏ của tập dữ liệu và một số ngẫu nhiên các đặc trưng
Random Forest Predictor Dự đoán xu hướng rượu vang đỏ có chất lượng cao xuất hiện
Dùng để đánh giá và hiển thị kết quả hiệu suất của mô hình học máy bằng cách so sánh dự đoán của mô hình với giá trị thực tế trong tập dữ liệu kiểm thP
Xu hướng rượu vang trắng chất lượng cao xuất hiện
Node Tên gọi Tính năng
Nút CSV Reader được sP dụng để đọc dữ liệu từ file CSV (Comma-Separated Values), cụ thể là tệp dữ liệu về rượu
Kiểm tra giá trị bị thiếu, các hàng trống và kiểu dữ liệu bị sai có trong tệp
Row Filter Lọc ra dữ liệu rượu vang trắng
Lọc các giá trị và thêm chúng vào cột “white_high_quality” với quy tắc chuẩn:
1: Quality phải đạt từ 6 đến 9
2: Nồng độ cồn bắt đầu tự mức 12
Chia tập dữ liệu thành hai phần: 1: 80% cho dữ liệu huấn luyện 2: 20% cho dữ liệu kiểm tra
Random Forest Learner huấn luyện mô hình Random
Forest trên tập dữ liệu huấn luyện cụ thể, tạo ra một tập hợp các cây quyết định (decision trees) độc lập, mỗi cây được xây dựng trên một phần nhỏ của tập dữ liệu và một số ngẫu nhiên các đặc trưng
Dự đoán xu hướng rượu vang trắng có chất lượng cao xuất hiện
Dùng để đánh giá và hiển thị kết quả hiệu suất của mô hình học máy bằng cách so sánh dự đoán của mô hình với giá trị thực tế trong tập dữ liệu kiểm thP
Xu hướng rượu vang chất lượng thấp xuất hiện
Node Tên gọi Tính năng
Nút CSV Reader được sP dụng để đọc dữ liệu từ file CSV (Comma-Separated Values), cụ thể là tệp dữ liệu về rượu
Kiểm tra giá trị bị thiếu, các hàng trống và kiểu dữ liệu bị sai có trong tệp
Lọc các giá trị và thêm chúng vào cột “low_wine_quality” với quy tắc không chuẩn: Quality phải từ mức 5 trở xuống
Chia tập dữ liệu thành hai phần: 1: 80% cho dữ liệu huấn luyện 2: 20% cho dữ liệu kiểm tra
Random Forest Learner huấn luyện mô hình Random