TỎNG LIÊN ĐOÀN LAO ĐỌNG VIỆT NAM
TRUONG DAI HOC TON BUC THANG
KHOA CONG NGHE THONG TIN
ĐẠI HỌC TÔN ĐỨC THẮNG
TON DUC THANG UNIVERSITY
BAO CAO QUA TRINH 2
MON: NHAP MON PHAN TICH KINH DOANH
Đề tài: Xu hướng rượu vang trên thế giới
Người hướng dân: GV Phạm Thái Kỳ Trung Người thực hiện: Chung Vĩnh An - 520H0600 Huỳnh Anh Khoa - 520H0465 Huỳnh Hữu Minh - 520H0473 Lop: 20H50302
THANH PHO HO CHI MINH, NAM 2023
Trang 2LỜI CẢM ƠN
Đề có thể hoàn thành được bài báo cáo quá trình 2 của môn học nảy, trước tiên chúng em xin trân trọng cảm ơn Thầy Phạm Thái Kỷ Trung, người đã tận tình hướng dẫn và đồng hành cùng chúng em trong suốt quá trình thực hiện bài báo cáo cuối kỳ Với vốn kiến thức quan trọng chúng em đã tiếp thu được trong cả quá trình học tập không chỉ là nền tảng cho quá trình nghiên cứu bài báo cáo mà còn là bước đệm đề chúng em có thê vững bước trong tương lai Em kính chúc thầy thật nhiều sức khỏe và tiếp tục thành công trong sự nghiệp giảng dạy cao quý
Trang 3LỜI CAM ĐOAN
Chúng em xin cam đoan Báo cáo quá trỉnh 2 do nhóm em nghiên cứu và thực hiêK Chúng em đã kiểm tra đữ liệu theo quy định hiện hành Kết quả Báo cáo qua trình là trung thực và không sao chép từ bất kỳ báo cáo của nhóm khác Các tài liêK được sP dụng trong Báo cáo quá trình có nguồn gốc, xuât xứ rõ ràng
(Ký và ghi rõ họ tên)
Trang 4PHAN NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN Phần nhận xét của Giảng viên
Tp Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)
Phần đánh giá của Giảng viên
Tp Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)
Trang 5
LỜI CÁM ƠN LỜI CAM ĐOAN
PHẦN NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIÁNG VIÊN 5-csccccsc-
Trang 6BAO CAO QUA TRINH 2
1 Xác định bài tốn liên quan đến Business can dé phan tích: Xu hướng rượu vang trên thể giới
1.1, Thơng tin chung
Rượu vang là sản phẩm được làm từ nho, nơi đường trong nho được lên men và chuyên đối thành cồn trong quá trình ủ Với lịch sP hình thành và phát triển từ hàng ngàn năm trước đây Từ việc được coi là một loại dé uống xa xỉ và chỉ dành cho những người quý tộc, đến hiện nay, rượu vang đã trở thành một phần khơng thê thiếu của nên văn hĩa âm thực và đồ uỡng của nhiêu quơc g1a trên thê giới
e - Vang đỏ thường cĩ độ cồn từ 12-15%, trong d6 vang Bourgogne va Bordeaux từ 12-14%, các dịng vang ở California (Mỹ), Chile, Argentina thường cĩ độ cồn cao từ 13.4-15.5% Vang từ nho phơi khơ Amarone, Recioto của vùng Valpolicella o Bắc Ý cĩ độ cồn cao tir 15-16%
1.3 Thị trường
s%% Thế giới:
- Năm 2022, tơng sản lượng rượu vang trên tồn cầu đạt gần 26 tỷ lít, trong đĩ Ý chiếm đến 5 tý lít, dẫn đầu danh sách Các quốc gia tiếp theo trong danh sách sản xuất nhiều rượu vang gồm cĩ Tây Ban Nha, Pháp, Mỹ và Trung õuốc Mỹ
Trang 7* se
Việt Nam:
- Tổng giá trị rượu vane nhập khâu vào Việt Nam năm 2022 đạt 97 triệu USD, tăng 53,5% so với năm 2021 Theo thống kê rượu vang Pháp chiếm tổng sản lượng rượu vang ở thị trường Việt Nam tiếp theo đó là rượu vang Chile, Ý và các nước khác
1.4, Xu hướng
Trong quá khứ, xu hướng sP dụng rượu vang thường được nghĩ ngay đến vang đỏ Tuy nhiên, từ những năm L995, xu hướng tiêu thụ rượu vang đã thay
đổi mạnh mẽ Khi đó, mỗi 100 chai rượu vang được tiêu thụ, có 80% là vang
đỏ, 15% là vang trắng và 4% là vang sủi
Hiện nay trên thị trường Việt Nam, rượu vang đỏ vẫn được ưa chuộng nhất bởi người tiêu dùng thường là nam giới, họ thích hương vị đậm đà và nồng độ Cao
Ngoài ra, ở các vùng nổi tiếng trên thế giới như Bordeaux, Burgundy, Tuscany, Piedmont và California, người dùng sẽ nhận thấy độ cồn của phần lớn các chai vang đều ở mức 13-14%, một số ít chai vang cao cấp ở California hoặc vang châu Âu trong niên vụ ấm như 2015 có thể lên đến 15-15.5% nhưng không phải số nhiều Thực tế, tại các thị trường châu Au, My, xu hướng của người tiêu dùng am hiểu là lựa chọn vang có độ cô đọng, phức hợp, tinh tế, và độ cồn nhẹ nhàng hơn
Trang 8> Thị trường rượu vang tăng cường đặc biệt được thúc đấy bởi xu hướng tiêu thụ rượu ngày cảng tăng ở các nước đang phát triển Đồng thời, sự gia tăng nhu cầu tiêu thụ rượu vang ở các thị trường châu A, nơi người dùng thích uông vang với độ côn cao hơn
2 Dữ liệu liên quan đến business dùng đễ phân tích:
> Bộ đữ liệu được sP dụng đề phân tích có liên quan đến cái biến thê màu đỏ và trắng của rượu vang Các bộ dữ liệu này có thể được xem là các tác vụ phân loại hoặc hồi quy Các hạng được sắp xếp theo thứ tự và không cân bằng (ví dụ: có nhiều loại rượu có chất lượng bình hơn các loại rượu vang xuất sắc và
kém chất lượng)
> Các thuật toán phát hiện ngoại lệ có thể được sP dụng để dò ra một vài loại rượu vang có chất lượng xuất sắc và kém chất lượng Ngoài ra, các biến đầu vào có thê không hoàn toàn liên quan Vì vậy, việc thP nghiệm các phương pháp đề lựa chọn và phân loại đặc điểm có thể rất thú vị
> Thông tin thuộc tính:
- Các biến đầu vào (dựa trên các xét nghiệm hóa lý): 1 fixed acidity
2 volatile acidity
G2 citric acid 4, residual sugar
ws chlorides 6 free sulfur dioxide
¬] total sulfur dioxide
8 density
Trang 99.pH 10 sulfates 11 alcohol
- Bién dau ra (dựa trên đữ liệu cảm quan): 12 quality (score between 0 and 10) Row, “Re fixed aci volatilea citricacid _ residual chlorides reesulf totaisuil
4 “
Z now PS fixed aei volatile citricacid _ residual chlorides _ free sult total suff
(Hình ảnh khải quát của tap dit liệu)
3 Lựa chọn 2 thuật toán phù hợp để phân tích density
alcoho!
quality
Trang 103.1 K-Nearest Neighbors
o K-Nearest Neighbors (KNN) là một trong những thuật toán học máy có giám sát đơn giản nhất được sP dụng nhiều trong khai phá đữ liệu và học máy KNN hoạt động dựa trên ý tưởng rằng những dữ liệu tương tự nhau sé tồn tại gần nhau trong một không gian Khi mô hình gặp một điểm đữ liệu không được gắn nhãn, nó sẽ đo khoảng cách đến K láng giềng gần nhất, từ đó đặt tên, và sau đó điểm đữ liệu không được gan nhãn sẽ được phân loại là thuộc về lớp có nhiều cá thể huấn luyện nhất trong số K láng giềng gần nhất KNN có thê được sP dụng cho cả bài toán phân loại và hồi quy Trong bài toán phân loại, một đối tượng được phân loại bằng cách bầu chọn của các láng giềng của nó, với đối tượng được gán vào lớp phố biến nhất trong số K láng giềng gần nhất Trong bài toán hồi quy, đầu ra là giá trị thuộc tính cho đối tượng Giá trị này là trung bình của các giá trị cua K lang giéng gần nhất Một điểm đáng chú ý là KNN thuộc loại “lazy learning”, có nghĩa là nó chỉ lưu trữ tập đữ liệu huấn luyện thay vì trải qua một giai đoạn huấn luyện Điều này cũng có nghĩa là tất cả các tính toán xảy ra khi một phân loại hoặc dự đoán đang được thực hiện
Tuy nhiên, KNN cũng có một số hạn chế Khi tập dữ liệu tăng lên, KNN trở nên ngày càng không hiệu quả, làm giảm hiệu suất mô hình tổng thể Nó thường được sP dụng cho các hệ thông để xuất đơn giản, nhận dạng mẫu, khai thác dữ liệu, dự đoán thị trường tài chính, phát hiện xâm nhập và nhiều hơn nữa
Ứng dụng của KNN:
¥ Phan loai: KNN được sP dụng dé phân loại dữ liệu vào các nhóm khác nhau dựa trên các đặc trưng của chúng Ví dụ, trong phân loại email là spam hay không spam, thuật toán KNN có thê xác định xem một email có thuộc vào nhóm spam hay không đựa trên nội dung và cấu trúc của email
đó
v Phân loại hình ánh: Trong lĩnh vực nhận dạng hình ảnh, KNN được sP
dụng đề phân loại các hình ảnh vào các nhãn tương ứng Ví dụ, KNN có
Trang 11thể xác định xem một hình ảnh có chứa một đối tượng nhất định (ví dụ: xe hơi, con mèo) hay không dựa trên các đặc trưng của hình ảnh đó * Gợi ý: KNN cũng được sP dụng trong các hệ thống gợi ý, chăng hạn như
gợi ý sản phâm trong một cPa hàng trực tuyến Thuật toán KNN có thể đề xuất các sản phẩm tương tự dựa trên sở thích và hành vi của người dùng * Dự đoán: KNN cũng có thể được sP dụng dé dự đoán một giá tri số trong
một tập dữ liệu Ví dụ, KNN có thé du đoán giá trị nhà dựa trên các thuộc tính của các căn nhà khác trong khu vực đó
v_ Nén dữ liệu: KNN cũng có thé duoc sP dung để nén dữ liệu Bằng cách xác định các điểm dữ liệu gan nhất với một điểm dữ liệu mới, ta có thê giảm số lượng đữ liệu cần lưu trữ trong một tập đữ liệu lớn
3.2 Random Foresf
>_ Random Forest là một thuật toán học máy có giám sát, được sP dụng rộng rai dé phân loại hoặc dự đoán một biến mục tiêu đựa trên một hoặc nhiều biến đầu vào
>_ Cấu trúc của Random Forest gồm nhiều cây quyết định, mỗi cây được xây dựng dựa trên một thuật toán ngẫu nhiên Mỗi cây quyết định trong Random Forest được xây dựng tử một tập con ngẫu nhiên của dữ liệu huấn luyện và sP dụng một tập con ngẫu nhiên của các thuộc tính > Khi dự đoán, mỗi cây quyết định trong Random Forest đưa ra một dự
đoán độc lập và kết quả cuối cùng được quyết định bằng cách bầu chọn hoặc lấy trung bình của các dự đoán từ tất cả các cây Điều này giúp giảm thiểu hiện tượng overñtting (quá khớp), một vấn đề thường gặp khi sP dụng một cây quyết định duy nhất
> Random Forest có thể được sP dụng cho cả bài toán phân loại (classification) và hồi quy (regression) Nó cũng có thê xP lý dữ liệu thiếu
và dữ liệu bị 161
Trang 12>_ Tuy nhiên, Random Forest cũng có một số hạn chế Khi tập dữ liệu tăng lên, Random Forest trở nên ngày càng không hiệu quả, làm giảm hiệu suất m6 hinh tong thé
Random Forest được ứng dung trong nhiều lĩnh vực:
+ Ngân hang: Random Forest được sP đụng đề xác định rủi ro cho vay v_ Phân loại và hồi quy: Random Forest có thể được sP dụng cho cả các bài
toán phân loại và hôi quy
¥ Khai phá dữ liệu: Random Forest được sP dụng dé phan tich va hiểu dữ liệu v_ Máy thị giác: Random Forest cũng được sP dụng trong lĩnh vực nhận dạng
hình ảnh
4 Demo và trực quan hóa dữ liệu
- SP dụng công cụ KNIME Analytics Platform
- Konstanz Information Miner (KNIME) là công cụ Data Analyst phân tích, bảo cáo và tích hợp đữ liệu nguồn mở được xây dựng đề phân tích quy trình làm việc dựa trên GUI KNIME có 2 sản phẩm chính là KNIME Analytics Platform và KNIME Server Trong d6 KNIME Analytics Platform la một nguồn mở được sP dụng để làm sạch va thu thập đữ liệu Nó giúp mọi người truy cập các thành phần có thê tái sP dụng và tạo Data Science workflows
- 2 thuật toán được ding dé phan tich: K-Nearest Neighbors va Random Forest @ K-Nearest Neighbors
KNN có khả năng dự đoán loại rượu dựa trên các đặc trưng của rượu vang Điều này có thê hữu ích đề phân loại rượu vang vào các danh mục như loại vang đỏ, vang trắng, hay các loại vang khác nhau Đồng thời, được sP dụng đề phân cụm các loại rượu vang dựa trên đặc trưng để nhóm các loại có các đặc tính tương tự vào các cụm, giúp hiểu rõ hơn về sự tương đồng giữa chúng Thuật toán này có thê linh hoạt với các loại đặc trưng khác nhau, bao gồm cả các thông số về hóa học, độ cồn, acid, và nhiều yếu tố khác, giúp trong việc xác định những yếu tố nào đóng góp nhiều vào tính chất của rượu vang
Trang 13+ Tổng quan của mô hình khi áp đụng thuật toán KNN để phân tích và dự đoán xu hướng:
CSV Reader
a pltng the dataset into two °
1 ‘a Predict the trend of RED wine wth High-Quality appear
Trang 14
Separated Values), cu thé la tép dir liệu về rượu
Re Missing Value trồng và kiểu dữ liệu bị sai có trong tệp
Row Filter ®
Lọc các giá trị và thêm chúng vào
Rule Engine
1; õuality phải đạt từ 6 đến 9 2: Nồng độ cồn bắt đầu tự mức 12
( © z
Partitioning 1: 80% cho dữ liệu huan luyén
2: 20% cho dữ liệu kiểm tra
Dùng thuật toán để dự đoán xu TRO K Nearest Neighbor hướng rượu vang đỏ có chất lượng
cao xuất hiện
Pie/Donut Chart (JavaScript)
Thê hiện kết quả rượu vang đỏ chất lượng cao lọc được thông qua biểu đồ tròn sau quá trình phân tích
Scorer Dùng đề đánh giá độ chính xác va hiện thị kêt quả hiệu suất của mô hình học máy bằng cách so sánh dự
Trang 15
- Kết quả: Các kết quả của mô hình được thê hiện qua số liệu và biểu đỗ: õua số liệu được thê hiện trên biêu đồ tròn sau khi được phân tích, có thế nhận thấy trong tệp đữ liệu có 8% rượu vang đỏ đạt chất lượng cao và 92% các loại còn lại Hiệu suất và độ chính xác so với giá trị thực thế là hơn 909%,
IES Grouped Pre Chart
@Nion Standard @ Standard Actroved
Reset Apply = Close ©
J Confusion Matrix - 6:111 - Scorer (Evaluating the ac — D x
File Hilite
red_high_ Standard Non Stand
Standard Ap |6 lai Non Standard |3 29
Correct dassified: 295 Wrong classified: 24 Acoracy: 92,476% Error: 7,524%
Cohen's kappa (ik): 0,304%
Y Xu hwéng rugu vang trang chat lượng cao xuất hiện
10
Trang 16=> Nut CSV Reader duoc sP dung
o® dé doc dữ liéu tir file CSV
CSV Reader
(Comma-Separated Values), cu thé là tệp dữ liệu về rượu Kiểm tra giá tri bi thiếu, các ORe Missing Value hang trong va kiéu dé liéu bi sai
với quy tắc chuẩn:
Rule Engine 1: duality phai dat từ mức 6 dén 9
2: Nồng độ cồn bắt đầu tự mức 12
Partitioning 1: 80% cho dữ liệu huân luyện
2: 20% cho dữ liệu kiểm tra
11
Trang 17
Re K Nearest Neighbor
Dùng thuật toán đề dự đoán xu hướng rượu vang trăng có chất lượng cao xuât hiện
Color Manager
Dùng đề hỗ trợ quản lý, đặt và tùy chỉnh các giá trị màu sắc dành cho các phần tP rượu vang trắng chất lượng cao và các thành phần rượu vang còn lại trong tệp đữ liệu
Pie/Donut Chart (JavaScript)
Thể hiện kết quả rượu vang trắng chất lượng cao lọc được thông qua biểu đồ tròn sau quá trình phân tích
kiém thP
- Kết quả: Các kết quả của mô hình được thê hiện qua số liệu và biểu đỗ: ðua số liệu được thê hiện trên biêu đồ tròn sau khi được phân tích, có thế nhận thấy trong tệp đữ liệu có 16% rượu vang trắng đạt chất lượng cao và 84%% các loại còn lại Hiệu suất và độ chính xác so với giá trị thực thế là hơn 87%
12