Báo cáo quá trình 2 môn nhập môn phân tích kinh doanh đề tài xu hướng rượu vang trên thế giới

30 0 0
Báo cáo quá trình 2 môn nhập môn phân tích kinh doanh đề tài xu hướng rượu vang trên thế giới

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Dữ liệu liên quan đến business dùng để phân tích: Bộ dữ liệu được sP dụng để phân tích có liên quan đến cái biến thể màu đỏ và trắng của rượu vang.. Ví dụ, KNN có thể dự đoán giá trị nh

Trang 1

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAMTRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

KHOA CÔNG NGHỆ THÔNG TIN

-BÁO CÁO QUÁ TRÌNH 2

MÔN: NHẬP MÔN PHÂN TÍCH KINH DOANHĐề tài: Xu hướng rượu vang trên thế giới

Người hướng dẫn: GV Phạm Thái Kỳ TrungNgười thực hiện: Chung Vinh An - 520H0600

Huỳnh Anh Khoa - 520H0465Huỳnh Hữu Minh - 520H0473

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2023

Trang 2

LỜI CẢM ƠN

Để có thể hoàn thành được bài báo cáo quá trình 2 của môn học này, trước tiên chúng em xin trân trọng cảm ơn Thầy Phạm Thái Kỳ Trung, người đã tận tình hướng dẫn và đồng hành cùng chúng em trong suốt quá trình thực hiện bài báo cáo cuối kỳ Với vốn kiến thức quan trọng chúng em đã tiếp thu được trong cả quá trình học tập không chỉ là nền tảng cho quá trình nghiên cứu bài báo cáo mà còn là bước đệm để chúng em có thể vững bước trong tương lai Em kính chúc thầy thật nhiều sức khỏe và tiếp tục thành công trong sự nghiệp giảng dạy cao quý.

Trang 3

LỜI CAM ĐOAN

Chúng em xin cam đoan Báo cáo quá trình 2 do nhóm em nghiên cứu và thực hiê Kn Chúng em đã kiểm tra dữ liệu theo quy định hiện hành Kết quả Báo cáo quá trình là trung thực và không sao chép từ bất kỳ báo cáo của nhóm khác Các tài liê Ku được sP dụng trong Báo cáo quá trình có nguồn gốc, xuất xứ rQ ràng.

(Ký và ghi rõ họ tên)

Trang 4

PHẦN NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊNPhần nhận xét của Giảng viên

Trang 5

MỤC LỤC

LỜI CẢM ƠN

LỜI CAM ĐOAN

PHẦN NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN

MỤC LỤC

BÁO CÁO QUÁ TRÌNH 2 1

1 Xác định bài toán liên quan đến Business cần để phân tích 1

1.1 Thông tin chung 1

1.2 Phân loại 1

1.3 Thị trường 1

1.4 Xu hướng 2

2 Dữ liệu liên quan đến business dùng để nghiên cứu 3

3 Lựa chọn 2 mô hình phù hợp để phân tích 5

3.1 K-Nearest Neighbors 5

3.2 Random Forest 6

4 Demo và trực quan hóa dữ liệu 7

Trang 6

BÁO CÁO QUÁ TRÌNH 2

1 Xác định bài toán liên quan đến Business cần để phân tích: Xu hướng rượu

vang trên thế giới.

1.1 Thông tin chung

Rượu vang là sản phẩm được làm từ nho, nơi đường trong nho được lên men và chuyển đổi thành cồn trong quá trình ủ Với lịch sP hình thành và phát triển từ hàng ngàn năm trước đây Từ việc được coi là một loại đồ uống xa xỉ và chỉ dành cho những người quý tộc, đến hiện nay, rượu vang đã trở thành một phần không thể thiếu của nền văn hóa ẩm thực và đồ uống của nhiều quốc gia trên thế giới.

1.2 Phân loại

Rượu vang được phân thành rượu đỏ, rượu trắng, rượu hồng, và nhiều loại khác nhau với đa dạng hương vị, chất lượng và giá thành.

 Vang trắng thông thường, Champagne, vang sủi: 10-12%, trong đó Moscato thường có thể chỉ ở 5-7%, Riesling của Đức có thể gặp những dòng 8-9%, và vang trắng Chardonnay có thể lên đến 13-14%.

 Vang đỏ thường có độ cồn từ 12-15%, trong đó vang Bourgogne và Bordeaux từ 12-14%, các dòng vang ở California (Mỹ), Chile, Argentina thường có độ cồn cao từ 13.4-15.5% Vang từ nho phơi khô Amarone, Recioto của vùng Valpolicella ở Bắc Ý có độ cồn cao từ 15-16%.

1.3 Thị trường

 Thế giới:

- Năm 2022, tổng sản lượng rượu vang trên toàn cầu đạt gần 26 tỷ lít, trong đó Ý chiếm đến 5 tỷ lít, dẫn đầu danh sách Các quốc gia tiếp theo trong danh sách sản xuất nhiều rượu vang gồm có Tây Ban Nha, Pháp, Mỹ và Trung Quốc Mỹ

Trang 7

và Pháp là hai quốc gia tiêu thụ nhiều rượu vang nhất với lượng tiêu thụ lần lượt là 3,4 tỷ lít và 2,5 tỷ lít

- Xuất khẩu rượu vang toàn cầu đạt mức kỷ lục 37,6 tỷ euro (32,7 tỷ bảng Anh, 40,5 tỷ USD) vào năm 2022 Tăng 9% vào năm 2021 do giá trung bình tăng mạnh.

 Việt Nam:

- Tổng giá trị rượu vang nhập khẩu vào Việt Nam năm 2022 đạt 97 triệu USD, tăng 53,5% so với năm 2021 Theo thống kê rượu vang Pháp chiếm tổng sản lượng rượu vang ở thị trường Việt Nam tiếp theo đó là rượu vang Chile, Ý và các nước khác

1.4 Xu hướng

 Trong quá khứ, xu hướng sP dụng rượu vang thường được nghĩ ngay đến vang đỏ Tuy nhiên, từ những năm 1995, xu hướng tiêu thụ rượu vang đã thay đổi mạnh mẽ Khi đó, mỗi 100 chai rượu vang được tiêu thụ, có 80% là vang đỏ, 15% là vang trắng và 4% là vang sủi.

 Hiện nay trên thị trường Việt Nam, rượu vang đỏ vẫn được ưa chuộng nhất bởi người tiêu dùng thường là nam giới, họ thích hương vị đậm đà và nồng độ cao

 Ngoài ra, ở các vùng nổi tiếng trên thế giới như Bordeaux, Burgundy, Tuscany, Piedmont và California, người dùng sẽ nhận thấy độ cồn của phần lớn các chai vang đều ở mức 13-14%, một số ít chai vang cao cấp ở California hoặc vang châu Âu trong niên vụ ấm như 2015 có thể lên đến 15-15.5% nhưng không phải số nhiều Thực tế, tại các thị trường châu Âu, Mỹ, xu hướng của người tiêu dùng am hiểu là lựa chọn vang có độ cô đọng, phức hợp, tinh tế, và độ cồn nhẹ nhàng hơn

Trang 8

 Thị trường rượu vang tăng cường đặc biệt được thúc đẩy bởi xu hướng tiêu thụ rượu ngày càng tăng ở các nước đang phát triển Đồng thời, sự gia tăng nhu cầu tiêu thụ rượu vang ở các thị trường châu Á, nơi người dùng thích uống vang với độ cồn cao hơn.

2 Dữ liệu liên quan đến business dùng để phân tích:

 Bộ dữ liệu được sP dụng để phân tích có liên quan đến cái biến thể màu đỏ và trắng của rượu vang Các bộ dữ liệu này có thể được xem là các tác vụ phân loại hoặc hồi quy Các hạng được sắp xếp theo thứ tự và không cân bằng (ví dụ: có nhiều loại rượu có chất lượng bình hơn các loại rượu vang xuất sắc và kém chất lượng)

 Các thuật toán phát hiện ngoại lệ có thể được sP dụng để dò ra một vài loại rượu vang có chất lượng xuất sắc và kém chất lượng Ngoài ra, các biến đầu vào có thể không hoàn toàn liên quan Vì vậy, việc thP nghiệm các phương pháp để lựa chọn và phân loại đặc điểm có thể rất thú vị.

 Thông tin thuộc tính:

- Các biến đầu vào (dựa trên các xét nghiệm hóa lý): 6 free sulfur dioxide 7 total sulfur dioxide 8 density

Trang 9

9 pH 10 sulfates 11 alcohol

- Biến đầu ra (dựa trên dữ liệu cảm quan): 12 quality (score between 0 and 10)

(Hình ảnh khái quát của tập dữ liệu)

3 Lựa chọn 2 thuật toán phù hợp để phân tích

Trang 10

3.1 K-Nearest Neighbors

 K-Nearest Neighbors (KNN) là một trong những thuật toán học máy có giám sát đơn giản nhất được sP dụng nhiều trong khai phá dữ liệu và học máy  KNN hoạt động dựa trên ý tưởng rằng những dữ liệu tương tự nhau sẽ tồn tại

gần nhau trong một không gian Khi mô hình gặp một điểm dữ liệu không được gắn nhãn, nó sẽ đo khoảng cách đến K láng giềng gần nhất, từ đó đặt tên, và sau đó điểm dữ liệu không được gắn nhãn sẽ được phân loại là thuộc về lớp có nhiều cá thể huấn luyện nhất trong số K láng giềng gần nhất  KNN có thể được sP dụng cho cả bài toán phân loại và hồi quy Trong bài

toán phân loại, một đối tượng được phân loại bằng cách bầu chọn của các láng giềng của nó, với đối tượng được gán vào lớp phổ biến nhất trong số K láng giềng gần nhất Trong bài toán hồi quy, đầu ra là giá trị thuộc tính cho đối tượng Giá trị này là trung bình của các giá trị của K láng giềng gần nhất  Một điểm đáng chú ý là KNN thuộc loại “lazy learning”, có nghĩa là nó chỉ

lưu trữ tập dữ liệu huấn luyện thay vì trải qua một giai đoạn huấn luyện Điều này cũng có nghĩa là tất cả các tính toán xảy ra khi một phân loại hoặc dự đoán đang được thực hiện.

 Tuy nhiên, KNN cũng có một số hạn chế Khi tập dữ liệu tăng lên, KNN trở nên ngày càng không hiệu quả, làm giảm hiệu suất mô hình tổng thể Nó thường được sP dụng cho các hệ thống đề xuất đơn giản, nhận dạng mẫu, khai thác dữ liệu, dự đoán thị trường tài chính, phát hiện xâm nhập và nhiều hơn nữa

Ứng dụng của KNN:

Phân loại: KNN được sP dụng để phân loại dữ liệu vào các nhóm khác

nhau dựa trên các đặc trưng của chúng Ví dụ, trong phân loại email là spam hay không spam, thuật toán KNN có thể xác định xem một email có thuộc vào nhóm spam hay không dựa trên nội dung và cấu trúc của email đó.

Phân loại hình ảnh: Trong lĩnh vực nhận dạng hình ảnh, KNN được sP

dụng để phân loại các hình ảnh vào các nhãn tương ứng Ví dụ, KNN có

Trang 11

thể xác định xem một hình ảnh có chứa một đối tượng nhất định (ví dụ: xe hơi, con mèo) hay không dựa trên các đặc trưng của hình ảnh đó  Gợi ý: KNN cũng được sP dụng trong các hệ thống gợi ý, chẳng hạn như

gợi ý sản phẩm trong một cPa hàng trực tuyến Thuật toán KNN có thể đề xuất các sản phẩm tương tự dựa trên sở thích và hành vi của người dùng  Dự đoán: KNN cũng có thể được sP dụng để dự đoán một giá trị số trong

một tập dữ liệu Ví dụ, KNN có thể dự đoán giá trị nhà dựa trên các thuộc tính của các căn nhà khác trong khu vực đó.

Nén dữ liệu: KNN cũng có thể được sP dụng để nén dữ liệu Bằng cách

xác định các điểm dữ liệu gần nhất với một điểm dữ liệu mới, ta có thể giảm số lượng dữ liệu cần lưu trữ trong một tập dữ liệu lớn.

3.2 Random Forest

 Random Forest là một thuật toán học máy có giám sát, được sP dụng rộng rãi để phân loại hoặc dự đoán một biến mục tiêu dựa trên một hoặc nhiều biến đầu vào.

 Cấu trúc của Random Forest gồm nhiều cây quyết định, mỗi cây được xây dựng dựa trên một thuật toán ngẫu nhiên Mỗi cây quyết định trong Random Forest được xây dựng từ một tập con ngẫu nhiên của dữ liệu huấn luyện và sP dụng một tập con ngẫu nhiên của các thuộc tính  Khi dự đoán, mỗi cây quyết định trong Random Forest đưa ra một dự

đoán độc lập và kết quả cuối cùng được quyết định bằng cách bầu chọn hoặc lấy trung bình của các dự đoán từ tất cả các cây Điều này giúp giảm thiểu hiện tượng overfitting (quá khớp), một vấn đề thường gặp khi sP dụng một cây quyết định duy nhất.

 Random Forest có thể được sP dụng cho cả bài toán phân loại (classification) và hồi quy (regression) Nó cũng có thể xP lý dữ liệu thiếu và dữ liệu bị lỗi.

Trang 12

 Tuy nhiên, Random Forest cũng có một số hạn chế Khi tập dữ liệu tăng lên, Random Forest trở nên ngày càng không hiệu quả, làm giảm hiệu suất mô hình tổng thể

Random Forest được ứng dụng trong nhiều lĩnh vực:

Ngân hàng: Random Forest được sP dụng để xác định rủi ro cho vay.

Phân loại và hồi quy: Random Forest có thể được sP dụng cho cả các bài

toán phân loại và hồi quy.

Khai phá dữ liệu: Random Forest được sP dụng để phân tích và hiểu dữ liệu.

Máy thị giác: Random Forest cũng được sP dụng trong lĩnh vực nhận dạng

hình ảnh

4 Demo và trực quan hóa dữ liệu

- SP dụng công cụ KNIME Analytics Platform

- Konstanz Information Miner (KNIME) là công cụ Data Analyst phân tích, báo cáo và tích hợp dữ liệu nguồn mở được xây dựng để phân tích quy trình làm việc dựa trên GUI KNIME có 2 sản phẩm chính là KNIME Analytics Platform và KNIME Server Trong đó KNIME Analytics Platform là một nguồn mở được sP dụng để làm sạch và thu thập dữ liệu Nó giúp mọi người truy cập các thành phần có thể tái sP dụng và tạo Data Science workflows.

- 2 thuật toán được dùng để phân tích: K-Nearest Neighbors và Random Forest

KNN có khả năng dự đoán loại rượu dựa trên các đặc trưng của rượu vang Điều này có thể hữu ích để phân loại rượu vang vào các danh mục như loại vang đỏ, vang trắng, hay các loại vang khác nhau Đồng thời, được sP dụng để phân cụm các loại rượu vang dựa trên đặc trưng để nhóm các loại có các đặc tính tương tự vào các cụm, giúp hiểu rQ hơn về sự tương đồng giữa chúng Thuật toán này có thể linh hoạt với các loại đặc trưng khác nhau, bao gồm cả các thông số về hóa học, độ cồn, acid, và nhiều yếu tố khác, giúp trong việc xác định những yếu tố nào đóng góp nhiều vào tính chất của rượu vang

Trang 13

+ Tổng quan của mô hình khi áp dụng thuật toán KNN để phân tích và dự đoán xu hướng:

Gồm 3 xu hướng:

Xu hướng rượu vang đỏ chất lượng cao xuất hiện

Trang 14

Kiểm tra giá trị bị thiếu, các hàng trống và kiểu dữ liệu bị sai có trong tệp

Row Filter Lọc ra dữ liệu rượu vang đỏ

Rule Engine

Lọc các giá trị và thêm chúng vào cột “red_high_quality” với quy tắc chuẩn:

1: Quality phải đạt từ 6 đến 9 2: Nồng độ cồn bắt đầu tự mức 12

Chia tập dữ liệu thành hai phần: 1: 80% cho dữ liệu huấn luyện 2: 20% cho dữ liệu kiểm tra

K Nearest Neighbor

Dùng thuật toán để dự đoán xu hướng rượu vang đỏ có chất lượng cao xuất hiện

Color Manager

Dùng để hỗ trợ quản lý, đặt và tùy chỉnh các giá trị màu sắc dành cho các phần tP rượu vang đỏ chất lượng cao và các thành phần rượu vang còn lại trong tệp dữ liệu

Pie/Donut Chart (JavaScript)

Thể hiện kết quả rượu vang đỏ chất lượng cao lọc được thông qua biểu đồ tròn sau quá trình phân tích

Dùng để đánh giá độ chính xác và hiển thị kết quả hiệu suất của mô hình học máy bằng cách so sánh dự

Trang 15

- Kết quả: Các kết quả của mô hình được thể hiện qua số liệu và biểu đồ: Qua số liệu được thể hiện trên biểu đồ tròn sau khi được phân tích, có thể nhận thấy trong tệp dữ liệu có 8% rượu vang đỏ đạt chất lượng cao và 92% các loại còn lại Hiệu suất và độ chính xác so với giá trị thực thế là hơn 90%.

Xu hướng rượu vang trắng chất lượng cao xuất hiện

Trang 16

Node Tên gọi Tính năng

Kiểm tra giá trị bị thiếu, các hàng trống và kiểu dữ liệu bị sai

Chia tập dữ liệu thành hai phần: 1: 80% cho dữ liệu huấn luyện 2: 20% cho dữ liệu kiểm tra

Trang 17

K Nearest Neighbor

Dùng thuật toán để dự đoán xu hướng rượu vang trắng có chất lượng cao xuất hiện

Color Manager

Dùng để hỗ trợ quản lý, đặt và tùy chỉnh các giá trị màu sắc dành cho các phần tP rượu vang trắng chất lượng cao và các thành phần rượu vang còn lại trong tệp dữ liệu

Pie/Donut Chart (JavaScript)

Thể hiện kết quả rượu vang trắng chất lượng cao lọc được thông qua biểu đồ tròn sau quá sánh dự đoán của mô hình với giá trị thực tế trong tập dữ liệu kiểm thP

- Kết quả: Các kết quả của mô hình được thể hiện qua số liệu và biểu đồ: Qua số liệu được thể hiện trên biểu đồ tròn sau khi được phân tích, có thể nhận thấy trong tệp dữ liệu có 16% rượu vang trắng đạt chất lượng cao và 84% các loại còn lại Hiệu suất và độ chính xác so với giá trị thực thế là hơn 87%.

Trang 18

Xu hướng rượu vang chất lượng thấp xuất hiện

Trang 19

Node Tên gọi Tính năng

Kiểm tra giá trị bị thiếu, các hàng trống và kiểu dữ liệu bị sai có trong tệp

Rule Engine

Lọc các giá trị và thêm chúng vào cột “low_wine_quality” với quy tắc không chuẩn: Quality phải từ mức 5 trở xuống

Chia tập dữ liệu thành hai phần: 1: 80% cho dữ liệu huấn luyện 2: 20% cho dữ liệu kiểm tra

K Nearest Neighbor

Dùng thuật toán để dự đoán xu hướng rượu vang chất lượng thấp xuất hiện

Color Manager Dùng để hỗ trợ quản lý, đặt và tùy chỉnh các giá trị màu sắc dành cho các phần tP rượu vang chất lượng thấp và các thành phần rượu vang khác trong tệp

Trang 20

dữ liệu

Pie/Donut Chart (JavaScript)

Thể hiện kết quả rượu vang chất lượng thấp lọc được thông qua biểu đồ tròn sau quá trình sánh dự đoán của mô hình với giá trị thực tế trong tập dữ liệu kiểm thP

- Kết quả: Các kết quả của mô hình được thể hiện qua số liệu và biểu đồ: Qua số liệu được thể hiện trên biểu đồ tròn sau khi được phân tích, có thể nhận thấy trong tệp dữ liệu có 36% rượu vang chất lượng thấp và 64% các loại rượu vang còn lại Hiệu suất và độ chính xác so với giá trị thực thế là trên 75%.

Trang 21

Random Forest

Random Forest có khả năng thực hiện cả nhiệm vụ phân loại (classification) và dự đoán (regression), phù hợp cho các loại bài toán khác nhau, bao gồm việc phân loại loại rượu vang hoặc dự đoán các đặc điểm của chúng Thuật toán này có khả năng xP lý một lượng lớn các đặc trưng (features) mà không cần quá trình giảm chiều dữ liệu Điều này làm cho nó phù hợp cho các tập dữ liệu có nhiều đặc trưng đa dạng, như là thông tin về các yếu tố của rượu vang

+ Tổng quan của mô hình khi áp dụng thuật toán Random Forest để phân tích và dự đoán xu hướng:

Ngày đăng: 14/04/2024, 22:43

Tài liệu cùng người dùng

Tài liệu liên quan