1. Trang chủ
  2. » Luận Văn - Báo Cáo

trực quan hoá và phân tích các tập dữ liệu

44 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 2,73 MB

Cấu trúc

  • TASK 1: REGRESSION PROBLEM (6)
    • 1. Descriptive Statistical Analysis (6)
      • 1.1. Calculate mean, median, mode, range, standard deviation (6)
      • 1.2. Frequency for "Public Holidays" (7)
    • 2. Skewness Analysis, Visualization, and Time Series (8)
      • 2.1. Determine skewness (threshold: |skewness| > 0.5 indicates significant skew) (8)
      • 2.2. Create histograms for distribution visualization (8)
      • 2.3. Monthly averages visualization over two years for continuous variables (11)
    • 3. Boxplot Analysis for Outliers (16)
      • 3.1. Generate boxplots for each continuous variable (16)
    • 4. Correlation Analysis (19)
      • 4.1. Analyze correlations between independent variables and Ice Cream Sales (19)
    • 5. Regression Analysis (20)
      • 5.1. Conduct linear regression to identify significant variables impacting sales (20)
      • 5.2. Interpret coefficients, p-values, and R-squared (21)
    • 6. Interpretation and Insights (22)
      • 6.1. Provide analytical insights based on analyses (22)
      • 6.2. Discuss brief implications in a marketing context (22)
  • TASK 2: CLASSIFICATION PROBLEM (23)
    • 1. Create a SCATTER PLOT (23)
    • 2. Based on a provided scatter plot, decide the value of K (23)
    • 3. Select Initial Centroids: Choose k data points from the dataset as the initial centroids (23)
    • 4. Assign Points to Clusters (24)
    • 5. Recalculate Centroids (26)
    • 6. Iterate the Process (26)
  • TASK 3: DATA VISUALIZATION (29)
    • 1. Giới thiệu về tập dữ liệu (0)
      • 1.1. Dataset này thể hiện dữ liệu của ngành công nghiệp nào? (0)
      • 1.2. Giới thiệu sơ lược về ngành công nghiệp đó, ở nơi mà tập dữ liệu này được tạo ra (0)
      • 1.3. Cấu trúc dataset này như thế nào? (29)
      • 1.4. Nêu ra các cột dữ liệu chứa missing values? Chỉ rõ bao nhiều dòng, và bao nhiêu % số dòng thuộc cột đó gặp tình trạng missing values? (0)
      • 1.5. Có xử lý missing values không? Nêu phương pháp Imputation cho từng cột dữ liệu có chứa (30)
    • 2. Các bước chuẩn bị (0)
      • 2.1. Bao nhiêu cột được sử dụng trong bài phân tích? Liệt kê các cột (0)
      • 2.2. Nêu sơ lược các nội dung muốn truyền tải đến người đọc thông qua bài phân tích (0)
      • 2.3. Nêu ra các cột/biến (variables) tham gia trong từng mục (0)
      • 2.4. Nếu mục nào có tạo biến mới thì kê khai biến đó ra. Và nếu biến mới được tạo ra bởi hàm/syntax (theo 2.2) thì kê khai hàm/câu lệnh ra, hoặc nêu cách tạo biến mới (0)
    • 3. Data visualization (33)
      • 3.1. Trình bày các Figures (hình ảnh) ứng với thứ tự đã kê khai trong 2.2 (0)
      • 3.2. Giải thích insight ứng với các Figures trong 3.1 (0)
    • 4. Kết luận và nhận định sau khi phân tích (0)
      • 4.1. Nhận định chung về tình hình (kinh doanh, dich bệnh,…) đã quan sát được từ việc trực quan hóa tập dữ liệu (0)
      • 4.2. Đưa ra suggestions để cải thiện issues mà Walmart Retail gặp phải (0)

Nội dung

Create histograms for distribution visualization Dưới đây là một số biểu đồ thể hiện tần suất để trực quan hóa phân phối của các biến: Temperature, Rain Volume, Marketing Spend và Ice Cr

REGRESSION PROBLEM

Descriptive Statistical Analysis

1.1 Calculate mean, median, mode, range, standard deviation

Dưới đây là bảng mô tả các giá trị Calculate Mean, Median, Mode, Range, Standard Deviation của 4 biến: Temperature, Rain Volume, Marketing Spend và Ice Cream Sales

Bảng 1: Kết quả thống kê mô tả

Statistics Temperature Rain Volume Marketing Spend Ice Cream Sales

Range 20 10,000000000000000 4485 1905 a Multiple modes exist The smallest value is shown

Bảng 2: Frequency của Public Holidays

Public Holidays Frequency Percent Valid Percent Cumulative Percent Valid

Từ Bảng 2 ta thấy cụ thể ở biến “Public Holidays”: Số Non-Holiday đạt số liệu cao nhất chiếm

371 trên tổng số 731, chiếm tỉ lệ 50,8% mẫu khảo sát Còn lại là Holiday chiếm 360 trên tổng số 731, chiếm tỉ lệ 49,2% mẫu ảo sát Số kh lượng Holiday và Non – Holiday trong khảo sát chênh lệch nhau không quá lớn (nằm trong khoảng 1,6%) Kèm với bảng tần số là biểu đồ tròn thể hiện cơ cấu của biến Public Holidays

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

Skewness Analysis, Visualization, and Time Series

2.1 Determine skewness (threshold: |skewness| > 0.5 indicates significant skew)

Bảng 3: Kết quả Determine skewness

Statistic Statistic Statistic Statistic Std Error

Dựa vào dữ liệu đã tính được ở Bảng 3 ta có thể thấy rằng:

- Temperature có độ lệch bằng 0 nên tập dữ liệu Temperature là phân phối chuẩn Vì ph n phối chuẩn â có dạng hình chuông, nên các giá trị gần giá trị trung bình (Mean) sẽ có xác suất xuất hiện cao hơn so với các giá trị ở xa giá trị trung bình (Mean)

- Rain Volume có độ lệch bằng - 0,498 nên hình dạng của dữ liệu này bị lệch trái, cho thấy rằng có một số lượng lớn các giá trị Rain Volume nhỏ hơn giá trị trung bình (Mean) và đuôi trái của phân phối dài hơn đuôi phải

- Marketing Spend có độ lệch bằng 0 554 nên hình dạng của tệp dữ liệu này bị lệch phải Độ lệch , dương cho biết rằng số lượng lớn giá trị Marketing Spend lớn hơn giá trị trung bình (Mean) và đuôi phải của phân phối dài hơn đuôi trái

- Ice Cream Sales có độ lệch là - 0,094 nên hình dạng của tập dữ liệu này bị lệch trái Trong đó có một số lượng lớn giá trị Ice Cream Sales nhỏ hơn giá trị trung bình (Mean) và đuôi trái của phân phối dài hơn đuôi phải

2.2 Create histograms for distribution visualization

Dưới đây là một số biểu đồ thể hiện tần suất để trực quan hóa phân phối của các biến:

Temperature, Rain Volume, Marketing Spend và Ice Cream Sales

4 Ảnh 1: Biểu đồ ần suất của t biến Temperature

- Ảnh 1 thể hiện biểu đồ tần suất hoàn chỉnh của biến Temperature Biểu đồ này cho biết nhiệt độ hàng tháng trong năm 2020 và năm 2021 Từ biểu đồ ta thấy được giá trị xuất hiện thường xuyên nhất trong biểu đồ là 10 và 30 Nhiệt độ dao động từ 10 và duy trì trung bình ở nhiệt độ 20, sau đó tăng lên nhiệt độ là 30

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

5 Ảnh 2: Biểu đồ tần suất củabiến Rain Volume

- Từ Ảnh 2 ta có thể ấy biểu đồ bị lệch về phía bên trái, đồng thời cũng thấy được giá trị xuất hiệth n thường xuyên nhất trong 2 năm đó là lượng mưa đạt 10 Biểu đồ tần suất này còn cho thấy sự thay đổi của lượng mưa, cụ ể là lượng mưa từ 0 đến 10.th Ảnh 3: Biểu đồ tần suất của biến Marketing Spend

- Ta có thể thấy ở Ảnh 3 biểu đồ bị lệch về phía bên phải, đồng thời cũng thấy được giá trị xuất hiện thường xuyên nhất trong 2 năm đó là chi phí tiếp thị với khoảng từ 1200 đến 1300 Biểu đồ tần suất này còn cho thấy sự thay đổi của chi phí tiếp thị, cụ thể là từ 400 đến 5000. Ảnh : Biểu đồ tần suất của biến Ice Cream Sales4

- Nhìn vào biểu đồ ở Ảnh 4, ta thấy biểu đồ có hình dáng đối xứng, đồng thời cũng thấy được giá trị xuất hiện thường xuyên nhất trong 2 năm, đó là số lượng kem bán được từ khoảng 1100 đến 1200

Biểu đồ tần suất còn cho thấy sự thay đổi của số lượng kem được bán, cụ thể là từ 300 đến 2300

2.3 Monthly averages visualization over two years for continuous variables

Các biến liên tục được sử dụng để trực quan hóa mức trung bình hàng tháng trong hai năm bao gồm:

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

7 Ảnh : Biểu đồ thể hiện mức trung bình trong hai năm của biến Temperature5 + Năm 2020 bắt đầu bằng nhiệt độ trung bình hàng tháng 22,5°C vào tháng 1 và tiếp tục tăng đều trong giai đoạn mùa xuân, đạt đỉnh là 29,63°C vào tháng 4 Sau đó, nhiệt độ trung bình giảm dần trong giai đoạn mùa hè và mùa thu, và cuối cùng đạt đến 17,45°C vào tháng 12

+ Năm 2021 có xu hướng tương tự như năm 2020 với đỉnh điểm nhiệt độ trung bình hàng tháng vào tháng 4 (29,63°C) Tuy nhiên, một điểm đáng chú ý là nhiệt độ trung bình hàng tháng trong năm 2021 có xu hướng cao hơn so với năm 2020 trong giai đoạn mùa hè và mùa thu Tháng 5 và tháng 6 của năm 2021 có nhiệt độ trung bình cao hơn so với năm 2020 Sau đó, nhiệt độ trung bình giảm dần trong giai đoạn mùa thu và mùa đông, và cuối cùng đạt đến 17,45°C vào tháng 12

Cả hai năm 2020 và 2021 đều cho thấy một xu hướng tăng nhiệt độ từ mùa đông đến mùa xuân, sau đó giảm dần từ mùa hè đến mùa thu Tuy nhiên, năm 2021 có xu hướng nhiệt độ cao hơn so với năm 2020 trong giai đoạn mùa hè và mùa thu

8 Ảnh 6: Biểu đồ thể hiện mức trung bình trong hai năm của biến Rain Volume + Trong năm 2020, lượng mưa trung bình hàng tháng có sự biến động từ khoảng 4,51233 mm đến 9,58828 mm Các tháng có lượng mưa trung bình cao nhất là tháng 2 và tháng 8, với lượng mưa trung bình lần lượt là 9,58828 mm và 9,53258 mm Tháng 2 và tháng 8 có xu hướng mưa nhiều hơn so với các tháng khác trong năm, có thể là do yếu tố thời tiết hoặc các yếu tố khí hậu địa phương Trong khi đó, tháng 4 và tháng 7 có lượng mưa trung bình thấp nhất, chỉ khoảng 4,51233 mm và 4,57452 mm

Có thể rằng các tháng này đón nhận ít mưa hơn do yếu tố khí hậu hoặc đặc điểm địa lý của vùng

+ Tiếp theo, trong năm 2021, lượng mưa trung bình hàng tháng cũng có sự biến động từ khoảng

4,51233 mm đến 9,61786 mm Tháng 2 và tháng 8 tiếp tục là các tháng có lượng mưa trung bình cao nhất, lần lượt là 9,61786 mm và 9,53258 mm Điều này cho thấy rằng xu hướng mưa cao trong tháng

2 và tháng 8 có thể là đặc điểm khí hậu ổn định hoặc mô hình thời tiết của vùng trong năm Tháng 4 và tháng 7 tiếp tục là các tháng có lượng mưa trung bình thấp nhất, tương tự như trong năm 2020

Tổng quan, cả năm 2020 và năm 2021 đều có sự biến động trong lượng mưa trung bình hàng tháng

Tháng 2 và tháng 8 trong cả hai năm đều là các tháng có lượng mưa trung bình cao nhất, trong khi tháng 4 và tháng 7 là các tháng có lượng mưa trung bình thấp nhất Ngoài ra, không có sự khác biệt đáng kể về lượng mưa giữa năm 2020 và năm 2021 Cả hai năm có xu hướng tương tự và không có sự thay đổi đáng kể

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

9 Ảnh 7: Biểu đồ thể hiện mức trung bình trong hai năm của biến Marketing Spend

Boxplot Analysis for Outliers

3.1 Generate boxplots for each continuous variable

Bảng 4: Giá trị Boxplots của các biến

Min Q1 Median Mean Q3 Max IQR

- Biến Temperature: Ảnh : Boxplot của biến Temperature9 + Vì data shape của biến Temperature có dạng hình chuông (phân phối chuẩn) nên dữ liệu có xu hướng tập trung nhiều về điểm trung vị và các giá trị gần giá trị trung bình (Mean = 20) sẽ có xác suất xuất hiện cao hơn so với các giá trị ở xa giá trị trung bình Từ oxplot ta có thể thấy nhiệt độ dữ B liệu này đối xứng với nhau Nhiệt độ cao nhất là 30 và nhiệt độ thấp nhất là 10 Nhiệt độ dao động từ khoảng 10 đến khoảng 30 độ và luôn dưới 30 độ Nhiệt độ từ 10 (Min) đến Q1 (từ 10-13) chiếm 25% số lượng mẫu (ns1) từ đó ta suy ra có ít nhất 75% ngày trong 731 ngày có nhiệt độ từ 13 độ trở lên Điểm trung vị là 20 nên ta có khẳng định rằng có ít nhất 365,5 ngày trong 731 ngày có nhiệt độ là 20 độ trở lên Ta có IQR của dữ liệu là 14 suy ra được outlier của dữ liệu này sẽ nhỏ hơn 8 và lớ- n

12 hơn 41 Nhìn chung, nhiệt độ trong 2 năm qua ở khu vực này khá hài hòa và không thay đổi nhiều và qua mỗi năm có xu hướng lặp đi lặp lại

- Biến Rain Volume: Ảnh 10: Boxplot của biến Rain Volume + Data shape của Rain Volume lệch trái cho thấy tần suất phân bổ của những ngày có lượng mưa từ

7,06 (Median) đến 10 (Max) cao hơn những ngày có lượng mưa trung bình (hoặc nhỏ hơn 6.3576) Lượng mưa dao động từ 0 đến 10 và luôn dưới 10 Lượng mưa từ 0 (Min) đến Q1 (0-3,78) chiếm

25% số lượng mẫu (ns1) từ đó ta suy ra được có ít nhất 75% ngày trong 731 ngày có lượng mưa từ 3,78 trở lên Ta có IQR của Rain Volume là 5,46 từ đó suy ra được outlier của dữ liệu này sẽ nhỏ hơn 4,41 và lớn hơn 18,19 Nhìn chung, khu vực này thường xuyên mưa.-

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

13 Ảnh 11: Boxplot của biến Marketing Spend + Data shape của Marketing Spend phân phối lệch phải cho thấy dữ liệu có xu hướng tập trung nhiều về bên trái Dữ liệu của Marketing Spend dao động từ 512 đến 4997 Chi tiêu cao nhất là 4997 và nhỏ nhất là 512 Chi tiêu từ 512 (Min) đến Q1 (từ 512-1435) chiếm 25% số lượng mẫu (ns1) từ đó ta suy ra có ít nhất 75% ngày trong 731 ngày có chi tiêu từ 1435 trở lên và luôn dưới 4997 Ta có IQR của Marketing Spend là 1504 suy ra outlier của dữ liệu này sẽ nhỏ hơn 821 và lớn hơn 5195 và dựa - vào boxplot ta thấy được Marketing Spend không có outlier Nhìn chung, doanh nghiệp chi tiêu

Marketing cho khu vực này khá nhiều

14 Ảnh 12: Boxplot của biến Ice Cream Sales + Data shape của Icecream Sales phân phối lệch trái cho thấy dữ liệu có xu hướng tập trung nhiều về bên phải Dữ liệu của Icecream Sales dao động từ 267 đến 2172 Doanh số bán kem cao nhất là 2172 và thấp nhất là 267 Doanh số từ 267 (Min) đến Q1 (từ 267-957) chiếm 25% số lượng mẫu (ns1) từ đó ta suy ra được có ít nhất 75% ngày trong 731 ngày có doanh số bán kem từ 957 trở lên và luôn dưới 2172 Ta có IQR của Icecream Sales là 420 suy ra outlier của dữ liệu này sẽ nhỏ hơn 327 và lớn hơn 2007 Quan sát từ Boxplot ta thấy được có 6 outliers cần loại bỏ để tránh sai sót Các outliers cần loại bỏ có ID là 68, 148, 226, 422, 566, 684 và có doanh số bán kem lần lượt là 2172, 2006, 301,

2016, 267, 306 Nhìn chung, doanh số bán kem trong 2 năm thuộc mức trung bình.

Correlation Analysis

4.1 Analyze correlations between independent variables and Ice Cream Sales

Bảng 5: Kết quả phân tích tương quan

Correlations Ice Cream Sales Temperature

Marketing Spend Ice Cream Sales Pearson

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

** Correlation is significant at the 0.01 level (2-tailed)

Căn cứ vào kết quả phân tích tương quan ở Bảng 5 ta thấy, biến phụ thuộc Ice Cream Sales có mối tương quan đồng biến với biến độc lập Temperature (0,248 > 0), điều này có nghĩa là khi nhiệt độ tăng thì doanh số bán kem cũng sẽ tăng Trái ngược lại, các biến độc lập Rain Volume (-

0,040 < 0) và Marketing Spend (- 0,19 < 0) lại có mối tương quan nghịch biến vớ biến phụ thuội c

Ice Cream Sales, điều này cho thấy khi lượng mưa và chi phí tiếp thị tăng thì doanh số bán kem giảm

Cùng với đó, hệ số Sig trong mối tương quan giữ biến phụ thuộc Ice Cream Sales vớ biến độc lập a i

Temperature là 0,000 nhỏ hơn 0,05 (tức nhỏ hơn 5%) điều này cho thấy mối tương quan giữ biến a phụ thuộc Ice Cream Sales vớ biến độc lập Temperature có ý nghĩa thống kê Và trong mối tương i quan giữ biến phụ thuộc Ice Cream Sales với những biến độc lập Rain Volume, Marketing Spend a có hệ số Sig lần lượt là 0,282 và 0,600 đều lớn hơn 0,05, cho thấy mối tương quan này không có ý nghĩa thống kê.

Regression Analysis

5.1 Conduct linear regression to identify significant variables impacting sales

Theo kết quả phân tích tương quan ở Bảng 5 có thể ấy rằng biến Rain Volume, Marketing th

Spend không có ý nghĩa thống kê (hệ số Sig đề ớn hơn 0,05u l ) nên khi phân tích hồi quy nhóm sẽ ỉ ch giữ lại biến Temperature (hệ số Sig nhỏ hơn 0,05) để ến hành phân tích.ti

ANOVA a Model Sum of Squares df Mean Square F Sig

Residual 65342182,980 729 89632,624 Total 69612733,732 730 a Dependent Variable: Ice Cream Sales b Predictors: (Constant), Temperature

Bảng 7: Bảng Model Summary Model Summary b

Std Error of the Estimate Durbin-Watson

1 ,248 a ,061 ,060 299,387 2,024 a Predictors: (Constant), Temperature b Dependent Variable: Ice Cream Sales

Bảng 8: Bảng Coefficients Coefficients a Model

B Std Error Beta Tolerance VIF

Temperature 10,777 1,561 ,248 6,903 ,000 1,000 1,000 a Dependent Variable: Ice Cream Sales

5.2 Interpret coefficients, p-values, and R-squared

Sau khi thực hiện mô hình hồi quy, ta thu được kết quả như đã thấy ở Bảng , Bảng 6 7 và Bảng

8, những kết quả đó được giải thích như sau:

- Bảng 6 là bảng ANOVA cho kết quả của kiểm định F để đánh giá giả thuyết sự phù hợp của mô hình hồi quy (giả thuyết H0: R = 0 2 ) Giá trị ig kiểm định F bằng 0S ,000 < 0,05 Do đó, mô hình hồi quy là phù hợp

- Bảng 7 là bảng Model Summary cho kết quả của R Square (R 2 ) và Adjusted R Square (Adj R 2 ) để đánh giá mức độ phù hợp của mô hình Ở đây, giá trị Adj R 2 = 0,060 cho thấy biến độc lập Temperature đưa vào phân tích hồi quy ảnh hưởng 6% sự biến thiên của biến phụ thuộc Ice Cream

Sales, còn lại 94% là do các biến ngoài mô hình và sai số ngẫu nhiên Giá trị Durbin-Watson = 2,024 nằm trong khoảng 1,5 đến 2,5 nên kết quả không vi phạm giả định tự tương quan chuỗi bậc nhất

(chấp nhận giả định không có tương quan giữa các phần dư).

- Bảng 8 là bảng Coefficients cho kết quả của kiểm định t để đánh giá giả thuyết ý nghĩa hệ số hồi quy, chỉ số VIF đánh giá đa cộng tuyến và các hệ số hồi quy Biến độc lập Temperature có giá trị Sig kiểm định t = 0,000 < 0,05 Do đó biến này có ý nghĩa trong mô hình hồi quy, hay nói cách khác, biến này có sự tác động lên biến phụ thuộc Ice Cream Sales Đồng thời, hệ số hồi quy (B và Beta) của biến độc lập này mang dấu dương, như vậy biến độc lập Temperature có tác động thuận chiều lên biến phụ thuộc Ice Cream Sales

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

Interpretation and Insights

6.1 Provide analytical insights based on analyses

Qua phân tích trên có thể thấy, có ba yếu tố ảnh hưởng đến doanh thu bán kem (Ice Cream Sales) đó là: Temperature, Rain Volume và Marketing Spend rong đó T Temperature là yếu tố ảnh hưởng tiên quyết và có ảnh hưởng rất lớn đến Ice Cream Sales, bằng chứng là hai biến này có mối tương quan đồng biến với nhau Điều này cho thấy khi nhiệt độ càng cao, thì nhu cầu giải nhiệt của khách hàng cũng tăng cao, từ đó doanh thu bán kem cũng tăng Chính vì vậy mà doanh nghiệp nên cân nhắc việc quảng cáo và tiếp thị kem vào những tháng có nhiệt độ cao h aycó thể cân nhắc mở cửa hàng ở những khu vực có nhiệt độ cao quanh năm Những điều này có thể giúp doanh nghiệp tăng doanh thu bán kem tổng thể

6.2 Discuss brief implications in a marketing context

Trong bài phân tích này, biến Marketing Spend tác động rất yếu lên biến Ice Cream Sales mà thay vào đó biến Ice Cream Sales lại bị tác động mạnh bởi biến Temperature Chính vì vậy, thay vì phải suy nghĩ làm cách nào để biến Marketing Spend hoạt động có hiệu quả thì hãy tập trung vào cách áp dụng tiếp thị dựa vào yếu tố nhiệt độ Việc doanh thu bán kem (Ice Cream Sales) tăng vào những tháng có nhiệt độ cao đã được thể hiện rõ trong bài phân tích Đó là điều hiển nhiên, khi trời nóng thì nhu cầu của mọi người chủ yếu là giải nhiệt vậy ngoài nước uống thì kem là một món giải nhiệt vô cùng hợp lý Thế nên, đội ngũ Marketing của doanh nghiệp nên dựa vào mối quan hệ giữa doanh thu bán kem (Ice Cream Sales) và nhiệt độ (Temperature) để phát triển chiến dịch Marketing của mình, bằng những cách như:

• Chiến dịch marketing nên tập trung vào việc quảng cáo và tiếp thị kem vào những tháng có nhiệt độ cao ở khu vực

• Hay sử dụng các hình ảnh và thông điệp hấp dẫn, phù hợp với thời tiết nóng

• Hay cung cấp các ưu đãi và khuyến mãi đặc biệt để khuyến khích mọi người mua kem

CLASSIFICATION PROBLEM

Based on a provided scatter plot, decide the value of K

Dựa trên biểu đồ phân tán được cung cấp, giá trị của K được xác định là 3.

Select Initial Centroids: Choose k data points from the dataset as the initial centroids

K điểm dữ liệu từ tập dữ liệu được chọn là các điểm trung tâm ban đầu, cụ thể:

• CustomerID 1 (8;31) là cụm ứ nhất C1 = th

• CustomerID 7 (39;25) là cụm ứ hai C2 = th

• CustomerID 13 = (28;11) là cụm ứ ba C3 th

Bảng 9: Tập dữ liệu Customer_transaction CustomerID VisitFrequency AmountSpent

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

Assign Points to Clusters

Tính khoảng cách từ các điểm đến tâm của nhóm Dựa vào khoảng cách tối thiểu từ mỗi điểm đến tâm, chúng ta sẽ gán các điểm vào một cụm Áp dụng công thức khoảng cách Euclid: d(𝒑 𝟏 ,𝒑𝟐) = √(𝒙 𝟐 −𝒙𝟏) 𝟐 + (𝒚𝟐−𝒚𝟏) 𝟐

Từ đó ta có kết quả trong bảng dưới đây:

Bảng 10: Kết quả lần đầu tiên của K- means

+ Cụm 1 gồm 3 điểm: CustomerID 1 (8;31), CustomerID 2 (7;32), CustomerID 4 (11;32)

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

+ Cụm 2 gồm 3 điểm: CustomerID 5 (38;29), CustomerID 6 (40;29), CustomerID 7 (39;25)

+ Cụm 3 gồm 7 điểm: CustomerID 3 (22;6), CustomerID 8 (28;13), CustomerID 9 (23;6), CustomerID 10 (27;8), CustomerID 11(30;14), CustomerID 12 (32;17); CustomerID 13 (28;11).

Recalculate Centroids

Để tính trọng tâm mới cho từng cụm, chúng ta sẽ tìm vị trí trung bình của tất cả các điểm trong cụm:

- Từ kết quả trên ta có:

+ Trọng tâm mới của cụm thứ nhất C1: M 1= (8,67 ; 31,67)

+ Trọng tâm mới của cụm thứ hai C2: M 2= (39 ; 27,67)

+ Trọng tâm mới của cụm thứ ba C3: M 3= (27,14 ; 10,71)

Iterate the Process

Tiếp theo chúng ta sẽ lặp lại quy trình này một lần nữa, nhưng sẽ tính thực hiện tính toán với trọng tâm mới Sau đó, chúng ta sẽ gán các điểm vào các cụm dựa trên khoảng cách của chúng với tâm

- Tính khoảng cách từ các CustomerID đến tâm của nhóm:

Từ đó ta có kết quả trong bảng dưới đây:

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

Bảng 11: Kết quả lần thứ hai của K-means

+ Cụm 1 gồm 3 điểm: CustomerID 1 (8;31), CustomerID 2 (7;32), CustomerID 4 (11;32)

+ Cụm 2 gồm 3 điểm: CustomerID 5 (38;29), CustomerID 6 (40;29), CustomerID 7 (39;25)

+ Cụm 3 gồm 7 điểm: CustomerID 3 (22;6), CustomerID 8 (28;13), CustomerID 9 (23;6), CustomerID 10 (27;8), CustomerID 11(30;14), CustomerID 12 (32;17), CustomerID 13 (28;11)

- Tính lại điểm trung tâm mỗi nhóm:

- Từ kết quả trên ta có:

+ Trọng tâm mới của cụm thứ nhất C1: M1 = (8,67 ; 31,67)

+ Trọng tâm mới của cụm thứ hai C2: M2 = (39 ; 27,67)

+ Trọng tâm mới của cụm thứ ba C3: M3 = (27,14 ; 10,71)

Vậy sau 2 lần tiến hành tính toán, ta được kết quả như sau:

+ Trọng tâm của cụm thứ nhất C1: M1 = (8,67 ; 31,67)

+ Trọng tâm của cụm thứ hai C2: M2 = (39 ; 27,67)

+ Trọng tâm của cụm thứ ba C3: M = (27,14 ; 10,71) 3

Sau khi tiến hành hai lần tính toán, có thể nhận thấy rằng không có điểm nào thay đổi cụm của nó Do đó, trọng tâm cũng không thay đổi Thế nên, các cụm thu được sau lần thứ hai là các cụm cuối cùng được tạo từ tập dữ liệu Customer_transaction Chính vì lẽ đó mà chúng ta có thể nói rằng các cụm đã được ổn định và tối ưu nhất có thể Chúng ta có thể hoàn toàn tin tưởng vào kết quả được đưa ra

DATA VISUALIZATION

Data visualization

3.1 Trình bày các Figures (hình nh) ng v i th t ả ứ ớ ứ ự đã kê khai trong 2.2

Overall 1: Tổng doanh thu theo danh mục sản phẩm mà Walmart nhận được ở từng khu vực

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

29 Ảnh 13 Sales of Region by Product Category: Overall 2: Xác định khách hàng tiềm năng.

1 Dựa trên doanh thu bình quân của mỗi khách hàng ở từng khu vực theo ời gian.th Ảnh 14: ARPC by Time and Region

2 Theo mức độ lợi nhuận mà mỗi ại khách hàng mang lạilo

30 Ảnh 15: Customer Type by Profit Overall 3: Khoản lợi nhuận mà Walmart nhận được

1 Ở từng khu vực theo mỗi tiểu bang Ảnh 16: Profits received in Region by State

2 Theo từng danh mục sản phẩm chính và sản phẩm phụ

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

31 Ảnh 17: Profits received in Product Category and Products Sub-Category

3 Theo thời gian Ảnh 18: Profits over Order Date

Overall 4: Mức độ hoạt động của hệ thống Logictics tại Walmart

1 Thống kê các phương thức vận chuyển thông qua số ợng đặt hàng.lư Ảnh 19: Statistics of Ship Mode methods through Order Quantity

2 Chi phí vận chuyển theo khu vự qua ời gian.c th Ảnh 20: Ranking Shipping Cost by Region and Time

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

3 Thời gian vận chuyển trung bình ở từng bang Ảnh 21: Average Transit Time per State

4 Tỷ lệ doanh thu trên chi phí vận chuyển theo từng danh mục sản phẩm chính và sản phẩm phụ Ảnh 22: Revenue- -Freight Ratio by Product Category and Product Sub-Category to

3.2 Giải thích insight ng v các Figures trong 3.1 ứ ới

Overall 1: Tổng doanh thu theo danh mục sản phẩm mà Walmart nhận được ở từng khu vực.

+ Về mặt hàng Furniture, ở khu vực Central tổng doanh thu khoảng 1,641,713, đứng đầu cả 4 khu , vực Khu vực East thì tổng doanh thu của mặt hàng này khoảng 1,418,264 xếp thứ 2 ở 4 khu vực

Tiếp đến là ở khu vực West mặt hàng này cũng chiếm doanh số khá cao khoảng 1,208,793 Nhưng khi ở khu vực South thì mặt hàng này chỉ chiếm khoảng 909,820 đây là con số thấp nhất ở 4 khu vực

+ Về mặt hàng Office Supplies có vẻ như mặt hàng này ở cả 4 khu vực đều không đem lại doanh thu cao bằng hai mặt hàng còn lại Ở khu vực Central mặt hàng này được ưa chuộng nhất chiếm doanh số khoảng 1,225,757 Tiếp theo là khu vực East có doanh số khoảng 909,889 Sau đó là khu vực South chiếm doanh số là 819 295 và cuối cùng là khu vực West chỉ chiếm 797 821 doanh số thấp , , , nhất ở cả 4 khu vực

+ Về mặt hàng Technology mặt hàng này là mặt hàng được ưa chuộng nhất trong ba mặt hàng trên với tổng doanh thu ở cả 4 khu vực rất cao Đầu tiền là khu vực Central chiếm doanh số cao nhất là

1,831,698 Tiếp đến là khu vực West có doanh số đứng thứ 2 với khoảng 1,643,134 doanh thu Đứng thứ 3 là khu vực South với doanh số là 1,421,104 và cuối cùng là khu vực East với tổng doanh số là 1,088,313

Overall 2: Xác định khách hàng tiềm năng

1 Dựa trên doanh thu bình quân của mỗi khách hàng ở từng khu vực theo thời gian.

Theo biểu đồ trên thì nhìn chung doanh thu bình quân trên mỗi khách hàng không được đồng đều

+ Ở năm 2012 - 2013 khu vực Central luôn là khu vực đứng đầu về doanh thu và ngược lại đối với khu vực East thì doanh thu bình quân trên mỗi khách hàng là thấp nhất, còn ở hai khu vực còn lại lượng doanh thu không có gì quá nổi bật nhưng ở khu vực outh có doanh thu tăng đáng kể S

+ Tiếp theo ở năm 2014 - 2015 khu vực Central vẫn chiếm tỷ trọng doanh số cao nhất ở cả 4 khu vực

Tuy nhiên, ở 3 khu vực còn lại, doanh thu đang có tình trạng xuống dốc.

2 Theo mức độ lợi nhuận mà mỗi loại khách hàng mang lại

Dựa vào mức độ lợi nhuận trên biểu đồ ta thấy khách hàng thuộc nhóm Corporate là cao nhất trong các đối tượng khách hàng, do sự phát triển ngày nay ngày càng nhanh dẫn đến việc các công ty luôn phải tự cải tiến, trang bị thêm những công cụ khoa học để phát triển bắt kịp với xu hướng thị trường dẫn đến lợi nhuận ở khách hàng này đứng cao nhất trong các tối tượng khách hàng và lợi nhuận ở đối tượng khách hàng Consumer là thấp nhất

Overall 3: Khoản lợi nhuận mà Walmart nhận được

1 Ở từng khu vực theo mỗi tiểu bang.

+ Ở khu vực Central có thể thấy ở 2 tiểu bang Illinois và Texas đang có mức lợi nhuận rất cao ở khoảng mức 108,532 và 93,572 Ở 5 tiểu bang còn lại như Michigan, Indiana, Oklahoma, Minnesota,

Wisconsin đang ở mức lợi nhuận rơi vào khoảng từ 45,211 xuống tới 32,299 Và tiểu bang Kansas có mức lợi nhuận thấp nhất là 6,628

+ Ở khu vực South, tiểu bang Florida chiếm lợi nhuận cao nhất là 82,572 Tiếp theo là tiểu bang Virginia có mức lợi nhuận là 61 722 đứng thứ hai và đứng thứ ba ở khu vực này là tiểu bang , Alabama

TRỰC QUAN HOÁ VÀ PHÂN TÍCH CÁC TẬP DỮ LIỆU

35 với mức lợi nhuận là 53,630 Liên tiếp là các tiểu bang Georgia, Arkansas, Louisana, North Carolina, Kentuck có mức lợi nhuận lần lượt là 45,113; 39,850; 38,788; 30,947; 25.834

+ Ở khu vực East, hai tiểu bang Ohio và New York là hai tiểu bang chiếm lơi nhuận cao nhất với mức lợi nhuận lần lượt là 88,615 và 86,395 Ở tiểu bang MA trong khu vực này chiếm 30,313 trên tổng số lợi nhuận, còn các tiểu bang khác có lợi nhuận khá thấp hu vực này có thể coi là khu vực có tổng K lợi nhuận thấp nhất trong cả bốn khu vực.

+ Cuối cùng ở khu vực West, tiểu bang California chiếm mức lợi nhuận cao nhất còn ở các tiểu bang còn lại trên khu vực này đều có mức lợi nhuận khá thấp với Washington là 41,996; Arizona là 39,829; NewMexico 24,286 và Utah là 23,152

2 Theo từng danh mục sản phẩm chính và sản phẩm phụ.

Ta thấy rằng lợi nhuận của các sản phẩm Technology cao nhất, đạt mức 350K Tuy nhiên lợi nhuận ở sản phẩm Furniture lại âm do chi phí để duy trì hoạt động của các sản phẩm này khá cao dẫn đến việc lợi nhuận bị âm Còn lại là Office Supplies có lợi nhuận nằm ở tầm trung, nhưng riêng sản phẩm Binders and Binder Accessories nằm trong mục này lại có lợi nhuận cao hơn so với các sản phẩm còn lại vì giá bán thấp được nhiều khách hàng lựa chọn và chi phí duy trì hoạt động của sản phẩm Binders and Binder Accessories cũng thấp hơn so với các sản phẩm khác.

+ Theo biểu đồ trên thì trong năm 2012 khoản lợi nhuận cao nhất rơi vào tháng 1 với mức 62,33K

Nhưng trong những tháng tiếp theo, lợi nhuận lại liên tục tăng giảm không đồng đều Cụ thể ở tháng

2 là 30,42K, tháng 3 là 22,80K, tháng 4 có tăng lên nhưng không đáng kể 39,13K, tháng 5 lại giảm sâu chỉ còn 18,04K và tăng liên tiếp trong 2 tháng 6 và 7 lần lượt là 34, K và 41,75K64 , tháng 8 lại tiếp tục giảm sâu chỉ còn 14,68K, 2 tháng 9 và 10 lại tăng lên mức 46,65K và 55,23K và lại giảm mạnh trong tháng 11 chỉ còn lại 16,22K cuối năm tăng mạnh lên 52,64K

+ Năm 2013 trong năm này khoản lợi nhuận cũng lên xuống không đồng đều Trong tháng 1 có , lượng đơn cao nhất là 48,18K những tháng tiếp theo giảm xuống chỉ còn 26,00K và thấp nhất trong năm rơi vào tháng 3 chỉ 1,12 tháng 4 K, tăng lên mức 17,31K, tháng 5 tăng mạnh lên 42,64K và lại tiếp tục giảm trong 3 tháng 6, 7, 8 lần lượt là 36,13K, 15,92K và 21,85K Vào tháng 9, 10 tăng lên lần lượt 50,02K và 48,60 TK rong 2 tháng cuối năm cũng không có gì đặc biệt tháng 11 nằm ở mức 23,35K đơn và tháng 12 với 32,76K

Ngày đăng: 04/05/2024, 14:20

HÌNH ẢNH LIÊN QUAN

Bảng 1 : Kết quả thống kê mô tả Statistics - trực quan hoá và phân tích các tập dữ liệu
Bảng 1 Kết quả thống kê mô tả Statistics (Trang 7)
Bảng  2:  Frequency  của Public Holidays  Public Holidays - trực quan hoá và phân tích các tập dữ liệu
ng 2: Frequency của Public Holidays Public Holidays (Trang 7)
Bảng 3 : Kết quả Determine skewness Descriptive Statistics - trực quan hoá và phân tích các tập dữ liệu
Bảng 3 Kết quả Determine skewness Descriptive Statistics (Trang 8)
Bảng 6 : Bảng ANOVA ANOVA a - trực quan hoá và phân tích các tập dữ liệu
Bảng 6 Bảng ANOVA ANOVA a (Trang 20)
Bảng 7 : Bảng Model Summary Model Summary b Model  R  R Square  Adjusted R - trực quan hoá và phân tích các tập dữ liệu
Bảng 7 Bảng Model Summary Model Summary b Model R R Square Adjusted R (Trang 21)
Bảng 9 : Tập dữ liệu Customer_transaction CustomerID  VisitFrequency  AmountSpent - trực quan hoá và phân tích các tập dữ liệu
Bảng 9 Tập dữ liệu Customer_transaction CustomerID VisitFrequency AmountSpent (Trang 23)
Bảng 10 : Kết quả lần đầu tiên của K - means - trực quan hoá và phân tích các tập dữ liệu
Bảng 10 Kết quả lần đầu tiên của K - means (Trang 25)
Bảng 11 : Kết quả lần thứ hai của K -means - trực quan hoá và phân tích các tập dữ liệu
Bảng 11 Kết quả lần thứ hai của K -means (Trang 28)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w