bán tại khu vực Hoa Kỳ”, tận dụng cơ hội này, tìm hiểu và nghiên cứu một cách sâusắc hơn cách ứng dụng các phương pháp khai phá dữ liệu vào mô hình phân lớp vàphân cụm kênh phân phối dựa
GIỚI THIỆU ĐỀ TÀI
Lý do chọn đề tài
Kỷ nguyên số chứng kiến sự bùng nổ dữ liệu, đặt ra thách thức lớn cho doanh nghiệp trong việc xử lý lượng thông tin khổng lồ, đa dạng định dạng và chất lượng Việc khai phá dữ liệu trở nên thiết yếu để lưu trữ và xử lý thông tin hiệu quả, tối ưu hoạt động kinh doanh.
"Big data" là tập dữ liệu lớn, phức tạp, được doanh nghiệp khai thác để tìm hiểu thông tin chi tiết Phân khúc khách hàng, dựa trên đặc điểm nhân khẩu học, là một cách tận dụng hiệu quả dữ liệu này, giúp doanh nghiệp hiểu rõ từng nhóm khách hàng.
Phân tích dữ liệu giúp doanh nghiệp hiểu nhu cầu khách hàng, tối ưu giá cả, tăng doanh thu và cải thiện mô hình kinh doanh Tuy nhiên, khai thác dữ liệu hiệu quả mới đảm bảo phát huy tối đa giá trị thông tin, hỗ trợ ra quyết định chính xác.
Nghiên cứu "Ứng dụng máy học dự đoán kênh phân phối phổ biến và phân khúc kênh phân phối lĩnh vực buôn bán tại Hoa Kỳ" nhằm tối ưu hoá việc khai phá dữ liệu bán hàng Mô hình phân lớp và phân cụm được áp dụng để xác định khách quan kênh bán hàng mục tiêu, dự đoán xu hướng và hỗ trợ doanh nghiệp triển khai chiến lược tiếp thị hiệu quả, tối ưu lợi nhuận.
Mục tiêu nghiên cứu
Nghiên cứu ứng dụng máy học dự đoán kênh phân phối phổ biến và phân khúc thị trường tại Hoa Kỳ, sử dụng Orange để phân tích dữ liệu bằng phương pháp phân lớp và phân cụm Kết quả xác định mô hình tối ưu dự đoán kênh bán hàng và phân khúc, hỗ trợ doanh nghiệp tối ưu hóa chiến lược tiếp thị Nghiên cứu cũng nêu rõ hạn chế và đề xuất cải tiến.
Đối tượng nghiên cứu
Bài viết phân tích chuỗi cung ứng toàn diện dựa trên bộ dữ liệu Kaggle gồm 3596 mẫu giao dịch bán hàng tại thị trường Hoa Kỳ Dữ liệu tập trung vào kênh phân phối nội địa.
“Kinh doanh”, bao gồm 3596 hàng dữ liệu trích từ tập dữ liệu thô và 10 cột biến số.
Phương pháp nghiên cứu
Bài nghiên cứu kết hợp phân tích định tính và định lượng, trực quan hóa dữ liệu bằng Excel và khai thác dữ liệu bằng phần mềm Orange, sử dụng các phương pháp phân lớp và phân cụm.
Bố cục bài nghiên cứu
Dự án nghiên cứu được chia thành 4 chương lớn:
Chương I: Giới thiệu đề tài
Chương 1 nhắc đến thời đại bùng nổ thông tin toàn cầu như hiện nay đi kèm sự khó khăn trong xử lý, khai phá dữ liệu mà doanh nghiệp đã và đang đối mặt Để giải quyết vấn đề này, đề tài nghiên cứu “Ứng dụng máy học dự đoán kênh phân phối phổ biến và phân khúc kênh phân phối lĩnh vực buôn bán tại khu vực Hoa Kỳ” để tìm hiểu sâu hơn về xử lý dữ liệu bằng công cụ khai phá dữ liệu với các mục tiêu đi kèm hướng đến đối tượng cần nghiên cứu.
Chương II: Cơ sở lý thuyết
Chương 2 của bài báo cáo trình bày cơ sở lý thuyết về khai phá dữ liệu, quy trình trong khai phá dữ liệu, các mô hình phân lớp và phân cụm dữ liệu được áp dụng trong bài nghiên cứu Cùng với tổng quan bài nghiên cứu ở phần 1, cơ sở lý thuyết chương 2 sẽ đóng vai trò để làm cơ sở cho mô hình đề xuất áp dụng tại chương 3 cũng kết luận kết quả đầu ra của bộ dữ liệu được phân tích.
Chương III: Phân tích bộ dữ liệu huấn luyện và dự báo
Chương 3 của bài luận tập trung vào việc phân tích dữ liệu huấn luyện và dự báo, với mục tiêu chính là xây dựng và áp dụng mô hình phân lớp với các phương pháp Decision Tree, Logistic Regression, SVM, Neural Network, phân cụm với phương pháp k-Means dựa trên bộ dữ liệu được tổng hợp Nội dung sẽ bắt đầu trình bày quy trình xử lý các biến và thuộc tính của chúng từ dữ liệu bao gồm thông tin cụ thể của giao dịch bán hàng tại khu vực Hoa Kỳ Sau đó, sử dụng công cụ Orange để triển khai chính các mô hình nói trên, từ đó, dự báo kênh phân phối phổ biến, phân khúc kênh phân phối giúp doanh nghiệp tối ưu hóa chiến lược tiếp thị dòng sản phẩm, tối ưu lợi nhuận.
Chương IV: Kết luận, hạn chế và giải pháp
Chương 4 sẽ tập trung vào đưa ra kết luận cho kết quả nghiên cứu và đề xuất các giải pháp có thể cải thiện chiến lược tiếp thị cho doanh nghiệp, song, đúc kết những điểm hạn chế trong mô hình và bộ dữ liệu được sử dụng Tại chương này bắt đầu với tóm lược các kết luận chính về việc dự báo xu hướng cũng như phân khúc kênh phân phối nhờ sự hiệu quả khi lựa chọn mô hình phù hợp qua mô hình phân lớp Decision Tree và mô hình phân cụm k-Means dựa trên bộ dữ liệu đã phân tích Bên cạnh đó, chương cũng thảo luận những hạn chế của nghiên cứu cần khắc phục, như một số ít biến số có ảnh hưởng không đáng kể để biến mục tiêu và những yếu tố khác có thể ảnh hưởng đến độ chính xác của các mô hình Cuối chương 4, bài báo cáo đưa ra các giải pháp cho các doanh nghiệp liên quan trong bộ dữ liệu được cung cấp, nhằm thúc đẩy sản xuất, mua bán cũng như hướng đến lợi nhuận cao hơn khi áp dụng những chiến lược tiếp thị phù hợp với đa dạng sản phẩm cũng như đề xuất nhằm cải thiện những nghiên cứu tương lai, bao gồm việc mở rộng quy mô dữ liệu về mặt bổ sung biến số liên quan để cải thiện độ chính xác của kết quả.
Chương 1 đã khái quát những điểm cần đặc biệt lưu ý của đề tài bao gồm từ những vấn đề bài nghiên cứu sẽ làm rõ ở đề tài và khái quát nội dung các chương để người đọc có thể theo dõi bài nghiên cứu một cách trình tự, rõ ràng.
CƠ SỞ LÝ THUYẾT
Khai phá dữ liệu
2.1.1 Tại sao cần phải khai phá dữ liệu ?
Lượng dữ liệu toàn cầu tăng chóng mặt từ 180 exabyte/tháng (2019) lên 230 exabyte/tháng (2020), dự báo đạt 780 exabyte/tháng vào năm 2026 (Ericsson, 2020) Sự gia tăng dữ liệu khổng lồ này dẫn đến nhu cầu khai thác tối ưu, thúc đẩy sự ra đời của data mining như giải pháp khai phá triệt để nguồn dữ liệu khổng lồ.
2.1.2 Khai phá dữ liệu là gì?
Khai phá dữ liệu phân tích dữ liệu lớn để tìm mẫu, mối liên hệ, dự đoán xu hướng và giải quyết vấn đề Quá trình này gồm làm sạch, chuyển đổi, tích hợp, phân tích dữ liệu và sử dụng thuật toán tiên tiến Các thông số quan trọng bao gồm quy tắc kết hợp, phân loại, phân cụm và dự báo.
Data mining giúp dự đoán xu hướng, tính toán kết quả, tạo thông tin phản hồi cho phân tích dữ liệu lớn và trực quan hóa dữ liệu thông qua phân cụm.
2.1.3 Các thuật toán chính trong khai phá dữ liệu
Thuật toán là chìa khóa khai phá dữ liệu khổng lồ, lọc thông tin hữu ích phục vụ nghiên cứu Học máy, một nhánh của thuật toán, huấn luyện trí tuệ nhân tạo dự đoán tương lai dựa trên dữ liệu lịch sử Bài viết tập trung vào hai loại học máy: có giám sát và không giám sát.
Học máy có giám sát huấn luyện mô hình trên dữ liệu có nhãn để dự đoán chính xác, giảm thiểu sai số Các thuật toán phổ biến gồm cây quyết định và rừng ngẫu nhiên.
Học máy không giám sát huấn luyện mô hình từ dữ liệu không nhãn, tối ưu hàm chi phí dựa trên thước đo khoảng cách, nhằm mục tiêu dự đoán, ra quyết định, phân cụm và giảm chiều dữ liệu Thuật toán tiêu biểu gồm k-Means và mô hình chuỗi Markov.
2.1.4 Các kỹ thuật khai phá dữ liệu
Khai phá dữ liệu (Data Mining) trong khoa học dữ liệu phát hiện mẫu, xu hướng và mối quan hệ từ dữ liệu lớn Bài viết tập trung vào ba kỹ thuật: Phân cụm và Phân lớp.
Phân cụm (Clustering) là kỹ thuật học không giám sát nhóm dữ liệu tương đồng, ví dụ thuật toán k-Means và DBSCAN, ứng dụng trong phân tích khách hàng hay phân loại sinh học.
Phân loại (Classification) là kỹ thuật học có giám sát dự đoán nhãn dữ liệu dựa trên đặc trưng từ tập huấn luyện, sử dụng các thuật toán như cây quyết định, rừng ngẫu nhiên và SVM Ứng dụng phổ biến gồm chẩn đoán bệnh, phát hiện gian lận và phân loại văn bản.
Hồi quy dự đoán giá trị liên tục dựa trên mối quan hệ giữa biến độc lập và biến phụ thuộc Các phương pháp như hồi quy tuyến tính và hồi quy logistic được ứng dụng rộng rãi trong dự báo kinh tế, phân tích giá cả và nghiên cứu khoa học.
2.1.5 Các tính năng chính của khai phá dữ liệu
Khai phá dữ liệu (Data mining) trong khoa học dữ liệu xử lý lượng dữ liệu lớn, tự động phát hiện mẫu và xu hướng, hỗ trợ ra quyết định Học máy không giám sát giúp tìm mối quan hệ tiềm ẩn, trong khi học máy có giám sát dự đoán và dự báo Phát hiện ngoại lệ (outlier detection) có giá trị trong phát hiện gian lận và giám sát chất lượng.
2.1.6 Quy trình khai phá dữ liệu Để phân tích và xử lý dữ liệu một cách hiệu quả nhất, chúng cần tuân thủ trình tự khai phá dữ liệu để giảm thiểu những thiếu sót trong quá trình xử lý dữ liệu.
Sơ đồ 2.1 Sơ đồ thể hiện quy trình khai phá dữ liệu
Quá trình bắt đầu bằng thu thập và tiền xử lý dữ liệu để chuẩn hóa và làm sạch dữ liệu Tiếp theo, dữ liệu từ nhiều nguồn được tích hợp và chọn lọc để tạo cái nhìn tổng thể và lựa chọn dữ liệu có giá trị Bước quan trọng là chuyển đổi dữ liệu thành tri thức thông qua phân cụm và phân lớp để khám phá mối quan hệ Cuối cùng, mô hình được đánh giá, diễn giải, triển khai và duy trì, đảm bảo tính chính xác và cập nhật liên tục.
2.1.7 Ứng dụng của khai phá dữ liệu trong các lĩnh vực:
Dữ liệu phong phú và đa dạng là chìa khóa cho việc phân tích dữ liệu hiệu quả, được ứng dụng rộng rãi trong nhiều lĩnh vực nhờ sự phát triển của xã hội.
Phân tích xu hướng thị trường và hành vi người tiêu dùng giúp doanh nghiệp dự đoán sản phẩm được ưa chuộng, tối đa hóa lợi nhuận và quản lý hiệu quả hàng tồn kho.
Phân lớp dữ liệu
2.2.1 Khái niệm phân lớp dữ liệu:
Phân lớp dữ liệu, một hướng nghiên cứu trọng yếu trong khai phá dữ liệu, ứng dụng thống kê, học máy và mạng nơron để gán đối tượng vào lớp đã định sẵn dựa trên mô hình huấn luyện từ dữ liệu có nhãn Quá trình này xác định lớp của mỗi đối tượng.
Sơ đồ 2.2 Mô hình phân lớp dữ liệu
(Nguồn: TS Bùi Xuân Huy, giảng viên môn Khoa học dữ liệu Slide bài giảng Khoa học dữ liệu - Đại học UEH)
2.2.2 Quá trình phân lớp dữ liệu:
Quá trình này gồm 2 bước chính:
Bước 1: Xây dựng mô hình ( hay giai đoạn “học” hoặc “huấn luyện”)
Xây dựng mô hình từ tập dữ liệu có cấu trúc gồm các phần tử dữ liệu (data tuple), mỗi phần tử đại diện cho mẫu, ví dụ, đối tượng, bản ghi hoặc trường hợp, được phân loại theo thuộc tính gán nhãn lớp.
Quá trình phân loại dữ liệu nhằm xây dựng mô hình dự đoán lớp của dữ liệu chưa biết dựa trên các thuộc tính, sử dụng các thuật toán như cây quyết định, hồi quy logistic, SVM và mạng nơ-ron Mô hình này giúp phân tích và ra quyết định dựa trên hiểu biết từ dữ liệu.
Hình 2.1 Mô hình phân lớp đã được huấn luyện
(Nguồn: TS Bùi Xuân Huy, giảng viên môn Khoa học dữ liệu, slide bài giảng Khoa học dữ liệu - Đại học UEH)
Bước 2: Sử dụng mô hình Ở bước 2 được chia thành 2 bước nhỏ:
Mô hình được đánh giá bằng tập dữ liệu kiểm tra độc lập, so sánh nhãn thực tế với kết quả phân loại "Holdout" chỉ tỷ lệ phân loại chính xác, xác định hiệu quả dự báo và độ phù hợp của mô hình cho dữ liệu tương lai.
Hình 2.2 Đánh giá mô hình phân lớp
(Nguồn: TS Bùi Xuân Huy, giảng viên môn Khoa học dữ liệu, slide bài giảng Khoa học dữ liệu - Đại học UEH)
Bước 2 , Phân lớp dữ liệu mới
Mô hình dự đoán nhãn cho dữ liệu khuyết thiếu thuộc tính bằng cách phân lớp dựa trên dữ liệu huấn luyện sẵn có.
Hình 2.3 Quá trình phân lớp dữ liệu mới
(Nguồn: TS Bùi Xuân Huy, giảng viên môn Khoa học dữ liệu, Slide bài giảng Khoa học dữ liệu - Đại học UEH)
2.2.3 Phân loại bài toán phân lớp
Data classification problems encompass several types, including binary classification, multiclass classification, and multilabel classification.
Phân lớp nhị phân gán nhãn dữ liệu vào một trong hai lớp dựa trên các đặc trưng Ví dụ, phân loại email thành "thư rác" hoặc "không phải thư rác".
Phân loại đa lớp phức tạp hơn phân loại nhị phân vì dữ liệu có thể thuộc nhiều lớp khác nhau, đòi hỏi hệ thống phân tích đặc trưng để gán nhãn chính xác Ví dụ, một bức ảnh có thể đồng thời thuộc lớp "xe ô tô" và các lớp khác.
Mô hình phân loại ảnh cần xử lý nhiều lớp khác nhau như "xe máy", "người", và "cây cối", dẫn đến độ phức tạp cao hơn.
Phân lớp nhị phân là trường hợp đặc biệt của phân lớp đa lớp (chỉ có hai lớp) Phân lớp đa lớp linh hoạt hơn khi xử lý nhiều nhãn Các mô hình hiện đại hỗ trợ cả hai loại bài toán này, tùy thuộc vào ứng dụng.
2.2.4 Các phương pháp phân lớp dữ liệu
2.2.4.1 Hồi quy Logistic ( Logistic Regression)
Hồi quy Logistic là mô hình thống kê dự đoán xác suất biến phụ thuộc nhị phân từ một hoặc nhiều biến độc lập.
Nó được sử dụng khi kết quả cần dự đoán chỉ có hai khả năng (ví dụ: "có" hoặc
"không", "1" hoặc "0") Mô hình này sử dụng hàm Logistic (sigmoid) để chuyển đổi kết quả dự đoán thành xác suất trong khoảng từ 0 đến 1 [5]
Hình 2.4 Hình minh họa phương pháp phân lớp hồi quy Logistic (Logistic
(Nguồn: [ML] Hồi quy logistic (Logistic Regression) (dominhhai.github.io))
Có ba cách tiếp cận phân tích hồi quy logistic dựa trên kết quả của biến phụ thuộc:
Hồi quy logistic nhị phân là phương pháp phù hợp cho bài toán phân loại nhị phân, với biến phụ thuộc chỉ có hai giá trị khả dĩ (ví dụ: "có" hoặc "không").
Hồi quy nhị phân sử dụng hàm logistic, cho ra giá trị liên tục từ 0 đến 1, nhưng làm tròn thành 0 (dưới 0.5) hoặc 1 (trên 0.5), tạo kết quả nhị phân.
Hồi quy logistic đa thức xử lý bài toán dự đoán đa lớp (hữu hạn), ví dụ dự đoán mức tăng giá nhà (25%, 50%, 75%, 100%) Mô hình ánh xạ kết quả vào khoảng [0,1] rồi gán vào lớp phù hợp, không dự đoán giá trị chính xác.
Hồi quy logistic thứ tự, hay mô hình logit có thứ tự, dự đoán kết quả có thứ bậc (ví dụ: "kém", "ổn", "tốt", "xuất sắc") dựa trên biến số dự báo Mô hình này phù hợp với dữ liệu khảo sát có thang đo thứ tự, chẳng hạn như đánh giá mức độ hài lòng khách hàng.
Bài toán phân cụm dữ liệu
2.3.1 Giới thiệu phân cụm dữ liệu
Phân cụm dữ liệu là kỹ thuật học máy không giám sát nhóm các đối tượng dữ liệu tương đồng mà không cần nhãn trước Thuật toán phân cụm dựa trên tính toán chỉ số tương đồng (khoảng cách Euclid, Cosin, ) giữa các đối tượng.
Minkowski, nhằm mục đích xác định mức độ gần gũi hoặc sai biệt giữa các đối tượng trong không gian dữ liệu
Phân loại phương pháp phân cụm thường dựa trên cấu trúc và mục tiêu tối ưu Phân cụm phân cấp (Hierarchical Clustering), như Diana, Agnes, BIRCH và CAMELEON, tạo cấu trúc cây thể hiện mối quan hệ giữa nhóm dữ liệu Ngược lại, phân cụm phân hoạch (partitioning clustering), gồm k-Means, K-Medoids và Fuzzy C-Means, tập trung tối ưu hóa nhóm bằng cách giảm thiểu tổng bình phương độ lệch.
Phân cụm dữ liệu ứng dụng rộng rãi trong nhận diện mẫu, phân tích thị trường, phân loại ảnh và phát hiện bất thường Phương pháp này giúp hiểu rõ cấu trúc dữ liệu, hỗ trợ ra quyết định chính xác hơn cho doanh nghiệp và nhà khoa học.
2.4.2 Các ứng dụng phân cụm dữ liệu trong kinh tế
Phân cụm dữ liệu là công cụ mạnh mẽ phân tích dữ liệu lớn trong kinh tế, giúp doanh nghiệp hiểu khách hàng, thị trường và tối ưu chiến lược sản phẩm, dịch vụ.
Phân cụm dữ liệu giúp dự báo khách hàng tiềm năng, xác định nhóm khách hàng lợi nhuận cao, tối ưu hóa tiếp thị và phân bổ nguồn lực Ví dụ, các công ty bán lẻ dùng phân cụm để nhận diện xu hướng tiêu dùng và phát triển sản phẩm phù hợp.
Phân cụm khách hàng giúp doanh nghiệp dự đoán tương tác tương lai, hỗ trợ xây dựng chiến lược marketing và phát triển sản phẩm hiệu quả Các ông lớn như Amazon và Netflix tận dụng phân cụm để cá nhân hóa trải nghiệm người dùng.
Phân cụm dữ liệu giúp doanh nghiệp phân tích cạnh tranh thị trường, xác định điểm mạnh, yếu so với đối thủ và dự đoán xu hướng lựa chọn dịch vụ, từ đó tối ưu chiến lược kinh doanh.
Phân tích dữ liệu giúp đánh giá hiệu quả kinh doanh bằng cách theo dõi KPI, xác định xu hướng tích cực/tiêu cực và điều chỉnh chiến lược kịp thời.
Phân tích hành vi người dùng trên mạng xã hội là cần thiết trong thời đại số, giúp doanh nghiệp hiểu xu hướng và xây dựng chiến dịch quảng cáo hiệu quả hơn nhờ dữ liệu khổng lồ và phong phú từ các nền tảng mạng xã hội.
Phân cụm dữ liệu là công cụ hiệu quả, hỗ trợ ra quyết định chiến lược dựa trên dữ liệu trong kinh tế, tối ưu hoạt động kinh doanh và tạo lợi thế cạnh tranh bền vững.
2.4.3 Phương pháp phân cụm phân cấp (Hierarchical Clustering)
Phân cụm phân cấp tạo dendrogram, thể hiện thứ bậc giữa các đối tượng mà không cần xác định số cụm trước Phương pháp này sử dụng ma trận khoảng cách, gom nhóm nhỏ rồi kết hợp thành cụm lớn hơn Bước đầu tiên là tính toán khoảng cách giữa các đối tượng.
Ma trận khoảng cách được tính toán dựa trên các thước đo như khoảng cách Euclid, Manhattan hay các độ đo khác phù hợp với dữ liệu, ảnh hưởng trực tiếp đến kết quả phân cụm vì nó xác định mức độ tương đồng giữa các đối tượng.
Phân cụm phân cấp sử dụng hai loại ma trận chính: ma trận tương đồng (đánh giá mức độ giống nhau giữa các phần tử, giá trị cao nghĩa là giống nhau hơn) và ma trận bất tương đồng (đánh giá sự khác biệt, giá trị thấp nghĩa là gần nhau hơn).
2.4.3.2 Độ đo khoảng cách giữa các cụm
Sau khi xây dựng ma trận khoảng cách, việc xác định khoảng cách giữa các cụm là bước quan trọng trong phân cụm Phương pháp đo lường khoảng cách giữa các cụm đa dạng, phụ thuộc vào chiến lược phân tích.
Phương pháp Liên kết đơn (Single Linkage) xác định khoảng cách giữa hai cụm là khoảng cách ngắn nhất giữa các phần tử thuộc hai cụm đó, thường dẫn đến các cụm dài và mảnh Hình minh họa thể hiện rõ công thức tính toán.
Hình 2.14 Công thức tính Single Linkage
(Nguồn: TS Bùi Xuân Huy, giảng viên môn Khoa học dữ liệu Slide bài giảng Khoa học dữ liệu - Đại học UEH)
Hình 2.15 Hình minh họa Single Linkage
( Nguồn: TS Bùi Xuân Huy, giảng viên môn Khoa học dữ liệu Slide bài giảng Khoa học dữ liệu - Đại học UEH)
PHÂN TÍCH BỘ DỮ LIỆU HUẤN LUYỆN VÀ DỰ BÁO
Bài toán phân lớp
3.1.1 Mô tả bộ dữ liệu nghiên cứu:
Bài viết này phân tích dữ liệu bán hàng khu vực Hoa Kỳ từ Kaggle (https://www.kaggle.com/datasets/talhabu/us-regional-sales-data), bao gồm 7992 giao dịch, cung cấp thông tin chi tiết về hoạt động kinh doanh tại thị trường này.
Nghiên cứu sử dụng 45% dữ liệu gốc (3596 dòng) từ bộ dữ liệu ban đầu gồm 16 biến để huấn luyện mô hình, nhằm tránh ảnh hưởng của dung lượng dữ liệu lớn đến kết quả phân lớp và phân cụm.
3.1.2.1 Xây dựng biến số dùng nghiên cứu:
Bảng 3.1 Bảng liệt kê các biến số được dùng trong bài nghiên cứu
Tên biến Miêu tả đặc tính
Sales Channel Kênh phân phối/bán hàng mà giao dịch bán hàng được thực hiện
OrderNumber Mã định danh dành cho mỗi đơn hàng
Unit Cost Chi phí cho mỗi đơn vị sản phẩm
Unit Price Giá bán của mỗi đơn vị sản phẩm
WarehouseCode Mã đại diện cho kho hàng liên quan đến đơn hàng
_SalesTeamID Mã định danh của đội bán hàng thực hiện giao dịch bán hàng liên quan
_CustomerID Mã định danh của khách hàng
_ProductID Mã định danh của sản phẩm
Order Quantity Số lượng sản phẩm đã được đặt hàng
Discount Applied Tỷ lệ chiết khấu được áp dụng cho đơn hàng
3.1.2.2 Tiền xử lý dữ liệu
Bảng 3.1 liệt kê các biến số được sử dụng trong nghiên cứu Một số biến ban đầu đã bị loại bỏ trong quá trình làm sạch và xử lý dữ liệu.
ProcuredDate (Ngày mua sản phẩm); OrderDate (Ngày đặt hàng); ShipDate
Bài nghiên cứu tập trung vào các khía cạnh kinh tế như chi phí, giá cả và số lượng, do đó, các biến `Ngày đơn hàng bắt đầu giao` và `Ngày đơn hàng đến tay người nhận` không liên quan trực tiếp trừ khi phân tích hiệu suất giao hàng.
Dữ liệu khảo sát tại Hoa Kỳ sử dụng đơn vị tiền tệ gốc, không đổi, do đó không ảnh hưởng đến kết quả mô hình.
Nghiên cứu tập trung phân tích cấp vùng tại Hoa Kỳ, do đó bỏ qua StoreID (mã định danh cửa hàng) Dữ liệu đã được nhóm nghiên cứu làm sạch và xử lý.
Nghiên cứu này ứng dụng phân lớp dữ liệu để dự đoán kênh bán hàng tối ưu cho mỗi giao dịch tại thị trường Mỹ, dựa trên 3596 giao dịch từ bộ dữ liệu cung cấp Mô hình phân tích các sản phẩm phổ biến và hiệu suất kênh ("Online" và các kênh khác) nhằm giúp doanh nghiệp tối ưu hóa chiến lược giá và tiếp thị Thêm vào đó, phân cụm dữ liệu được sử dụng để phân khúc sản phẩm trên từng kênh Mục tiêu là tự động hóa dự đoán kênh bán hàng phù hợp với đa dạng sản phẩm.
Nhà phân phối mua hàng số lượng lớn từ nhà sản xuất, đóng vai trò trung gian giữa nhà sản xuất và bán lẻ/người tiêu dùng Mô hình bán lẻ "In-store" là hình thức kinh doanh bán trực tiếp tại cửa hàng Bán buôn ("Wholesale") kinh doanh với số lượng lớn, bán cho các nhà bán buôn khác hoặc đại lý bán lẻ Kết quả nghiên cứu cho thấy biến phụ thuộc tương tự đầu ra.
Nghiên cứu sử dụng 9 biến độc lập, dựa trên dữ liệu giao dịch bán hàng đã được tổng hợp và phân tích.
Dữ liệu bao gồm mã định danh giao dịch (_SalesTeamID, _CustomerID, _ProductID, WarehouseCode, OrderNumber) và thông tin chi phí (Unit Cost), giá bán (Unit Price), số lượng (Order Quantity), và chiết khấu (Discount Applied) từ nhiều kênh bán hàng Tất cả biến độc lập này đều ảnh hưởng đến kết quả nghiên cứu.
3.1.3 Trực quan hóa dữ liệu
Sinh viên sử dụng phần mềm Excel để trực quan hóa dữ liệu và thu được các kết quả như sau:
3.1.3.1 Mã định danh dành cho mỗi đơn hàng
Hình 3.1 Biểu đồ trực quan hóa dữ liệu giữa kênh phân phối và mã định danh đơn hàng
Mã định danh đơn hàng cho thấy kênh phân phối "In-store" dẫn đầu về số lượng đơn hàng.
3.1.3.2 Chi phí của mỗi đơn vị sản phẩm
Hình 3.2 Biểu đồ trực quan hóa dữ liệu giữa kênh phân phối và chi phí mỗi đơn vị sản phẩm
Chi phí sản phẩm ảnh hưởng đến lựa chọn kênh bán hàng Biểu đồ cho thấy chi phí mỗi đơn vị sản phẩm tại kênh bán hàng trực tiếp ("In-store") thường cao hơn các kênh khác.
3.1.3.3 Giá bán của mỗi đơn vị sản phẩm
Hình 3.3 Biểu đồ trực quan hóa dữ liệu giữa kênh phân phối và giá bán mỗi đơn vị sản phẩm
Giá bán sản phẩm khác nhau giữa các kênh, đặc biệt chênh lệch đáng kể giữa kênh bán hàng trực tiếp ("In-store") và kênh phân phối ("Distributor") Biểu đồ minh họa rõ sự chênh lệch này.
3.1.3.4 Mã đại diện cho kho hàng liên quan đến đơn hàng
Hình 3.4 Biểu đồ trực quan hóa dữ liệu giữa kênh phân phối và mã đại diện kho hàng
Mã kho hàng phản ánh mối liên hệ với các kênh phân phối, với kênh "In-store" chiếm ưu thế trong hầu hết các trường hợp.
3.1.3.5 Mã định danh của đội bán hàng thực hiện giao dịch bán hàng liên quan
Hình 3.5 Biểu đồ trực quan hóa dữ liệu giữa kênh phân phối và mã định danh của đội bán hàng
Dữ liệu mã định danh đội bán hàng cho thấy sự tập trung khác nhau vào kênh bán hàng: một số đội tập trung vào "In-store", số khác ưu tiên kênh "Online".
3.1.3.6 Mã định danh của khách hàng
Hình 3.6 Biểu đồ trực quan hóa dữ liệu giữa kênh phân phối và mã định danh của khách hàng
Bài toán phân cụm
Tương tự bài toán phân lớp, ta khai báo các thuộc tính và ở bài toán này ta không xác định biến target.
Hình 3.18: Kết quả khai báo thuộc tính
Sau khi khai báo các thuộc tính, nhóm xây dựng mô hình phân cụm theo hình sau:
Hình 3.19: Mô hình phân cụm
Bước 1: Thêm file dữ liệu vào công cụ Orange, không chọn biến target.
Bước 2: Dùng phương pháp k-Means để phân cụm dữ liệu.
Bước 3: Mô tả cụm giao dịch qua Silhouette Plot
3.2.3 Kết quả phân cụm phương pháp k-Means
Sau khi thực hiện các bước trên, nhóm tiến hành xem kêt quả phân cụm như sau:
Hình 3.20: Bảng kết quả k-Means
Phương pháp Silhouette đánh giá chất lượng phân cụm k-Means bằng cách tính toán khoảng cách của mỗi điểm dữ liệu đến centroid của cụm nó thuộc về và centroid của cụm gần nhất Điểm Silhouette cao (gần 1) chỉ ra phân cụm tốt, trong khi điểm thấp (gần -1) cho thấy phân cụm kém Phân tích từ 2 đến 6 cụm cho thấy 2 cụm là tối ưu (Silhouette score = 0.648).
Bài viết phân tích thuật toán k-Means trên dữ liệu Hoa Kỳ để tối ưu hóa phân phối hàng hóa Kết quả được minh họa qua các hình ảnh.
Hình 3.21 Hình minh họa cụm 1 từ kết quả phân cụm k-Means
Hình 3.22 Hình minh họa cụm 1 đến cụm 2 từ kết quả phân cụm k-Means
Hình 3.23: Hình minh họa cụm 2 từ kết quả phân cụm k-Means
Phân tích hình 3.21, 3.22 và 3.23 cho thấy dữ liệu giao dịch được chia thành hai cụm chính: cụm 1 (2546 giao dịch, chiếm 70,8%) và cụm 2 (1050 giao dịch, chiếm 29,2%).
Bảng 3.2 Bảng so sánh các đặc điểm giữa cụm 1 và cụm 2 Đặc điểm Đặc điểm của cụm 1
Unit Cost (Chi phí đơn vị)
Thấp, phản ánh cho chi phí sản xuất hoặc nhập hàng thấp
Cao, cho thấy sản phẩm có giá trị cao trong sản xuất hoặc nhập hàng
Unit Price (Giá cả đơn vị)
Thấp, hàng hóa bình dân
Cao, hàng hóa có giá trị cao; chiết khấu thấp hoặc không chiết khấu
Order Quantity (Số lượng đơn hàng)
Do các kênh phân phối nhỏ lẻ nên số lượng đơn hàng từ trung bình đến thấp
Kênh phân phối lớn thường đảm nhiệm việc phân phối hàng hóa quy mô lớn, từ bán buôn đến bán lẻ, với số lượng đặt hàng rất cao.
Hàng hóa nhỏ lẻ thường có chiết khấu cao để thu hút khách hàng, trong khi hàng hóa giá trị cao ít được chiết khấu vì khách hàng sẵn sàng chấp nhận giá gốc.
Sale Channel (Kênh bán hàng)
Thông qua các kênh bán nhỏ lẻ trực tiếp như In-store hoặc Online
Chủ yếu quaDistributor và Wholesale,thể hiện qua việc phân phối hàng hóa hàng loạt với số lượng lớn hướng đến đối tác phân phối, bán sỉ
Warehouse Code (Mã kho hàng)
Chủ yếu từ các kho hàng WARE-MKL1006 và WARE-NBV1002 chuyên phục vụ cho bán lẻ hoặc hàng hóa online
Hệ thống kho hàng quy mô lớn như WARE- cùng khả năng phân phối đa dạng đảm bảo nguồn cung hàng hóa dồi dào và vận chuyển hiệu quả.
NMK1003, WARE- PUJ1005, và WARE- XYS1001
Nhóm nghiên cứu đã hiệu quả sử dụng Orange tool, đặc biệt là các thuật toán phân lớp và phân cụm, để phân tích xu hướng và phân khúc kênh phân phối tại thị trường Hoa Kỳ, xác định đặc tính hàng hóa chung giữa các kênh và hỗ trợ doanh nghiệp xây dựng chiến lược tiếp thị đa dạng, gia tăng doanh thu.