Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
6,79 MB
Nội dung
ĐẠI HỌC UEH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH BÁO CÁO ĐỒ ÁN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU Đề tài: ỨNG DỤNG HỌC MÁY VÀO DỰ BÁO VÀ PHÂN TÍCH KHẢ NĂNG KHÁCH HÀNG RỜI KHỎI HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ Lớp học phần: 23D1INF50905921 Giảng viên hướng dẫn: Th.S Nguyễn Mạnh Tuấn Nhóm sinh viên thực hiện: Nhóm Họ Tên Nguyễn Thị Minh Diệu Nguyễn Ngọc Hoàng Bùi Xuân Vĩ Nguyễn Thu Việc Trần Huyền Trân Mã số sinh viên 31211023214 31211024685 31211027354 31211027355 31211021605 MỤC LỤC MỤC LỤC Thành phố Hồ Chí Minh, tháng năm 2023 DANH MỤC HÌNH ẢNH, BẢNG BIỂU VÀ BIỂU ĐỒ CHƯƠNG 1: TỔNG QUAN Lý chọn đề tài Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu CHƯƠNG 2: PHÂN TÍCH DỮ LIỆU E-COMMERCE CHURN RATE Tiền xử lý Dữ liệu E-Commerce Churn Rate Mô tả liệu CHƯƠNG 3: GIẢI QUYẾT BÀI TOÁN Bài toán 1: Phát điểm đặc thù khách hàng hệ thống Thương mại điện tử 1.1 Mơ tả tốn 1.2 Mô tả nguồn liệu cấu trúc liệu 1.3 Chọn lọc liệu phân tích 1.4 Chạy mơ hình kết 1.5 Kết luận toán 1.6 Các kiến thức chuyên ngành sử dụng để đánh giá kết hay kiến nghị từ kết Bài toán 2: Dự báo nguy rời bỏ khách hàng hệ thống Thương mại điện tử Phân Tích Chuyên Sâu vấn đề hệ thống: 2.1 Mô tả phương pháp 2.2 Quy trình xử lý 2.3 Đánh giá kết 2.4 Phân tích chuyên sâu 2.5 Kiến nghị cho Nhà Quản Trị kiến thức chuyên ngành Bài toán 3.1 Mơ tả tốn 3.2 Quy trình xử lý 3.3 Phân cụm K-Means 3.4 Đánh giá kết CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Tóm tắt 4.2 Đánh giá 4.3 Hướng phát triển DANH MỤC HÌNH ẢNH, BẢNG BIỂU VÀ BIỂU ĐỒ Danh mục hình ảnh Hình Các bước tiến hành xử lý liệu Hình Nạp liệu E-Commerce vào File Hình Kết kiểm tra liệu bị thiếu Hình Chọn điều kiện thay liệu bị thiếu giá trị trung bình Hình Bảng liệu sau Preprocess Impute Hình Mơ hình Problem-Solving Hình Mơ hình Orange xử lý liệu lựa chọn phương pháp dự báo Hình Kết dự báo theo Test & Score Hình Kết dự báo sử dụng phương pháp Tree theo Ma trận nhầm lẫn Hình 10 Kết dự báo sử dụng phương pháp Logistic Regression theo Ma trận nhầm lẫn Hình 11 Kết dự báo sử dụng phương pháp SVM theo Ma trận nhầm lẫn Hình 12 Kết Dự Báo dùng E-Commerce-Forecast Hình 13 Mơ hình Phân tích chun sâu Hình 14 Chuẩn hóa liệu thuộc khoảng [-1;1] chức Preprocess Hình 15 Bảng kết Logistic Regression sau chuẩn hóa Hình 16 Sơ đồ cột tương quan SatisfactionScore Churn Hình 17 Cơng cụ Feature Statistics cho SatisfactionScore Hình 18 Sơ đồ Tree thuộc tính gần với SatisfactionScore Hình 19 Kết Distributions CityTier Hình 20 Mơ Hình Để Thể Hiện Tương Quan Giữa CityTier WarehouseToHome Hình 21 Kết Cấp Thành Phố Hình 22 Kết Cấp Thành Phố Hình 23 Kết Cấp Thành Phố Hình 24 Distribution Tenure Hình 25 Scatter Plot tương quan Order Count CashbackAmount Hình 26 Mơ hình phân tích CashbackAmount Coupon Used Hình 27 Feature Statistics Coupon Used CashbackAmount Hình 28 Mơ hình phân cụm liệu Hình 29 Giao diện Distances Hình 30 Mơ hình phân cụm Hierarchical Clustering Hình 31 Giao diện Hierarchical Clustering Hình 32 Giao diện Hierarchical Clustering với số cụm Hình 33 Giao diện Hierarchical Clustering với số cụm Hình 34 Giao diện Hierarchical Clustering với số cụm Hình 35 Kết K-Means Hình 36 Kết Silhouette Plot Hình 37 Chỉ số Silhouette cao cụm (K-Means) Hình 38 Mơ hình phân cụm K-Means Hình 39 Mơ hình so sánh cụm Hình 40 Kết so sánh cụm thuộc tính CityTier Hình 41 Kết so sánh cụm thuộc tính WarehouseToHome Hình 42 Kết so sánh cụm thuộc tính Tenure Hình 43 Kết so sánh cụm thuộc tính PreferredLoginDevice Hình 44 Kết so sánh cụm thuộc tính PreferredPaymentMode Hình 45 Kết so sánh cụm thuộc tính Gender Hình 46 Kết so sánh cụm thuộc tính HourSpendOnApp Hình 47 Kết so sánh cụm thuộc tính NumberOfDeviceRegistered Hình 48 Kết so sánh cụm thuộc tính PreferedOrderCat Hình 49 Kết so sánh cụm thuộc tính SatisfactionScore Hình 50 Kết so sánh cụm thuộc tính MaritalStatus Hình 51 Kết so sánh cụm thuộc tính NumberOfAddress Hình 52 Kết so sánh cụm thuộc tính Complain Hình 53 Kết so sánh cụm thuộc tính OrderAmountHikeFromlastYear Hình 54 Kết so sánh cụm thuộc tính CouponUsed Hình 55 Kết so sánh cụm thuộc tính OrderCount Hình 56 Kết so sánh cụm thuộc tính DaySinceLastOrder Hình 57 Kết so sánh cụm thuộc tính CashbackAmount Hình 58 Kết so sánh cụm thuộc tính Churn Danh mục bảng biểu Bảng Mô tả liệu Bảng Bảng kết tổng hợp số Silhouette Plot Bảng Bảng kết số Silhouette Plot Bảng Bảng so sánh số lượng người cấp thành phố cụm Bảng Bảng so sánh khoảng cách từ nhà kho đến nhà khách hàng cụm Bảng Bảng so sánh thời gian khách hàng gắn bó với tổ chức cụm Bảng Bảng so sánh thiết bị đăng nhập ưa thích khách hàng cụm Bảng Bảng so sánh hình thức tốn ưa thích khách hàng cụm Bảng Bảng so sánh giới tính khách hàng cụm Bảng 10 Bảng so sánh thời gian khách hàng dành để lướt app web khách hàng cụm Bảng 11 Bảng so sánh tổng số thiết bị mà khách hàng đăng ký cụm Bảng 12 Bảng so sánh Danh mục sản phẩm mà khách hàng ưa thích đặt tháng trước cụm Bảng 13 Bảng so sánh điểm số hài lòng khách hàng cụm Bảng 13 Bảng so sánh tình trạng nhân khách hàng cụm Bảng 14 Bảng so sánh tổng số lượng địa mà khách hàng đăng ký cụm Bảng 15 Bảng so sánh lời phàn nàn từ khách hàng tháng trước cụm Bảng 16 Bảng so sánh phần trăm tăng trưởng đặt hàng năm trước cụm Bảng 17 Bảng so sánh tổng số coupon sử dụng tháng trước cụm Bảng 18 Bảng so sánh tổng số đơn hàng đặt tháng trước cụm Bảng 19 Bảng so sánh ngày mà lần cuối đặt hàng cụm Bảng 20 Bảng so sánh trung bình tiền trả lại tháng trước cụm Bảng 21 Bảng so sánh khách hàng rời bỏ dịch vụ cụm Bảng 22 Bảng so sánh đặc điểm riêng cụm Danh mục biểu đồ Biểu đồ Tenure Biểu đồ CityTier Biểu đồ PreferredPaymentMode Biểu đồ Gender Biểu đồ HourSpendOnApp Biểu đồ PreferredLoginDevice Biểu đồ PreferedOrderCat Biểu đồ MaritalStatus Biểu đồ CouponUsed Biểu đồ 10 Complain CHƯƠNG 1: TỔNG QUAN Lý chọn đề tài Cùng với tính cách mạnh mẽ thành viên nhóm, kết hợp với hứng thú trải dài chủ đề khác nhau, để tìm điểm giao thoa phải phù hợp với mối quan tâm nhóm mà cịn cần đáp ứng u cầu đồ án câu chuyện nan giải Thế sau khoảng thời gian dài với trận đấu trí khốc liệt khơng hồi kết, nhóm chúng em chật vật cuối tìm cho chủ đề chân ái: Thương mại điện tử Ecommerce đề tài phù hợp cho đồ án môn Khoa Học Dữ Liệu có nhiều lý hấp dẫn để nghiên cứu phân tích Đầu tiên, lĩnh vực có tính ứng dụng cao thực tế phân tích liệu E-commerce giúp doanh nghiệp hiểu rõ khách hàng, sản phẩm, xu hướng mua sắm từ đưa chiến lược kinh doanh hiệu Thứ hai, E-commerce lĩnh vực có nhiều liệu khác nhau, từ thông tin sản phẩm, thông tin khách hàng, đơn hàng, tốn giao nhận việc địi hỏi phải xử lý khối liệu khác giúp cho việc nghiên cứu trở nên thú vị phong phú Vì vậy, việc lựa chọn đề tài E-commerce cho đồ án môn Khoa học liệu lựa chọn đầy tiềm Nhóm đặt ưu tiên lên hàng đầu việc nghiên cứu trau dồi khả sử dụng công cụ cần thiết mà thầy hướng dẫn học tập suốt q trình vừa qua Bên cạnh đó, chủ đề cịn đáp ứng quan tâm nhóm ngành học Hệ thống thông tin kinh doanh định hướng công việc Business Analyst cho sau Dù đồ án nằm phạm vi nhỏ vị trí cơng việc, cách áp dụng công cụ Excel, Orange, giúp cho Business Analyst có nhìn sâu thông qua việc chia tách vấn đề thành cụm nhỏ lẻ phân tích insights từ - công việc vô quan trọng trước giúp doanh nghiệp đưa giải pháp Mục tiêu nghiên cứu Nghiên cứu cung cấp thông tin đối tượng cần tìm hiểu, sử dụng cơng cụ phân tích để đưa kết luận cụ thể, đưa hướng hay giải pháp cho doanh nghiệp hay tổ chức để tìm kiếm dự đốn khả rời khỏi hệ thống khách hàng đồng thời giữ chân đối tượng khách hàng cũ Có mục tiêu đề tài ứng với toán cần giải nghiên cứu Bài toán phát điểm đặc thù liệu: Sử dụng công cụ thống kê thông dụng Pivot Table, hàm Excel, Orange dạng lược đồ, biểu đồ để phát hiện, thể điểm đặc thù liệu mối quan hệ chúng Ứng dụng toán phân lớp để dự đoán khả rời khách hàng phân tích lý do, tìm hiểu vấn đề đằng sau Dùng phương pháp Hierarchical Clustering để thực phân loại khách hàng làm cụm để nhận thấy rõ đặc điểm khách hàng Đối tượng phạm vi nghiên cứu Đồ án tập trung nghiên cứu hành vi thông tin tệp khách hàng sàn thương mại điện tử lấy thông tin, liệu số liệu Kaggle CHƯƠNG 2: PHÂN TÍCH DỮ LIỆU E-COMMERCE CHURN RATE Nội dung chương: Ứng dụng vào toán thực tế kiến thức học kiến thức liên quan đến phần mềm Orange để bước đầu phân tích liệu, lựa chọn phương pháp phù hợp để tiến hành Tiền xử lý liệu (xử lý liệu bị thiếu/lỗi; phân tách liệu; xác định loại biến), Mô tả Thống kê mô tả liệu Tiền xử lý Dữ liệu E-Commerce Churn Rate - Dữ liệu E-commerce Churn Rate nhóm tìm kiếm chọn lọc từ trang web https://www.kaggle.com/datasets Sau đó, tiến hành xử lý liệu gồm bước phần mềm Orange: Hình Các bước tiến hành xử lý liệu Bước 1: Nạp liệu E-Commerce: mở file chọn E-Commerce Hình Nạp liệu E-Commerce vào File Bước 2: Quan sát liệu: mở Data Table nối File vào Data Table Quan sát liệu, ta thấy có 1.6% liệu bị thiếu Do đó, ta tiến hành xử lý liệu bị thiếu Hình Kết kiểm tra liệu bị thiếu ● Sử dụng công cụ Feature Statistics thấy thuộc tính sau bị liệu: + Tenure: 264 ô liệu (5%) + WareHouseToHouse: 251 ô liệu (4%) + HourSpendOnApp: 255 ô liệu (5%) + OrderAmountHikeFromLastYear: 265 ô liệu (5%) + CouponUsed: 256 ô liệu (5%) + OrderCount: 258 ô liệu (5%) + DaySinceLastOrder: 307 ô liệu (5%) Bước 3: Xử lý liệu bị thiếu: nhóm sử dụng công cụ Preprocess để thay liệu bị thiếu giá trị trung bình giá trị thuộc tính Hình Chọn điều kiện thay liệu bị thiếu giá trị trung bình Hình Bảng liệu sau Preprocess Impute Bước 4: Sau hoàn thành tiền xử lý bị thiếu, nhóm tiến hành lưu liệu thành file “E-Commerce-Clean.xlsx” Bước 5: Phân tách liệu: - Lọc từ liệu “E-Commerce-Clean.xlsx”, nhóm sử dụng cơng cụ Data Sampler tách liệu khảo sát ban đầu thành hai file riêng biệt để thực việc phân lớp liệu sau: Sử dụng 70% liệu ban đầu để làm liệu mẫu huấn luyện mô hình phân lớp liệu (E-Commerce-Training.xlsx) Và sử dụng 30% liệu lại để làm liệu dự báo cho nghiên cứu (E-CommerceForecast.xlsx) - Xác định biến độc lập biến phụ thuộc: + Biến phụ thuộc “Churn” + Biến độc lập thuộc tính cịn lại + Biến định danh “CustomerID”, “Selected” Skip Mô tả liệu STT Thuộc tính Ý nghĩa Kiểu liệu Role CustomerID Mã khách hàng Số Thực Churn Khách hàng rời bỏ dịch vụ Số Nguyên (Biến Target Định Danh) - Không rời bỏ - Rời bỏ Skip Hình 47 Kết so sánh cụm thuộc tính NumberOfDeviceRegistered Nhận xét: So sánh tổng số thiết bị mà khách hàng đăng ký cụm: thiết bị 2-4 thiết bị nhiều thiết bị Cụm 60 582 959 Cụm 175 1393 2416 Bảng 11 Bảng so sánh tổng số thiết bị mà khách hàng đăng ký cụm Ta có nhận xét sau: - Cụm cụm giống chủ yếu khách hàng dùng nhiều thiết bị để đăng ký Ở cụm 1, có 959 cá nhân (59,90%) cụm có 2416 cá nhân (61,08%) dùng thiết bị Ngồi số lượng khách hàng có dùng thiết bị đăng ký thấp với 3,75% cụm 4,34% cụm Còn lại khoảng từ đến thiết bị - Có thể khách hàng dùng nhiều thiết bị với mong muốn có thêm ưu đãi/khuyến từ sàn thương mại điện tử, để dễ dàng xem xét so sánh giá người bán hàng Ngồi ra, cịn khách hàng cảm thấy tiện lợi dễ dàng truy cập sàn thương mại điện tử từ nhiều thiết bị khác 3.4.2.9 PreferedOrderCat 54 Hình 48 Kết so sánh cụm thuộc tính PreferedOrderCat Nhận xét: So sánh Danh mục sản phẩm mà khách hàng ưa thích đặt tháng trước cụm: Fashion Grocery Laptop & Accessory Mobile Others Cụm 408 358 352 219 264 Cụm 418 52 1698 1861 Bảng 12 Bảng so sánh Danh mục sản phẩm mà khách hàng ưa thích đặt tháng trước giữa cụm Ta thấy rằng: - Cụm khơng có q nhiều chênh lệch danh mục Trong đó, thời trang danh mục sản phẩm mà khách hàng ưa thích đặt tháng trước với 408 khách hàng lựa chọn (25,48%), tiếp đến mặt hàng tạp hoá (22,36%) mặt hàng laptop (21,99%) Hàng hoá khác di động danh mục chiếm tỷ lệ thấp nhất, 16,49% 13,68% - Cụm cho thấy khách hàng có xu hướng mua hàng cơng nghệ, bời số liệu cao cụm nằm danh mục Di động (46,19%) danh mục Laptop (42,14%) Tiếp đến Thời trang với tỷ lệ 10,37% Hàng tạp hố có tỷ lệ thấp 1,29% ngồi cụm khơng có khách hàng chọn hàng hố khác 3.4.2.10 SatisfactionScore 55 Hình 49 Kết so sánh cụm thuộc tính SatisfactionScore Nhận xét: So sánh điểm số hài lòng khách hàng cụm: Cụm 330 183 488 286 314 Cụm 834 403 1210 788 794 Bảng 13 Bảng so sánh điểm số hài lòng khách hàng cụm Ta thấy rằng: - Ở cụm, phần lớn khách hàng cảm thấy trung lập với điểm đánh giá điểm, cụm có 488 khách hàng đánh giá điểm (30,48%), cụm có 1210 khách hàng (30,03%) - Điểm đứng thứ hai cụm, cụm có 330 khách hàng cụm 834 khách hàng đánh giá điểm - Điểm đứng thứ với 19,61% cụm 19,71% cụm Tiếp đến điểm với 17,86% cụm 19,56% cụm Cuối cùng, cụm, điểm điểm số có khách hàng đánh giá - Nhìn chung, khách hàng chưa thực hài lòng với dịch vụ mà sàn thương mại điện tử mang lại cho họ Vì thế, doanh nghiệp nên có phương hướng để phát triển dịch vụ khách hàng nhiều tương lai 56 3.4.2.11 MaritalStatus Hình 50 Kết so sánh cụm thuộc tính MaritalStatus Nhận xét: So sánh tình trạng nhân khách hàng cụm: Ly hôn Kết hôn Độc thân Cụm 282 902 417 Cụm 566 2048 1379 Bảng 13 Bảng so sánh tình trạng nhân khách hàng cụm Ta thấy từ bảng trên: - Ở cụm cụm 2, khách hàng phần lớn người kết hơn, cụm có 902 khách hàng (56,34%) cụm có 2048 khách hàng (51,72%) - Tiếp đến, khách hàng độc thân với 417 khách hàng cụm (26.05%) 1379 khách hàng cụm (34,23%) - Cuối khách hàng ly hôn chiếm tỷ lệ thấp với 14,05% ở cụm 17,61% cụm 57 3.4.2.12 NumberOfAddress Hình 51 Kết so sánh cụm thuộc tính NumberOfAddress Nhận xét: So sánh tổng số lượng địa mà khách hàng đăng ký cụm: 0-2 2-4 4-6 6-8 8-10 Trên 10 Cụm 69 604 418 218 188 104 Cụm 302 2043 741 420 331 191 Bảng 14 Bảng so sánh tổng số lượng địa mà khách hàng đăng ký cụm Ta rút nhận xét: - Ở cụm 1, phần lớn khách hàng có số lượng địa đăng ký nằm khoảng 2-4 (37,73%) Tiếp đến khoảng từ 4-6 địa (13,62%) 6-8 có tỷ lệ khoảng 13,26%, 8-10 địa có tỷ lệ 11,74% 10 địa có 104 khách hàng với tỷ lệ 6,5% Khách hàng có 0-2 địa đăng ký chiếm tỷ lệ nhỏ với 4,31% - Ở cụm 2, phần lớn khách hàng có khoảng 2-4 địa đăng ký, chiếm tỷ lệ cao với 50,71% Kế đến khoảng từ 4-6 địa chiếm khoảng 18,39% 6-8 địa chiếm tỷ lệ 10,42%, 8-10 địa chiếm 8,22% 0-2 địa có tỷ lệ 7,50% Tỷ lệ 10 địa đăng ký thấp cụm với 191 khách hàng, tỷ lệ 4,74% 58 3.4.2.13 Complain Hình 52 Kết so sánh cụm thuộc tính Complain Nhận xét: So sánh lời phàn nàn từ khách hàng tháng trước cụm: Không (0) Có (1) Cụm 1151 450 Cụm 2875 1154 Bảng 15 Bảng so sánh lời phàn nàn từ khách hàng tháng trước cụm Từ bảng số liệu trên, ta nhận thấy rằng: - Cụm có 1151 khách hàng khơng có lời phàn nàn vào tháng trước (71,89%) có 450 khách hàng phàn nàn vào tháng vừa qua (28,11%) - Cụm có 2875 khách hàng tháng trước khơng phàn nàn (71,36%) có 1154 khách hàng phàn nàn (28,64%) - Nhìn chung, tỷ lệ không nhận phàn nàn cao khơng có khơng hài lòng phàn nàn khách hàng Doanh nghiệp nên có kế hoạch cải tiến cơng nghệ dịch vụ chăm sóc khách hàng tốt để hạn chế việc khiến khách hàng không vừa ý phải đưa lời phàn nàn tháng 3.4.2.14 OrderAmountHikeFromlastYear 59 Hình 53 Kết so sánh cụm thuộc tính OrderAmountHikeFromlastYear Nhận xét: So sánh phần trăm tăng trưởng đặt hàng năm trước cụm: Dưới 20% Trên 20% Cụm 1396 205 Cụm 3283 746 Bảng 16 Bảng so sánh phần trăm tăng trưởng đặt hàng năm trước cụm Từ liệu trên: - Cụm có 1396 khách hàng có phần trăm tăng trưởng đặt hàng năm ngoái 20% (87,20%), chiếm ưu so với 205 khách hàng có phần trăm tăng trưởng đặt hàng năm ngoái 20% (12,80%) - Cụm có 3283 khách hàng có phần trăm tăng trưởng đặt hàng vào năm ngoái 20%, chiếm tỷ lệ 81,48% so với tỷ lệ 18,52% nhóm khách hàng có phần trăm tăng trưởng đặt hàng năm trước 20% - Tổng quan tỷ lệ ổn định Tuy nhiên, lâu dài tương lai, lời khuyên cho sàn thương mại điện tử có chiến lược tiếp thị thu hút để trì gia tăng số lượng phần trăm tăng trưởng đặt hàng khách hàng 3.4.2.15 CouponUsed 60 Hình 54 Kết so sánh cụm thuộc tính CouponUsed Nhận xét: So sánh tổng số coupon sử dụng tháng trước cụm: 0-2 2-4 4-6 6-8 8-10 Trên 10 Cụm 700 415 222 164 52 48 Cụm 2691 1195 104 33 3 Bảng 17 Bảng so sánh tổng số coupon sử dụng tháng trước cụm Ta nhận thấy rằng: - Ở cụm 1, khách hàng phần lớn sử dụng từ đến coupon vào tháng vừa rồi, tỷ lệ 43,72% Đứng thứ khoảng đến coupon (25,92%) Kế đến khoảng 4-6 coupon với 13,87% 6-8 coupon với 10,24% Trong khoảng 8-10 coupon 10 coupon có 100 khách hàng, cụ thể 8-10 có 52 khách hàng thấp sử dụng 10 với 48 khách hàng - Ở cụm 2, ta dễ nhận thấy có chênh lệch lớn khoảng Khách hàng phần lớn sử dụng khoảng 0-2 coupon tháng trước, chiếm tỷ lệ lớn 66,79%, tiếp đến khoảng từ 2-4 với 1195 khách hàng, chiếm tỷ lệ (29,66%) Từ 4-6 có 104 khách hàng, tỷ lệ 2,58% Khơng có q nhiều khách hàng cụm tháng vừa sử dụng coupon khoảng 68,8-10 10, tỷ lệ chiếm nhỏ, cụ thể là: 0,82%, 0,07% 0,07% - Tóm lại, đại đa số khách hàng tham gia vào sàn thương mại điện tử sử dụng trung bình từ đến coupon tháng Từ liệu số lượng coupon khách hàng ta dự đốn số lượng đơn đặt hàng trung bình phần lớn khách hàng 61 3.4.2.16 OrderCount Hình 55 Kết so sánh cụm thuộc tính OrderCount Nhận xét: So sánh tổng số đơn hàng đặt tháng trước cụm: 0-2 2-4 4-6 6-8 8-10 Trên 10 Cụm 217 522 193 273 181 251 Cụm 1534 2132 192 106 53 12 Bảng 18 Bảng so sánh tổng số đơn hàng đặt tháng trước cụm Từ bảng trên: - Cụm có tỷ lệ trải so với cụm thứ Trong đó, chiếm ưu khoảng từ 2-4 đơn hàng vào tháng trước (31,60%) Những khoảng cịn lại khơng có q nhiều số liệu q chênh lệch - Cụm có đại đa số khách hàng đặt khoảng từ 2-4 đơn hàng với tỷ lệ 52,92%, khoảng từ 0-2 đơn hàng với 1534 khách hàng, tỷ lệ 38,07% Các khoảng cịn lại thấp - Từ đó, ta thấy cụm số 1, khách hàng có hành vi mua hàng sàn thương mại điện tử thường xuyên cụm số 3.4.2.17 DaySinceLastOrder 62 Hình 56 Kết so sánh cụm thuộc tính DaySinceLastOrder Nhận xét: So sánh ngày mà lần cuối đặt hàng cụm: Dưới 10 ngày Trên 10 ngày Cụm 1289 312 Cụm 3876 153 Bảng 19 Bảng so sánh ngày mà lần cuối đặt hàng cụm Ta nhận thấy rằng: - So sánh cụm, ta thấy cụm có đại đa số khách hàng có 10 ngày từ lần cuối đặt hàng (96,20%), so với cụm (80,51%) - Số khách hàng có 10 ngày từ ngày đặt hàng lần cuối cụm nhiều so với cụm - Vậy, cụm có nhiều khách hàng thường xuyên truy cập sàn thương mại điện tử để mua hàng so với cụm 3.4.2.18 CashbackAmount 63 Hình 57 Kết so sánh cụm thuộc tính CashbackAmount Nhận xét: So sánh trung bình tiền trả lại tháng trước cụm (đvt: $) 0-100 100-200 200-300 Trên 300 Cụm 678 761 156 Cụm 3617 406 Bảng 20 Bảng so sánh trung bình tiền trả lại tháng trước cụm (đvt: $) Từ bảng tổng hợp trên: - Ta nhận thấy cụm có nhiều khách hàng có số tiền trả lại trung bình 300 cụm số lại khơng có khách hàng - Trong khoảng 200$ đến 300$ khoảng mà cụm có tỷ lệ cao (47,53%), tiếp đến khoảng 100$ đến 200$ với 678 khách hàng (42,35%) 300% có tỷ lệ 9,74% Từ 0$ đến 100$ có tỷ lệ - Cụm 2, ta thấy phần lớn khách hàng có số tiền trả lại tháng trước nằm khoảng từ 100$ đến 200$ (89,77%) Tiếp đến khoảng từ 200$ đến 300$ (10,08%) khách hàng có số tiền từ 0$ đến 100$ (0,15%) Khơng có khách hàng có số tiền hồn trả 300$ 3.4.2.19 Churn 64 Hình 58 Kết so sánh cụm thuộc tính Churn Nhận xét: So sánh khách hàng rời bỏ dịch vụ cụm: Khơng (0) Có (1) Cụm 1445 156 Cụm 3257 792 Bảng 21 Bảng so sánh khách hàng rời bỏ dịch vụ cụm Nhìn chung, ta thấy: - Số lượng khách hàng lựa chọn Không rời bỏ dịch vụ cụm chiếm tỷ lệ phần lớn, cụm với 1445 khách hàng (90,25%) cụm với 3257 khách hàng (80,34%) - Tuy nhiên số thay đổi, nên sàn thương mại điện tử nên có kế hoạch chiến lược cụ thể lâu dài để tiếp tục trì khách hàng cũ 3.5 Đề xuất phương hướng phát triển từ mơ hình phân cụm Sau phân tích thuộc tính liệu từ mơ hình phân cụm, nhóm xin đề xuất số phương hướng phát triển cho sàn thương mại điện tử tương lai, cụ thể sau: 3.5.1 Nhận xét phân cụm Từ kết phân cụm đề cập trên, thấy đặc điểm riêng cụm sau: 65 CỤM CỤM - Khách hàng lâu năm, trung thành với hệ thống - Tỉ lệ Nam-Nữ gần (khoảng 50-50) nên nhu cầu mua sắm đa dạng hơn, cụ thể cao Thời Trang - Chất lượng nơi cao (được thể thông qua CityTier) phần nhiều Cấp 2, nên chất lượng sống tăng, khả chi trả khách hàng để sử dụng sàn TMĐT thoải mái - Hướng đến nhanh chóng, tiện lợi (thể qua PreferredLoginDevice NumberOfDeviceRegistered), không cần tham khảo nhiều có mức độ quen thuộc định với hệ thống - Khách hàng tham gia, cân nhắc nhóm khách hàng tiềm - Tỉ lệ Nam cao so với Nữ nên ở cụm này, nhu cầu mua sắm tập trung nhiều sản phẩm Công Nghệ - Tuy phần đông dân cư Cấp Thành Phố 1, có diện nhiều Cấp Thành Phố 3, nên cụm khách hàng có khả chi trả từ thấp tới vừa cho việc mua hàng sàn TMĐT - Tâm lý khách hàng cụm hướng đến chắn, kỹ hơn, họ cần phải tham khảo, xem xét, chọn lọc sản phẩm thông tin sản phẩm nhiều Bảng 22 Bảng so sánh đặc điểm riêng cụm Biết đặc điểm riêng cụm trên, với tư cách Nhà Quản Trị nhóm có sách đề xuất khác áp dụng riêng cho khách hàng cụm: ● Thực thêm sách Hạng Thành Viên hay có ưu đãi nhiều cho khách hàng cụm đồng thời quảng cáo hay đề xuất mua hàng đa dạng (từ Công Nghệ đến Thời Trang) Cịn cụm 2, có hỗ trợ đặc biệt giúp cho người dùng dễ dàng tiếp cận với hệ thống (hướng dẫn bước, Pop-up Instructions, ), đồng thời phương thức quảng cáo đơn giản, đánh vào trọng tâm nhiều (tập trung vào hay vài ngành hàng định mà khách hàng cụm quan tâm) ● Cần thực đa dạng hóa cách tiếp cận khách hàng cụm, cụm hướng đến chất lượng sản phẩm, tiện lợi, tiết kiệm thời gian tìm kiếm, cụm hướng nhiều đến đơn giản, thân thiện với khách hàng, với chất lượng dịch vụ hỗ trợ khách hàng thường xuyên để từ vừa tiếp tục trì quan hệ khách hàng với cụm có thêm nguồn khách hàng tiềm từ cụm 3.5.2 Phát triển hệ thống quản lý quan hệ khách hàng (CRM) Việc quản lý mối quan hệ với khách hàng chiến lược kinh doanh nhằm gia tăng lợi nhuận cách củng cố hài lòng, gia tăng lòng trung thành 66 khách hàng với thương hiệu CRM có ích việc quản lý thơng tin khách hàng hiệu hơn, bao gồm thông tin cá nhân, lịch sử mua hàng, sở thích, yêu cầu phản hồi từ khách hàng Bên cạnh đó, CRM cho phép sàn thương mại điện tử theo dõi thông tin khách hàng giao dịch họ Điều giúp sàn thương mại điện tử phát giải vấn đề khách hàng nhanh chóng tạo cảm giác thoải mái, hài lịng cho khách hàng Nhờ đánh giá thơng tin khách hàng, sàn thương mại điện tử tìm hiểu xu hướng phát triển sản phẩm dịch vụ tốt để thu hút khách hàng Ngồi thì, sử dụng CRM, sàn thương mại điện tử cung cấp cho nhân viên liệu khách hàng hoàn chỉnh chi tiết, đồng thời tương tác với khách hàng cách chuyên nghiệp, tạo mối quan hệ lâu dài hợp tác tốt hơn, từ gia tăng tin tưởng nhóm khách hàng 3.5.3 Phân tích tỷ lệ Customer Churn xảy Việc Phân tích tỷ lệ Customer Churn quan trọng với sàn thương mại điện tử giúp đánh giá hiệu chiến lược kinh doanh doanh nghiệp tính tốn số lượng khách hàng cần thu hút để bù đắp khách hàng rời bỏ dịch vụ Nếu tỷ lệ rời bỏ cao, điều cho thấy vấn đề chất lượng sản phẩm/dịch vụ chiến lược marketing chưa thật hiệu Việc phân tích giúp sàn thương mại điện tử nhanh chóng tìm vấn đề có kế hoạch xử lý kịp thời để giữ chân khách hàng cũ thu hút khách hàng 3.5.4 Cải thiện nâng cao trải nghiệm mua sắm khách hàng Cải thiện nâng cao trải nghiệm mua sắm khách hàng sàn thương mại điện tử điều cần thiết mua sắm trực tuyến dần trở thành phần sống nhiều người Vì vậy, sàn thương mại điện tử cần phải đảm bảo khách hàng tìm thấy sản phẩm muốn mua hàng cách dễ dàng nhanh chóng Nếu khách hàng gặp vấn đề mua hàng sàn thương mại điện tử, họ quay lại với phương tiện mua sắm truyền thống điều gây tổn thất cho doanh nghiệp Bằng cách cải thiện trải nghiệm mua sắm khách hàng, sàn thương mại điện tử thu hút giữ chân khách hàng hơn, tăng doanh số tăng độ phát triển doanh nghiệp CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Tóm tắt: Từ liệu Churn Rates, nhóm đưa yếu tố ảnh hưởng đến sụt giảm số lượng khách hàng sử dụng Hệ Thống Thương Mại Điện Tử dự báo 67 yếu tố có ảnh hưởng đến biến phụ thuộc Churn Thông qua việc lấy mẫu liệu từ trang web https://www.kaggle.com/, thực xử lý liệu, huấn luyện liệu phân lớp liệu phần mềm Orange Sau đó, chọn mơ hình Tree mơ hình phù hợp đưa kết dự báo lưu dạng E-Commerce Churn Dự báo.xlsx Cũng từ phân lớp liệu, nhóm tìm vấn đề có hệ thống, sau đưa giải pháp cho doanh nghiệp Từ phân cụm liệu, nhóm phân nhóm khách hàng có đặc điểm riêng biệt kiến nghị phương hướng phát triển tương lai 4.2 Đánh giá Nhóm hồn thành mục tiêu đề dự báo yếu tố ảnh hưởng đến sụt giảm khách hàng nhằm đưa khuyến nghị phù hợp Các lý thuyết ở chương chương nhóm vận dụng vào để xây dựng mơ hình, phân tích độ khả rời bỏ khách hàng, đưa dự báo có độ xác cao chia cụm liệu với số cụm hợp lý 4.3 Hướng phát triển Tuy cố gắng để hoàn thành đồ án, nhóm khơng thể tránh khỏi sai sót việc xử lý, phân tích khai thác liệu Nhóm tự đánh giá nhận thiếu sót là: quy mơ liệu lớn nên việc phân tích khơng thể hồn tồn xác, tiền xử lý liệu chưa tối ưu có lượng liệu tương đối bị mất, nguồn liệu chưa rõ ràng, Vì thế, việc tìm hiểu sâu nguyên nhân, yếu tố tác động liên quan đến vấn đề cần thiết Các nghiên cứu theo hướng: - Khám phá thêm nhân tố khác có tác động đến ý định rời bỏ sử dụng Hệ Thống Thương Mại Điện Tử khách hàng đưa vào mơ hình nghiên cứu để kiểm tra mức độ tác động nhân tố Các nhân tố khác chuẩn chủ quan, tệp khách hàng mục tiêu - Tiếp tục mở rộng quy mô, khảo sát số lượng khách hàng lớn hơn, phải cập nhật kết khảo sát theo năm, sàn thương mại điện tử cụ thể Bởi xu hướng sử dụng khách hàng ln bị tác động thay đổi nhiều yếu tố khác 68