Dự đoán Tỷ lệ Rời bỏ Khách hàng Thương mại Điện tử bằng Mạng Nơ-ron sử dụng Bộ dữ liệu Ecommerce Customer Churn

MỤC LỤC

Mô hình Neural Network

Đây là chuỗi thuật toán nhằm tìm kiếm quan hệ trong tập hợp dữ liệu hệ thống dựa theo cách thức hoạt động não bộ con người. ● Tầng hidden layer (tầng ẩn): Tầng này nằm giữa tầng vào và tầng ra nó thể hiện cho quá trình suy luận logic của mạng.

Quy trình phân lớp dữ liệu .1 Tiền xử lý dữ liệu

(standardizing data), co giãn dữ liệu (scaling data), … Những kỹ thuật này tương đối dễ hiểu nhưng sẽ có nhiều vấn đề phát sinh khi chúng ta áp dụng vào các dữ liệu thực tế. ● Model: gồm các hàm machine learning phân lớp dữ liệu, có cả Neural Network gồm các hyper-parameter cơ bản để bạn xây dựng nhanh Deep learning thần thánh mà các fan Deep-learning based đang theo đuổi. Khi double-click vào biểu tượng File, ta sẽ mở Dialog để xem và chỉnh định nghĩa của bảng dữ liệu: nạp file dữ liệu ở đâu, thống kê sợ bộ số dòng, số cột dữ liệu, danh sách tên các thuộc tính (tên, kiểu dữ liệu, chức năng: feature, target, meta, skip) và mẫu dữ liệu quan sát.

Tuy nhiên, ở các tập dữ liệu nhỏ hoặc vừa phải, hiệu quả của mô hình sử dụng phương pháp này phụ thuộc nhiều vào cách chia cũng như tỷ lệ chia dữ liệu. Mục đích của phân lớp dữ liệu là để xây dựng một mô hình mà có thể dự đoán được tên lớp của những phần tử mới dựa vào những đặc điểm của nó. ● Dữ liệu đầu vào của quá trình này là: dữ liệu mẫu đã được gán nhãn và tiền xử lý để dữ liệu không bị nhiễu hay có bất cứ sai sót nào.

Đánh giá tính hiệu quả là phương pháp kiểm tra tính đúng đắn của mô hình phân lớp dữ liệu có tính đặc thù cụ thể, để từ đó ta có ra quyết định nên sử dụng mô hình đó hay không. Lượng dữ liệu nhỏ trong khi mô hình quá phức tạp nên cho dù độ chính xác cao nhưng không thể mô tả được các xu hướng tổng quát của dữ liệu mới. Ma trận nhầm lẫn hay ma trận lỗi là một bố cục bảng cụ thể cho phép hình dung hiệu suất của một thuật toán, là một trong những kỹ thuật đo lường hiệu suất phổ biến nhất và được sử dụng rộng rãi cho các mô hình phân loại.

Trong đó: TP (dương tính đúng, True Positive), TN (âm tính đúng. True Negative), FP (dương tính giả, False Positive) và FN (âm tính giả, False Negative) được xác định dựa trên các kết quả dương tính hoặc âm tính của kết quả được dự đoán so với chân trị. ● Độ nhạy (sensitivity) - độ phủ (recall) hay TPR (True Positive Rate): xác định mức độ chính xác của kết quả phân lớp cho cả phân lớp âm và dương tính.

CÁC KẾT QUẢ THỰC NGHIỆM

Bộ dữ liệu

Về bộ dữ liệu: Bộ dữ liệu thuộc về một công ty Thương mại điện tử hàng đầu. Một công ty bán lẻ trực tuyến (Thương mại điện tử) muốn biết những khách hàng sắp rời bỏ, để họ có thể tiếp cận khách hàng để đưa ra một số khuyến mãi. Mục tiêu: Xây dựng mô hình dự đoán để xác định những khách hàng có nguy cơ rời bỏ công ty dựa trên các biến được cung cấp.

Điều này có thể giúp công ty thực hiện các bước chủ động để giữ chân những khách hàng này và giảm tỷ lệ rời bỏ. NumberOfDeviceRegistered Tổng số lần gian lận được ghi nhận trên một khách hàng cụ thể.

Tiền xử lý dữ liệu

Dữ liệu Churn là biến mục tiêu (biến phụ thuộc) nên ta chọn role là Target. Sau đó, đưa dữ liệu ra Distribution và quan sát thấy biến mục tiêu phân phối không cân bằng. Chúng ta nên áp dụng các phương pháp SMOTE hoặc ADASYN để gia tăng kích thước mẫu của nhóm thiểu số nhằm cân bằng hóa dữ liệu.

Từ Data Info ta thấy rằng có khá nhiều dữ liệu, do đó, nhóm sẽ tiến hành kiểm tra phần tử ngoại lai trong bộ dữ liệu và sẽ loại bỏ chúng để tránh ảnh hưởng đến quá trình phân tích. Đầu tiên, mở hộp thoại Outliers, sau đó nối Outliers vào Data Outliers để xem các phần tử ngoại lai. Quan sát thấy hầu hết các thuộc tính đều có phần tử ngoại lai, cụ thể là 528 phần tử.

Tiếp theo, ta sử dụng Concatenate để loại bỏ các phần tử ngoại biên bằng cách chọn All variables that appear in input tables, cuối cùng là sử dụng Data Table để xem kết quả. Trong bộ dữ liệu mà nhóm sử dụng, có một số thuộc tính không ảnh hưởng đến quá trình phân tích và đánh giá. Như vậy, sau khi nhóm tiền xử lý dữ liệu qua việc điền dữ liệu khuyết, loại bỏ các phần tử ngoại lai và điều chỉnh thì bộ dữ liệu cuối cùng được nhóm dùng để phân tích và dự đoán tỷ lệ rời bỏ của khách hàng với công ty thương mại điện tử gồm có 5102 dòng và 19 thuộc tính với thuộc tính Churn là biến mục tiêu.

Xây dựng mô hình, phân tích và đánh giá

- Bước 2: Tiến hành sử dụng các phương pháp dự đoán: Logistic Regression, Decision Tree, Support Vector Machine (SVM), Neutral Network để dự đoán và đánh giá hiệu quả của từng phương pháp. - Bước 4: Cuối cùng, tính điểm số của mỗi mô hình bằng Test and Score dựa trên bộ dữ liệu Train 70, bao gồm cả Confusion matrix và ROC-Curve từ đó chọn phương pháp đạt hiệu quả tốt nhất và sử dụng phương pháp đó để dự báo kết quả cho file dữ liệu Forecast 30. Nhận xét: Tại Confusion Matrix chỉ số cần quan sát nhất là tỷ lệ của sai lầm loại 1 và sai lầm loại 2, mô hình tốt nhất khi có hai tỷ số này là thấp nhất.

Khi xem xét các chỉ số từ việc chia dữ liệu theo K – fold cross Validation trong các trường hợp trên, ta thấy mô hình Neutral Network ở trường hợp chia mẫu dữ liệu 5 và ở trường hợp khi ta chọn Test on test Data là tốt nhất. Một mô hình hiệu quả khi có FPR thấp và TPR cao hay đường cong ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả. Dựa trên kết quả này, công ty có thể tiếp tục tìm hiểu và phân tích chi tiết hơn về các khách hàng khác để xác định những yếu tố nào đã ảnh hưởng đến tỷ lệ rời bỏ của khách hàng.

Từ đó, công ty có thể tiếp tục triển khai các biện pháp phù hợp, hiệu quả hơn trong việc tiếp cận và tương tác với khách hàng. Có thể công ty nên cân nhắc việc chăm sóc các sản phẩm phù hợp với khách hàng độc thân và khách hàng đã kết hôn vì những người độc thân có nhiều khả năng rời khỏi ứng dụng nhất. - Người dùng điện thoại di động (Mobile phone) có khả năng rời bỏ có thể điều này cho thấy có vấn đề về trải nghiệm của người dùng ứng dụng trên phiên bản dành cho thiết bị di động.

- Khi tỷ lệ đơn hàng năm ngoái tăng thì tỷ lệ rời bỏ giảm nên tỷ lệ phần trăm tăng theo thứ tự so với năm ngoái (OrderAmountHikeFromlastYear) có tác động tích cực đến tỷ lệ rời bỏ và chúng ta cần tập trung khi khách hàng có tỷ lệ 12% - 15%. - Tỷ lệ rời bỏ sẽ ít hơn khi sử dụng nhiều phiếu giảm giá (CouponUsed) hơn và số tiền hoàn lại (CashbackAmount) nhiều hơn.

KẾT LUẬN 4.1 Các kết quả đạt được

Những hạn chế và hướng phát triển .1 Những hạn chế

    Tiếp theo là thiếu tính tương thích vì một số tính năng của bộ dữ liệu này có thể không tương thích với Orange nên làm cho phần dự đoán và phân tích sẽ dẫn đến một số kết quả không mang tính chính xác cao. - Chọn ra những đánh giá có nội dung, thông tin và hữu ích đối với người dùng. - Loại bỏ những đánh giá không liên quan đến ứng dụng, có thể chia dữ liệu thành các nhóm, phân loại các đánh giá theo chủ đề hoặc danh mục ứng dụng để dễ dàng tra cứu và phân tích.

    - Công ty nên nghĩ đến một kỹ thuật khác ngoài việc chấm điểm sự hài lòng hoặc khiếu nại có thể là đường dây nóng tiếp nhận khiếu nại để có kết quả nhanh chóng hoặc cung cấp các cuộc gọi điện thoại thường xuyên để nhận phản hồi từ khách hàng. - Có thể công ty nên cân nhắc việc chăm sóc các sản phẩm phù hợp với khách hàng độc thân và đã kết hôn vì những người độc thân có nhiều khả năng rời bỏ hơn - Đối với những khách hàng mới mua hàng điện tử, việc bán chéo có thể được thực.