1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài ứng dụng machine learning để dự đoán khả năng khách hàng rời bỏ dịch vụ thương mại điện tử

36 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 36
Dung lượng 2,28 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN (7)
    • 1.1 Lý do chọn đề tài (7)
    • 1.2 Mục tiêu của đề tài (7)
    • 1.3 Giới hạn của đề tài (0)
    • 1.4 Nội dung nghiên cứu (7)
    • 1.5 Giới thiệu về nhóm (0)
  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT (9)
    • 2.1 Các thử thách của đề tài (9)
      • 2.1.1 Tập dữ liệu bị mất cân bằng giữa nhãn 0 và 1 của đặc trưng “Churn” (0)
      • 2.1.2 Dữ liệu không đầy đủ ở một số đặc trưng (10)
      • 2.1.3 Giá trị của các đặc trưng có sự chênh lệch (0)
    • 2.2 Các phương pháp đề xuất (14)
      • 2.2.1 Logistic Regression (14)
      • 2.2.2 Support Vector Machine (SVM) (14)
      • 2.2.3 Decision Tree (14)
      • 2.2.4 Random Forest (15)
      • 2.2.5 XGBClassifier (15)
      • 2.2.6 AdaBoostClassifier (15)
  • CHƯƠNG 3: LỰA CHỌN PHƯƠNG PHÁP (16)
    • 3.1 Lựa chọn phương pháp (16)
    • 3.2 Cách thức hoạt động của phương pháp (18)
      • 3.2.1 Tổng quan về mô hình Random Forest (0)
      • 3.2.2 Xây dựng thuật toán Random Forest (0)
      • 3.2.3 Các siêu tham số quan trọng trong mô hình Random Forest (0)
      • 3.2.4 Ưu, nhược điểm của Random Forest (22)
  • CHƯƠNG 4: KẾT QUẢ (24)
    • 4.1 Tập dữ liệu (24)
      • 4.1.1 Tổng quan về tập dữ liệu (0)
      • 4.1.2 Các phương pháp tiền xử lý dữ liệu (0)
    • 4.2 Phương pháp đánh giá (28)
    • 4.3 Kết quả thực nghiệm (0)
    • 4.4 Các lỗi thường gặp của hệ thống (0)
  • CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN (33)
    • 5.1 Kết luận (0)
    • 5.2 Hướng phát triển (0)
  • TÀI LIỆU THAM KHẢO (35)

Nội dung

1.2 Mục tiêu của đề tài Xây dựng mô hình dự đoán có thể xác định chính xác những khách hàng có nguy cơ rời bỏ công ty dựa trên các đặc trưng được cung cấp.. Hình 2.1 Biểu đồ thể hiện số

TỔNG QUAN

Lý do chọn đề tài

Customer Churn Rate (Tỷ lệ khách hàng rời bỏ) là một thuật ngữ không còn quá xa lạ trong doanh nghiệp Đây là một trong những tỷ lệ luôn được các nhà quản trị cực kỳ quan tâm Bởi lẽ, tỷ lệ này giúp đánh giá các yếu tố liên quan như: chất lượng sản phẩm, giá cả, công nghệ, đội ngũ nhân viên, đối thủ, Từ đó, doanh nghiệp có thể điều chỉnh về chất lượng sản phẩm, dịch vụ, chi phí, tiếp cận khách hàng một cách có hiệu quả, nâng cao hoạt động kinh doanh và lợi thế cạnh tranh Nhận thấy được tầm quan trọng của tỷ lệ này trong các doanh nghiệp, nhóm chúng em quyết định chọn đề tài “Ứng dụng của Machine Learning để dự đoán khả năng khách hàng rời bỏ dịch vụ thương mại điện tử Từ đó giúp hỗ trợ các công ty đưa ra phương án tiếp cận khách hàng tối ưu”.

Mục tiêu của đề tài

Xây dựng mô hình dự đoán có thể xác định chính xác những khách hàng có nguy cơ rời bỏ công ty dựa trên các đặc trưng được cung cấp Điều này sẽ giúp công ty thực hiện các bước chủ động để giữ chân những khách hàng này và giảm tỷ lệ rời bỏ Từ đó, nâng cao hiệu quả quản lý khách hàng và doanh số bán hàng Đối tượng nghiên cứu: Công ty Thương mại điện tử

Dữ liệu đầu vào: Tập dữ liệu sẵn có trên internet Dữ liệu chỉ liên quan đến khách hàng và hoạt động mua sắm trên nền tảng thương mại điện tử Dữ liệu thu thập chỉ từ 6 tháng đến 1 năm Ứng dụng thực tiễn: Đề tài không thể không tổng quát hóa kết quả cho tất cả các loại dịch vụ thương mại điện tử

1.4 Nội dung nghiên cứu Để đạt được mục tiêu, đưa ra dự đoán chính xác về tỷ lệ khách hàng rời bỏ trong lĩnh vực Thương mại điện tử Nhóm cần phải làm những việc sau:

Rà soát dữ liệu khách hàng bao gồm thông tin hiện tại và trong quá khứ Xử lý trước dữ liệu đầu vào, xác định và lựa chọn đúng các cần thiết để giảm thời gian và chi phí cho việc dự đoán

Thực hiện nghiên cứu so sánh về các thuật toán sẽ sử dụng để xây dựng mô hình Lập bảng so sánh tổng quan về chỉ số hiệu suất như: precision, recall, f1-score, accuracy, ROC AUC Từ đó tìm ra thuật toán phù hợp và hiệu quả nhất

STT Người thực hiện MSSV Nội dung công việc Tỉ lệ

Lựa chọn, xây dựng mô hình Viết code

Phân tích chi tiết về mô hình Tổng hợp nội dung

Nghiên cứu tổng quan về dự án Nghiên cứu các phương pháp đánh giá dự kiến sẽ sử dụng Nghiên cứu về các lỗi thường gặp Đưa ra kết quả và hướng phát triển

Nghiên cứu những khó khăn của dự án Tìm kiếm tập dữ liệu dự kiến sẽ sử dụng Tiền xử lý dữ liệu

100% đặc tr ng có hệ ốư s theta l nớ

Nội dung nghiên cứu

Để đạt được mục tiêu, đưa ra dự đoán chính xác về tỷ lệ khách hàng rời bỏ trong lĩnh vực Thương mại điện tử Nhóm cần phải làm những việc sau:

Rà soát dữ liệu khách hàng bao gồm thông tin hiện tại và trong quá khứ Xử lý trước dữ liệu đầu vào, xác định và lựa chọn đúng các cần thiết để giảm thời gian và chi phí cho việc dự đoán

Thực hiện nghiên cứu so sánh về các thuật toán sẽ sử dụng để xây dựng mô hình Lập bảng so sánh tổng quan về chỉ số hiệu suất như: precision, recall, f1-score, accuracy, ROC AUC Từ đó tìm ra thuật toán phù hợp và hiệu quả nhất

STT Người thực hiện MSSV Nội dung công việc Tỉ lệ

Lựa chọn, xây dựng mô hình Viết code

Phân tích chi tiết về mô hình Tổng hợp nội dung

Nghiên cứu tổng quan về dự án Nghiên cứu các phương pháp đánh giá dự kiến sẽ sử dụng Nghiên cứu về các lỗi thường gặp Đưa ra kết quả và hướng phát triển

Nghiên cứu những khó khăn của dự án Tìm kiếm tập dữ liệu dự kiến sẽ sử dụng Tiền xử lý dữ liệu

100% đặc tr ng có hệ ốư s theta l nớ

CƠ SỞ LÝ THUYẾT

Các thử thách của đề tài

2.1.1 T p d u b m t cân bậ ữliệ ị ấ ằng giữa nhãn 0 và 1 của đặc trưng “Churn” Vấn đề: Ở đặc trưng “Churn”, nhãn 0 chiếm tỉ lệ cao hơn nhãn 1

Hình 2.1 Biểu đồ thể hiện số lượng nhãn 0 và 1 của đặc trưng “Churn”[1] Nguyên nhân: Nguyên nhân chính dẫn đến sự mất cân bằng giữa nhãn 0 và 1 của "Churn" có thể do tỷ lệ khách hàng rời bỏ thực tế thấp hơn so với khách hàng không rời bỏ trong lĩnh vực thương mại điện tử Điều này có thể do nhiều yếu tố, ví dụ như chất lượng dịch vụ tốt, chiến lược tiếp thị hiệu quả, hoặc sự trung thành của khách hàng đối với thương hiệu Ngoài ra, việc thu thập dữ liệu không đồng đều về các khách hàng cũng có thể góp phần tạo ra sự mất cân bằng

Hậu quả: Sự mất cân bằng giữa nhãn 0 và 1 của “Churn” có thể ảnh hưởng đến khả năng xây dựng mô hình chính xác và dự đoán “Churn” Mô hình có thể bị thiên vị và không thể dự đoán "Churn" một cách chính xác Điều này có thể dẫn đến việc đưa ra quyết định không chính xác về việc giữ chân khách hàng hoặc phát hiện và xử lý các khách hàng có nguy cơ rời bỏ một cách hiệu quả

Giải pháp: Sử dụng phương pháp SMOTE [14] (Synthetic Minority Over- sampling Technique) SMOTE sẽ tạo ra các mẫu nhân tạo cho lớp thiểu số (nhãn 1) bằng cách kết hợp các điểm dữ liệu hiện có để tạo ra các mẫu mới Điều này giúp làm cân bằng lại tập dữ liệu và cải thiện hiệu suất của mô hình

2.1.2 D ữliệu không đầy đủ ở một số đặc trưng

Vấn đề: Tập dữ liệu có khá nhiều giá trị không tồn tại (null) ở một số đặc trưng:

Bảng 2.1 Bảng thể hiện tỉ lệ dữ liệu non-null và null của các đặc trưng bị thiếu dữ liệu

Nguyên nhân: Sự tồn tại nhiều giá trị null trong bộ dữ liệu do nhiều nguyên nhân, bao gồm quá trình thu thập dữ liệu không hoàn hảo, khách hàng không cung cấp thông tin đầy đủ, hoặc các lỗi trong quá trình ghi nhận dữ liệu Điều này có thể xảy ra đặc biệt trong lĩnh vực thương mại điện tử với quy mô lớn và sự thay đổi nhanh chóng của thông tin khách hàng

Hậu quả: Việc dữ liệu xuất hiện null vào trong dataset sẽ khiến chúng ta gặp một số vấn đề trong quá trình huấn luyện như:

Lỗi trong quá trình tính toán: khi có giá trị null trong tập dữ liệu sẽ khiến việc tính toán trong quá trình huấn luyện không thể thực hiện từ đó xảy ra lỗi và quá trình huấn luyện sẽ bị gián đoạn

Mô hình không học được thông tin: Nếu dữ liệu null không được xử lý, mô hình có thể không học được thông tin hợp lý từ các mẫu dữ liệu chứa giá trị null Điều này có thể làm giảm khả năng dự đoán chính xác của mô hình

Nhiễu dữ liệu: Các giá trị null có thể tạo ra nhiễu trong dữ liệu, ảnh hưởng đến khả năng mô hình học các mẫu dữ liệu khác Điều này có thể dẫn đến kết quả huấn luyện không ổn định hoặc không đáng tin cậy

Giải pháp: Sử dụng SimpleImputer trong thư viện sklearn SimpleImputer sẽ thay thế các giá trị thiếu bằng các giá trị được xác định trước, chẳng hạn như giá trị trung bình, giá trị trung vị, giá trị phổ biến nhất hoặc một giá trị cố định Điều này giúp mô hình không bị ảnh hưởng bởi các giá trị thiếu và tiếp tục xử lý dữ liệu một cách chính xác SimpleImputer là một công cụ hữu ích trong quá trình tiền xử lý dữ liệu và chuẩn bị dữ liệu cho việc huấn luyện mô hình học máy

Hình 2.2 Biểu đồ phân bố sự tồn tại dữ liệu của các đặc trưng [1]

2.1.3 Giá tr cị ủa các đặc trưng có sự chênh lệch

Vấn đề: Giá trị của các đặc trưng có sự chênh lệch đáng kể như:

Bảng 2.2 Bảng thể hiện phạm vi giá trị của các đặc trưng có kiểu dữ liệu số

TT Đặc trưng Mô tả Đơn vị đo lường

1 Tenure Thời gian sử dụng dịch vụ Tháng 0-61

3 WarehouseToHomeKhoảng cách kho hàng so với nhà khách hàng Km 5-127

4 HourSpendOnApp Thời gian sử dụng ứng dụng trong 1 ngày Giờ 0-5

Số lượng thiết bị đăng ký sử dụng dịch vụ Thiết bị 1-6

6 SatisfactionScore Mức độ hài lòng Thang điểm 5 1-5

7 NumberOfAddress Số lượng địa chỉ Địa chỉ 1-22

8 Complain Phàn nàn (Không/Có) 0/1 0,1

Số lượng đơn đặt hàng tăng so với năm ngoái Đơn hàng 11-26

10 CouponUsed Số lượng phiếu giảm giá đã dùng Cái 0-16

11 OrderCount Số lượng đơn hàng đã đặt Đơn hàng 1-16

12 DaySinceLastOrderSố ngày kể từ lần đặt hàng gần nhất so với hiện tại Ngày 0-46

13 CashbackAmount Số tiền đã được hoàn trả USD 0-325

Nguyên nhân: Sự chênh lệch giữa giá trị của các đặc trưng trong bộ dữ liệu có thể do tính chất tự nhiên của dữ liệu Một số đặc trưng có thể có giá trị lớn hơn hoặc nhỏ hơn đáng kể so với các đặc trưng khác Điều này do sự khác biệt về đơn vị đo lường, phạm vi giá trị hoặc phân phối dữ liệu.

Hậu quả: Sự chênh lệch giữa giá trị của các đặc trưng có thể làm cho mô hình bị thiên vị và không đạt hiệu suất tốt Mô hình có thể tập trung vào các đặc trưng có giá trị lớn hơn và bỏ qua các đặc trưng có giá trị nhỏ hơn, dẫn đến các dự đoán không chính xác Điều này có thể ảnh hưởng đến khả năng xác định các yếu tố quan trọng và hiệu suất của mô hình Ngoài ra, sự chênh lệch giữa giá trị của các đặc trưng cũng có thể làm mất đi tính đồng nhất và so sánh giữa các đặc trưng, làm giảm hiệu quả của các thuật toán phân loại và dự đoán

Giải pháp: Sử dụng MinMaxScaler trong thư viện sklearn MinMaxScaler sẽ chuẩn hóa các giá trị của các đặc trưng của dữ liệu vào khoảng [0, 1] Việc này giúp đảm bảo rằng các đặc trưng có cùng phạm vi giá trị và không bị ảnh hưởng bởi sự chênh lệch tỷ lệ

Hình 2.3 Bảng thể hiện giá trị các chỉ số của các đặc trưng có kiểu dữ liệu số [1]

Các phương pháp đề xuất

Sử dụng hàm logistic để dự đoán xác suất của một điểm dữ liệu thuộc vào một nhóm cụ thể Ưu điểm: Đơn giản, dễ hiểu, thích hợp cho các bài toán phân loại nhị phân, khả năng xử lý dữ liệu lớn

Nhược điểm: Giả định tuyến tính, không xử lý tốt các mối quan hệ phi tuyến 2.2.2 Support Vector Machine (SVM)

Tìm một siêu phẳng (hyper lane) tối ưu trong không gian đặc trưng để phân tách các điểm dữ liệu thuộc các nhóm khác nhau Ưu điểm: Hiệu năng tốt trong không gian đa chiều, khả năng xử lý tốt với dữ liệu lớn, khả năng tách biệt các lớp dữ liệu tốt

Nhược điểm: Đòi hỏi thời gian và tài nguyên tính toán lớn với dữ liệu lớn, khó xử lý dữ liệu mất cân bằng

Xây dựng cây quyết định bằng cách đặt các câu hỏi dạng yes/no với các đặc trưng để phân loại dữ liệu

9 Ưu điểm: Dễ hiểu, khả năng xử lý các mối quan hệ phi tuyến, xử lý tốt dữ liệu mất cân bằng

Nhược điểm: Dễ bị overfitting, không xử lý tốt các vấn đề dữ liệu nhiễu 2.2.4 Random Forest

Kết hợp nhiều cây quyết định độc lập để tạo ra dự đoán cuối cùng bằng phiếu bầu từ các cây Ưu điểm: Tính ổn định, xử lý tốt dữ liệu nhiễu và mất cân bằng, khả năng xử lý tốt với dữ liệu lớn

Nhược điểm: Đòi hỏi nhiều tài nguyên tính toán, tốn thời gian, khó hiểu và khó diễn giải kết quả

Sử dụng thuật toán Gradient Boosting để xây dựng một tập hợp các cây quyết định, mỗi cây quyết định mới tối thiểu hóa hàm mất mát của mô hình trước đó Ưu điểm: Hiệu năng cao, khả năng xử lý tốt với dữ liệu lớn, xử lý tốt các mối quan hệ phi tuyến, có khả năng xử lý dữ liệu mất cân bằng

Nhược điểm: Đòi hỏi nhiều tài nguyên tính toán, khó hiểu và khó diễn giải kết quả

Xây dựng các cây quyết định yếu tuần tự, mỗi cây quyết định mới tập trung vào việc sửa đổi các trường hợp sai lầm của mô hình trước đó Ưu điểm: Tính ổn định, xử lý tốt với dữ liệu nhiễu, khả năng xử lý dữ liệu mất cân bằng

Nhược điểm: Dễ bị ảnh hưởng bởi nhiễu dữ liệu và dữ liệu ngoại lai, khó xử lý dữ liệu không gian lớn

LỰA CHỌN PHƯƠNG PHÁP

Lựa chọn phương pháp

Dữ liệu được cung cấp đã được sử dụng để huấn luyện và đánh giá hiệu suất của các mô hình này Các chỉ số precision, recall, f1 score, accuracy, ROC AUC được - sử dụng để đánh giá mô hình Sau khi đánh giá hiệu suất của các mô hình, XGBClassifier và Random Forest đã được xác định là hai mô hình có hiệu suất tốt nhất trong số các mô hình đề xuất

Bảng 3.1 Bảng thống kê các chỉ số đánh giá các mô hình đề xuất

Precision Recall F1-score Accuracy ROC AUC Logistic Regression 0.76955 0.85426 0.80970 0.79891 0.799

Decision Tree 0.90483 0.92868 0.91660 0.91537 0.915 Random Forest 0.95685 0.99690 0.97646 0.97593 0.972 XGBClassifier 0.94273 0.99535 0.96833 0.96739 0.967 AdaBoostClassifier 0.80108 0.91783 0.85549 0.84472 0.845

Trong quá trình lựa chọn mô hình cuối cùng cho dự án, nhóm đã tham khảo bài nghiên cứu "Prediction of Customer Churn on e Retailing" [2] Bài nghiên cứu này - tập trung vào dự đoán khả năng rời bỏ của khách hàng trong lĩnh vực bán lẻ điện tử Bằng cách ứng dụng phương pháp Data Mining và Machine Learning, các tác giả đã tiến hành phân tích và xây dựng mô hình dự đoán khả năng rời bỏ Trong quá trình nghiên cứu, họ đã so sánh hiệu suất giữa hai mô hình, Random Forest và XGB Classifier Ngoài ra, các bài nghiên cứu khác [7][8] cũng có những đánh giá về các

11 mô hình phân loại khả năng rời bỏ của khách hàng và cũng thu được Random Forest cũng là một trong số các mô hình phân loại tốt nhất

Kết quả từ bài nghiên cứu cho thấy Random Forest có hiệu suất tốt hơn so với XGBClassifier trong việc dự đoán khả năng rời bỏ của khách hàng Đánh giá hiệu suất được thực hiện bằng các chỉ số như là precision, recall, f1-score,

=> Dựa trên kết quả bảng 3.2, hình 3.1, hình 3.2 và kết quả của các bài nghiên cứu, chúng ta có thể lựa chọn mô hình Random Forest làm mô hình cuối cùng để dự đoán khả năng rời bỏ của khách hàng trong dự án này

Hình 3.1 Bảng thống kê các chỉ số đánh giá các mô hình [2]

Cách thức hoạt động của phương pháp

3.2.1 T ng quan v mô hình Random Forest ổ ề

Hình 3.3 Mô hình tổng thể của Random Forest [4]

Hình 3.4 Mô hình tổng thể của dự án

Mô hình Random Forest [4] là một mô hình học máy kết hợp được xây dựng dựa trên nhiều cây quyết định Mỗi cây quyết định được huấn luyện trên một tập dữ liệu con được lấy ngẫu nhiên từ tập dữ liệu gốc Kết quả dự báo của mô hình là kết quả bầu cử từ các cây quyết định Đồng thời kết hợp kết quả dự báo từ nhiều mô hình sẽ có phương sai nhỏ hơn so với chỉ một mô hình Điều này giúp cho mô hình khắc phục được hiện tượng overfitting của mô hình cây quyết định

3.2.2 Xây d ng thu t toán Random Forest ự ậ

Ví dụ bộ dữ liệu của chúng ta có x dữ liệu (sample) và có y đặc trưng (feature) Để xây dựng mỗi cây quyết định ta sẽ làm như sau:

Chọn các mẫu ngẫu nhiên từ tập dữ liệu đã cho [5]: Lấy ngẫu nhiên x dữ liệu từ bộ dữ liệu với kỹ thuật Bootstrapping, hay còn gọi là quá trình lấy mẫu tái lặp Tức là khi chúng ta lựa chọn được 1 dữ liệu thì ta không bỏ dữ liệu đấy ra mà vẫn giữ lại trong tập dữ liệu ban đầu, rồi tiếp tục lựa chọn cho tới khi lựa chọn đủ n dữ liệu Khi dùng kĩ thuật này thì tập x dữ liệu mới của ta có thể có những dữ liệu bị trùng nhau Sau khi sample được x dữ liệu thì ta chọn ngẫu nhiên k đặc trưng (k Với việc sử dụng các phương pháp đánh giá này trong đề tài, ta sẽ có một cái nhìn tổng quan và chính xác hơn về hiệu suất và khả năng phân loại của mô hình Điều này sẽ giúp ta có sự thuyết phục hơn trong việc đánh giá và tối ưu hóa mô hình của ta để dự đoán và quản lý rủi ro rời bỏ dịch vụ của khách hàng trong lĩnh vực thương mại điện tử Định tính:

Các đặc trưng ảnh hưởng lớn nhất đến sự rời bỏ dịch vụ thương mại điện tử của khách hàng là “Complain”, “MaterialStatus”, “SatisfactionScore”,

“PreferedOrderCat”, “DaySinceLastOrder”, “CashbackAmount” và “Tenure”

Hình 4.1 Biểu đồ thể hiện mối liên hệ giữa đặc trưng “Churn” với các đặc trưng còn lại [1]

Mô hình Random Forest được lựa chọn làm mô hình chính do có kết quả đánh giá tổng thể tốt nhất trên các tiêu chí Precision, Recall, F1 score và Accuracy và cũng - có thể sử dụng XGBClassifier thay thế vì kết quả đánh giá của mô hình cũng chênh lệch nhau không đáng kể để có thêm cái nhìn tổng quan hơn

Tỷ lệ nam giới cao hơn, tăng cường sản phẩm, dịch vụ để thu hút đối tượng nam giới và tiếp tục phát triển theo hướng này

Có thể công ty cần xem xét việc chăm sóc sản phẩm phù hợp với khách hàng độc thân và đã kết hôn, vì người độc thân có khả năng rời bỏ cao hơn

Công ty nên xem xét những sản phẩm không quá đắt hoặc quá rẻ để những khách hàng thành phố cấp 2 có thể tin tưởng mua nó bởi vì với tư cách là khách hàng tầm trung, họ không đủ khả năng mua những sản phẩm đắt tiền và họ cũng sẽ không tin tưởng mua những sản phẩm giá rẻ vì nó sẽ không đáp ứng được nhu cầu của họ Công ty nên mở rộng thêm một số công nghệ khác ngoài việc chấm điểm sự hài lòng hoặc khiếu nại như là đường dây nóng tiếp nhận khiếu nại để có kết quả nhanh chóng hoặc cung cấp các cuộc gọi điện thoại thường xuyên để nhận phản hồi từ khách hàng

Công ty nên kiểm tra phiên bản di động của cửa hàng xem có vấn đề gì với trải nghiệm người dùng không

Khi khách hàng đã đạt được số lượng đặt hàng 12%-15%, công ty nên xem xét tập trung hơn vào việc thu hút sự chú ý của họ bằng các sản phẩm họ thích và quan tâm Đối với những khách hàng mới mua hàng điện tử, việc bán chéo có thể được thực hiện bằng cách tặng kèm các phụ kiện điện tử như bàn phím, chuột… Định lượng (áp dụng mô hình Random Forest):

Hình 4.2 Confusion matrix của mô hình Random Forest [1]

Tốc độ huấn luyện và dự đoán:

Thời gian huấn luyện Random Forest mô hình là khoảng 1.05s

Thời gian chạy toàn bộ dự án là khoảng 70s

Thời gian dự đoán trung bình cho một mẫu (một khách hàng) là 2.10 -5 s

Việc bỏ qua chuẩn hóa đặc trưng có thể cản trở quá trình học do mô hình gặp khó khăn trong việc xử lý các đặc trưng với các phân phối đầu vào khác nhau Các đặc trưng cần được chuẩn hóa để giảm bớt các vấn đề phát sinh từ các đầu vào phân bố khác nhau

Không xử lý missing data: Việc không xử lý đúng cách missing data, ví dụ bằng cách thay thế hoặc loại bỏ mẫu, thường gây ra lỗi trong quá trình huấn luyện mô hình Missing value cần được xử lý thông qua filling, loại bỏ mẫu là một điều rất cần thiết trong việc tạo lập ra một mô hình hiệu suất tốt.

S dử ụng để đánh giá tập dữ liệu mất cân bằng chưa qua xử ý: l vi c s dệ ử ụng accuracy để đánh gi á tập dữ liệu mất cân bằng thay vì sử d ng precision ụ hay recall c óthể d n t i vi c mô hình ch ẫ ớ ệ ỉ đánh giá l ch v m t nh n ệ ề ộ ã Accuracy là chỉ cho ta biết độ chính xác khi dự báo của mô hình, nhưng không thể hiện mô hình đang dự đoán sai như thế nào, vì vậy chúng ta cần kết hợp với các phương pháp đánh giá khác để có cái nhìn tổng thể và khách quan hơn về mô hình cài t th vi n, ti n x lí d li u, hu n đặ ư ệ ề ử ữ ệ ấ luy nệ

Ngày đăng: 14/04/2024, 22:54

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w