1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài ứng dụng machine learning để dự đoán khả năng khách hàng rời bỏ dịch vụ thương mại điện tử

36 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

1.2 Mục tiêu của đề tài Xây dựng mô hình dự đoán có thể xác định chính xác những khách hàng có nguy cơ rời bỏ công ty dựa trên các đặc trưng được cung cấp.. Hình 2.1 Biểu đồ thể hiện số

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM

Trang 2

NHẬN XÉT CỦA GIẢNG VIÊN

Trang 3

DANH MỤC HÌNH ẢNH

Hình 2.1 Biểu đồ thể hiện số lượng nhãn 0 và 1 của đặc trưng “Churn” 3

Hình 2.2 Biểu đồ phân bố sự tồn tại dữ liệu của các đặc trưng 5

Hình 2.3 Bảng thể hiện giá trị các chỉ số của các đặc trưng có kiểu dữ liệu số 8

Hình 3.1 Bảng thống kê các chỉ số đánh giá các mô hình 11

Hình 3.2 Đồ thị thể hiện giá trị ROC area curve của các mô hình 12

Hình 3.3 Mô hình tổng thể của Random Forest 12

Hình 3.4 Mô hình tổng thể của dự án 13

Hình 3.5 Phân chia dữ liệu với kỹ thuật Bootstrapping 14

Hình 3.6 Các cây quyết định tương ứng với các bộ dữ liệu được tạo từ bước 1 14

Hình 3.7 Ví dụ về kết quả dự đoán của từng cây quyết định và kết quả phân loại của mô hình 15

Trang 4

DANH MỤC BẢNG BIỂU

Bảng 2.1 Bảng thể hiện tỉ lệ dữ liệu non null và null của các đặc trưng bị thiếu dữ liệu

4 Bảng 2.2 Bảng thể hiện phạm vi giá trị của các đặc trưng có kiểu dữ liệu số 6 Bảng 3.1 Bảng thống kê các chỉ số đánh giá các mô hình đề xuất 10

Trang 5

M C L C Ụ Ụ

CHƯƠNG 1: TỔNG QUAN 1

1.1 Lý do chọn đề tài 1

1.2 Mục tiêu của đề tài 1

1.3 Giới hạn của đề tài 1

1.4 Nội dung nghiên cứu 1

1.5 Giới thiệu về nhóm 2

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 3

2.1 Các thử thách của đề tài 3

2.1.1 Tập dữ liệu bị mất cân bằng giữa nhãn 0 và 1 của đặc trưng “Churn” 3

2.1.2 Dữ liệu không đầy đủ ở một số đặc trưng 4

2.1.3 Giá trị của các đặc trưng có sự chênh lệch 6

3.2 Cách thức hoạt động của phương pháp 12

3.2.1 Tổng quan về mô hình Random Forest 12

3.2.2 Xây dựng thuật toán Random Forest 13

3.2.3 Các siêu tham số quan trọng trong mô hình Random Forest 15

Trang 6

3.2.4 Ưu, nhược điểm của Random Forest 16

4.4 Các lỗi thường gặp của hệ thống 26

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 27

5.1 Kết luận 27

5.2 Hướng phát triển 27

TÀI LIỆU THAM KHẢO 29

Trang 7

1

CHƯƠNG 1: TỔNG QUAN 1.1 Lý do chọn đề tài

Customer Churn Rate (Tỷ lệ khách hàng rời bỏ) là một thuật ngữ không còn quá xa lạ trong doanh nghiệp Đây là một trong những tỷ lệ luôn được các nhà quản trị cực kỳ quan tâm Bởi lẽ, tỷ lệ này giúp đánh giá các yếu tố liên quan như: chất lượng sản phẩm, giá cả, công nghệ, đội ngũ nhân viên, đối thủ, Từ đó, doanh nghiệp có thể điều chỉnh về chất lượng sản phẩm, dịch vụ, chi phí, tiếp cận khách hàng một cách có hiệu quả, nâng cao hoạt động kinh doanh và lợi thế cạnh tranh Nhận thấy được tầm quan trọng của tỷ lệ này trong các doanh nghiệp, nhóm chúng em quyết định chọn đề tài “Ứng dụng của Machine Learning để dự đoán khả năng khách hàng rời bỏ dịch vụ thương mại điện tử Từ đó giúp hỗ trợ các công ty đưa ra phương án tiếp cận khách hàng tối ưu”

1.2 Mục tiêu của đề tài

Xây dựng mô hình dự đoán có thể xác định chính xác những khách hàng có nguy cơ rời bỏ công ty dựa trên các đặc trưng được cung cấp Điều này sẽ giúp công ty thực hiện các bước chủ động để giữ chân những khách hàng này và giảm tỷ lệ rời bỏ Từ đó, nâng cao hiệu quả quản lý khách hàng và doanh số bán hàng

Đối tượng nghiên cứu: Công ty Thương mại điện tử

Dữ liệu đầu vào: Tập dữ liệu sẵn có trên internet Dữ liệu chỉ liên quan đến khách hàng và hoạt động mua sắm trên nền tảng thương mại điện tử Dữ liệu thu thập chỉ từ 6 tháng đến 1 năm

Ứng dụng thực tiễn: Đề tài không thể không tổng quát hóa kết quả cho tất cả các loại dịch vụ thương mại điện tử

1.4 Nội dung nghiên cứu

Để đạt được mục tiêu, đưa ra dự đoán chính xác về tỷ lệ khách hàng rời bỏ trong lĩnh vực Thương mại điện tử Nhóm cần phải làm những việc sau:

Trang 8

Rà soát dữ liệu khách hàng bao gồm thông tin hiện tại và trong quá khứ Xử lý trước dữ liệu đầu vào, xác định và lựa chọn đúng các cần thiết để giảm thời gian và chi phí cho việc dự đoán

Thực hiện nghiên cứu so sánh về các thuật toán sẽ sử dụng để xây dựng mô hình Lập bảng so sánh tổng quan về chỉ số hiệu suất như: precision, recall, f1-score, accuracy, ROC AUC Từ đó tìm ra thuật toán phù hợp và hiệu quả nhất

Nghiên cứu tổng quan về dự án Nghiên cứu các phương pháp đánh giá dự kiến sẽ sử dụng

Nghiên cứu về các lỗi thường gặp Đưa ra kết quả và hướng phát triển

100%

3 Dương Thị

Mỹ Hiền 21126138

Nghiên cứu những khó khăn của dự án Tìm kiếm tập dữ liệu dự kiến sẽ sử dụng Tiền xử lý dữ liệu

Kết quả thực nghiệm

100% đặc tr ng có hệ ốư s theta l nớ

Trang 9

3

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Các thử thách của đề tài

2.1.1 T p d u b m t cân bậ ữ liệ ị ấ ằng giữa nhãn 0 và 1 của đặc trưng “Churn” Vấn đề: Ở đặc trưng “Churn”, nhãn 0 chiếm tỉ lệ cao hơn nhãn 1

Hình 2.1 Biểu đồ thể hiện số lượng nhãn 0 và 1 của đặc trưng “Churn” [1] Nguyên nhân: Nguyên nhân chính dẫn đến sự mất cân bằng giữa nhãn 0 và 1 của "Churn" có thể do tỷ lệ khách hàng rời bỏ thực tế thấp hơn so với khách hàng không rời bỏ trong lĩnh vực thương mại điện tử Điều này có thể do nhiều yếu tố, ví dụ như chất lượng dịch vụ tốt, chiến lược tiếp thị hiệu quả, hoặc sự trung thành của khách hàng đối với thương hiệu Ngoài ra, việc thu thập dữ liệu không đồng đều về các khách hàng cũng có thể góp phần tạo ra sự mất cân bằng

Hậu quả: Sự mất cân bằng giữa nhãn 0 và 1 của “Churn” có thể ảnh hưởng đến khả năng xây dựng mô hình chính xác và dự đoán “Churn” Mô hình có thể bị thiên vị và không thể dự đoán "Churn" một cách chính xác Điều này có thể dẫn đến việc đưa ra quyết định không chính xác về việc giữ chân khách hàng hoặc phát hiện và xử lý các khách hàng có nguy cơ rời bỏ một cách hiệu quả

Trang 10

Giải pháp: Sử dụng phương pháp SMOTE [14] (Synthetic Minority Over-sampling Technique) SMOTE sẽ tạo ra các mẫu nhân tạo cho lớp thiểu số (nhãn 1) bằng cách kết hợp các điểm dữ liệu hiện có để tạo ra các mẫu mới Điều này giúp làm cân bằng lại tập dữ liệu và cải thiện hiệu suất của mô hình

2.1.2 D ữ liệu không đầy đủ ở một số đặc trưng

Vấn đề: Tập dữ liệu có khá nhiều giá trị không tồn tại (null) ở một số đặc trưng: Bảng 2.1 Bảng thể hiện tỉ lệ dữ liệu non-null và null của các đặc trưng bị thiếu dữ Nguyên nhân: Sự tồn tại nhiều giá trị null trong bộ dữ liệu do nhiều nguyên nhân, bao gồm quá trình thu thập dữ liệu không hoàn hảo, khách hàng không cung cấp thông tin đầy đủ, hoặc các lỗi trong quá trình ghi nhận dữ liệu Điều này có thể xảy ra đặc biệt trong lĩnh vực thương mại điện tử với quy mô lớn và sự thay đổi nhanh chóng của thông tin khách hàng

Trang 11

5

Hậu quả: Việc dữ liệu xuất hiện null vào trong dataset sẽ khiến chúng ta gặp một số vấn đề trong quá trình huấn luyện như:

Lỗi trong quá trình tính toán: khi có giá trị null trong tập dữ liệu sẽ khiến việc tính toán trong quá trình huấn luyện không thể thực hiện từ đó xảy ra lỗi và quá trình huấn luyện sẽ bị gián đoạn

Mô hình không học được thông tin: Nếu dữ liệu null không được xử lý, mô hình có thể không học được thông tin hợp lý từ các mẫu dữ liệu chứa giá trị null Điều này có thể làm giảm khả năng dự đoán chính xác của mô hình

Nhiễu dữ liệu: Các giá trị null có thể tạo ra nhiễu trong dữ liệu, ảnh hưởng đến khả năng mô hình học các mẫu dữ liệu khác Điều này có thể dẫn đến kết quả huấn luyện không ổn định hoặc không đáng tin cậy

Giải pháp: Sử dụng SimpleImputer trong thư viện sklearn SimpleImputer sẽ thay thế các giá trị thiếu bằng các giá trị được xác định trước, chẳng hạn như giá trị trung bình, giá trị trung vị, giá trị phổ biến nhất hoặc một giá trị cố định Điều này giúp mô hình không bị ảnh hưởng bởi các giá trị thiếu và tiếp tục xử lý dữ liệu một cách chính xác SimpleImputer là một công cụ hữu ích trong quá trình tiền xử lý dữ liệu và chuẩn bị dữ liệu cho việc huấn luyện mô hình học máy

Hình 2.2 Biểu đồ phân bố sự tồn tại dữ liệu của các đặc trưng [1]

Trang 12

2.1.3 Giá tr cị ủa các đặc trưng có sự chênh lệch

Vấn đề: Giá trị của các đặc trưng có sự chênh lệch đáng kể như: Bảng 2.2 Bảng thể hiện phạm vi giá trị của các đặc trưng có kiểu dữ liệu số

4 HourSpendOnApp Thời gian sử dụng ứng dụng

Số lượng đơn đặt hàng tăng

so với năm ngoái Đơn hàng 11-26

Trang 13

gần nhất so với hiện tại Ngày 0-46 13 CashbackAmount Số tiền đã được hoàn trả USD 0-325

Nguyên nhân: Sự chênh lệch giữa giá trị của các đặc trưng trong bộ dữ liệu có thể do tính chất tự nhiên của dữ liệu Một số đặc trưng có thể có giá trị lớn hơn hoặc nhỏ hơn đáng kể so với các đặc trưng khác Điều này do sự khác biệt về đơn vị đo lường, phạm vi giá trị hoặc phân phối dữ liệu.

Hậu quả: Sự chênh lệch giữa giá trị của các đặc trưng có thể làm cho mô hình bị thiên vị và không đạt hiệu suất tốt Mô hình có thể tập trung vào các đặc trưng có giá trị lớn hơn và bỏ qua các đặc trưng có giá trị nhỏ hơn, dẫn đến các dự đoán không chính xác Điều này có thể ảnh hưởng đến khả năng xác định các yếu tố quan trọng và hiệu suất của mô hình Ngoài ra, sự chênh lệch giữa giá trị của các đặc trưng cũng có thể làm mất đi tính đồng nhất và so sánh giữa các đặc trưng, làm giảm hiệu quả của các thuật toán phân loại và dự đoán

Giải pháp: Sử dụng MinMaxScaler trong thư viện sklearn MinMaxScaler sẽ chuẩn hóa các giá trị của các đặc trưng của dữ liệu vào khoảng [0, 1] Việc này giúp đảm bảo rằng các đặc trưng có cùng phạm vi giá trị và không bị ảnh hưởng bởi sự chênh lệch tỷ lệ

Trang 14

Hình 2.3 Bảng thể hiện giá trị các chỉ số của các đặc trưng có kiểu dữ liệu số [1]

Nhược điểm: Giả định tuyến tính, không xử lý tốt các mối quan hệ phi tuyến 2.2.2 Support Vector Machine (SVM)

Tìm một siêu phẳng (hyper lane) tối ưu trong không gian đặc trưng để phân tách các điểm dữ liệu thuộc các nhóm khác nhau

Ưu điểm: Hiệu năng tốt trong không gian đa chiều, khả năng xử lý tốt với dữ liệu lớn, khả năng tách biệt các lớp dữ liệu tốt

Nhược điểm: Đòi hỏi thời gian và tài nguyên tính toán lớn với dữ liệu lớn, khó xử lý dữ liệu mất cân bằng

2.2.3 Decision Tree

Xây dựng cây quyết định bằng cách đặt các câu hỏi dạng yes/no với các đặc trưng để phân loại dữ liệu

Trang 15

Nhược điểm: Đòi hỏi nhiều tài nguyên tính toán, tốn thời gian, khó hiểu và khó diễn giải kết quả

2.2.5 XGBClassifier

Sử dụng thuật toán Gradient Boosting để xây dựng một tập hợp các cây quyết định, mỗi cây quyết định mới tối thiểu hóa hàm mất mát của mô hình trước đó

Ưu điểm: Hiệu năng cao, khả năng xử lý tốt với dữ liệu lớn, xử lý tốt các mối quan hệ phi tuyến, có khả năng xử lý dữ liệu mất cân bằng

Nhược điểm: Đòi hỏi nhiều tài nguyên tính toán, khó hiểu và khó diễn giải kết quả

2.2.6 AdaBoostClassifier

Xây dựng các cây quyết định yếu tuần tự, mỗi cây quyết định mới tập trung vào việc sửa đổi các trường hợp sai lầm của mô hình trước đó

Ưu điểm: Tính ổn định, xử lý tốt với dữ liệu nhiễu, khả năng xử lý dữ liệu mất cân bằng

Nhược điểm: Dễ bị ảnh hưởng bởi nhiễu dữ liệu và dữ liệu ngoại lai, khó xử lý dữ liệu không gian lớn

Trang 16

CHƯƠNG 3: LỰA CHỌN PHƯƠNG PHÁP 3.1 Lựa chọn phương pháp

Dữ liệu được cung cấp đã được sử dụng để huấn luyện và đánh giá hiệu suất của các mô hình này Các chỉ số precision, recall, f1 score, accuracy, ROC AUC được -sử dụng để đánh giá mô hình Sau khi đánh giá hiệu suất của các mô hình, XGBClassifier và Random Forest đã được xác định là hai mô hình có hiệu suất tốt nhất trong số các mô hình đề xuất

Bảng 3.1 Bảng thống kê các chỉ số đánh giá các mô hình đề xuất Precision Recall F1-score Accuracy ROC AUC

Trong quá trình lựa chọn mô hình cuối cùng cho dự án, nhóm đã tham khảo bài nghiên cứu "Prediction of Customer Churn on e Retailing" [2] Bài nghiên cứu này -tập trung vào dự đoán khả năng rời bỏ của khách hàng trong lĩnh vực bán lẻ điện tử Bằng cách ứng dụng phương pháp Data Mining và Machine Learning, các tác giả đã tiến hành phân tích và xây dựng mô hình dự đoán khả năng rời bỏ Trong quá trình nghiên cứu, họ đã so sánh hiệu suất giữa hai mô hình, Random Forest và XGB Classifier Ngoài ra, các bài nghiên cứu khác [7][8] cũng có những đánh giá về các

Trang 17

11

mô hình phân loại khả năng rời bỏ của khách hàng và cũng thu được Random Forest cũng là một trong số các mô hình phân loại tốt nhất

Kết quả từ bài nghiên cứu cho thấy Random Forest có hiệu suất tốt hơn so với XGBClassifier trong việc dự đoán khả năng rời bỏ của khách hàng Đánh giá hiệu suất được thực hiện bằng các chỉ số như là precision, recall, f1-score,

=> Dựa trên kết quả bảng 3.2, hình 3.1, hình 3.2 và kết quả của các bài nghiên cứu, chúng ta có thể lựa chọn mô hình Random Forest làm mô hình cuối cùng để dự đoán khả năng rời bỏ của khách hàng trong dự án này

Hình 3.1 Bảng thống kê các chỉ số đánh giá các mô hình [2]

Trang 18

Hình 3.2 Đồ thị thể hiện giá trị ROC area curve của các mô hình [7] 3.2 Cách thức hoạt động của phương pháp

3.2.1 T ng quan v mô hình Random Forest ổ ề

Hình 3.3 Mô hình tổng thể của Random Forest [4]

Trang 19

Hình 3.4 Mô hình tổng thể của dự án

Mô hình Random Forest [4] là một mô hình học máy kết hợp được xây dựng dựa trên nhiều cây quyết định Mỗi cây quyết định được huấn luyện trên một tập dữ liệu con được lấy ngẫu nhiên từ tập dữ liệu gốc Kết quả dự báo của mô hình là kết quả bầu cử từ các cây quyết định Đồng thời kết hợp kết quả dự báo từ nhiều mô hình sẽ có phương sai nhỏ hơn so với chỉ một mô hình Điều này giúp cho mô hình khắc phục được hiện tượng overfitting của mô hình cây quyết định

3.2.2 Xây d ng thu t toán Random Forest ự ậ

Ví dụ bộ dữ liệu của chúng ta có x dữ liệu (sample) và có y đặc trưng (feature) Để xây dựng mỗi cây quyết định ta sẽ làm như sau:

Chọn các mẫu ngẫu nhiên từ tập dữ liệu đã cho [5]: Lấy ngẫu nhiên x dữ liệu từ bộ dữ liệu với kỹ thuật Bootstrapping, hay còn gọi là quá trình lấy mẫu tái lặp Tức là khi chúng ta lựa chọn được 1 dữ liệu thì ta không bỏ dữ liệu đấy ra mà vẫn giữ lại trong tập dữ liệu ban đầu, rồi tiếp tục lựa chọn cho tới khi lựa chọn đủ n dữ liệu Khi dùng kĩ thuật này thì tập x dữ liệu mới của ta có thể có những dữ liệu bị trùng nhau Sau khi sample được x dữ liệu thì ta chọn ngẫu nhiên k đặc trưng (k<x) Giờ ta được bộ dữ liệu mới gồm x dữ liệu và mỗi dữ liệu có k đặc trưng

Trang 20

Hình 3.5 Phân chia dữ liệu với kỹ thuật Bootstrapping [5]

Thiết lập cây quyết định cho từng mẫu [5]: Dùng thuật toán Decision Tree để xây dựng cây quyết định với bộ dữ liệu ở bước trước đó Chúng ta sẽ xây dựng nhiều cây quyết định nên bước 1 và 2 sẽ lặp lại nhiều lần

Hình 3.6 Các cây quyết định tương ứng với các bộ dữ liệu được tạo từ bước 1 [5] Nhận kết quả dự đoán từ mỗi cây quyết định [5]: Đối với một dữ liệu mới, mô hình Random Forest sẽ đi từ trên xuống theo các node điều kiện của từng cây quyết định để đưa ra dự đoán Sau đó, kết quả dự đoán của tất cả các cây quyết định sẽ được tổng hợp lại để đưa ra kết quả dự đoán cuối cùng

Trang 21

15

Tính toán kết quả [5]: Sau khi có các quyết định của tập hợp các cây quyết định thì chúng ta tiến hành bầu cử (phân loại) hoặc lấy trung bình (dự đoán) giữa các cây quyết định để đưa ra kết quả.

Hình 3.7 Ví dụ về kết quả dự đoán của từng cây quyết định và kết quả phân loại của mô hình [5]

Do quá trình xây dựng mỗi cây quyết định đều có yếu tố ngẫu nhiên (random) nên kết quả là các cây quyết định trong thuật toán Random Forest có thể khác nhau 3.2.3 Các siêu tham s quan tr ng trong mô hình Random Forest ố ọ

Mô hình rừng cây là một mô hình học máy kết hợp được xây dựng dựa trên nhiều cây quyết định Mỗi cây quyết định được huấn luyện trên một tập dữ liệu con được lấy ngẫu nhiên từ tập dữ liệu gốc Các tham số của mô hình rừng cây bao gồm các siêu tham số thiết lập cây quyết định từ DecisionTreeClassifier và BaggingClassifier Trong đó các siêu tham số cần lưu ý là [3]:

n_estimators: là số lượng các cây quyết định được sử dụng trong mô hình rừng cây (mặc định = 100)

Ngày đăng: 14/04/2024, 22:54

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w