bài tiểu luận khoa học dữ liệu đề tài dự đoán khách hàng có rời bỏ ngân hàng abc bank

Cũng vì lẽ đó, từ bộ dữ liệu Bank Customer Churn Dataset ma nhom thu thập được từ Kaggle, nhóm đã thực hiện xử lý nguồn dữ liệu, sử dụng phương pháp phan lớp đề tiễn hành phân tích, đánh

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG KINH DOANH UEH

UNIVERSITY

BÀI TIỂU LUẬN MÔN: KHOA HỌC DỮ LIỆU DE TAI: DU DOAN KHACH HÀNG CÓ ROI BO NGAN HANG

Trang 2

CHƯƠNG 1 TỎNG QUAIN 5 E1 1H gu

CHƯƠNG 2 CÁC MÔ HÌNH PHẦN LỚP DỮ LIỆU 5-52 se sscssee

I Các Mô Hình Phân Lớp Dữ Liệu 0c c S HH Hghherke 1 Hồi quy Logistic (Logistic Regression) -s-sccscoscsssecseeereeesessrseesrseeree 2 Cây quyết định (Decision 'Tree) s-scse se vseveevsevsevxeersrssersersersrsersrke 3 SVM (Support Vector Machine) - c «cọ HH Y cà HH v08

Trang 3

a) Các khái niệm 9 b)_ Ma trận nhằm lẫn (Confusion IMatrix) 5c o6 se se sExerseersrx 9 ©) Độ chính xác (ÁCCUFACV) co SG TH TH To HH 4 0006 10 d) Precision, Recall, EÏ — SCOF€ - G9 HH 4 0Á gà 10 e) ROC (Receiver Operating Characteristic) va AUC (Area Under the Curve)

I Các kết quả đạt được -2-22222t th 21.12111101 krree 20

II Những Hạn Chế và Hướng Phát Triễn 22222222222222CS2EEEEEEEvxvvrrrrrerrree 21

2 Hướng phát triỀn - o6 s- se se Ss3sEs vs S3ExeExSxEx Sỹ 3E 9g ga gen 21

Trang 4

CHƯƠNG 1 TONG QUAN

“+ Gidi thiéu bài toán ứng dụng

1 Lý do chọn đề tài

“Trong bối cảnh nền kinh tế không ngừng phát triển và có những thành tựu vượt bậc như hiện nay, việc xuất hiện sự canh tranh gay gắt giữa các ngành nghề khác nhau là một điều không thê nào tránh khỏi và ngành ngân hàng cũng không ngoại lệ Chính vì vậy, ngày nay các doanh nghiệp ở các lĩnh vực nói chung vả riêng các doanh nghiệp ngành ngân hàng nói riêng không ngừng mở rộng cũng như cải tiên chất lượng các địch vụ và sản phâm của họ nhằm mang đến những trải nghiệm tốt nhất cho khách hàng

Tuy nhiên, vẫn còn tổn tại những trường hợp khách hàng rời đi hay nói cách khác là họ sẽ ngừng kết nỗi, hợp tác hay làm việc với ngân hàng đó nêu họ cảm thấy không hài lòng, thỏa mãn với dịch vụ và sản phẩm mà ngân hàng cung cấp Cũng vì lẽ đó, từ bộ dữ liệu Bank Customer Churn Dataset ma nhom thu thập được từ Kaggle, nhóm đã thực hiện xử lý nguồn dữ liệu, sử dụng phương pháp phan lớp đề tiễn hành phân tích, đánh giá độ

hiệu quả của các mô hình, từ đó đưa ra dự đoán răng: “Liệu khách hàng có khả năng roi

bỏ ngân hàng hay không?” với biến phụ thuộc là Customer chumn và một số biến độc lập khác bao gồm: “ Customer 1d, CTredit score, Counfry, Gender, Age, Tenure, Balance, Product_number, Credi( card, Active member, Estimafed_ salary.”

2) Mục tiêu nghiên cứu Giúp ngân hàng tiếp cận đúng nhóm khách hàng và cung cấp các gói dịch vụ, sản phẩm sao cho phù hợp với nhu câu của từng nhóm khách hàng khác nhau Điều chỉnh hệ thống quản lý các hoạt động cung cấp dịch vụ, sản phẩm trở nên hiệu quả hơn, hạn chế

tối đa tỷ lệ khách hàng rời bỏ ngân hàng đồng thời thu hút và giữ chân được nhiều khách

hàng 3) Phương pháp thực hiên phân lớp dữ liệu Buéc 1: Chuan bi tap dữ liệu huấn luyện (dataset) và rút trích đặc trưng (feature extraction)

Bước 2: Xây dựng mô hình phân lớp (classifier model) Bước 3: Kiểm tra dữ liệu với mô hình (making predictions) Bước 4: Đánh giá mô hình phân lớp và chọn ra mô hình tốt nhất

4) Ý nghĩa

Trang 5

Tỷ lệ khách hàng ngưng sử dụng dịch vụ ảnh hưởng trực tiếp tới ngân hàng Các ngân hàng có thê thu thập dữ liệu từ khách hàng và sử dụng dữ liệu đó để phát triển mô hình dự đoán Việc dự đoán khách hàng đó có rời bỏ ngân hàng hay không là một vấn đề cấp bách Dự đoán khách hàng giúp cho ngân hàng:

Đưa ra cái nhìn tổng quan về tình hình hoạt động của ngân hàng

Co thé phân tích được lý do tại sao khách hàng lại ngưng sử dụng dịch vụ

Tìm ra đâu là khách hàng quan trọng và những đối tượng nào ngân hàng nên chú trọng vào

Đưa ra những chính sách, những ưu đãi dành cho những khách hàng có dấu hiệu

ngưng sử dụng dịch vụ

Đề ra những chiến lược giúp giảm tý lệ khách hàng ngưng sử dụng các dịch vụ của ngân hàng

CHƯƠNG 2 CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU

Các Mô Hình Phân Lớp Dữ Liệu Có rất nhiều phương pháp phân lớp dữ liệu được sử dụng đề dự báo như Hồi quy Logistic

(Logistic Regression), SVM (Support Vector Machine), Cay quyét dinh (Decision Tree), Naive Bayes, Neural Network, Cac phuong phap sé dugc trình bay rõ hơn ở bên dưới

1 Hồi quy Logistic (Logistic Regression) Hồi quy Logistie còn được gọi là hồi quy nhị thức Đây là mô hình xác suất dùng để

dự đoán các giá trị đầu ra không liên tục từ các giá trị đầu vào được biểu diễn bằng vector

Hồi quy logistic sử dụng hàm logistic, hay hàm logit toán học Công thức của phương pháp hồi quy logistic là:

Trong đó: + d: số lượng thuộc tính của dữ liệu

2

Trang 6

+ w: trọng sô, lúc đâu sẽ được khởi tạo ngâu nhiên, sau đó sẽ được điêu

chính lại cho phù hợp 2 Cây quyết định (Decision Tree)

Cây quyết định là một cây phân cấp có cầu trúc được dùng đề phân lớp các đối tượng

dựa vào một dãy luật Các thuộc tính của đối tượng có thể thuộc nhiều kiểu dữ liệu khác

nhau như nhị phân, định danh, thứ tự, số lượng trong khi đó thuộc tính phân lớp phải

có kiều dữ liệu là nhị phân hoặc thứ tự Cây quyết định có hai kiểu là cây hồi quy và cây phân loại Cây hồi quy thì đữ liệu có

vector đặc trưng bao gồm cả thuộc tính dạng categorical, liên tục và có ý nghĩa Cây phân loại thì kết quả thường rời rạc, không có thứ tự

+* Ưu điểm:

ÖỔ Déhiéu

« _ Không đòi hỏi việc chuẩn việc chuẩn hóa dữ liệu « Có thể xử lý trên nhiều lý trên nhiều kiểu dữ liệu kiểu dữ liệu khác nhau « Xửly tốt một lượng dữ liệu lớn dữ liệu lớn trong thời trong thời gian nhắn gian +* Khuyết điểm:

« - Khó giải quyết trong tình huống đữ huống dữ liệu phụ thuộc thời gian « Chi phi xay dựng mô dựng mô hình cao

3 SVM (Support Vector Machine) SVM là thuật toán giám sát SVM dạng chuẩn nhận dữ liệu vào, xem các dữ liệu này như những vecfor trong không gian, sau đó phân loại chúng thành các lớp khác nhau nhờ vào việc xây dựng một mặt phẳng trong không gian nhiều chiều làm mặt phân cách giữa

những lớp đữ liệu

Để đạt được sự phân loại tốt nhất, cần phải xác định siêu phẳng (hyperplane) có

khoảng cách đến lề là lớn nhất.

Trang 7

“ Uu điểm:

e _ Tiết kiệm bộ nhớ (do quá trình test chỉ cần so điểm đữ liệu mới với mặt siêu phẳng

tìm được mà không cân tính toán lại ® Linh hoạt: vừa có thê phân lớp tuyến tính và phi tuyến (sử dụng các kernel khác

nhau) e - Xử lý được trong không gian nhiều chiêu % Nhược điểm:

e - Chưa thể hiện tính xác suất trong phân lớp

4

Trang 8

4 Neural Network

Neural Network hay còn gọi là Mạng nơ-ron nhân tạo, dùng đề xử lý thông tin thông

qua việc sử dụng các mô hình toán học phức tạp Tương tự như cách hoạt động của các tế bào thần kinh và khớp thần kinh của bộ não con người, mạng nơ-ron nhân tạo kết nối các

nút đơn giản, còn được gọi là tế bào thần kinh Tập hợp các nút như vậy tạo thành một mạng lưới các nút

Các ứng dụng của mạng Neuron được sử dụng trong rất nhiều lĩnh vực như điện, điện tử, kinh tế, quân sự để giải quyết các bài toán có độ phức tạp và đòi hỏi độ chính xác

cao như điều khiến tự động, khai phá dữ liệu, nhận dạng

I Quy Trinh Phan Lop Di Liéu 1 Phân Chia Dữ Liệu

a) Phương pháp Hold out Phương pháp Hold out là phương pháp phân chia ngẫu nhiên tập dữ liệu thành 2 tập dữ liệu độc lập là tập dữ liệu huấn luyện và tập kiểm định mô hình Mục đích của phương pháp Hold out là kiểm tra độ hiệu quả của mô hình khi sử dụng nhiều tập dữ liệu khác nhau

Cụ thê trong phương pháp Hold out chúng ta sẽ có lập dữ liệu - lraming set: dữ liệu phục vụ xây dựng mô hình, xác định các thuật toán, biến dữ

liệu phù hợp - Validation set: là dữ liệu được sử dụng để đánh giá hiệu suất của mô hình được

xây dựng trong giai đoạn huấn luyện, hỗ trợ thử nghiệm để tinh chính các tham số mô hình và chọn mô hình hoạt động tốt nhất Không phải mọi thuật toán phân loại nào cũng cần Validation set, nên phương pháp Hold out thông thường chỉ dùng lại ở 2 tập dữ liệu traming và test data mà thôi

- Test set: la đữ liệu được sử dụng để đánh giá độ hiệu quả của mô hình, mức độ

chính xác trong việc phân loại dữ liệu (không chứa nhân phân loại, túc giá trị của

biến mục tiêu phân loại bị che đi

Thông thường tỷ lệ phân chia cho traiming data set là 70% và test data set la 30% Uu điểm của Hold out là nhanh chóng, đơn giản và linh hoạt Tuy nhiên, kỹ thuật này thường

dẫn đến độ biến thiên cao do sự khác biệt lớn trong 2 tập dữ liệu, dẫn đến sự khác biệt

trong việc dự báo, hay phân loại Do đó việc áp dụng Hold out cần kết hợp các phương

pháp để kiểm tra mức độ khác biệt của 2 tập dữ liệu

Trang 9

nghiệm va KK-I tập làm dữ liệu huấn luyện, quá trình này lặp lại k lần cho đến khi fold

nào cũng đều được làm đữ liệu thử nghiệm Phần dữ liệu training thì sẽ được chia thành K phan (K là một số nguyên thường khó quá thì chọn 10) Sau đó train model K lần, mỗi lần train sẽ chọn | phần làm dữ liệu validation và K-I phần con lại làm training set Kết quả cuối cùng sẽ là trung bình cộng kết quả đánh giá của K lần train Đó cũng là lý do tại sao việc đánh giá này lại khách quan hơn

Sau khi đánh giá xong mà thấy Accuracy ở mức “bạn chấp nhận” được thì bạn tiến hành predIct với tập test data thôi

Trang 10

All Data

en Fold2 | Fold = Fold 5

Finding Parameters

Như hình bén train, các bạn sé thấy:

- Phần đữ liệu Test data sẽ đc để riêng và dành cho bước đánh giá cuối cùng nhằm

kiêm tra “phản ứng” của model khi gặp các dữ liệu unseen hoàn toàn - Phần dữ liệu Training thì sẽ được chia ngẫu nhiên thành K phan (K là một số

nguyên, hay chọn là 5 hoặc 10) Sau đó train model K lần, mỗi lần train sẽ chọn 1 phan làm dữ liệu validation va K-1 phân còn lại làm dữ liệu training Kết quả đánh giá model cuối cùng sẽ là trung bình cộng kết quả đánh giá của K lần train Đó chính là lý do vì sao ta đánh giá khách quan và chính xác hơn

2 Phân Lớp Dữ Liệu

Quá trình phân lớp dữ liệu gồm hai bước chính:

Bước 1:“Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)

- Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý

- Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật,

- Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp).”

Bước 2:“Sử dụng mô hình chia thành 2 bước nhỏ:

7

Trang 11

s - Bước 2.1: Đánh giá mô hình (kiêm tra tính đúng đắn của mô hình) - Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử

ly Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn

- Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình

® - Bước 2.2: Phân lớp dữ liệu mới

- Dữ liệu đầu vào: là đữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)

- Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước l

3 Danh Gia Tinh Hiéu Qua

Các phương pháp đánh giá mô hình phân lớp nhằm kiểm tra tinh kha thi của mô hình

phân lớp với dữ liệu cụ thể và sau đó xem xét có nên dùng mô hình đây hay không Mô hình được xem là lý tưởng khi chúng không quá đơn giản, không quá phức tạp và cũng phải không quá nhạy cảm với nhiều

a) Các khái niệm

® Under/fiting: nó có độ chính xác chưa cao so với tập dữ liệu huấn luyện và các

mẫu mới khi dự đoán Để điều này không xảy ra ta có thê đổi phương pháp thực hiện hoặc tăng thêm dữ liệu đầu vào

Trang 12

s - ver7iing: mô hình tìm được lại “quá phù hợp” với dữ liệu huấn luyện Nguyên nhân của hiện tượng này là dữ liệu huấn luyện quá nhỏ nhưng mô hình có độ phức tạp cao Mặc dù độ chính xác của mô hình này cao nhưng lại không có nhiều ý

nghĩa đối với dữ liệu mới

® Œoodjiffing: mô hình có kết quả tốt nhất cho cả tập dữ liệu mẫu và các dữ liệu

mới, mang tính tông quát

b) Ma trận nhằm lẫn (Confusion Matrix)

9

Trang 13

Ma tran nhằm lẫn là ma trận cho biết cụ thê một lớp có bao nhiêu điểm dữ liệu và dự

đoán những điềm dữ liệu đó sẽ rơi vào lớp nào Ma trận nham lân thường có kích thước k x k, trong đó k là sô lớp của dữ liệu

TRUE FALSE PREDICTED POSITIVE (TP) ep) PREDICTED NEGATIVE (EN) an)

Bang 2.1 Ma tran nham lan Neuon: Ims.ueh.edu.vn

Ma tran nham 1an co 4 loại giá trị chính là:

e 7P (rue posifive) — là mẫu mang nhãn ¡ được phân lớp đúng vào lớp ¿ e FP (false positive) — mau khéng mang nhãn 7 được phân lớp đúng vào lớp không

phải ¿ e TN (true negative) — mau mang nhan ¡ bị phân sai vào lớp khác lớp ¿ ® FN (false negative) — mau khong mang nhãn ¡ mà bị phân sai vào lớp i c) Độ chính xác (Accuracy)

Độ chính xác là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu Và nó

không thê cho chúng ta biết được mỗi loại được phân lớp cụ thê như thế nào, dữ liệu lớp nào được phân loại đúng nhất và dữ liệu lớ nào thường hay bị nhằm nhất

d) Precision, Recall, F1 — score Precision là tỉ lệ số mẫu true positive trong những mẫu được dự đoán là positive

Recall là tỉ lệ số mẫu true positive trong số những mẫu thực tế là positive F1- score là giá trị trung bình điều hòa của Precision và Recall

10

Tiêu đề	Dự đoán khách hàng có rời bỏ ngân hàng ABC Bank
Trường học	Trường Kinh Doanh UEH University
Chuyên ngành	Khoa học dữ liệu
Thể loại	Bài tiểu luận

Định dạng
Số trang	25
Dung lượng	3,78 MB