Lý Do Chọn Lựa Đề TàiKhai phá dữ liệu là một kỹ thuật phổ biến, được sử dụng để trích xuất thông tin hữu ích từdữ liệu đã có, từ đó hỗ trợ ra các quyết định có lợi cho tương lai.. Tư tưở
TỔNG QUAN
Lý Do Chọn Lựa Đề Tài
Khai phá dữ liệu là một kỹ thuật phổ biến, được sử dụng để trích xuất thông tin hữu ích từ dữ liệu đã có, từ đó hỗ trợ ra các quyết định có lợi cho tương lai Việc xác định khách hàng có rời bỏ sản phẩm đang sử dụng của ngân hàng hay không là một phần quan trọng trong việc duy trì doanh thu và lợi nhuận của ngân hàng Tỷ lệ khách hàng rời bỏ cao có thể dẫn đến giảm doanh thu, lợi nhuận Vì ngân hàng sẽ mất đi các khoản phí và lãi từ các khách hàng này và ngân hàng sẽ phải chi thêm tiền để tiếp thị và bán hàng cho các khách hàng mới Hơn nữa, tỷ lệ khách hàng rời bỏ cao có thể làm thay đổi cơ cấu khách hàng của ngân hàng, vì những khách hàng rời bỏ thường là những khách hàng có giá trị cao.
Bằng cách sử dụng các phương pháp và dấu hiệu thích hợp, các ngân hàng có thể phát hiện và giải quyết các vấn đề sớm, giúp giữ chân khách hàng và giảm tỷ lệ khách hàng rời bỏ Vì vậy nhóm em lựa chọn đề tài “ỨNG DỤNG MÁY HỌC VÀO BÀI TOÁN DỰ ĐOÁN KHÁCH HÀNG TIẾP TỤC SỬ DỤNG SẢN PHẨN CỦA NGÂN HÀNG ” nhằm muốn đạt được những điều sau đây: Xác định và hình dung những yếu tố nào góp phần khiến khách hàng rời bỏ; Xây dựng mô hình dự đoán sẽ thực hiện các hoạt động: phân loại xem khách hàng có rời bỏ hay không và là dựa trên hiệu suất của mô hình.
Giới Thiệu Về Phần Mềm Orange
Giới thiệu về Phần Mềm Orange: Orange là một công cụ khai phá dữ liệu và học máy nguồn mở, được viết bằng Python Orange cung cấp một môi trường trực quan và tương tác để phân tích dữ liệu và xây dựng các mô hình học máy.
Orange có một số tính năng chính, bao gồm:
Trực quan hóa dữ liệu: Orange cung cấp một loạt các công cụ để trực quan hóa dữ liệu, bao gồm biểu đồ, đồ thị, và bản đồ nhiệt.
Khai thác dữ liệu: Orange cung cấp một loạt các thuật toán khai thác dữ liệu, bao gồm phân loại, hồi quy, và clustering.
Học máy: Orange cung cấp một loạt các mô hình học máy, bao gồm các mô hình dựa trên cây, các mô hình dựa trên sự hỗ trợ vector, và các mô hình dựa trên mạng nơ-ron.
Orange là một công cụ mạnh mẽ cho phân tích dữ liệu và học máy Nó là một lựa chọn tốt cho các nhà khoa học dữ liệu, kỹ sư máy học, và sinh viên.
Mục tiêu nghiên cứu
Nghiên cứu này nhằm phân tích khả năng hủy phòng khách sạn đã đặt, nhằm cung cấp thông tin quan trọng và sâu rộng về sự chuẩn bị, cũng như chiến lược kinh doanh cho 2 loại hình khách sạn là: khách sạn nghỉ dưỡng và khách sạn thành phố.
Có 2 mục tiêu chính của đề tài cũng ứng với 2 bài toán cần giải quyết của bài nghiên cứu Dùng phương pháp Hierarchical Clustering để thực hiện và phân loại khách hàng làm các nhóm và nhận xét để nhận thấy rõ đặc điểm của khách hàng Ứng dụng bài toán phân lớp để dự đoán khả năng hủy phòng khách sạn của khách hàng.
CƠ SỞ LÝ THUYẾT
Mô hình phân cụm dữ liệu (Clustering Data)
Là quá trình gom các cụm/nhóm của các đối tượng hoặc dữ liệu có đặc điểm tương đồng vào các cụm hoặc nhóm tương ứng Trong đó: đối tượng nào có những tính chất tương tự nhau sẽ được xếp vào cùng một cụm và ngược lại Dữ liệu sử dụng trong kỹ thuật này là dữ liệu chưa được gán nhãn và thường thấy trong thực tế.
Hình 1 Mô tả quá trình phân cụm dữ liệu
2.1.5.4 Phân cụm phân cấp (Hierarchical Clustering): Được xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:
- Ma trận khoảng cách giữa các phần tử (similarity matrix or dissimilarity matrix)
- Độ đo khoảng cách giữa các cụm (single link, complete link…)
Có 5 cách đo lường: Single, Average, Weighted, Complete, Ward
Một số phương pháp tính khoảng cách (Distance): Single-link, complete-link, average-link, mean, centroid, medoid.
2.1.5.5 Phân cụm phân hoạch (Partitioning Clustering):
Thuật toán K-means: là thuật toán quan trọng và được sử dụng một cách rộng rãi trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means đó chính là tìm cách phân nhóm các đối tượng đã cho vào K cụm (K là số các cụm đã được xác định trước và K là số nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm của nhóm là nhỏ nhất.
Các phương pháp đánh giá phân cụm dữ liệu:
- Phương pháp đánh giá ngoài (External validation): Đánh giá kết quả phân cụm dựa vào cấu trúc hoặc xu hướng phân cụm đã được chỉ định trước đó cho tập dữ liệu
- Phương pháp đánh giá nội bộ (Internal validation): Đánh giá kết quả của phân cụm mà không có thông tin từ bên ngoài, chỉ chủ yếu dựa vào các vector chính của dữ liệu thông qua ma trận xấp xỉ (proximity matrix)
- Silhouette index: nằm trong khoảng [-1,1] Trong đó,
● 0.25 ≤ Si < 0.5: cần đánh giá lại (Theo kinh nghiệm của chuyên gia)
● Si < 0.25: Không tin tưởng vào cluster, tìm phương pháp đánh giá khác
Các Mô Hình Phân Lớp Dữ Liệu
Định nghĩa: Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào) Kỹ thuật này dùng để rút trích các thông tin cần thiết từ kho dữ liệu có sẵn Vì thế, đối với kỹ thuật này, chúng ta sẽ áp dụng các thuật toán khác nhau tùy thuộc vào mục tiêu sử dụng Đây cũng là kỹ thuật có vai trò quan trọng trong việc dự báo các quy luật, xu hướng, … bằng cách mô tả các thuộc tính liên quan để đối tượng được phân loại vào một lớp cụ thể.
Khái niệm: là mô hình dùng để dự đoan xác suất của một sự kiện xảy ra dựa trên một hoặc nhiều biến độc lập Hồi quy logistic sử dụng một hàm logistic để biến đổi giá trị của biến phụ thuộc nhị phân thành một giá trị liên tục nằm trong khoảng từ 0 đến 1 Giá trị này có thể được hiểu như là xác suất để sự kiện xảy ra khi biết các biến độc lập.
Các loại hồi quy logistic:
Hồi quy logistic nhị phân: Đây là loại hồi quy logistic khi biến phụ thuộc chỉ có hai kết quả có thể, chẳng hạn như có hay không, đạt hay không đạt, bệnh hay khỏe, v.v. Hồi quy logistic nhị phân sử dụng một hàm logistic để biến đổi giá trị của biến phụ thuộc nhị phân thành một giá trị liên tục nằm trong khoảng từ 0 đến 1 Giá trị này có thể được hiểu như là xác suất để sự kiện xảy ra khi biết các biến độc lập.
Hồi quy logistic đa thức: Đây là loại hồi quy logistic khi biến phụ thuộc có hai hoặc nhiều kết quả có thể mà không cần sắp xếp thứ tự Ví dụ: dự đoán chất lượng thực phẩm, loại hoa, màu sắc, v.v Hồi quy logistic đa thức sử dụng một hàm softmax để biến đổi giá trị của biến phụ thuộc thành một vector xác suất cho mỗi lớp.
Hồi quy logistic thứ tự: Đây là loại hồi quy logistic khi biến phụ thuộc có hai hoặc nhiều kết quả có thể mà có sắp xếp thứ tự Ví dụ: đánh giá sản phẩm, mức độ hài lòng, mức độ khó khăn, v.v Hồi quy logistic thứ tự sử dụng một hàm logit để biến đổi giá trị của biến phụ thuộc thành một giá trị liên tục nằm trong khoảng từ -∞ đến +∞.
2.2.2 Mô Hình Support Vector Machine ứngdụng thực tế trong các lĩnh vực như phát hiện ung thư, nhận diện khuôn mặt, nhận dạng chữ viết tay,
Khái niệm: là một thuật toán học có giám sát để phân loại và hồi quy SVM tìm ra một siêu phẳng (hyperplane) để phân chia dữ liệu thành hai hoặc nhiều lớp khác nhau sao cho khoảng cách từ siêu phẳng đến các điểm dữ liệu gần nhất là lớn nhất SVM có nhiều ứngdụng thực tế trong các lĩnh vực như phát hiện ung thư, nhận diện khuôn mặt, nhận dạng chữ viết tay, Ưu điểm:
● SVM có khả năng tạo ra các mô hình phân loại chính xác và ổn định, đặc biệt khi số lượng biến độc lập lớn hơn số lượng quan sát.
● SVM có thể giảm thiểu việc trang bị quá mức (overfitting) bằng cách sử dụng tham số C để kiểm soát độ lớn của lề.
● SVM có thể xử lý được các bài toán phi tuyến bằng cách sử dụng các hàm hạt nhân khác nhau, chẳng hạn như tuyến tính, đa thức, RBF, sigmoid,
● SVM có khả năng chấp nhận ngoại lệ và tìm ra siêu phẳng có biên giới tối đa.
● ã SVM khú khăn trong việc xỏc định cỏc tham số tối ưu cho mụ hỡnh, chẳng hạn như tham số C, gamma, epsilon, v.v Các tham số này ảnh hưởng đến hiệu suất của mô hình và cần được tìm kiếm bằng các phương pháp như tìm kiếm lưới (grid search) hoặc tìm kiếm ngẫu nhiên (random search).
● ã SVM khú khăn trong việc diễn giải ý nghĩa của mụ hỡnh, đặc biệt khi sử dụng các hàm hạt nhân phi tuyến Không có cách nào để biết được các biến độc lập nào quan trọng nhất hoặc làm thế nào chúng ảnh hưởng đến kết quả.
Mô hình Decision Tree là một mô hình học máy phân loại, được sử dụng để dự đoán giá trị mục tiêu của một biến phụ thuộc dựa trên các biến độc lập Mô hình này hoạt động bằng cách chia dữ liệu thành các nhóm dựa trên các giá trị của các biến độc lập Mỗi nhóm được gán một giá trị mục tiêu.
Cấu trúc của mô hình Decision Tree là một cây phân nhánh, với mỗi nút đại diện cho một quyết định Các nút lá của cây đại diện cho các giá trị mục tiêu có thể có.
Cách xây dựng mô hình Decision Tree
Mô hình Decision Tree được xây dựng bằng cách sử dụng một thuật toán học máy Thuật toán này sẽ bắt đầu từ một nút gốc, đại diện cho toàn bộ tập dữ liệu Sau đó, thuật toán sẽ phân chia tập dữ liệu thành hai nhóm dựa trên một biến độc lập Nhóm nào có độ đồng nhất cao hơn sẽ được chọn làm nhóm gốc cho nút con tiếp theo Quá trình này sẽ tiếp tục cho đến khi tất cả dữ liệu được phân loại thành các nhóm riêng biệt. Ưu điểm
Mô hình Decision Tree có thể được hiểu và giải thích một cách dễ dàng.
Mô hình Decision Tree có thể được sử dụng để giải quyết các vấn đề phân loại phức tạp.
Mô hình Decision Tree có thể được sử dụng để xử lý dữ liệu lớn.
Mô hình Decision Tree có thể gặp vấn đề overfitting.
Mô hình Decision Tree có thể không hiệu quả đối với các vấn đề dự đoán liên tục.
Quy Trình Phân Lớp Dữ Liệu
2.3.1 Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm có hai bước chính: ã Bước 1: Xõy dựng mụ hỡnh phõn lớp (hay cũn gọi là giai đoạn “học’’ hoặc “huấn luyện’’)
Quá trình huấn luyện này nhằm mục đích xây dựng một mô hình mô tả dữ liệu đã có sẵn Đầu vào của quá trình này là một tập dữ liệu mẫu được gán nhãn và tiền xử lý, mỗi phần tử của dữ liệu đã được giả định thuộc về một phân lớp trước, lớp ở câu nói này có nghĩa là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn hoặc phân lớp Mỗi bộ giá trị được gọi chung là mỗi phần tử dữ liệu (dataHình 1: Xây dựng mô hình phân lớp 1 tuple), cũng có thể là các mẫu, ví dụ, đối tượng hay các trường hợp khác Từ đó cho ra kết quả là mô hình phân lớp đã được huấn luyện.
Hình 4 Xây dựng mô hình phân lớp ã Bước 2: Sử dụng mụ hỡnh, trong đú chia thành 2 bước nhỏ: ã Bước 2.1: Đỏnh giỏ mụ hỡnh (kiểm tra tớnh đỳng đắn của mụ hỡnh)
Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn Bước này dùng mô hình đã xây dựng ở bước đầu tiên để phân lớp dữ liệu mới Trước tiến độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra được ước lượng Holdout là một kỹ thuật đơn giản để ước lượng tính đúng đắn này dựa trên tỷ lệ phần trăm các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế) Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình.
Hình 5 Đánh giá mô hình phân lớp ã Bước 2.2: Phõn lớp dữ liệu mới
Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn) Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1.
Hình 6 Qúa trình phân lớp dữ liệu 1
2.3.2 Tiền Xử Lý Dữ Liệu
Tiền xử lý dữ liệu là quá trình chuẩn bị dữ liệu để sử dụng cho các mục đích phân tích Dữ liệu thô thường không phù hợp để phân tích trực tiếp, vì nó có thể chứa các lỗi, thiếu sót và bất thường Tiền xử lý dữ liệu giúp loại bỏ các lỗi và bất thường này, đồng thời chuẩn hóa dữ liệu để phù hợp với các thuật toán phân tích.
Tiền xử lý dữ liệu bao gồm một số bước cơ bản sau:
Loại bỏ các giá trị bị thiếu: Nếu một dữ liệu có giá trị bị thiếu, chúng có thể được thay thế bằng giá trị trung bình hoặc giá trị của một số dữ liệu tương tự.
Sửa chữa các lỗi dữ liệu: Các lỗi dữ liệu có thể được sửa chữa bằng cách sử dụng các kỹ thuật thống kê hoặc các thuật toán học máy.
Chuẩn hóa dữ liệu: Dữ liệu có thể được chuẩn hóa bằng cách chuyển đổi chúng sang một thang đo chung, chẳng hạn như thang đo từ 0 đến 1 hoặc thang đo từ -1 đến 1.
Giảm thiểu dữ liệu: Dữ liệu có thể được giảm thiểu bằng cách sử dụng các kỹ thuật như lấy mẫu hoặc giảm kích thước.
Tiền xử lý dữ liệu hình ảnh: Dữ liệu hình ảnh có thể được tiền xử lý bằng các kỹ thuật như loại bỏ nhiễu, tăng cường độ tương phản và chuyển đổi màu sắc.
Là quá trình phân loại một đối tượng dữ liệu thành một hoặc nhiều lớp (loại) nhất định bằng mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gắn nhãn trước đó.
Kỹ thuật này dùng để trích xuất các thông tin cần thiết từ kho dữ liệu có sẵn Do đó, đối với kỹ thuật này, chúng ta sẽ linh hoạt áp dụng các thuật toán khác nhau tùy thuộc vào mục đích sử dụng.
Bên cạnh đó, đây cũng được coi là một kỹ thuật quan trọng trong việc dự đoán các quy luật, xu hướng, bằng cách mô tả các thuộc tính liên quan đến các đối tượng được phân loại vào một lớp cụ thể.
2.3.4 Đánh Giá Tính Hiệu Quả Đánh giá tính hiệu quả của mô hình phân lớp dữ liệu là một quá trình quan trọng để đảm bảo rằng mô hình đang hoạt động tốt và có thể được sử dụng để đưa ra các quyết định chính xác Có nhiều cách khác nhau để đánh giá hiệu quả của mô hình phân lớp dữ liệu
Ma trận nhầm lẫn (Confusion Matrix)
Ma trận nhầm lẫn là một bảng hiển thị số lượng dữ liệu được phân loại chính xác và số lượng dữ liệu được phân loại sai Ma trận nhầm lẫn có thể được sử dụng để tính toán các chỉ số hiệu suất khác nhau, chẳng hạn như độ chính xác, độ nhạy và độ đặc hiệu.
Hình 7 Minh họa phương pháp ma trận nhầm lẫn
Lấy ví dụ về bài toán phân nhóm ngân hàng gian lận Trong đó lớp A là nhóm ngân hàng không gan lận, B là nhóm ngân hàng gian lận Các thuật ngữ chính của Confusion matrix trong trường hợp này như sau
CÁC KẾT QUẢ THỰC NGHIỆM
Tiền xử lý bộ dữ liệu
Bộ dữ liệu được lấy từ Kaggle với 7043 dòng và 20 biến và không có giá trị bị thiếu Để các mô hình đạt độ chính xác cao nhất, nhóm em sử dụng chức năng Outliers để loại bỏ các giá trị ngoại lệ trong bộ dữ liệu Nhóm em chia bộ dữ liệu làm 2 phần bằng chức năng Data Sampler, với 54% bộ dữ liệu được dùng để huấn luyện và phần còn lại dùng để dự báo.
Nguồn dữ liệu: https://www.kaggle.com/code/kmalit/bank-customer-churn-prediction/notebook
Hình 10 Tiền xử lý dữ liệu 1
Bảng mô tả dữ liệu 1
T Thuộc tính Ý nghĩa Mô tả
1 gender Giới tính khách hàng Male: Nam
2 SeniorCitizen Khách hàng cao tuổi
0= không phải khách hàng cao tuổi
3 Partner Khách hàng là đối tác của ngân hàng
No: khách hàng không phải là đối tác của ngân hàng
Yes: khách hàng không phải là đối tác của ngân hàng
4 Dependents Những người phụ thuộc tài chính vào một khách hàng chính
Những người này có thể bao gồm vợ/chồng, con cái, cha mẹ hoặc người chăm sóc.
No: khách hàng không có người phụ thuộc
Yes: khách hàng có người phụ thuộc
5 tenure Thời gian một khách hàng đã gắn bó với ngân hàng.( tính bằng tháng)
6 PhoneService Khách hàng có nhận điện thoại tư vấn từ ngân hàng hay không
No: Khách hàng không nhận điện thoại tư vấn từ ngân hàng
Yes: Khách hàng nhận điện thoại tư vấn từ ngân hàng
7 MultipleLines Tính năng của dịch vụ điện thoại của ngân hàng, cho phép ngân hàng có nhiều đường
No: ngân hàng không trang bị tính năng này dây điện thoại trên một số điện thoại hoặc thiết bị.
No phone serveice: ngân hàng không có dịch vụ điện thoại cho khách hàng
Yes: ngân hàng trang bị tín năng này
8 InternetService Dịch vụ internet mà ngân hàng cung cấp cho khách hàng.
No: ngân hàng không cung cấp internet cho khách hàng
9 OnlineSecurity Ngân hàng sử dụng các biện pháp bảo mật dữ liệu khách hàng qua dịch vụ internet của ngân hàng cung cấp
No: ngân hàng không cung cấp dịch vụ bảo về dữ liệu khách hàng trên internet
No internet service: ngân hàng không cung cấp dịch vụ truy cập internet
Yes: ngân hàng bảo mật dữ liệu mạng của khách hàng
10 OnlineBackup Ngân hàng cho phép khách hàng dưu trữ dữ liệu online
No: ngân hàng không cung cấp dịch vụ
No internet service: ngân hàng không cung cấp dịch vụ truy cập internet
Yes: ngân hàng cho phép khách hàng dưu trữ dữ liệu online
11 DeviceProtection Tính năng bảo mật giúp bảo vệ thiết bị khách hàng khỏi truy cập trái phép và trộm cắp.
No: ngân hàng không cung cấp.
No internet service: ngân hàng không cung cấp dịch vụ truy cập internet
Yes: ngân hàng tính năng này
12 TechSupport Dịch vụ hỗ trợ công nghệ No: ngân hàng không cung cấp dịch vụ hỗ trợ công nghệ
No internet service: ngân hàng không cung cấp dịch vụ truy cập internet
Yes: ngân hàng có dịch vụ hỗ trợ công nghệ cho khách hàng
13 StreamingTV Dịch vụ cung cấp nội dung truyền hình trực tuyến cho người dùng.
No: ngân hàng không cung cấp
No internet service: ngân hàng không cung cấp dịch vụ truy cập internet
Yes: ngân hàng có cung cấp dịch vụ này
14 StreamingMovies Dịch vụ cung cấp phim ảnh trực tuyến cho người dùng.
No: ngân hàng không cung cấp
No internet service: ngân hàng không cung cấp dịch vụ truy cập internet
Yes: ngân hàng cung cấp dịch vụ này
15 Contract Tần suất ngân hàng liên hệ với khách hàng
Month-to- month: ngân hàng liên hệ với khách hàng hằng tháng
One year: ngân hàng liên hệ với khách hàng mỗi năm
Two year: ngân hàng liên hệ với khách hàng hai năm
16 PaperlessBilling Dịch vụ cho phép người dùng nhận hóa đơn điện tử thay vì hóa đơn giấy.
No: ngân hàng không cung cấp dịch vụ
Yes: ngân hàng cung cấp dịch vụ
17 PaymentMethod Dịch vụ thanh toán của ngân hàng Bank transfer
(automatic): dịch vụ chuyển tiền tự động từ tài khoản ngân hàng
Credit card (automatic): dịch vụ thanh toán tự động bằng thẻ tín dụng.
Electronic check: chuyển tiền từ tài khoản ngân hàng của mình sang tài khoản ngân hàng của người khác mà không cần viết séc giấy.
Mailed check: thanh toán bằng séc qua thư, một loại séc giấy được gửi qua đường bưu điện đến người nhận.
18 MonthlyCharges Phí hằng tháng mà khách hàng phải trả Số thực
19 TotalCharges Tổng phí mà khách hàng phải trả
20 Churn Khách hàng có rời bỏ ngân hàng hay không No: khách không hàng hàng
Yes: khách hàng rời bỏ ngân hàng
21 customerID ID của mỗi khách hàng meta
Bài toán phân cụm khách hàng
Bước 2: Chọn file “churn_54%” và để biến “churn” là Skip
Bước 3: Dùng phương pháp K-means, thực hiện phân làm từ 2 đến 8 nhóm, xem xét phân làm bao nhiêu cụm thì tối ưu nhất
Bước 4: Dùng Silhouette Plot để minh họa dữ liệu Dữ liệu từ Silhouette được minh họa trên Data table
Bước 5: Tìm đặc điểm của các nhóm khách hàng hủy đặt phòng
Bước 6: Đánh giá và kết luận
Hình 11 Mô mình phân cụm
Kết quả phân loại Kmeans
Hình 12 Kết quả phân cụm theo phương pháp K-means
Chạy K-Means từ 2 đến 5 cụm, theo kết quả của K-means phân cụm như sau:
Chỉ số K-means của 2 cụm là cao nhất, kết hợp với chỉ số Silhouette từ kết quả trên nên phân làm 2 nhóm vì phân làm 3,4,5nhóm điểm số sẽ không tăng và phân làm 3,4,5 nhóm sẽ bị phân tách nhóm nhiều hơn
Kiểm tra mức độ chính xác của kết quả dự báo
Hình 13 Kiểm tra mô hình phân cụm
Sau khi dự báo ra kết quả, nhóm so sánh cột Churn ban đầu của dữ liệu “churn_54%” và kết quả K-means của dữ liệu Kết quả so sánh cho thấy phương pháp K-means có mức độ chính xác là 94% 23 tương đương với 1846 khách hàng chọn tiếp tục sử dụng sản phẩm của ngân hàng và chỉ có 6% tương đương với 127 khách hàng được dự báo sai lầm Cho thấy rằng mức độ chính xác của mô hình dự báo là rất cao và ổn định có thể tin tưởng vào mô hình này để dự báo khách hàng chọn tiếp dục sử dụng sản phẩm ngân hàng hay rời bỏ ngân hàng.
Bài toán phân lớp khách hàng
Các bước thực hiện mô hình phân lớp dữ liệu
Bước 1: Chọn dữ liệu File “churn_54%” và chọn cột “churn” làm Target
Bước 2: Nối File “churn_54%” và 3 phương pháp Logistic Regression, SVM và Decision Tree với Test and Score → Nối Test and Score với Confusion Matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn
Bước 3: Liên kết phương pháp tốt nhất và File “churn_46%” với Predictions để đánh giá và phân loại dữ liệu đầu vào
Bước 4: Xuất kết quả dự báo qua Data Table.
Hình 14 Mô hình phân lớp Đánh giá mô hình dựa trên kết quả của Test and Score
Hình 15 Kết quả Test & Score
AUC (Accuracy: tính chính xác) của Logistic Regression là lớn nhất (0.899) > SVM (0.851) > Decision tree (0.652) Quan sát, nhận thấy trong các chỉ số CA, F1, Prec, Recall thì phương pháp Logistic Regression cũng có chỉ số lớn hơn 2 phương pháp còn lại Vì vậy, theo Test & Score, phương pháp Logistic Regression là pương pháp tốt nhất để dự báo khách hàng có rời bỏ ngân hàng hay không.
2.2.3.2 Đánh giá mô hình dựa trên kết quả của Confusion Matrix:
Hình 16 Kết quả Confusion Matrix của phương pháp Logistic Regression
Hình 17 Kết quả Confusion Matrix của phương pháp Decision tree
Hình 18 Kết quả Confusion Matrix của phương pháp SVM
Dựa vào kết quả 3 mô hình trên, ta có thể thấy được với sai lầm loại 2: Dự đoán là không rời bỏ nhưng thực tế là khách hàng rời bỏ ngân hàng là sai lầm nghiêm trọng Nếu sai lầm này càng nhiều thì việc dự đoán khách hàng có tiếp tục sử dụng sản phẩm ngân hàng sẽ không còn ý nghĩa và dẫn đến tổn thất kinh tế và gây sai lệch cho các dự án kinh doanh của ngân hàng SVM= 29.6% < Logistic Regression = 45.7% < Decision tree = 47.6%