1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích, dự đoán sự rời bỏ của khách hàng ngân hàng đa quốc gia abc để đưa ra các kiến nghị tốt nhất cho ngân hàng

48 22 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích, dự đoán sự rời bỏ của khách hàng ngân hàng đa quốc gia ABC để đưa ra các kiến nghị tốt nhất cho ngân hàng
Tác giả Nguyễn Lê Cát Tường, Tô Phạm Quốc Toàn, Nguyễn Trần Huỳnh Như, Nguyễn Huỳnh Gia Huy
Người hướng dẫn ThS. Nguyễn Mạnh Tuấn
Trường học Đại học UEH, Trường Công nghệ và Thiết kế, Khoa Công nghệ Thông tin Kinh doanh
Chuyên ngành Công nghệ thông tin kinh doanh
Thể loại Đồ án cuối kỳ
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 48
Dung lượng 6,39 MB

Cấu trúc

  • CHUƠNG 1: TỔNG QUAN (7)
    • 1. Giới thiệu đề tài (7)
    • 2. Lý do chọn đề tài (7)
    • 3. Đối tượng nghiên cứu (8)
    • 4. Mục tiêu nghiên cứu (8)
  • CHUƠNG 2: QUY TRÌNH THỰC HIẸN VA KÊT QUẢ (9)
    • 1. Mô tả nguồn dữ liệu và cấu trúc dữ liệu (9)
    • 2. Tiền xử lý dữ liệu (9)
    • 3. BÀI TOÁN 1: Bài toán phát hiện các điểm đặc thù của dữ liệu dựa vào lược đồ hay các công cụ thống kê (0)
      • 3.1. Mô tả bài toán (16)
      • 3.2. Dữ liệu đã xử lý và kết quả phân tích (17)
    • 4. BÀI TOÁN 2: Dự đoán khả năng khách hàng rời bỏ sử dụng dịch vụ ngân hàng (0)
      • 4.1 Mô tả bài toán (25)
      • 4.2 Xây dựng mô hình (26)
      • 4.3 Kết quả và đánh giá (29)
    • 5. BÀI TOÁN 3: Phân cụm khách hàng rời bỏ dịch vụ ngân hàng (0)
      • 5.1. Mô tả bài toán (34)
      • 5.2. Chạy mô hình và kết quả (35)
        • 5.2.1 Xây dựng mô hình (35)
        • 5.2.2. Kết quả mô hình (35)
      • 5.3. Đánh giá và kết luận bài toán (37)
        • 5.3.1. Phương pháp Distribution (37)
        • 5.3.2. Kết quả Feature Statistics (45)
        • 5.3.3. Kết luận bài toán (46)
  • CHUƠNG 3: KÊT LUẬN (48)

Nội dung

Kết quả của Feature Statistics ...45Bảng 4: Thống kê dữ liệu số khách hàng rời bỏ và không rời bỏ sử dụng dịch vụ ngân hàng ở yếu tố số lượng sản phẩm ngân hàng ...18Bảng 5: Thống kê dữ

TỔNG QUAN

Giới thiệu đề tài

“Customer churn” là cụm từ được dùng để ám chỉ việc khách hàng rời bỏ mua sản phẩm hay sử dụng dịch vụ của một doanh nghiệp Khái niệm này tất nhiên không hề mới lạ, thậm chí nó còn là hiện tượng đã quá đỗi quen thuộc với những người tham gia vào các hoạt động kinh doanh.

Tuy nhiên cụm từ này lại mang một sức nặng khác khi nói đến lĩnh vực tài chính, mà cụ thể ở đây là ngân hàng Hãy xem qua ví dụ sau.

Ngân hàng Thung lũng Silicon hay Silicon Valley Bank (SVB), là một ngân hàng thương mại được thành lập vào năm 1983 Kể từ đó, ngân hàng này đã có một tốc độ phát triển rất nhanh khi vào tháng 12 năm 2022, tức chỉ 40 năm sau khi thành lập, Ngân hàng Thung lũng Silicon đã là ngân hàng lớn thứ 16 trên toàn nước Mỹ với tổng tài sản rơi vào khoảng 209 tỷ USD.

Tuy nhiên, vào ngày 10 tháng 3 năm 2023, tức chỉ vỏn vẹn ba tháng sau thời điểm những số liệu nêu trên được ghi nhận Ngân hàng Thung lũng Silicon công bố phá sản.

Sự kiện đáng tiếc này xảy ra do SVB đã phải hứng chịu hiện tượng một lượng lớn khách hàng đồng loạt rút tiền khỏi ngân hàng và rời bỏ sử dụng dịch vụ của ngân hàng này sau khi SVB đưa ra thông báo cần huy động 2,5 tỷ USD để cân đối lại những thất thoát trong ngân sách Dẫn đến vụ phá sản của ngân hàng lớn thứ ba trong lịch sử nước Mỹ.

Từ đó càng khẳng định rõ ràng hơn khả năng ảnh hưởng không hề nhỏ của việc dự đoán được khả năng từ bỏ của khách hàng Đây cũng chính là mục tiêu nghiên cứu trong bài báo cáo này của nhóm 9 Dự báo hành vi rút lui của khách hàng trong sử dụng dịch vụ của Ngân hàng đa quốc gia ABC Bank.

Lý do chọn đề tài

Một nhân tố tất yếu để duy trì hoạt động của các ngân hàng chính là các khách hàng đang sử dụng dịch vụ của họ Đối với các ngân hàng, việc giữ chân được khách hàng và lượng tiền gửi của họ sẽ như là một nguồn cung sức sống cho chính nó.

Cho dù có là ngân hàng lớn hay nhỏ, việc mất đi các khách hàng đang sử dụng dịch vụ ít nhiều cũng sẽ mang đến những tổn thất nhất định, thậm chí nếu con số này đột ngột tăng

7 dụng dữ liệu khách hàng từ một ngân hàng để thực hiện nghiên cứu với mong muốn là đưa ra một số những dự báo về việc một khách hàng liệu có rút lui khỏi sử dụng dịch vụ của ngân hàng hay không Đây là điều mà các ngân hàng non trẻ hay lâu dài sẽ rất cần phải để tâm Báo cáo của nhóm 9 sẽ đưa ra một cái nhìn tổng quan nhưng cũng không kém phần chi tiết về vấn đề này.

Đối tượng nghiên cứu

Trong dự án này, bằng dữ liệu có được từ ngân hàng ABC, chúng tôi sẽ phân tích về các đặc tính của đối tượng nghiên cứu, ở đây là những người sử dụng dịch vụ của ngân hàngABC Thông qua các đặc tính của khách hàng như: số dư trong tài khoản, độ tuổi, mức độ tín dụng, có sở hữu thẻ tín dụng, v.v ta sẽ có được cái nhìn tách bạch hơn về câu hỏi khách hàng nào sẽ có khả năng sẽ rời bỏ sử dụng dịch vụ ngân hàng và khách hàng nào không.

Mục tiêu nghiên cứu

Từ những kết quả nghiên cứu, chúng tôi sẽ đưa ra một báo cáo về tỉ lệ các khách hàng rời bỏ dịch vụ ngân hàng Báo cáo này có thể được sử dụng cho mục đích dự đoán hành vi của khách hàng trong tương lai khi có đủ dữ liệu về khách hàng đó, nhờ vậy mà nó sẽ giúp ngân hàng ABC dễ dàng hơn trong công cuộc kiểm soát rủi ro, chăm sóc, tư vấn cũng như giữ chân khách hàng có nguy cơ rời bỏ và mang đến những ưu đãi cho những ai có tiềm năng trở thành khách hàng trung thành Không những vậy, bằng phương

QUY TRÌNH THỰC HIẸN VA KÊT QUẢ

Mô tả nguồn dữ liệu và cấu trúc dữ liệu

Dữ liệu được sử dụng trong bài được lấy từ trang web Kaggle, một trang web chuyên cung cấp các cơ sở dữ liệu phục vụ mục đích nghiên cứu Dữ liệu mô tả các đặc tính của 10,000 khách hàng sử dụng dịch vụ của ngân hàng đa quốc gia ABC.

Hình 1: Bộ dữ liệu chưa qua xử lý

Tiền xử lý dữ liệu

Do đây là một bộ dữ liệu khá hoàn chỉnh nên quy trình tiền xử lý cũng không hề phức tạp. Đầu tiên là sử dụng chức năng “File” để nhập bộ dữ liệu và định dạng các biến, với mục tiêu của nghiên cứu là phân tích sự phụ thuộc của đặc tính “churn” (rời bỏ sử dụng dịch

Còn với biến “customer id” (mã khách hàng), đây là một đặc tính không đóng góp vào quá trình phân tích nên sẽ bị bỏ qua (Skip).

Hình 2: Tiền xử lý dữ liệuTiếp theo sử dụng chức năng “Edit domain” để đặt lại tên cho các cột và định nghĩa lại một số giá trị( hình 2.1-2.5):

Hình 3: Tiền xử lý dữ liệu bằng Edit Domain

11Hình 4: Tiền xử lý dữ liệu bằng Edit Domain

Hình 5: Tiền xử lý dữ liệu bằng Edit Domain

13Hình 6: Tiền xử lý dữ liệu bằng Edit Domain

Hình 7: Tiền xử lý dữ liệu bằng Edit DomainCuối cùng ta có được bộ dữ liệu đã qua xử lý như sau:

BÀI TOÁN 1: Bài toán phát hiện các điểm đặc thù của dữ liệu dựa vào lược đồ hay các công cụ thống kê

Hình 8: Dữ liệu tiền xử lý

3 BAI TOÁN 1: Bài toán phát hiện các điểm đặc thù của dữ liệu dựa vào lược đồ hay các công cụ thống kê.

Bài toán được thực hiện bằng cách: Đầu tiên tìm dữ liệu thô trên trang web kaggle.com. Sau đó được xử lý dữ liệu thô trên excel, bằng cách dùng texts to column để tách các dữ liệu đang được gộp trong 1 cột thành nhiều cột khác nhau Rồi lại dùng Find and replace để thay thế tên của 1 vài dữ liệu như Male→Nam, Female→Nữ, France→Pháp, Spain→Tây Ban Nha, Germany→Đức,…

Mỗi một cột là một yếu tố liên quan đến việc rời bỏ hay không rời bỏ ngân hàng của người tiêu dùng.

Mỗi hàng dữ liệu của một khách hàng được xếp dựa theo các cột có yếu tố tương ứng.Trong đó, ta xác định yếu tố phụ thuộc là: Rời bỏ sử dụng dịch vụ.

Các công cụ được sử dụng bao gồm: các hàm thống kê, lược đồ và các công cụ khác trên excel.

3.2.Dữ liệu đã xử lý và kết quả phân tích:

● Điểm tín dụng: Điểm tín dụng Không rời bỏ Rời bỏ Tổng

Bảng 1: Thống kê dữ liệu số khách hàng rời bỏ và không rời bỏ sử dụng dịch vụ ngân hàng ở yếu tố điểm tín dụng

Biểu đồ 1: Điểm tín dụng

Từ bảng số liệu và biểu đồ trên ta có thể thấy được trong 10000 dữ liệu khách thu thập được thì dưới mức điểm tín dụng là 400 thì chỉ có 19 khách chiếm 1 tỉ lệ rất nhỏ 0.19% trong tổng số Nhưng nó chiếm 100% khi xét mức điểm tín dụng dưới 400 Đồng thời, nếu xét mỗi định mức là 100% ở các mức còn lại thì tỷ lệ rời bỏ sử dụng dịch vụ theo thứ tự định mức của bản số liệu trên lần lượt là: 21.26%, 19.79% và 19.54% Từ đây ta có thể nhận định rằng, các khách hàng có điểm tiêu dùng càng cao thì khả năng rời bỏ ngân hàng của họ càng thấp và ngược lại, điểm tín dụng càng thấp thì khả năng rời bỏ ngân hàng càng cao.

Quốc gia Rời bỏ Không rời bỏ Tổng

Bảng 2: Thống kê dữ liệu số khách hàng rời bỏ và không rời bỏ sử dụng dịch vụ ở yếu tố quốc gia

Biểu đồ 2: Quốc gia Ở yếu tố quốc gia, đầu tiên ta có thể thấy đó là chiếm tỷ lệ nhiều khách hàng nhất là quốc gia Pháp chiếm 50.14% tổng số lượng khách hàng của ba quốc gia cùng với đó là tỷ lệ rời bỏ là 8.10% trên tổng số 10000 khách hàng của ba quốc gia và chiếm 16.15% trong số các khách hàng thuộc Pháp Chiếm số lượng nhiều thứ 2 là Đức với 2509 khách hàng chiếm 25.09% trên tổng ba quốc gia, tỷ lệ rời bỏ ngân hàng là 8.14% trên tổng 3 quốc gia và 32.44% đối với tổng số khách hàng thuộc Đức Và cuối cùng là Tây Ban Nha với 2477 khách hàng, chiếm 24.77% còn lại, tỷ lệ rời bỏ nếu xét tổng 3 quốc gia và khi xét riêng Tây Ban Nha lần lượt là 4.13% và 16.67% Từ có thể thấy rằng Pháp là quốc gia có số lượng khách hàng sử dụng dịch vụ cao nhất, đồng thời cũng là quốc gia có số lượng khách hàng rời bỏ thấp nhất Tiếp theo là Tây Ban Nha tuy có số lượng khách ít nhất, nhưng tỷ lệ rời bỏ ngân hàng thấp hơn quốc gia Đức Cuối cùng là Đức, cần đặc biệt chú ý đối tượng khách hàng ở quốc gia này, bởi theo dữ liệu, cứ 100 người thì sẽ có khoảng gần 33 người rời bỏ ngân hàng.

Giới tính Không rời bỏ Rời bỏ Tổng

Bảng biểu 3: Thống kê dữ liệu số khách hàng rời bỏ và không rời bỏ sử dụng dịch vụ ngân hàng ở yếu tố giới tính

Biểu đồ 3: Giới tính Đối với yếu tố giới tính, tỷ lệ khách hàng nam nhiều hơn khách hàng nữ (54.57% > 45.43%) Đồng thời, tỷ lệ rời bỏ của khách hàng nữ cũng cao hơn khách hàng nam:

- Xét theo tổng cả nam nữ là 100% ( nam 8.98% < nữ 11.39%)

- Xét theo tỷ lệ nam nữ tính riêng khả năng rời bỏ ngân hàng của nam là 16.46% và của nữ là 25.07%.

● Số lượng sản phẩm ngân hàng

Số lượng sản phẩm ngân hàng Không rời bỏ Rời bỏ Tổng

Bảng 4: Thống kê dữ liệu số khách hàng rời bỏ và không rời bỏ sử dụng dịch vụ ngân hàng ở yếu tố số lượng sản phẩm ngân hàng

Biểu đồ 4: Số lượng sản phẩm ngân hàng Đối với các khách hàng sử dụng từ 1-2 sản phẩm ngân hàng, khả năng khách hàng rời bỏ ngân hàng không quá cao Đặc biệt là các đối tượng khách hàng có sử dụng 2 sản phẩm, họ là nhóm khách hàng ít có khả năng rời bỏ ngân hàng với tỷ lệ rời bỏ theo tỷ lệ 100% khi xét tổng 4 tài khoản là 3.48% và khi chỉ xét riêng là 7.58%, điều đó có nghĩa là trong

100 khách hàng sử dụng 2 sản phẩm thì chỉ có khoảng 7-8 khách hàng sẽ rời bỏ ngân hàng Ngược lại, những đối tượng khách hàng có từ 3-4 sản phẩm lại rất khả năng rời bỏ ngân hàng Điều này được thể hiện rõ qua số liệu khi nếu chỉ xét riêng lẻ từng mục đối tượng thì những tỷ lệ rời bỏ của khách hàng sử dụng 3 và 4 sản phẩm lần lượt là 82.71% và 100%.

● Sở hữu thẻ tín dụng

Bảng 5: Thống kê dữ liệu số khách hàng rời bỏ và không rời bỏ sử dụng dịch vụ ngân hàng ở yếu tố sở hữu thẻ tín dụng

Sở hữu thẻ tín dụng Không rời bỏ Rời bỏ Tổng

Biểu đồ 5: Sở hữu thẻ tín dụng

Dựa vào bảng dữ liệu trên, ta thấy số lượng khách hàng có thẻ cao hơn đối tượng không có thẻ.

- Xét theo 100% là tỷ lệ của tổng 10000 đối tượng thì tỷ lệ rời bỏ sử dụng dịch vụ của không có thẻ thấp hơn có thẻ (6.13% < 14.24%).

- Nếu xét riêng từng từng đối tượng thì tỷ lệ khách hàng không có thẻ lại cao hơn khách hàng có thẻ(20.81% < 20.18%) Tuy nhiên, tỷ lệ rời bỏ của cả 2 đều không chênh lệch quá nhiều Vì vậy, việc có sở hữu thẻ hay không, không quá ảnh hưởng đến việc rời đi hay ở lại của khách hàng Đặc biệt là trong thời đại công nghệ phát triển như hiện tại, các app ngân hàng ngày càng thịnh hành, rất nhiều khách hàng không cần dung thẻ nhưng các tính năng trên app đã đủ để phục vụ nhu cầu của họ.

Thành viên tích cực Không rời bỏ Rời bỏ Tổng

Bảng 6: Thống kê dữ liệu số khách hàng rời bỏ và không rời bỏ sử dụng dịch vụ ngân hàng ở yếu tố thành viên tích cực

Biểu đồ 6: Thành viên tích cực

Việc đánh giá sự tích cực của khách hàng cũng là một yếu tố để có thể dự đoán khả năng rời bỏ sử dụng dịch vụ của khách hàng đó Số liệu cho thấy số lượng đối tượng thành viên tích cực chiếm tỷ lệ cao hơn không tích cực ( 51.51% > 48.49%) Khi xét riêng lẻ từng yếu tố thì tỷ lệ rời bỏ của thành viên không tích cực cao hơn thành viên tích cực ( 13.02% > 7.35%)

Tuổi khách hàng Không rời bỏ Rời bỏ Tổng

Bảng 7: Thống kê dữ liệu số khách hàng rời bỏ và không rời bỏ sử dụng dịch vụ ngân hàng ở yếu tố tuổi khách hàng

Biểu đồ 7: Tuổi khách hàng Đối tượng khách hàng dưới 20 tuổi chiếm tỷ trọng rất ít, nhưng lại có tỷ lệ rời bỏ rất cao. Tiếp đó ta thấy số lượng đối tượng khách hàng ở độ tuổi 20-39 là cao nhất, sau đó ở các độ tuổi sau, số lượng khách hàng ngày càng ít Đồng thời, các đối tượng khách hàng trong độ tuổi từ 40-59 tuổi lại có tỷ lệ rời bỏ ngân hàng cao nhất.

Lương ước tính Không rời bỏ Rời bỏ Tổng

Bảng 8: Thống kê dữ liệu số khách hàng rời bỏ và không rời bỏ sử dụng dịch vụ ngân hàng ở yếu tố lương ước tính

Biểu đồ 8: Lương ước tính

Theo dữ liệu, khi xét tỷ lệ theo tổng 10000 khách hàng thì ta được các tỷ lệ tương ứng với các mức từ thấp lên cao lần lượt là 4.89%, 5.04%, 5.17%, 5.27%, có thể thấy được tỷ lệ rời bỏ sử dụng dịch vụ ngân hàng của các đối tượng khách hàng từ lương dưới 50000 đến dưới trên 150000 có xu hướng rời bỏ ngân hàng ngày càng cao Các khách hàng lương ước tính cao có khả năng rời bỏ ngân hàng càng nhiều Bởi khi các khách hàng có lương càng cao, thì họ có càng nhiều lựa chọn để sử dụng và tạo ra thêm tài sản từ những tài sản đang có Có thể kể đến ví như các hoạt động đầu tư chứng khoán, mua vàng, đầu tư vào bất động sản,…

Bảng 9: Thống kê dữ liệu số khách hàng rời bỏ và không rời bỏ sử dụng dịch vụ ngân hàng ở yếu tố số dư tài khoản

Biểu đồ 9: Số dư tài khoản

Có thể thấy, các đối tượng khách hàng có số dư tài khoản dưới mức 50000 chiếm số lượng sử dụng dịch vụ nhiều nhất 36.92% Đồng thời đây cũng là nhóm đối tượng rời có tỷ lệ rời bỏ sử dụng dịch vụ thấp nhất (xét theo tỷ lệ riêng của từng mức) khi tỷ lệ rời bỏ lần lượt là 14.25%, 19.88%, 25.27%, 21.93%, 54.55% có thể thấy tỷ lệ rời bỏ ngân hàng có xu hướng tăng lên khi số dư tài khoản của các khách hàng càng cao Đặc biệt, đối với lương từ mức 150000 trở lên, tỷ lệ rời bỏ của nhóm đối tượng này lên đến 54.55%, có nghĩa là cứ 100 khách hàng thì sẽ có khoản 54-55 khách hàng rời bỏ ngân hàng Điều này nguyên nhân có thể liên quan đến vấn đề về lương đã nói ở trên lương càng cao thì số dư tài khoản càng nhiều Tuy nhiên, khi tài sản đã nhiều, thì họ có nhiều cách, nhiều cơ hội để tiền đẻ ra tiền hơn, từ đó dẫn đến việc rời bỏ sử dụng dịch vụ ngân hàng.

Số dư tài khoản Không rời bỏ Rời bỏ Tổng

BÀI TOÁN 2: Dự đoán khả năng khách hàng rời bỏ sử dụng dịch vụ ngân hàng

Bài toán dự đoán khả năng rời bỏ sử dụng dịch vụ ngân hàng của khách hàng dựa vào các đặc trưng của họ Từ đó, giúp doanh nghiệp có thể đề ra những chiến lược kinh doanh trong tương lai và có những giải pháp phù hợp.

Quá trình phân lớp dữ liệu gồm 2 bước chính:

Bước1:Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)

- Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý.

- Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật,

- Kết quả của bước này làmô hìnhphânlớpđã được huấn luyện(trình phân lớp).

Bước2:Sử dụng mô hình chia thành 2 bước nhỏ

Bước 2.1:Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

- Dữ liệu đầu vào: là một tập dữ liệu mẫukhácđã được gán nhãn và tiền xử lý. Tuy nhiên, lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn. Tính đúng đắn của mô hình sẽ được xác định bằng cách tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình.

Bước 2.2:Phân lớp dữ liệu mới.

- Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn).

- Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1.

Các mô hình phân lớp được sử dụng:

Mô hình Decision Tree (Cây quyết định)

- Trong lý thuyết quản trị, Decision Tree là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định.

- Trong lĩnh vực khai phá dữ liệu, Decision Tree là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.

Mô hình Logistic Regression (Hồi quy logistic)

- Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector).

Mô hình Support Vector Machine (SVM)

- SVM là thuật toán có tính giám sát, SVM nhận dữ liệu vào, xem chúng như những vector trong không qian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.

- Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.

- SVM có nhiều biến thể phù hợp với các bài toán phân lọi khác nhau.

Từ bộ dữ liệu đã qua bước tiền xử lý ở mục2.2, sử dụng công cụ Data Sampler để tách dữ liệu từ file gốc thành 2 file riêng biệt theo tỷ lệ 70% và 30% Đặt tên cho file dữ liệu lớn hơn là “Bank Customer Churn Data.tab” chiếm 70% dữ liệu làm mẫu dữ liệu huấn luyện Với 30% dữ liệu còn lại ta tiếp tục sử dụng Select Columns để loại bỏ đi biến phụ thuộc là “ Rời bỏ sử dụng dịch vụ” rồi lưu lại với tên là “Bank Customer Churn Forecast”.

Hình 9 Lấy mẫu dữ liệu huấn luyện

Dữ liệu huấn luyện sau khi được lấy sẽ có 7000 quan sát, 11 biến và không có dữ liệu bị lỗi Chọn Save Data để lưu về máy với tên “ Bank Customer Churn Data”.

Hình 10 Mẫu dữ luyện huấn luyện Để lấy tập dữ liệu thử nghiệm, từ dữ liệu “ Bank Customer Churn Focast”, ta sử dụng công cụ Data Sampler rồi chọn Fixed Sample size lấy 100 mẫu bất kỳ Sau đó, chọn sample data và data table để xuất ra dữ mới.

Hình 11 Lấy mẫu dữ liệu mới

Hình 12 Mẫu dữ liệu mới Tập dữ liệu mới với 100 quan sát , 10 biến và không có dữ liệu bị lỗi Sau đó, chọn Data Save để lưu lại với tên “100.tab”

Các dữ liệu sau khi lấy mẫu đã đạt và không bị lỗi nên ta bỏ qua bước tiền xử lý dữ liệuDùng Test and Score để so sánh và đánh giá các thuật toán từ đó đưa ra thuật toán chính xác nhất, tối ưu nhất cho việc dự báo

Sử dụng tập dữ liệu “Bank Customer Churn Data.tab” để dự báo với biến “ Rời bỏ sử dụng dịch vụ” là biến phụ thuộc (target)

Hình 13 Tập dữ liệu huấn luyện

Hìn h 14 Mô hình phân lớp bộ dữ liệu trên Orange

❖ Kết quả với tập dữ liệu Test and Score:Sử dụng phương pháp K-fold cross validation với k = 5.

Hình 15 Kết quả so sánh bằng Test and Score khi chia mẫu dữ liệu thành 5 phần

➢Nhận xét: Kết quả đánh giá cho ta biết kết quả định lượng của ba mô hình là Hồi quy

29 xác), Recall (độ phủ) và Precision (độ chính xác) và giá trị trung bình điều hòa (harmonic mean) của hai đo Precision và Recall F1 ta có thể thấy mô hình Cây quyết định (Tee Decision) có độ chính xác cao nhất trong 3 mô hình với các số liệu đo được là:

- Giá trị trung bình điều hòa (F1): 81,1%

- Diện tích đường cong (AUC): 65,9%

❖Kết quả Ma trận nhầm lẫn

Hình 16 Kết quả đánh giá phương pháp Hồi quy Logistic bằng Ma trận nhầm lẫn Ở phương pháp hồi quy logistic, có thể thấy rằng số lượng khách hàng được dự đoán là sẽ rời bỏ sử dụng dịch vụ nhưng thực tế họ không rời bỏ là 205 người Ngược lại, số lượng khách hàng được dự đoán là không rời bỏ sử dụng dịch vụ nhưng thực tế họ rời bỏ là 1129 người trong tổng số 7000 người.

Hình 17 Kết quả đánh giá phương pháp Cây quyết định bằng Ma trận nhầm lẫn

Mô hình Cây quyết định cho thấy số lượng khách hàng được dự đoán là sẽ rời bỏ sử dụng dịch vụ nhưng thực tế họ không rời bỏ là 553 người và nhầm lẫn ngược lại là 736 người.

Hình 18 Kết quả đánh giá phương pháp SVM được biểu diễn bằng Ma trận nhầm lẫn

Mô hình SVM cho thấy số lượng khách hàng được dự đoán là sẽ rời bỏ sử dụng dịch vụ nhưng thực tế họ không rời bỏ là 704 người và nhầm lẫn ngược lại là 949 người.

➢Nhận xét: mô hình Cây quyết định (Tree Decision) có cả hai nhầm lẫn ít hơn so với

Hồi quy Logistic, ta thấy rằng nhầm lẫn trong việc dự đoán rằng khách hàng không rời bỏ sử dụng dịch vụ nhưng thực tế thì rời bỏ là sai lầm nghiêm trọng hơn (sai lầm loại 2) vì như vậy ngân hàng sẽ phải tập trung cung cấp việc ưu đãi cho các khách hàng đang có ý định rời bỏ, việc tập hợp nguồn lực vào các khách hàng trung thành sẽ có lợi hơn là tập trung vào việc cung cấp các ưu đãi cho khách hàng đang cân nhắc việc rời bỏ.

Mô hình Cây quyết định có sai lầm loại 2 (tức sai lầm nghiêm trọng) là thấp nhất (736

Ngày đăng: 08/04/2024, 08:03

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w