Ứng dụng mô hình học máy vào việc dự đoán khả năng khách hàng tiếp tục sử dụng thẻ tín dụng

22 6 0
Ứng dụng mô hình học máy vào việc dự đoán khả năng khách hàng tiếp tục sử dụng thẻ tín dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Untitled MỤC LỤC 1 Giới thiệu bài toán ứng dụng 4 1 1 Lý do lựa chọn đề tài 4 1 2 Mục tiêu nghiên cứu 5 1 3 Phương pháp thực hiện 5 1 4 Đối tượng nghiên cứu 5 2 Cơ sở lý thuyết về các phương pháp tính[.]

lOMoARcPSD|18034504 MỤC LỤC Giới thiệu toán ứng dụng .4 1.1 Lý lựa chọn đề tài .4 1.2 Mục tiêu nghiên cứu 1.3 Phương pháp thực 1.4 Đối tượng nghiên cứu Cơ sở lý thuyết phương pháp tính tốn .5 2.1 Phương pháp định (Decision tree) .5 2.2 Phương pháp hồi quy Logistic (Logistic Regression) 2.3 Phương pháp Neural network 2.4 Phương pháp Random Forest Mơ hình nghiên cứu đề xuất 3.1 Mô tả liệu: 3.2 Xử lý liệu: 10 3.3 Trực quan hóa liệu: 11 Kết thực 21 4.1 Phân tích kết dựa phần mềm 21 4.2 Đánh giá kết mơ hình 22 Kết luận hạn chế đề tài 23 5.1 Kết luận 23 5.2 Hạn chế đề tài 23 Tài liệu tham khảo 24 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Giới thiệu toán ứng dụng 1.1 Lý lựa chọn đề tài Cuộc cách mạng công nghệ thông tin (CNTT) diễn quy mơ tồn cầu CNTT làm biến đổi sâu sắc đời sống kinh tế, văn hoá, xã hội giới đại Đặc biệt, với phát triển khơng ngừng ngành tài nay, việc mà xử lý liệu lớn cần phải thực nhanh chóng, triệt để, tránh mát nhiều thời gian Đối với sinh viên thuộc ngành Tài nói riêng ngành Kinh tế nói chung, việc tìm hiểu áp dụng kiến thức kinh tế để hiểu rõ nắm bắt việc kinh doanh điều quan trọng Mơn học Khoa học liệu giúp cho trình nghiên cứu thị trường kinh tế doanh nghiệp trở nên dễ dàng việc áp dụng CNTT vào việc phân tích thị trường doanh nghiệp Để phân tích liệu cách tự động, cần đến phần mềm công cụ để hỗ trợ như: Excel, R Python, Power BI,… Với liệu mà nhóm thu thập được, sinh viên nghiên cứu sử dụng Orange để xây dựng quy trình khai thác liệu trực quan – phần mềm khai thác liệu phổ biến thực mà khơng cần lập trình Hiện nay, người tiêu dùng có thêm nhiều phương thức giao dịch, mua bán hàng hoá cách nhanh chóng thuận tiện Thẻ tín dụng phương pháp phổ biến việc hỗ trợ người tiêu dùng quản lý tài cách cho phép họ mua hàng hoá, dịch vụ trước toán lại khoản sau Với xu hướng tiêu dùng khơng sử dụng tiền mặt, việc tốn thẻ tín dụng trở nên phổ biến Khả khách hàng tiếp tục sử dụng thẻ tín dụng ln vấn đề có nhiều quan tâm ngân hàng tổ chức tín dụng Khả tiếp tục sử dụng bị ảnh hưởng biến như: Thu nhập khách hàng, thời gian quan hệ khách hàng với ngân hàng, độ tuổi khách hàng,… Từ biến ảnh hưởng này, sinh viên nghiên cứu định thực đề tài “Ứng dụng mô hình học máy vào việc dự đốn khả khách hàng tiếp tục sử dụng thẻ tín dụng” cách kết hợp phương pháp khai phá liệu lĩnh vực công nghệ thông tin Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 1.2 Mục tiêu nghiên cứu Bài nghiên cứu “Ứng dụng mơ hình học máy vào việc dự đốn khả khách hàng tiếp tục sử dụng thẻ tín dụng” nhằm tập trung mục tiêu đề cập đây: - Nghiên cứu sở lý thuyết tổng quan khai phá liệu nhằm làm rõ vấn đề nghiên cứu - Xác định mơ hình mang lại đánh giá có độ xác cao việc nghiên cứu khả khách hàng tiếp tục sử dụng thẻ tín dụng - Dựa mơ hình huấn luyện q trình nghiên cứu, dự đốn khả tiếp tục sử dụng thẻ tín dụng 1.3 Tạo tiền đề để phát triển nghiên cứu sau Phương pháp thực Sử dụng công cụ khai phá liệu Orange để tiến hành thực xử lý liệu, phân cụm, phân lớp liệu, sau tiến hành dự báo cho nhóm liệu ngẫu nhiên chưa phân lớp 1.4 Đối tượng nghiên cứu Khách hàng sử dụng thẻ tín dụng ngân hàng Thera Bộ liệu thu thập tạo nhà quản trị nhà khoa học liệu ngân hàng Thera đăng tải trang web kaggle Tập liệu bao gồm thông tin liệu thô chứa 10127 hàng liệu (khách hàng) 21 cột đặc tính Cơ sở lý thuyết phương pháp tính tốn 2.1 Phương pháp định (Decision tree) Mơ hình định mơ hình sử dụng phổ biến hiệu hai lớp toán phân loại dự báo học có giám sát Khác với thuật tốn khác học có giám sát, mơ hình định khơng tồn phương trình dự báo Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 1: Phương pháp định Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định Trong lĩnh vực khai thác liệu, định phương pháp nằm mô tả, phân loại tổng quát hoá tập liệu cho trước 2.2 Phương pháp hồi quy Logistic (Logistic Regression) Hồi quy logistic phương pháp phân tích thống kê sử dụng để dự đoán giá trị liệu dựa quan sát trước tập liệu Hình 2: Phương pháp hồi quy Logistic Mục đích hồi quy logistic ước tính xác suất kiện, bao gồm xác định mối quan hệ tính từ đự đốn xác suất kết quả, nên hồi quy logistic ta có: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Input: liệu input (ta coi có hai nhãn 1) Output : Xác suất liệu input rơi vào nhãn nhãn 2.3 Phương pháp Neural network Neural Network mạng lưới Nơ-ron nhân tạo Đây chuỗi thuật tốn nhằm tìm kiếm quan hệ tập hợp liệu hệ thống dựa theo cách thức hoạt động não người Mạng lưới nơ-ron nhân tạo hoạt động nơ-ron não người Trong đó, nơ-ron hàm tốn học, có chức thu thập phân loại liệu, thông tin theo cấu trúc chi tiết Neral Network tương đồng với phương pháp thống kê theo đồ thị đường cong phân tích hồi quy Để giải thích đơn giản nhất, bạn hình dung Neural Network bao hàm nút mạng liên kết với Mỗi nút tập hợp tri giác, cấu tạo tương tự hàm hồi quy đa tuyến tính, xếp liên kết với Các lớp thu thập thông tin, sau phân loại phát tín hiệu đầu tương ứng Hình 3: Phương pháp Neural Network 2.4 Phương pháp Random Forest Random Forest tập hợp mô hình (ensemble) Mơ hình Random Forest hiệu cho tốn phân loại huy động lúc hàng trăm mơ hình nhỏ bên với quy luật khác nhau, theo nguyên tắc “wisdom of the crowd”, ta có hội phân loại xác so với sử dụng mơ hình đơn lẻ Như tên gọi nó, Random Forest (RF) dựa sở: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Random: Tính ngẫu nhiên Forest: Nhiều định (decision tree) Đơn vị RF thuật toán định, với số lượng hàng trăm Mỗi định tạo cách ngẫu nhiên từ việc: Tái chọn mẫu (bootstrap, random sampling) dùng phần nhỏ tập biến ngẫu nhiên (random features) từ toàn biến liệu Ở trạng thái sau cùng, mơ hình RF thường hoạt động xác, đổi lại, ta khơng thể hiểu chế hoạt động bên mô hình cấu trúc q phức tạp RF số mơ hình hộp đen (black box) Hình 4: Phương pháp Random Forest Mơ hình nghiên cứu đề xuất 3.1 Mơ tả liệu: Trong cột liệu, cột Churn mục tiêu nghiên cứu, cho biết khách hàng có tiếp tục dùng thẻ tín dụng hay khơng Trong này, sinh viên sử dụng 80% liệu để huấn luyện 20% để kiểm tra liệu Các biến khác bao gồm: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Tên cột Miêu tả đặc tính Clientnum Cho biết số lượng khách hàng Mã định danh cho khách hàng có tài khoản Customer_Age Cho biết khách hàng độ tuổi Gender Cho biết khách hàng nam hay nữ Dependent_count Cho biết số lượng người phụ thuộc vào khách hàng: từ đến Education_level Trình độ học vấn khách hàng Marital_status Cho biết tình trạng nhân khách hàng Income_category Cho biết thu nhập khách hàng thuộc nhóm nào: 40$; 40$-60$; 60$80$; Card_category 80$-120$; 120$ trở lên Cho biết loại thẻ sử dụng: blue; silver; gold Months_on_book Cho biết thời gian quan hệ với ngân hàng Total_Relationship_Count Cho biết tổng số sản phẩm khách hàng nắm giữ Months_Inactive_12_mon Cho biết số tháng không hoạt động 12 tháng qua Contacts_Count_12_mon Cho biết số liên hệ khách hàng ngân hàng 12 tháng qua Credit_Limit Cho biết hạn mức tín dụng thẻ tín dụng Total_Revolving_Bal Cho biết số dư chuyển từ tháng sang tháng số dư quay vòng Avg_Open_To_Buy Cho biết số tiền lại thẻ tín dụng để sử dụng (Trung bình 12 tháng qua) Total_Amt_Chng_Q4_Q1 Cho biết tỷ lệ tổng số tiền giao dịch quý tổng số tiền giao Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 3.2 Xử lý liệu: Trước áp dụng liệu mơ hình, sinh viên nghiên cứu làm xử lý gọn liệu sau: Hình 5: Kết làm liệu Quan sát liệu sinh viên nhận thấy: - Clientnum thuộc tính khơng ảnh hưởng đến việc đưa định giá, sinh viên khơng sử dụng đặc tính q trình sau - Có tổng cộng 21 cột 10.127 liệu quan sát - Education_Level Marital_Status có 10,127 giá trị rỗng ( có bỏ vài vài giá trị) 3.3 Trực quan hóa liệu: Sinh viên sử dụng công cụ python thư viện python để trực quan hóa liệu thu kết sau Giới tính Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 6: Trực quan hố liệu tỉ lệ sử dụng thẻ tín dụng hai giới tính - Điều cho thấy có chênh lệch không đáng kể tỷ lệ phần trăm / số lượng khách hàng tiếp tục sử dụng thẻ tín dụng hay khơng Cả hai giới tính có hành vi giống định tiếp tục ngưng sử dụng thẻ tín dụng Độ tuổi Hình 7: Trực quan hóa liệu - Độ tuổi lượng khách hàng khơng lựa chọn thẻ tín dụng số sử dụng thẻ tín dụng khơng có nhiều khác biệt Họ trải dài từ độ tuổi 25 đến gần 70 tuổi, giai đoạn 40-55 tuổi cao Với tỉ trọng cao 0.045 Trình độ học vấn Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 8: Trực quan hóa liệu - Sự chênh lệch số lượng khách hàng có khơng dùng thẻ tín dụng qua độ tuổi lớn Trong rõ ràng nhóm khách hàng tốt nghiệp: 2500 người dự đốn khơng sử dụng, so sánh với gần 500 người dự đoán có sử dụng, với tỉ lệ bé 1/5 số lượng, khoảng cách lớn Qua dự đốn xu hướng khách hàng Tình trạng nhân Hình 9: Trực quan hóa liệu - Nhóm khách hàng kết có tỉ lệ chênh lệch lớn Trong có đến 4000 người khơng sử dụng thẻ tín dụng có khoảng 700 người sử dụng thẻ tín dụng - Nhóm người độc thân cho kết tương tự số lượng người khơng dùng gần 3350 người người có sử dụng khoảng 600 người, chênh lệch gần 18% Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Nhóm người khơng xác định tình trạng nhân nhóm người ly hôn cho kết xấp xỉ - Cả nhóm cho thấy khách hàng khơng có xu hướng dùng thẻ tín dụng nhiều, phần đến từ rủi ro lãi suất mang lại Thu nhập Hình 10: Trực quan hóa liệu - Đa phần nhóm thu nhập có tỉ lệ sử dụng thẻ tín dụng thấp, đặc biệt nhóm có thu nhập 40$ - Điều dễ hiểu lãi suất thẻ tín dụng cao dẫn đến thói quen xấu chi tiêu người dùng khó kiểm sốt lượng tiền giao dịch Phân phối thẻ Hình 11: Trực quan hóa liệu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Mật độ phân phối thẻ xanh cao nhiều so với loại thẻ lại, Tuy nhiên, tỉ lệ khách hàng khơng cịn sử dụng thẻ cao nhiều so với lượng người sử dụng Khả độc lập Hình 12: Trực quan hóa liệu - Hầu hết khách hàng nhóm có xu hướng khơng dùng thẻ tín dụng - Khảo sát cho thấy số lượng nhóm nhóm cao, cho thấy chênh lệch đáng kể lựa chọn khách hàng Khoảng thời gian khách hàng gắn bó với ngân hàng Hình 13: Trực quan hóa liệu - Về xu hướng khách hàng giống - Ở khảng 30-40 nhóm khơng sử dụng cao nhóm sử dụng thẻ tín dụng Tổng lượng thẻ tín dụng khách hàng sử dụng Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 14: Trực quan hóa liệu - Phần trăm khách hàng khơng sử dụng thẻ nhiều lựa chọn thẻ tín dụng, đặc biệt từ nhóm đến nhóm Phân bổ tháng khơng hoạt dộng 12 tháng cuối Hình 15: Trực quan hóa liệu - Nhóm khách hàng không hoạt động từ 1-3 tháng nhiều Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Và có điểm chung xu hướng khơng dùng thẻ tín dụng nhiều Ngân hàng khách hàng không liên lạc với vịng 12 tháng Hình 16: Trực quan hóa liệu - Khách hàng liên lạc với ngân hàng đa số từ đến tháng có lựa chọn khơng dùng thẻ tín dụng - Ở nhóm tháng tháng cho thấy khác biệt rõ có trung bình 2500 người khơng lựa chọn thẻ tín dụng có trung bình 500 người sử dụng thẻ tín dụng Giới hạn tín dụng Hình 17: Trực quan hóa liệu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Biểu đồ cho thấy xu hướng khách hàng gần giống nhau; lượng khách hàng khơng dùng thẻ tín dụng cao khoảng từ 0-10000 Cân chi tiêu tháng Hình 18: Trực quan hóa liệu - Khách hàng phần lớn khơng dùng thẻ tín dụng khoảng từ 500-gần 3000 Có nhóm tăng cao mức gần 0.0006 Lượng khách hàng sử dụng thẻ tín dụng tập trung khoảng từ -500 đến 500 Số lượng bỏ dịch vụ thẻ tín dụng ( trung bình 12 tháng) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 19: Trực quan hóa liệu - Sự khác việc sử dụng khơng sử dụng thẻ tín dụng khách hàng khơng q khác biệt Trong đó, nhóm khơng sử dụng có tỉ trọng cao với 0.0001 Tỉ lệ giao dịch bốn quý tỉ lệ giao dịch q cao Hình 20: Trực quan hóa liệu - Khách hàng lựa chọn dùng thẻ tín dụng thấp 0.0005 so với tỉ lệ khách hàng khơng lựa chọn sử dụng thẻ tín dụng ( 0.002) Tổng giao dịch vịng 12 tháng Hình 21: Trực quan hóa liệu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Khách hàng nhóm từ đến xấp xỉ 3000 có xu hướng dùng thẻ tín dụng cao Cụ thể nhóm 2000 ước tính tỉ lệ lên đến 0.0004 - Khách hàng khơng có nhu cầu lựa chọn thẻ tín dụng biến động lớn khoảng từ đến 5000 - Biểu đồ cho thấy khách hàng lựa chọn thẻ tín dụng khoảng định cao lượng khách hàng không sử dụng Tổng giao dịch 12 tháng gần Hình 22: Trực quan hóa liệu - Khách hàng sử dụng thẻ tín dụng phân bổ khoảng từ đến gần 100 giao dịch Cao mốc 40 giao dịch - Ngược lại, khách hàng không sử dụng thẻ tín dụng có nhiều thay đổi tỉ lệ khoảng từ 20 đến 140 giao dịch - Qua biểu đồ cho thấy tỉ lệ khách hàng ưa dùng thẻ tín dụng cao nhóm khách hàng khơng dùng thẻ tín dụng rộng Tỉ lệ giao dịch quý quý cao Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 23: Trực quan hóa liệu - Khách hàng lựa chọn khơng dùng thẻ tín dụng rơi vào khoảng 500-1500, cao xấp xỉ 800 với tỉ trọng 0.002 - Khách hàng định dùng thẻ tín dụng tập trung chủ yếu khoảng đến 1000, tỉ trọng cao hai khoảng 500 - Tỉ trọng khách hàng lựa chọn dùng khơng dùng xác định có khác biệt tỉ lệ giao dịch Lượng thẻ tín dụng mà khách hàng sử dụng Hình 24: Trực quan hóa liệu - Khách hàng đa phần lựa chọn sử dụng thẻ tín dụng, tập trung khoảng từ đến 200 So sánh với tỉ trọng khách hàng không sử dụng thẻ tín dụng chiếm phần lớn Và kết luận lại ta thu heatmap sau Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 25: Tổng hợp mức độ rời bỏ khách hàng với đặc tính khách hang  Sau làm trực quan hóa liệu, sinh viên nghiên cứu áp dụng mô hình vào liệu Kết thực 4.1 Phân tích kết dựa phần mềm Sau thử kiểm thử mơ hình theo bước sau đây: Hình 26: Các mơ hình sử dụng kiểm thử - Thêm liệu vào tập huấn luyện - Kiểm tra kết sau huấn luyện liệu, sinh viên thu kết sau: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 27: Kết sau huấn luyện liệu Chọn liệu cần dự báo áp dụng mơ hình Random Forest, thu kết sau: Hình 28: Kết liệu áp dụng vào mơ hình random forest Với mơ hình Random Forest kết dự đốn trên, ta giúp ngân hàng đưa định điều chỉnh nhằm giữ chân khách hàng tiếp tục sử dụng thẻ tín dụng 4.2 Đánh giá kết mơ hình Dựa mơ hình ta nhận thấy: Mơ hình Random Forest cho kết tốt so với mơ hình cịn lại Do đó, sinh viên sử dụng mơ hình vào tập liệu cần dự đốn Sinh viên tin mơ hình nên áp dụng vào việc đánh giá khách hàng ngân hàng phù hợp tương lai Downloaded by vu ga (vuchinhhp2@gmail.com) ... định mô hình mang lại đánh giá có độ xác cao việc nghiên cứu khả khách hàng tiếp tục sử dụng thẻ tín dụng - Dựa mơ hình huấn luyện q trình nghiên cứu, dự đoán khả tiếp tục sử dụng thẻ tín dụng. .. dùng khơng sử dụng tiền mặt, việc tốn thẻ tín dụng trở nên phổ biến Khả khách hàng tiếp tục sử dụng thẻ tín dụng ln vấn đề có nhiều quan tâm ngân hàng tổ chức tín dụng Khả tiếp tục sử dụng bị ảnh... lượng khách hàng tiếp tục sử dụng thẻ tín dụng hay khơng Cả hai giới tính có hành vi giống định tiếp tục ngưng sử dụng thẻ tín dụng Độ tuổi Hình 7: Trực quan hóa liệu - Độ tuổi lượng khách hàng

Ngày đăng: 23/02/2023, 22:06

Tài liệu cùng người dùng

Tài liệu liên quan