Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
1,55 MB
Nội dung
lOMoARcPSD|18034504 BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM KHOA KẾ TOÁN BÁO CÁO CUỐI KÌ Đề tài: DỰ BÁO RỦI RO ĐỐI VỚI CHO VAY TIÊU DÙNG CỦA KHÁCH HÀNG Ở ẤN ĐỘ Giảng viên hướng dẫn: Ths Nguyễn Mạnh Tuấn Môn học: Khoa học liệu - 22C1INF50905961 Nhóm sinh viên thực hiện: Nhóm Lâm Ngọc Hân – 31211026227 Nguyễn Huỳnh Ngọc Thảo – 31211026517 Nguyễn Phạm Quỳnh Anh – 3121102669 Trần Thị Huy Hoàng – 31211024998 TP.HCM, ngày 21 tháng năm 2022 lOMoARcPSD|18034504 LỜI CẢM ƠN Lời em xin gửi lời cảm ơn đến Trường Đại học Kinh tế tp.HCM, đặc biệt thầy Nguyễn Mạnh Tuấn, giảng viên đảm nhiệm môn Khoa học liệu nhóm chúng em Tuy thời gian thầy trị tiếp xúc vọn vẻ có sáu buổi học, đủ để chúng em cảm nhận nhiệt tình, tậm tâm thầy trình giảng dạy Môn Khoa học liệu chúng em khơ khan, thú vị so với mơn học khác, nhiên, đem lại cho chúng em kiến thức kiến thức hồn tồn thực tiễn chúng em áp dụng vào nhiều vấn đề nghiên cứu công việc Đối với chúng em, Khoa học liệu mơn học khó để thực đồ án nhóm cuối kì thật không dễ dàng, chúng em dành nhiều thời gian, tâm huyết để tự nghiên cứu nhờ có hướng dẫn tận tình thầy nên hồn thành Trong q trình làm có sai sót mà chúng em mắc phải, mong thầy đưa nhận xét số phương hướng để chúng em giải sai lầm để hồn thiện mặt tri thức tương lai Chúc thầy thật nhiều sức khỏe, hạnh phúc giữ nhiệt huyết để truyền đạt kiến thức cho khóa sau Nhóm em xin cảm ơn thầy nhiều ạ! lOMoARcPSD|18034504 MỤC LỤC CHƯƠNG TỔNG QUAN VỀ ĐỀ TÀI 1 LÝ DO CHỌN ĐỀ TÀI: MỤC TIÊU NGHIÊN CỨU: ĐỐI TƯỢNG NGHIÊN CỨU: CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ BÀI TOÁN BÀI TOÁN PHÁT HIỆN ĐIỂM ĐẶC THÙ CỦA DỮ LIỆU MƠ TẢ BÀI TỐN 1: 2 MÔ TẢ NGUỒN DỮ LIỆU VÀ CẤU TRÚC DỮ LIỆU: MÔ TẢ CHI TIẾT DỮ LIỆU: TIỀN XỬ LÍ DỮ LIỆU: NHỮNG MƠ HÌNH VÀ KẾT QUẢ: 5.1 Tỉ lệ rủi ro: 5.2 Độ tuổi vay: 5.3 Thu nhập người vay: 5.4 Số năm kinh nghiệm mà người vay có được: 5.5 Tình trạng nhân: 5.6 Quyền sở hữu nhà: 5.7 Quyền sở hữu xe: 5.8 Nghề nghiệp người vay: 5.9 Nơi cư trú người vay: 5.10 Thời gian làm công việc tại: 5.11 Thời gian sống nhà tại: 10 KẾT LUẬN VỀ BÀI TOÁN: 10 BÀI TOÁN 2: DỰ ĐOÁN KHẢ NĂNG RỦI RO CỦA KHÁCH HÀNG ĐỐI VỚI SẢN PHẨM CHO VAY TIÊU DÙNG 11 QUY TRÌNH THỰC HIỆN BÀI TỐN 2: 11 XÂY DỰNG MƠ HÌNH: 11 ĐÁNH GIÁ VÀ KẾT QUẢ: 12 3.1 Đánh giá mơ hình dựa kết Confusion Matrix: 12 3.2 Kết dự báo: 13 3.3 Kết luận toán 2: 13 BÀI TOÁN PHÂN CỤM/PHÂN NHÓM KHÁCH HÀNG: 15 MƠ TẢ BÀI TỐN 3: 15 Phân cụm/ phân nhóm khách hàng có đặc điểm giống thành nhóm khách hàng 15 CÁC BƯỚC THỰC HIỆN: 15 lOMoARcPSD|18034504 THỰC HIỆN BÀI TOÁN: 15 3.1 Mơ hình: 15 3.2 Phương pháp K-means: 16 3.3 Phương pháp Hierarchical Clustering 17 3.4 Kết quả: 18 3.5 Mơ hình cuối cùng: 19 3.6 Các nhóm khách hàng: 19 3.7 Đánh giá kết đề xuất 31 CHƯƠNG 3: KẾT LUẬN 33 TÀI LIỆU THAM KHẢO 34 lOMoARcPSD|18034504 DANH MỤC BẢNG Bảng Mô tả chi tiết liệu kiểu liệu Bảng Kết phương pháp K-means 16 Bảng Kết phương pháp Hierarchical Clustering 17 Bảng So sánh kết hai phương pháp K-means Hierarchical Clustering 18 Bảng Phân bố cụ thể số lượng khách hàng nhóm theo thuộc tính 23 Bảng 6: Thang mức thu nhập nhóm khách hàng 28 lOMoARcPSD|18034504 DANH MỤC BIỂU ĐỒ Biểu đồ Tỉ lệ rủi ro Biểu đồ Độ tuổi vay Biểu đồ Thu nhập người vay Biểu đồ Số năm kinh nghiệm người vay Biểu đồ Tình trạng nhân Biểu đồ Quyền sở hữu nhà Biểu đồ Quyền sở hữu xe Biểu đồ Nghề nghiệp người vay Biểu đồ Nơi cư trú người vay Biểu đồ 10 Thời gian làm công việc người vay Biểu đồ 11 Thời gian sống nhà người vay 10 Biểu đồ 12 Biểu đồ phân bố khách hàng theo nhóm 20 Biểu đồ 13 Phân bố nhóm theo Tình trạng nhân (Đơn vị: Khách hàng) 21 Biểu đồ 14 Phân bố nhóm theo Quyền sở hữu nhà (Đơn vị: Khách hàng) 21 Biểu đồ 15 Phân bố nhóm theo Quyền sở hữu xe (Đơn vị: Khách hàng) 22 Biểu đồ 16 Phân bố nhóm theo Rủi ro (Đơn vị: Khách hàng) 22 lOMoARcPSD|18034504 DANH MỤC HÌNH Hình Mơ hình phân lớp khả rủi ro khách hàng sản phẩm cho vay tiêu dùng 11 Hình Kết SVM 12 Hình Kết Neural Network 12 Hình Kết Logistic Regression .13 Hình Kết dự báo khả rủi ro khách hàng 13 Hình Mơ hình thực tốn phân cụm 15 Hình Mơ tả phương pháp K-means 16 Hình Mơ tả phương pháp Hierarchical Clustering 17 Hình Mô tả kết Silhouette Plot phương pháp Hierarchical Clustering 18 Hình 10 Mơ tả phương pháp Hierarchical Clustering 19 Hình 11 Mơ hình cuối tốn phân cụm 19 Hình 12 Phân bố nhóm khách hàng 20 Hình 13 Phân bố khách hàng nhóm theo tuổi 24 Hình 14 Phân bố khách hàng nhóm theo tuổi 24 Hình 15 Phân bố khách hàng nhóm theo kinh nghiệm 25 Hình 16 Phân bố khách hàng nhóm theo Kinh nghiệm .25 Hình 17 Phân bố khách hàng nhóm theo Số năm làm công việc 26 Hình 18 Phân bố khách hàng nhóm theo Số năm làm cơng việc 26 Hình 19 Phân bố khách hàng nhóm theo Số năm sống ngơi nhà 26 Hình 20 Phân bố khách hàng nhóm theo Số năm sống ngơi nhà 27 Hình 21 Phân bố khách hàng nhóm theo thu nhập 27 Hình 22 Phân bố khách hàng nhóm theo thu nhập 28 lOMoARcPSD|18034504 CHƯƠNG TỔNG QUAN VỀ ĐỀ TÀI LÝ DO CHỌN ĐỀ TÀI: Cho vay phương thức tiền tạo tiền từ việc thu lại khoản tiền lãi dựa số vốn cho vay Phương thức giúp cho người giàu, người bình thường có khoản tiền nhàn rỗi, chưa cần sử dụng đến kiếm thêm khoản tiền mà không nhiều công sức, đồng thời người vay dùng tiền mà vay giải vấn đề bứt thiết Tuy nhiên, kèm theo loại rủi ro mang tên “trốn nợ, người vay khơng thể tốn gốc lẫn lời” Nhóm em muốn tiến hành mơ hình để phân loại, dự báo xem khách hàng vay đem lại rủi ro thông qua việc phân tích liệu cá nhân thu từ họ Qua đưa định giải pháp phù hợp cho đối tượng để giảm thiểu rủi ro phải chịu đồng thời thu hút thêm khách hàng từ tạo thêm lợi nhuận Tập liệu thuộc thi Hackathon “Univ.AL” tổ chức thu thập thời điểm đó, số liệu thực tế, qua góp phần giúp cho sinh viên nắm bắt cụ thể, chi tiết vấn đề tiến hành nghiên cứu Từ lí trên, nhóm chúng em định lựa chọn chủ đề “Dự báo rủi ro cho vay tiêu dùng khách hàng Ấn Độ” MỤC TIÊU NGHIÊN CỨU: Nghiên cứu cung cấp thơng tin đối tượng cần tìm hiểu, sử dụng cơng cụ phân tích để đưa kết luận cụ thể, đưa hướng hay giải pháp cho doanh nghiệp hay tổ chức trước đưa định cho vay, dự đoán khả trả nợ hay vỡ nợ đối tượng khách hàng Có mục tiêu đề tài ứng với toán cần giải nghiên cứu Bài toán phát điểm đặc thù liệu: Sử dụng công cụ thống kê thông dụng Pivot Table, hàm Excel, Orange dạng lược đồ, biểu đồ để phát hiện, thể điểm đặc thù liệu mối quan hệ chúng Dùng phương pháp Hierarchical Clustering để thực phân loại khách hàng làm nhóm để nhận thấy rõ đặc điểm khách hàng Ứng dụng toán phân lớp để dự đoán khả rủi ro khách hàng sản phẩm cho vay tiêu dùng ĐỐI TƯỢNG NGHIÊN CỨU: Đồ án tập trung nghiên cứu hành vi thông tin tệp khách hàng Ấn Độ lấy thông tin, liệu số liệu Kaggle Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ BÀI TOÁN BÀI TOÁN PHÁT HIỆN ĐIỂM ĐẶC THÙ CỦA DỮ LIỆU MƠ TẢ BÀI TỐN 1: Sử dụng công cụ thống kê thông dụng Pivot Table, hàm Excel, Orange dạng lược đồ, biểu đồ để phát hiện, thể điểm đặc thù liệu mối quan hệ chúng MÔ TẢ NGUỒN DỮ LIỆU VÀ CẤU TRÚC DỮ LIỆU: Nguồn liệu lấy từ Kaggle Đây liệu tổ chức tổng hợp từ mà họ quan sát hành vi lịch sử khách hàng với mục đích sử dụng liệu để dự đốn xem khách hàng có khả vỡ nợ sản phẩm cho vay tiêu dùng Dữ liệu gồm: 20000 dòng (đối tượng) 13 cột thuộc tính thu thập thời điểm khách hàng đăng kí khoản vay sau: Thuộc tính Mơ tả Kiểu liệu ID Mỗi khách hàng có ID để phân biệt với khách hàng khác Integer Thu nhập khách hàng Integer Độ tuổi khách hàng Integer Những trải nghiệm, kinh nghiệm khách hàng tính theo năm Integer Xác định xem khách hàng độc thân hay kết hôn String Khách hàng có nhà riêng hay thuê mướn String Thu nhập Tuổi Kinh nghiệm Tình trạng nhân Quyền sở hữu nhà Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Khách hàng có xe riêng hay khơng String Nghề nghiệp Cơng việc, nghề nghiệp khách hàng String Thành phố Thành phố cư trú String Tiểu bang Tiểu bang cư trú String Quyền sở hữu xe Số năm làm công việc Thời gian làm công việc tại Integer Số năm sống nhà Thời gian sống nhà tại Integer Rủi ro Mặc định cho khoản vay, thể mức độ rủi ro khách hàng String Bảng Mô tả chi tiết liệu kiểu liệu MÔ TẢ CHI TIẾT DỮ LIỆU: +ID: Dữ liệu thu thập người đánh số định +Thu nhập: người khác có mức thu nhập khơng giống nhau, nằm khoảng từ 10000 – 10000000 rupee (Ấn Độ) +Tuổi: Trong khoảng từ 21-79 tuổi +Kinh nghiệm: Từ 0-20 năm kinh nghiệm +Tình trạng nhân: phân thành trường hợp kết hôn độc thân +Sở hữu nhà: phân loại thành trường hợp thuê nhà, sở hữu nhà riêng, không thuê không sở hữu (đây sống với bố mẹ người thân khác, ) +Sở hữu xe: Phân thành trường hợp có sở hữu khơng sở hữu +Nghề nghiệp: Gồm 52 ngành nghề khác thu thập Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Biểu đồ 13 Phân bố nhóm theo Tình trạng nhân (Đơn vị: Khách hàng) Biểu đồ 14 Phân bố nhóm theo Quyền sở hữu nhà (Đơn vị: Khách hàng) 21 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Biểu đồ 15 Phân bố nhóm theo Quyền sở hữu xe (Đơn vị: Khách hàng) Biểu đồ 16 Phân bố nhóm theo Rủi ro (Đơn vị: Khách hàng) 22 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Thuộc tính Tình trạng nhân Quyền sở hữu xe Quyền sở hữu nhà Rủi ro Đã kết hôn Độc thân Không thuê – Không sở hữu Sở hữu Th Có Khơng C1 77 937 29 34 951 286 728 890 124 C2 30 341 31 339 156 215 313 C3 137 692 21 31 777 297 532 695 134 C4 30 467 25 464 150 347 445 52 C5 86 510 21 37 538 128 468 514 82 C6 70 637 24 40 643 217 490 620 87 C7 82 904 27 75 884 260 726 815 171 Nhóm Bảng Phân bố cụ thể số lượng khách hàng nhóm theo thuộc tính (Đơn vị: Khách hàng) Đối với thuộc tính có kiểu giá trị Numeric, dựa vào Box Plot ta có: *Số tuổi khách hàng nhóm theo thứ tự từ thấp đến cao: - Nhóm C6: từ 27 đến 42 tuổi, trung bình 35 tuổi - Nhóm C3: từ 28 đến 47 tuổi, trung bình 39 tuổi - Nhóm C4: từ 33 đến 59 tuổi, trung bình 47 tuổi - Nhóm C1: từ 42 đến 69 tuổi, trung bình 55 tuổi - Nhóm C5: từ 45 đến 69 tuổi, trung bình 56 tuổi 23 Downloaded by vu ga (vuchinhhp2@gmail.com) 58 lOMoARcPSD|18034504 - Nhóm C7: từ 48 đến 69 tuổi, trung bình 57 tuổi - Nhóm C2: từ 58 đến 73 tuổi, trung bình 65 tuổi Hình 13 Phân bố khách hàng nhóm theo tuổi Hình 14 Phân bố khách hàng nhóm theo tuổi *Kinh nghiệm làm việc khách hàng theo nhóm: -Dưới 10 năm kinh nghiệm bao gồm nhóm C2, C1, C3 với số năm kinh nghiệm trung bình 3, năm -Từ 10 năm kinh nghiệm trở lên bao gồm nhóm cịn lại C6, C7, C4, C5 với số năm kinh nghiệm trung bình 13, 14, 14 15 năm 24 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 15 Phân bố khách hàng nhóm theo kinh nghiệm Hình 16 Phân bố khách hàng nhóm theo Kinh nghiệm *Số năm làm công việc khách hàng theo nhóm: - Dưới năm làm việc có nhóm C2, C1, C3 với số năm làm cơng việc trung bình 3, năm - Từ năm làm việc có nhóm C4, C7, C5, C6 với số năm làm cơng việc trung bình 8, 8, năm 25 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 17 Phân bố khách hàng nhóm theo Số năm làm cơng việc Hình 18 Phân bố khách hàng nhóm theo Số năm làm công việc *Số năm sống nhà khách hàng theo nhóm: - Các nhóm có số năm sống trung bình 11 năm gồm nhóm C1, C6, C7 - Các nhóm có số năm sống trung bình 13 năm gồm nhóm C3, C5, C2, C4 Hình 19 Phân bố khách hàng nhóm theo Số năm sống ngơi nhà 26 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 20 Phân bố khách hàng nhóm theo Số năm sống nhà *Thu nhập khách hàng theo nhóm từ thấp đến cao: - Nhóm C5: từ 100,120 đến 3,482,682 đồng Rupee, trung bình 2,424,473 đồng Rupee - Nhóm C6: từ 2,336,648 đến 6,036,428 đồng Rupee, trung bình 4,240,342 đồng Rupee - Nhóm C1: từ 2,124,447 đến 7,313,501 đồng Rupee, trung bình 4,732,647 đồng Rupee - Nhóm C3: từ 2,504,515 đến 7,083,559 đồng Rupee, trung bình 4,832,773 đồng Rupee - Nhóm C2: từ 2,359,192 đến 8,072,596 đồng Rupee, trung bình 4,978,400 đồng Rupee - Nhóm C7: từ 4,824,858 đến 8,476,529 đồng Rupee, trung bình 6,449,006 đồng Rupee - Nhóm C4: từ 5,874,168 đến 8,597,260 đồng Rupee, trung bình 7,117,457 đồng Rupee Hình 21 Phân bố khách hàng nhóm theo thu nhập 27 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 22 Phân bố khách hàng nhóm theo thu nhập 3.6.2 Đặc điểm nhóm khách hàng Theo thang mức: Thấp Khá thấp Trung bình Khá cao Cao Tỷ lệ