Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 34 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
34
Dung lượng
1,62 MB
Nội dung
lOMoARcPSD|18034504 ĐẠI HỌC UEH DỰ ÁN KHOA HỌC DỮ LIỆU ĐỀ TÀI PHÂN TÍCH VÀ DỰ BÁO BỘ DỮ LIỆU “CREDIT APPROVAL DATA SET” Giảng viên: ThS Nguyễn Mạnh Tuấn Mã lớp học phần: Sinh viên thực hiện: nhóm Lê Ngọc Đông Anh – 31201023006 Huỳnh Thị Ngọc Cẩm – 31201023015 Phan Hồ Thi - 31201025744 TP Hồ Chí Minh, ngày tháng năm 2022 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 BÀI TOÁN LIÊN QUAN Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 MỤC LỤC Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 DANH MỤC BẢNG - HÌNH ẢNH Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 I GIỚI THIỆU Lý chọn đề tài Tài coi vấn đề huyết mạch, đóng vai trị vơ quan trọng tổ chức, doanh nghiệp Và ngành ứng dụng phương pháp phân tích khoa học liệu lớn Các ngân hàng, công ty tài ln có lượng liệu khách hàng, giao dịch lớn đa dạng Một hoạt động chủ yếu chúng cho vay Nhưng trước tiến hành định cho vay giải ngân, tổ chức phải xem xét điều kiện khách hàng nhiều yếu tố, ví dụ như: thu nhập, tình trạng nhân, Các yếu tố tác động lớn đến định cho vay ngân hàng hay tổ chức tín dụng Nếu không thực đánh giá, xem xét số điều kiện trên, dẫn đến khả khơng trả nợ khách hàng Và dẫn đến vỡ nợ tổ chức cho vay trường hợp có q nhiều khách hàng khơng trả nợ Điều dẫn đến đổ vỡ thị trường ảnh hưởng lớn đến kinh tế Hiểu tầm quan trọng việc đánh giá tín dụng tổ chức nói riêng thị trường nói chung Nhóm chúng em chọn thực đề tài “Phân tích dự đốn liệu Credit Approval Data Set qua thuật tốn Orange” mơn Khoa học liệu Mục tiêu nghiên cứu a) Mục tiêu tổng quát Sử dụng phần mềm Orange với kiến thức chuyên ngành, phân tích dự báo liệu “Credit Approval Data Set” Qua đó, đánh giá khả đủ điều kiện vay hạn chế rủi ro cho ngân hàng, đồng thời xác định yếu tố ảnh hưởng đến kết cho vay - b) Mục tiêu cụ thể Bài tốn 1: Dự đốn trình độ học vấn có ảnh hưởng đến định chấp nhận hồ sơ tín dụng ngân hàng Bài toán 2: Dự đoán thu nhập có ảnh hưởng đến định chấp nhận hồ sơ tín dụng ngân hàng Bài tốn 3: Dự đoán phân loại khách hàng dựa tác động yếu tố đến định chấp nhận hồ sơ tín dụng Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Đối tượng nghiên cứu 3.1 Bộ liệu Chọn liệu “Credit Approval Data Set” liên quan đến vấn đề kiểm sốt rủi ro cơng ty tài khoản vay thẻ tín dụng Dựa thông tin cá nhân liệu mà khách hàng cung cấp, ngân hàng tiến hành phân tích dự đốn tín dụng để đưa định có cấp tín dụng hay khơng 3.2 Mơ tả liệu Bộ liệu gồm 16 thuộc tính Thuộc tính Ý nghĩa Gender Giới tính khách hàng Age Tuổi khách hàng Số thập phân Debt Số dư nợ lại khách hàng Số thập phân Married Tình trạng nhân Đã kết (1) Độc thân, Ly hơn, (0) BankCustomer Có tài khoản ngân hàng khơng? Industry Ethnicity Mô tả Nam (1) / Nữ (0) Không (0) Có (1) Ngành - lĩnh vực cơng CommunicationServices việc công ConsumerDiscretionary việc gần ConsumerStaples Education Energy Financials Healthcare Industrials InformationTechnology Materials Real Estate Research Transport Utilities Nhóm sắc tộc Downloaded by vu ga (vuchinhhp2@gmail.com) Asian lOMoARcPSD|18034504 Black Latino Other White YearsEmployed PriorDefault Số thập phân Khách hàng có vỡ nợ Khơng (0) tín dụng hay khơng trước Có (1) nộp đơn đăng ký thẻ tín dụng Employed Có việc làm hay khơng? Khơng (0) Có (1) CreditScore Điểm tín dụng Số tự nhiên DriversLicense Có lái xe hay khơng? Khơng (0) Có (1) Citizen Quyền cơng dân (Tình trạng cơng dân) ZipCode Mã bưu Income Thu nhập khách hàng Approved II Số năm làm việc ByBirth, ByOtherMeans, Temporary chuỗi ký tự số Số tự nhiên Có chấp nhận cấp tín dụng Khơng (0) Có (1) cho khách hàng hay khơng? QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ 4.1 Tiền xử lý liệu 4.1.1 “Missing value” liệu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình…: Mơ hình thực “Missing value” Hình…: Q trình thực Preprocess Để xử lý mẫu có “Missing Value”, ta tiến hành thực Preprocess, chọn Impute Missing Values, sau chọn Average/Most frequent để thay mẫu có “Missing Value” thành giá trị trung bình chuỗi Sau thực hiện, ta có kết sau: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình….: Kết tiền xử lý liệu Kết thu ta tiến hành lưu giữ định dạng Excel, để từ tiến hành phân cụm phân lớp 4.2 Bài toán phân lớp 4.2.1 Phương pháp phân lớp: Phân lớp liệu trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước Q trình gán nhãn cho đối tượng liệu q trình phân lớp Quá trình phân lớp liệu gồm: *Bước 1: Xây dựng mơ hình (hay cịn gọi giai đoạn “học” “huấn luyện”) Dữ liệu đầu vào: liệu mẫu gán nhãn tiền xử lý Các thuật toán phân lớp: định, hàm số toán học, tập luật… Kết bước mơ hình phân lớp huấn luyện (trình phân lớp) *Bước 2: Đánh giá mơ hình Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Dữ liệu đầu vào: tập liệu mẫu khác gán nhãn tiền xử lý Tuy nhiên lúc đưa vào mơ hình phân lớp, ta “lờ” thuộc tính gán nhãn Tính đắn mơ hình xác định cách so sánh thuộc tính gán nhãn liệu đầu vào kết phân lớp mô hình *Bước 3: Phân lớp liệu Dữ liệu đầu vào: liệu “khuyết” thuộc tính cần dự đốn lớp (nhãn) Mơ hình tự động phân lớp (gán nhãn) cho đối tượng liệu dựa vào huấn luyện bước Phân loại toán phân lớp: n = 2: Phân lớp nhị phân n > 2: Phân lớp đa lớp 4.2.2 Mơ tả tốn: - Sử dụng Excel phần mềm Orange để xử lý liệu giải tốn: Phân lớp điểm tín dụng khách hàng để đưa định cho vay ngân hàng tổ chức tín dụng (bài tốn phân lớp liệu) - Nạp liệu qua tiền xử lý vào Orange - Sử dụng phương pháp Logistic Regression, SVM Neural Network tiến hành so sánh qua Ma trận nhầm lẫn Test and Score để tìm phương pháp tốt thực dự báo file Data forecast *Các kiến thức chuyên ngành có liên quan đến toán: Bài toán đặt cần giải vấn đề liên quan đến hoạt động cấp tín dụng, vấn đề mang tầm giá trị quan trọng việc ngăn chặn vỡ nợ xảy tương lai mà ngân hàng nói riêng ngành tài nói chung phải gánh chịu Vận dụng kiến thức chuyên ngành Tài liên quan đến việc thu thập liệu phân tích hồ sơ khách hàng góp phần củng cố việc xem xét, đánh giá để dẫn đến định cho vay ngân hàng hay tổ chức tín dụng Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Ở đây, dựa vào tính liên kết đối tượng (Linkage), ta sử dụng phương pháp Ward Kết cho thấy ta nên chia toàn mẫu liệu làm phân cụm: Hình: Bảng Silhouette Plot cho phân cụm phân cấp Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình: Bảng Silhouette Plot cho phân cụm phân cấp Hình: Bảng Silhouette Plot cho phân cụm phân cấp Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Nguyên tắc: Khi giá trị Silhouette nằm khoảng từ -1 đến 1, giá trị lớn (tức 1) kết phân cụm tốt (càng đáng tin cậy) Ở ta thấy phân làm cụm điểm số từ -0.8 đến 0.8, phân làm cụm điểm số từ -0.7 đến 0.7, phân làm cụm điểm số từ -0.7 đến 0.7 Từ kết cho thấy nên phân làm cụm giá trị phần lớn nằm khoảng dương tiệm cận gần 1, kết phân cụm đáng tin cậy Phương pháp K-Means Thuật toán k-means sử dụng phương pháp tạo cập nhật trung tâm để phân nhóm điểm liệu cho trước vào nhóm khác K-Means thuật tốn quan trọng sử dụng phổ biến kỹ thuật phân cụm Ý tưởng thuật tốn tìm cách phân nhóm liệu cho vào K cụm (K số cụm xác định trước, K nguyên dương) cho tổng bình phương khoảng cách đối tượng đến tâm nhóm (centroid) nhỏ - Ưu điểm: Thuật toán thực tương đối nhanh, phù hợp với cụm có dạng hình cầu - Nhược điểm: + + + + Cần biết trước số lượng cụm k Nhạy cảm với nhiễu ngoại biên (outliers) Không phù hợp với phân bố liệu dạng khơng lồi (non-convex) Kết (nghiệm) tốn phụ thuộc vào cách khởi tạo trung tâm cụm ban đầu Ta tiến hành phân cụm phân hoạch dựa vào thuật tốn K-means Sau chạy liệu, ta có: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình: Phân tích k-Means cho liệu Trong thuật tốn k-Means, ta phân tích thử xem với liệu ta nên lựa chọn phân làm cụm hợp lý Và để đánh giá xem phương án tối ưu ta dựa vào giá trị Silhouette Cụ thể, ta thấy ta phân liệu làm 2, 3, 4, 5, 6, cụm giá trị Silhouette trung bình cụm 0.188, 0.129, 0.130, 0.108, 0.115, 0.115 Giá trị Silhouette trung bình lớn phương án phân cụm đáng tin cậy Vì ta lựa chọn phương án phân làm cụm ● Nhận xét: Qua việc phân cụm cách sử dụng phương pháp Hierarchical Clustering k-Means cho thấy liệu toán nên phân làm cụm mang lại kết tối ưu phù hợp Từ cho thấy cơng ty tài áp dụng hai phương pháp để phân cụm mẫu liệu lớn nhằm đem đến kết xác Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 4.4 Bài toán phát điểm đặc thù liệu dựa vào lược đồ & công cụ thống kê ● Tỷ lệ khách hàng nam muốn vay nhiều khách hàng nữ (Nữ: 30.43%, Nam chiếm 69.57%) Biểu đồ 1: Biểu đồ tròn thể tỷ lệ giới tính khách hàng muốn vay ● Đối tượng vay chủ yếu độ tuổi từ 18.45 đến 41.95 Từ 46.65 tuổi trở đi, nhu cầu vay giảm dần Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Biểu đồ 2: Biểu đồ Histogram thể số lượng người vay qua nhóm tuổi Biểu đồ 3: Phân bố độ tuổi theo số dư nợ lại (Debt) khách hàng Scatter Plot Nhận xét: Độ tuổi từ 20-30, tỷ lệ người muốn vay cao số dư nợ trung bình thấp so với độ tuổi từ 30-60 ● Bảng 2: Tình trạng nhân người vay kết xin cấp tín dụng Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Not approved Approved Độc thân, Ly hôn, (0) 118 47 Đã kết hôn (1) 265 260 Biểu đồ 4: Biểu đồ cột thể số lượng người vay theo tình trạng nhân khả chấp nhận hồ sơ tín dụng ● Tỷ lệ người có tài khoản ngân hàng 76.38% , tỷ lệ người vay chưa có tài khoản ngân hàng 23.62% Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Biểu đồ 5: Biểu đồ hình trịn thể tỷ lệ người vay có chưa có tài khoản ngân hàng ● Các loại hình ngành - lĩnh vực cơng việc gần khách hàng muốn vay chiếm tỷ lệ so với nhau, ngoại trừ ngành Energy chiếm tỷ lệ cao với 21.16% Biểu đồ 6: Biểu đồ hình trịn thể loại ngành lĩnh vực nghề nghiệp khách hàng Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 ● Biểu đồ 7: Biểu đồ cột thể số năm làm người vay lịch sử vỡ nợ tín dụng trước ● Người vay thu nhập từ - $20000 có điểm tín dụng dao động từ - 20 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Biểu đồ 8: Phân phối liệu theo Income CreditScore Scatter Plot ● Từ biểu đồ 9, số lượng người vay có tư cách công dân bẩm sinh (Bybirth) chiếm nhiều với 338 người bị từ chối cho vay 287 người chấp nhận cho vay Trong có người cư trú tạm thời (Temporary) vay với tỷ lệ chấp nhận 62.5% (⅝) Biểu đồ : Biểu đồ cột thể số lượng người vay phân loại theo tình trạng cơng dân khả chấp nhận hồ sơ tín dụng Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 ● Tỷ lệ người chấp nhận cho vay 44.49%, bị từ chối 55.51% Biểu đồ 10: Biểu đồ tròn thể tỷ lệ chấp nhận từ chối hồ sơ xin vay III KẾT LUẬN 5.1 Kết luận Kỉ nguyên bùng nổ cơng nghệ thơng tin góp phần lớn đến phát triển công nghệ tài Fintech, giúp tổ chức ngân hàng định chế tài hoạt động hiệu nhiều lĩnh vực, đặc biệt quy trình cho vay Việc áp dụng thuật toán phương pháp đại nhằm tối ưu hóa quy trình hoạt động cho vay quan tâm liên tục cải tiến Qua mơ hình Phân lớp Phân cụm đề tài “Phân tích dự đốn liệu Credit Approval Data Set qua thuật toán Orange”, thấy phần mềm Orange hữu ích việc vận dụng kiến thức khoa học liệu để phân tích đưa dự báo tốt qua phương pháp Neutral Network, K-Means, Lời khun cho cơng ty tài cần đưa định cho vay hay không khoản vay dựa vào điều kiện mang tính định tình trạng nhân, thu nhập, lịch sử tín dụng,… Chúng ta cần kết hợp nhiều yếu tố với để đưa định xác Với mẫu liệu cơng ty lớn việc áp dụng công cụ tiết kiệm sức người mang lại độ xác Orange cần thiết Ngồi ra, tiến hành phân tích liệu với Orange nhóm cịn nhận thấy được: với phương pháp có đặc điểm tương thích riêng với liệu khác Chúng Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 có điểm mạnh yếu tùy theo đặc trưng liệu, việc phân tích đánh giá liệu quan trọng việc lựa chọn phương pháp tối ưu để đem lại kết cao dự báo liệu cho tương lai Cuối cùng, nghiên cứu thực mục tiêu nghiên cứu đề phân tích, dự báo kết hồ sơ vay, từ đánh giá yếu tố ảnh hưởng tính hiệu phương pháp dự báo Từ đây, ngân hàng tổ chức đưa chiến lược, quy trình hiệu cơng tác cho vay nhằm hạn chế rủi ro vỡ nợ khách hàng 5.2 Những hạn chế Sau thực nghiên cứu với đề tài “Phân tích dự đốn liệu Credit Approval Data Set qua thuật toán Orange”, nhóm chúng em nhận thấy có số hạn chế sau: Thứ nhất, kích thước liệu cịn nhỏ (