1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích và dự đoán rủi ro tín dụng của người đi vay từ đó, đánh giá khả năng thanh toán khoản vay thông qua phần mềm orange

31 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 2,58 MB

Cấu trúc

  • CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI (7)
    • 1.1. Lý do chọn đề tài (7)
    • 1.2. Mục tiêu đề tài (7)
    • 1.3. Đối tượng và phạm vi nghiên cứu đề tài (8)
    • 1.4. Công cụ sử dụng (8)
    • 1.5. Ý nghĩa nghiên cứu (9)
  • CHƯƠNG 2. CƠ SỞ LÝ THUYẾT (10)
    • 2.1. Tổng quan về Khoa học Dữ liệu (10)
    • 2.2. Lợi ích của Khoa học Dữ liệu trong lĩnh vực Tài chính – Ngân hàng (10)
    • 2.3. Quy trình thực hiện dự án (10)
    • 2.4. Lý thuyết và phương pháp trong phân tích dữ liệu (11)
    • 2.5. Đánh giá phương pháp, mô hình (13)
  • CHƯƠNG 3. PHÂN TÍCH BÀI TOÁN VÀ MÔ TẢ DỮ LIỆU (15)
    • 3.1. Xác định và phân tích bài toán từ bộ dữ liệu (15)
    • 3.2. Mô tả dữ liệu (15)
    • 3.3. Lựa chọn và trình bày dữ liệu cần phân tích đối với yêu cầu người dùng (18)
  • CHƯƠNG 4. PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ (21)
    • 4.1. Tiền xử lý dữ liệu (21)
    • 4.2. Dự đoán rằng với bộ dữ liệu đã cho, liệu người vay có khả năng thanh toán khoản (23)
  • CHƯƠNG 5. KẾT LUẬN (28)
    • 5.1. Kết quả đạt được (28)
    • 5.2. Những hạn chế còn tồn tại (28)
    • 5.3. Hướng phát triển đề tài (28)
  • TÀI LIỆU THAM KHẢO (31)

Nội dung

CƠ SỞ LÝ THUYẾT

Tổng quan về Khoa học Dữ liệu

 Khái niệm: Khoa học dữ liệu là khoa học về việc quản trị và phân tích dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động

 Khoa học Dữ liệu gồm ba phần chính:

- Tạo ra và quản trị dữ liệu;

- Chuyển kết quả phân tích thành giá trị của hành động.

 Việc phân tích và dùng dữ liệu lại dựa vào ba nguồn tri thức:

- Toán học (thống kê toán học);

- Công nghệ thông tin (máy học);

- Tri thức của lĩnh vực ứng dụng cụ thể.

Lợi ích của Khoa học Dữ liệu trong lĩnh vực Tài chính – Ngân hàng

Trong lĩnh vực tài chính, Khoa học Dữ liệu được sử dụng để phân tích dữ liệu trong ngành, dự đoán thị trường tài chính – ngân hàng, cải thiện quyết định, tối ưu hóa các chiến lược đầu tư và nâng cao hiệu suất.

Quy trình thực hiện dự án

Thực hiện dự án Khoa học Dữ liệu thường bao gồm các bước sau:

- Bước số 1: Gom dữ liệu - Gathering: Tập hợp các tệp dữ liệu là khởi đầu trong quá trình khai phá dữ liệu Việc tìm kiếm dữ liệu có thể được lấy từ kho dữ liệu của công ty hoặc các dữ liệu trên web đã được xác nhận.

- Bước số 2: Trích lọc dữ liệu - Selection: Ở bước này, người thực hiện sẽ lựa chọn những data phù hợp để tiến hành phân tích dữ liệu và giải quyết bài toán.

- Bước số 3: Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu - Cleansing, Preprocessing and Preparation: Dữ liệu sẽ thường mắc một số lỗi như chưa được chặt chẽ, chưa đủ, thiếu logic, thiếu nhất quán Vì thế, tiền xử lý là một bước vô cùng quan trọng để hạn chế, giảm thiểu những sai lầm trong kết quả trước khi bước vào phần khai phá dữ liệu

- Bước số 4: Chuyển đổi dữ liệu - Transformation: Chuyển đổi dữ liệu về dạng thích hợp cho việc khai phá dữ liệu.

- Bước số 5: Khai phá dữ liệu - Data Mining: Đây là giai đoạn quan trọng và cốt yếu trong quá trình phân tích data với sự vận dụng nhiều thuật toán khác nhau nhằm mục đích trích xuất những thông tin có ích cho quá trình phân tích hoặc tìm ra các mẫu điển hình trong data

- Bước số 6: Đánh giá kết quả mẫu - Evaluation of Result: Không phải dữ liệu nào sau khi chiết xuất cũng chính xác 100%, hầu hết sẽ xuất hiện những sai lệch nên cần ưu tiên sử dụng những tiêu chuẩn đánh giá để chọn ra những tri thức cần thiết.

Lý thuyết và phương pháp trong phân tích dữ liệu

2.4.1 Phương pháp phân lớp dữ liệu:

 Khái niệm: Phân lớp là một hình thức học được giám sát tức là: Tập dữ liệu huấn luyện (quan sát, thẩm định) đi đôi với những nhãn chỉ định lớp quan sát, những dữ liệu mới được phân lớp dựa trên tập huấn luyện Ngược lại với hình thức học được giám sát là hình thức học không được giám sát lúc đó nhãn lớp của tập dữ liệu huấn luyện là không được biết đến.

 Kĩ thuật phân lớp được tiến hành bao gồm 2 bước: Xây dựng mô hình và sử dụng mô hình Các thuật toán phân lớp dữ liệu cơ bản:

- Phân lớp với mạng Neural (Neural Network)

Hình 1: Ví dụ minh họa về mô hình Neural Network

- Phân lớp với Logistic Regression:

Hình 2: Ví dụ minh họa về mô hình Logistic Regression

- Phân lớp với Random Forest

Hình 3: Ví dụ minh họa về mô hình Random Forest

 Khái niệm: Là quá trình gom cụm/ nhóm các đối tượng/ dữ liệu có đặc điểm tương đồng vào các cụm/ nhóm tương ứng Độ tương tự được xác định theo một tiêu chuẩn nào đó, tuỳ thuộc vào từng ứng dụng cụ thể và được xác định trước

 Trong quá trình phân cụm ta không biết trước tính chất của các cụm mà phải dựa vào mối quan hệ giữa các đối tượng để tìm ra sự giống nhau đặc trưng cho mỗi cụm giữa các đối tượng theo một độ đo nào đó.

- Khi nói đến phân cụm, k-MEANS là phương pháp kinh điển được sử dụng rất rộng rãi trong thực tế và nó có thể được biến đổi để thích hợp cho từng bài toán cụ thể, và nó nằm trong nhóm các phương pháp phân hoạch.

Đánh giá phương pháp, mô hình

a Test and Score: Dùng để đánh giá các mô hình máy học gồm các phương pháp như:

- Cross-validation: tạo ra 5 hoặc 10 folds cross validation, thường dùng để đánh giá trên mẫu dữ liệu nhỏ (1k-100k).

- Leave-one-out: tương tự như cross-validation nhưng chỉ lấy 1 instance ra để test,còn lại dùng để train.

- Random sampling: tách dữ liệu thành 2 phần ngẫu nhiên theo tỉ lệ train/test ví dụ như 70/30.

- Test on train data: dùng toàn bộ dữ liệu để train và test.

- Test on test data: chọn mẫu dữ liệu test để đánh giá. b Confusion Matrix: Confusion Matrix hiển thị số lượng instance dự đoán đúng và trật so với nhãn tập test.

Hình 4: Ví dụ minh họa về mô hình Confusion Matrix

Việc lựa chọn các phần tử trong ma trận cung cấp các trường hợp tương ứng vào tín hiệu đầu ra Bằng cách này, người ta có thể quan sát những trường hợp cụ thể bị phân loại sai và làm thế nào.

PHÂN TÍCH BÀI TOÁN VÀ MÔ TẢ DỮ LIỆU

Xác định và phân tích bài toán từ bộ dữ liệu

Như đã nói ở trên, những năm gần đây với cuộc cách mạng công nghiệp 4.0, vai trò của khoa học dữ liệu trong các ngân hàng, tổ chức tín dụng đang rất lớn mạnh Chúng được vận dụng để gia tăng sự hiệu quả trong vận hành và quản lý.

Từ đề bài đã cho cùng với bộ dữ liệu khách hàng tín dụng (người đi vay) từ một ngân hàng, nhóm đưa ra bài toán cần xử lí để trả lời cho yêu cầu của đề bài đó là: Dự đoán rằng với bộ dữ liệu đã cho, liệu người vay có khả năng thanh toán khoản vay hay không Sau đó nhóm tiến hành xử lí thông tin bằng phần mềm Orange, qua đó nhìn nhận được tình trạng của người đi vay, giúp cho ngân hàng và tổ chức tín dụng dự báo được rủi ro, khả năng thanh toán nợ của khách hàng, đồng thời cũng cung cấp cái nhìn sâu sắc về hành vi và xu hướng của khách hàng trong vay tín dụng.

Mô tả dữ liệu

Thuộc tính Ý nghĩa Vai trò Phân phối

Person_age Tuổi của người vay numeric

Thu nhập người vay numeric

Tình trạng sở hữu nhà của người vay categorical

Thời gian làm việc của người vay numeric

Loan_intent Mục đích sử dụng khoản vay categorical

Loan_grade Hạng của khoản vay dựa trên rủi ro categorical

Loan_amount Số tiền vay numeric

Loan_interest Lãi suất khoản vay numeric

Loan_status Tình trạng khoản vay categorical

Tỉ lệ khoản vay trên thu nhập numeric cb_person_def ault_on_file

Thông tin về việc người vay có lịch sử mặc định trước đó không (có hoặc không) categorical cb_person_cre d_hist_length

Thời gian sử dụng tín dụng của người vay (đo bằng tháng) numeric

Lựa chọn và trình bày dữ liệu cần phân tích đối với yêu cầu người dùng

Với mục tiêu của bài toán đã nêu đó là phân tích và dự đoán rủi ro tín dụng của người đi vay, từ đó đánh giá khả năng thanh toán khoản vay, nhóm sẽ sử dụng 5 cột dữ liệu gồm 4 biến độc lập và 1 biến phụ thuộc (loan status) Để giải quyết bài toán này cần phải sử dụng các cột dữ liệu liên quan đến thông tin cá nhân của người đi vay và thông tin của khoản vay, cụ thể là “Person age” (tuổi người đi vay), “Person income” (thu nhập người đi vay), “Loan amount” (số tiền vay), “Loan interest” (lãi suất khoản vay).Nhờ những thông tin đó, ta có thể đưa ra những đánh giá về “Loan status” (tình trạng khoản vay, đã thanh toán hay chưa), vì vậy “Loan status” sẽ là biến phụ thuộc (Hình 5).

Bảng 1: Lọc dữ liệu với Select Columns

- Bước 1: Nhập dữ liệu vào và chọn chức năng “Selected Column”;

- Bước 2: Trong “Selected Column” chọn 4 cột giá trị độc lập cần thiết như đã nêu vào “Features”, 1 cột giá trị phụ thuộc (Loan_status) vào “Target” Còn lại đưa vào

- Bước 3: Dùng “Data Table” (đặt tên là Selected Data) để xem bộ dữ liệu sau khi loại bỏ những cột giá trị không cần thiết.

Bảng 2: Dữ liệu sau khi loại bỏ những cột giá trị không cần thiết

PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ

Tiền xử lý dữ liệu

Đây là bước đầu tiên và đặc biệt quan trọng trong việc tiến hành phân tích một bộ dữ liệu Bởi vì thông qua bước này, có thể cải thiện được chất lượng dữ liệu (tăng tính chính xác, tính nhất quán…) từ đó cải thiện chất lượng của kết quả khai phá.

Trong bộ dữ liệu mà chúng tôi thu thập được có chứa một số dữ liệu “?” không xác định được Việc xuất hiện của các dữ liệu này ảnh hưởng đến kết quả dự đoán và sẽ khiến cho dự đoán có sự sai lệch

Vì vâỵ, nhóm tiến hành xử lý các dữ liệu “?” bằng cách điền vào đó các giá trị trung bình (cụ thể là giá trị trung bình của cột “loan_int_rate”) thay vì loại bỏ luôn những hàng dữ liệu giúp cho việc phân tích khách quan hơn.

Bảng 3: Dữ liệu khi chưa được tiền xử lý loại bỏ các dữ liệu “?”

Hình 5: Các bước xử lý dữ liệu Quy trình thực hiện:

- Bước 1: Nhập dữ liệu vào và chọn chức năng “Preprocess”;

- Bước 2: Trong “Preprocess” chọn “Impute Missing Values” chọn “Average/Most frequent”;

- Bước 3: Dùng “Data Table” (đặt tên là Cleaned Data) để xem bộ dữ liệu đã xử lý;

- Bước 4: Dùng “Save Data” để lưu lại bộ dữ liệu sau khi đã xử lý.

Bảng 4: Xử lý dữ liệu Missing Value thông qua “Preprocess”

Bảng 5: Dữ liệu sau khi được xử lý

Dự đoán rằng với bộ dữ liệu đã cho, liệu người vay có khả năng thanh toán khoản

Hình 6: Mô hình bài toán 4.2.1 Quy trình thực hiện

- Bước 1: Tải lên file của bộ dữ liệu đã xử lí (Cleaned Data);

- Bước 2: Dùng Data Sampler chia dữ liệu thành 2 phần (70% - 30%) Đặt tên File dữ liệu lớn hơn là “Training”, File nhỏ hơn là “Forecasting”;

- Bước 3: Dùng 3 mô hình: Neutral Network, Logistic Regression, Random Forest cho file dữ liệu “Training” để dự đoán rằng liệu người đi vay có khả năng thanh toán khoản vay hay không;

- Bước 4: Sử dụng Test and Score và Confusion Matrix để đánh giá 3 mô hình ở trên Chọn mô hình được đánh giá tốt nhất để dự báo kết quả cho file dữ liệu

- Bước 5: Dùng Predictions và Data Table (đặt tên là Result) để xem kết quả dự báo.

4.2.2 Đánh giá về kết quả phân tích, trực quan hóa kết quả phân tích, thảo luận và các đề xuất hỗ trợ ra quyết định

 Kết quả đánh giá phương pháp của Test & Score

Bảng 6: Kết quả Test & Score của Bài toán

 Đánh giá mô hình dựa trên kết quả Confusion Matrix

Bảng 7: Kết quả Confusion Matrix của Bài toán

Theo các kết quả phía trên, ta có thể thấy mô hình “Random Forest” có chỉ số AUC cao nhất trong các mô hình (AUC=0.869) và mô hình này cũng có tỉ lệ chính xác cao nhất ở phương pháp Confusion Matrixl nên nhóm quyết định chọn mô hình dự báo

“Random Forest” để phân loại dữ liệu File “Forecasting”.

Bảng 8: Kết quả dự báo Bài toán

 Rút ra một số kết luận:

Người đi vay thuộc quan sát thứ nhất trong bảng Result trên theo mô hình phân lớp

“Random Forest” 100% không có khả năng thanh toán khoản vay Đồng nghĩa với việc chiếm 0% khả năng thanh toán khoản vay và tương tự với các mẫu quan sát còn lại

Từ đó, ngân hàng có thể đưa ra kết luận về người đi vay xem iệu rằng dựa trên các l mô hình dự đoán tạo thành từ việc phân tích và xử lý bộ dữ liệu thì trường hợp nào có khả năng thanh toán khoản vay và trường hợp nào không có khả năng thanh toán khoản vay sau đó đưa ra quyết định cho vay hay không và đề xuất các giải pháp khắc phục.

Ngày đăng: 08/04/2024, 08:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w