1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích và dự đoán rủi ro tín dụng của người đi vay từ đó, đánh giá khả năng thanh toán khoản vay thông qua phần mềm orange

31 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Trang 1

Đề tài: PHÂN TÍCH VÀ DỰ ĐOÁN RỦI RO TÍN DỤNG CỦA NGƯỜI ĐI VAY.TỪ ĐÓ, ĐÁNH GIÁ KHẢ NĂNG THANH TOÁN KHOẢN VAY THÔNG QUAPHẦN MỀM ORANGE.

Nhóm sinh viên thực hiện:1 Nguyễn Ngọc Minh Châu – 312210251562 Nguyễn Thị Mỹ Lệ - 312210256753 Nguyễn Anh Vy – 312210254634 Nguyễn Tấn Phát – 31221022321

Trang 2

DANH SÁCH SINH VIÊN THỰC HIỆN DỰ ÁN

Trang 3

LỜI MỞ ĐẦU

Trong bối cảnh ngân hàng và các tổ chức tài chính ngày càng chú trọng đến việc đánh giá rủi ro tín dụng, đặc biệt là đối với người đi vay, nhu cầu sử dụng các phương pháp hiện đại để phân tích và dự đoán khả năng thanh toán khoản vay là không thể phủ nhận Điều này là đặc biệt quan trọng nhằm tối ưu hóa quá trình cấp tín dụng, giảm thiểu rủi ro cho ngân hàng và bảo vệ quyền lợi của cả người vay và người cho vay Nắm bắt được sự phát triển cũng như những thành tựu to lớn mà khoa học dữ liệu đã mang lại cho các doanh nghiệp trong hơn thập kỷ qua Thúc đẩy quá trình công nghiệp hóa, hiện đại hóa giúp các công ty phát triển và làm việc hiệu quả, năng suất hơn

Hiện nay, các doanh nghiệp Việt Nam đang chú trọng xử lý thông tin dữ liệu, góp phần quan trọng giúp doanh nghiệp từng bước hội nhập thị trường quốc tế Đồng thời là nguồn tài nguyên vô tận của doanh nghiệp Điều này cho thấy khoa học dữ liệu có tác động nhất định đến thị trường hiện nay

Bài tiểu luận này sẽ tập trung vào việc phân tích và dự đoán rủi ro tín dụng của người đi vay thông qua phần mềm Orange - phần mềm có khả năng tích hợp các phương pháp máy học và khai phá dữ liệu, đặt ra một nền tảng mạnh mẽ để hiểu rõ hơn về hành vi đi vay của người đi vay Từ đó tạo ra mô hình dự đoán chính xác về khả năng thanh toán của người vay Phương pháp này không chỉ giúp ngân hàng tối ưu hóa quá trình cấp tín dụng mà còn đảm bảo rằng người đi vay được đánh giá một cách công bằng, dựa trên dữ liệu đáng tin cậy và kết quả phân tích tương đối chính xác

Trang 4

1.5 Ý nghĩa nghiên cứu 8

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 9

2.1 Tổng quan về Khoa học Dữ liệu 9

2.2 Lợi ích của Khoa học Dữ liệu trong lĩnh vực Tài chính – Ngân hàng 9

2.3 Quy trình thực hiện dự án 9

2.4 Lý thuyết và phương pháp trong phân tích dữ liệu 10

2.5 Đánh giá phương pháp, mô hình 12

CHƯƠNG 3 PHÂN TÍCH BÀI TOÁN VÀ MÔ TẢ DỮ LIỆU 14

3.1 Xác định và phân tích bài toán từ bộ dữ liệu 14

3.2 Mô tả dữ liệu 14

3.3 Lựa chọn và trình bày dữ liệu cần phân tích đối với yêu cầu người dùng 17

CHƯƠNG 4 PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ 20

Trang 6

DANH MỤC BẢNG BIỂU

Bảng 1: Lọc dữ liệu với Select Columns

Bảng 2: Dữ liệu sau khi loại bỏ những cột giá trị không cần thiết Bảng 3: Dữ liệu khi chưa được tiền xử lý loại bỏ các dữ liệu “?” Bảng 4: Xử lý dữ liệu Missing Value thông qua “Preprocess” Bảng 5: Dữ liệu sau khi được xử lý

Bảng 6: Kết quả Test & Score của Bài toán Bảng 7: Kết quả Confusion Matrix của Bài toán Bảng 8: Kết quả dự báo Bài toán

DANH MỤC HÌNH ẢNH

Hình 1: Ví dụ minh họa về mô hình Neural Network Hình 2: Ví dụ minh họa về mô hình Logistic Regression Hình 3: Ví dụ minh họa về mô hình Random Forest Hình 4: Ví dụ minh họa về mô hình Confusion Matrix Hình 5: Các bước xử lý dữ liệu

Hình 6: Mô hình bài toán

Trang 7

CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI

1.1 Lý do chọn đề tài

Trong phạm vi môn học Khoa học Dữ liệu, chúng em đã được tiếp xúc với phần mềm Orange Để vận dụng các kiến thức đã học vào lĩnh vực Tài chính - Ngân hàng,

nhóm chúng em đã chọn đề tài “Phân tích và Dự đoán rủi ro tín dụng của người đivay Từ đó, đánh giá khả năng thanh toán khoản vay thông qua phần mềm Orange”.

1.1.1 Tầm quan trọng của việc dự đoán rủi ro tín dụng

Việc phân tích và dự đoán rủi ro tín dụng cùng khả năng thanh toán của người đi vay là vô cùng quan trọng đối với ngân hàng hay các tổ chức tín dụng Đây là vấn đề mà các tổ chức tài chính quan tâm để đảm bảo rằng họ cho vay một cách an toàn và hiệu quả.

1.1.2 Tầm quan trọng của việc phân tích data người đi vay

Sự hiện diện của Khoa học Công nghệ trong thời đại mới đã thúc đẩy sự phát triển trong mọi ngành nghề Dữ liệu số và hệ thống thông tin đã trở thành một phần không thể thiếu trong các doanh nghiệp, tổ chức Phân tích data người đi vay sẽ hỗ trợ ngân hàng, tổ chức tín dụng hiểu được đặc điểm, tính chất của người vay, từ đó đưa ra những phân tích chính xách và biện pháp hợp lý, tối ưu.

1.1.3 Ứng dụng thực tế phần mềm Orange

Sử dụng phần mềm Orange để phân tích và dự đoán rủi ro là một cách tiếp cận hiệu quả Phần mềm này cung cấp các công cụ tiện ích cho việc xử lí dữ liệu và xây dựng mô hình dự đoán, giúp tối ưu hóa quá trình phân tích.

1.2 Mục tiêu đề tài

Với đề tài “Phân tích và Dự đoán rủi ro tín dụng của người đi vay Từ đó, đánhgiá khả năng thanh toán khoản vay thông qua phần mềm Orange”, nhóm chúng em

hướng tới những mục tiêu là:

 Áp dụng các lý thuyết đã được học vào thực tiễn để làm rõ các vấn đề và giải quyết các bài toán đã đề ra.

Trang 8

 Thực hiện đề tài dựa trên những phương pháp phân tích đã được học như phương pháp phân lớp dữ liệu, đánh giá phương pháp tối ưu để sử dụng cho quá trình dự báo dữ liệu nhằm giải quyết bài toán đã đặt ra Cụ thể như sau:

1.2.1 Xây dựng mô hình dự đoán khả năng thanh toán khoản vay của người đi vay

Xây dựng một mô hình phân tích dữ liệu dựa trên các thông tin liên quan đến đối tượng có trong bộ dữ liệu.

1.2.2 Đánh giá hiệu suất mô hình

Đánh giá và so sánh hiệu suất của mô hình được xây dựng, đảm bảo tính chính xác và độ tin cậy của việc dự đoán rủi ro tín dụng và khả năng thanh toán.

Tóm lại, mục tiêu chính của đề tài là phân tích bộ dữ liệu để có thể tạo ra một mô hình có tính chính xác cao nhất hỗ trợ trong việc đánh giá rủi ro tín dụng, quản lý khoản vay của người đi vay.

1.3 Đối tượng và phạm vi nghiên cứu đề tài

 Sử dụng bộ dữ liệu “Credit Risk Dataset”’ từ website Kaggle, dữ liệu thu nhập thông tin từ các khách hàng tín dụng (Người đi vay)

 Nhóm sử dụng 5 cột dữ liệu chính trong bộ dữ liệu để phân tích: (1) Loan amount, (2) Loan interest rate, (3) Person income, (4) Person age, (5) Loan status  Nguồn bộ dữ liệu: https://www.kaggle.com/datasets/laotse/credit-risk-dataset

1.4 Công cụ sử dụng

Nhóm chúng em sử dụng phần mềm Orange - một phần mềm được biết đến rộng rãi nhờ tích hợp các công cụ khai phá dữ liệu, có thể sử dụng đơn giản, tương tác dễ dàng.

Hai lĩnh vực Khai phá dữ liệu (Data Mining) và Học máy (Machine Learning) là những lĩnh vực khá phức tạp, đòi hỏi chuyên môn cao Do đó, nhiều phần mềm đã ra đời nhằm hỗ trợ người dùng dễ dàng nghiên cứu các bài toán liên quan đến lĩnh vực này Và Orange là một trong những phần mềm đó Orange được lập trình bằng Python với giao diện trực quan, thao tác đơn giản Phần mềm này có thể thực hiện những phân tích từ đơn

Trang 9

giản đến phức tạp, giúp việc khai phá dữ liệu và học máy trở nên đơn giản và dễ dàng hơn.

1.5 Ý nghĩa nghiên cứu

Trong thời đại Cách mạng công nghiệp 4.0, công nghệ kĩ thuật số luôn ngày càng tiến bộ Các lĩnh vực trong đời sống cũng đang từng bước tiến hóa, hội nhập vào cuộc cách mạng công nghiệp 4.0 này, lĩnh vực Tài chính - Ngân hàng cũng không ngoại lệ Ngày nay, để tối ưu hóa các khoản vay, dự báo rủi ro chính xác hơn, thì các ngân hàng cũng đã và đang áp dụng các thuật toán phân tích để nắm rõ các đặc điểm của người đi vay Có thể nói, đề tài nhóm em lựa chọn trên xu hướng hiện nay khi mọi lĩnh vực đều áp dụng khoa học dữ liệu như một công cụ hỗ trợ cực kỳ quan trọng

Trang 10

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.1 Tổng quan về Khoa học Dữ liệu

 Khái niệm: Khoa học dữ liệu là khoa học về việc quản trị và phân tích dữ liệu để

tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động

 Khoa học Dữ liệu gồm ba phần chính:

- Tạo ra và quản trị dữ liệu; - Phân tích dữ liệu;

- Chuyển kết quả phân tích thành giá trị của hành động.

 Việc phân tích và dùng dữ liệu lại dựa vào ba nguồn tri thức:

- Toán học (thống kê toán học); - Công nghệ thông tin (máy học); - Tri thức của lĩnh vực ứng dụng cụ thể.

2.2 Lợi ích của Khoa học Dữ liệu trong lĩnh vực Tài chính – Ngân hàng

Trong lĩnh vực tài chính, Khoa học Dữ liệu được sử dụng để phân tích dữ liệu trong ngành, dự đoán thị trường tài chính – ngân hàng, cải thiện quyết định, tối ưu hóa các chiến lược đầu tư và nâng cao hiệu suất.

2.3 Quy trình thực hiện dự án

Thực hiện dự án Khoa học Dữ liệu thường bao gồm các bước sau:

- Bước số 1: Gom dữ liệu - Gathering: Tập hợp các tệp dữ liệu là khởi đầu trong quá

trình khai phá dữ liệu Việc tìm kiếm dữ liệu có thể được lấy từ kho dữ liệu của công ty hoặc các dữ liệu trên web đã được xác nhận.

- Bước số 2: Trích lọc dữ liệu - Selection: Ở bước này, người thực hiện sẽ lựa chọn

những data phù hợp để tiến hành phân tích dữ liệu và giải quyết bài toán.

- Bước số 3: Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu - Cleansing,Preprocessing and Preparation: Dữ liệu sẽ thường mắc một số lỗi như chưa được

chặt chẽ, chưa đủ, thiếu logic, thiếu nhất quán Vì thế, tiền xử lý là một bước vô

Trang 11

cùng quan trọng để hạn chế, giảm thiểu những sai lầm trong kết quả trước khi bước vào phần khai phá dữ liệu

- Bước số 4: Chuyển đổi dữ liệu - Transformation: Chuyển đổi dữ liệu về dạng thích

hợp cho việc khai phá dữ liệu.

- Bước số 5: Khai phá dữ liệu - Data Mining: Đây là giai đoạn quan trọng và cốt yếu

trong quá trình phân tích data với sự vận dụng nhiều thuật toán khác nhau nhằm mục đích trích xuất những thông tin có ích cho quá trình phân tích hoặc tìm ra các mẫu điển hình trong data

- Bước số 6: Đánh giá kết quả mẫu - Evaluation of Result: Không phải dữ liệu nào

sau khi chiết xuất cũng chính xác 100%, hầu hết sẽ xuất hiện những sai lệch nên cần ưu tiên sử dụng những tiêu chuẩn đánh giá để chọn ra những tri thức cần thiết.

2.4 Lý thuyết và phương pháp trong phân tích dữ liệu

2.4.1 Phương pháp phân lớp dữ liệu:

Khái niệm: Phân lớp là một hình thức học được giám sát tức là: Tập dữ liệu huấn

luyện (quan sát, thẩm định) đi đôi với những nhãn chỉ định lớp quan sát, những dữ liệu mới được phân lớp dựa trên tập huấn luyện Ngược lại với hình thức học được giám sát là hình thức học không được giám sát lúc đó nhãn lớp của tập dữ liệu huấn luyện là không được biết đến.

 Kĩ thuật phân lớp được tiến hành bao gồm 2 bước: Xây dựng mô hình và sử dụng

mô hình Các thuật toán phân lớp dữ liệu cơ bản: - Phân lớp với mạng Neural (Neural Network)

Trang 12

Hình 1: Ví dụ minh họa về mô hình Neural Network

- Phân lớp với Logistic Regression:

Hình 2: Ví dụ minh họa về mô hình Logistic Regression

- Phân lớp với Random Forest

Trang 13

Hình 3: Ví dụ minh họa về mô hình Random Forest

2.4.2 Phân cụm dữ liệu:

 Khái niệm: Là quá trình gom cụm/ nhóm các đối tượng/ dữ liệu có đặc điểm tương

đồng vào các cụm/ nhóm tương ứng Độ tương tự được xác định theo một tiêu chuẩn nào đó, tuỳ thuộc vào từng ứng dụng cụ thể và được xác định trước  Trong quá trình phân cụm ta không biết trước tính chất của các cụm mà phải dựa

vào mối quan hệ giữa các đối tượng để tìm ra sự giống nhau đặc trưng cho mỗi cụm giữa các đối tượng theo một độ đo nào đó.

- Khi nói đến phân cụm, k-MEANS là phương pháp kinh điển được sử dụng rất rộng rãi trong thực tế và nó có thể được biến đổi để thích hợp cho từng bài toán cụ thể, và nó nằm trong nhóm các phương pháp phân hoạch

2.5 Đánh giá phương pháp, mô hình.

a Test and Score: Dùng để đánh giá các mô hình máy học gồm các phương pháp như:

- Cross-validation: tạo ra 5 hoặc 10 folds cross validation, thường dùng để đánh giá trên mẫu dữ liệu nhỏ (1k-100k).

- Leave-one-out: tương tự như cross-validation nhưng chỉ lấy 1 instance ra để test,

Trang 14

- Random sampling: tách dữ liệu thành 2 phần ngẫu nhiên theo tỉ lệ train/test ví dụ như 70/30.

- Test on train data: dùng toàn bộ dữ liệu để train và test - Test on test data: chọn mẫu dữ liệu test để đánh giá.

b Confusion Matrix: Confusion Matrix hiển thị số lượng instance dự đoán đúng và trật

so với nhãn tập test.

Hình 4: Ví dụ minh họa về mô hình Confusion Matrix

Việc lựa chọn các phần tử trong ma trận cung cấp các trường hợp tương ứng vào tín hiệu đầu ra Bằng cách này, người ta có thể quan sát những trường hợp cụ thể bị phân loại sai và làm thế nào.

Trang 15

CHƯƠNG 3 PHÂN TÍCH BÀI TOÁN VÀ MÔ TẢ DỮ LIỆU

3.1 Xác định và phân tích bài toán từ bộ dữ liệu

Như đã nói ở trên, những năm gần đây với cuộc cách mạng công nghiệp 4.0, vai trò của khoa học dữ liệu trong các ngân hàng, tổ chức tín dụng đang rất lớn mạnh Chúng được vận dụng để gia tăng sự hiệu quả trong vận hành và quản lý.

Từ đề bài đã cho cùng với bộ dữ liệu khách hàng tín dụng (người đi vay) từ một ngân hàng, nhóm đưa ra bài toán cần xử lí để trả lời cho yêu cầu của đề bài đó là: Dự

đoán rằng với bộ dữ liệu đã cho, liệu người vay có khả năng thanh toán khoản vayhay không. Sau đó nhóm tiến hành xử lí thông tin bằng phần mềm Orange, qua đó nhìn nhận được tình trạng của người đi vay, giúp cho ngân hàng và tổ chức tín dụng dự báo được rủi ro, khả năng thanh toán nợ của khách hàng, đồng thời cũng cung cấp cái nhìn sâu sắc về hành vi và xu hướng của khách hàng trong vay tín dụng.

3.2 Mô tả dữ liệu

Thuộc tínhÝ nghĩaVai tròPhân phối

Person_ageTuổi của người

Trang 16

khoản vay categorical

Loan_grade Hạng của khoản

vay dựa trên rủi ro categorical

Trang 17

Loan_amountSố tiền vaynumeric

Loan_interestLãi suất khoản

Trang 18

Với mục tiêu của bài toán đã nêu đó là phân tích và dự đoán rủi ro tín dụng của

người đi vay, từ đó đánh giá khả năng thanh toán khoản vay, nhóm sẽ sử dụng 5 cột dữliệu gồm 4 biến độc lập và 1 biến phụ thuộc (loan status) Để giải quyết bài toán này

cần phải sử dụng các cột dữ liệu liên quan đến thông tin cá nhân của người đi vay và thông tin của khoản vay, cụ thể là “Person age” (tuổi người đi vay), “Person income” (thu nhập người đi vay), “Loan amount” (số tiền vay), “Loan interest” (lãi suất khoản vay) Nhờ những thông tin đó, ta có thể đưa ra những đánh giá về “Loan status” (tình trạng

khoản vay, đã thanh toán hay chưa), vì vậy “Loan status” sẽ là biến phụ thuộc (Hình 5).

Trang 19

Bảng 1: Lọc dữ liệu với Select Columns

Quy trình thực hiện:

- Bước 1: Nhập dữ liệu vào và chọn chức năng “Selected Column”;

- Bước 2: Trong “Selected Column” chọn 4 cột giá trị độc lập cần thiết như đã nêu vào “Features”, 1 cột giá trị phụ thuộc (Loan_status) vào “Target” Còn lại đưa vào “Ignored”;

- Bước 3: Dùng “Data Table” (đặt tên là Selected Data) để xem bộ dữ liệu sau khi loại bỏ những cột giá trị không cần thiết.

Trang 20

Bảng 2: Dữ liệu sau khi loại bỏ những cột giá trị không cần thiết

Trang 21

CHƯƠNG 4 PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ

4.1 Tiền xử lý dữ liệu

Đây là bước đầu tiên và đặc biệt quan trọng trong việc tiến hành phân tích một bộ dữ liệu Bởi vì thông qua bước này, có thể cải thiện được chất lượng dữ liệu (tăng tính chính xác, tính nhất quán…) từ đó cải thiện chất lượng của kết quả khai phá.

Trong bộ dữ liệu mà chúng tôi thu thập được có chứa một số dữ liệu “?” không xác định được Việc xuất hiện của các dữ liệu này ảnh hưởng đến kết quả dự đoán và sẽ khiến cho dự đoán có sự sai lệch

Vì vâỵ, nhóm tiến hành xử lý các dữ liệu “?” bằng cách điền vào đó các giá trị trung bình (cụ thể là giá trị trung bình của cột “loan_int_rate”) thay vì loại bỏ luôn những hàng dữ liệu giúp cho việc phân tích khách quan hơn.

Bảng 3: Dữ liệu khi chưa được tiền xử lý loại bỏ các dữ liệu “?”

Trang 22

Hình 5: Các bước xử lý dữ liệu

Quy trình thực hiện:

- Bước 1: Nhập dữ liệu vào và chọn chức năng “Preprocess”;

- Bước 2: Trong “Preprocess” chọn “Impute Missing Values” chọn “Average/Most frequent”;

- Bước 3: Dùng “Data Table” (đặt tên là Cleaned Data) để xem bộ dữ liệu đã xử lý; - Bước 4: Dùng “Save Data” để lưu lại bộ dữ liệu sau khi đã xử lý.

Ngày đăng: 08/04/2024, 08:03

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w