BÁO CÁO MÔN HỌC - Lưu Trữ Và Phân Tích Dữ Liệu Đề tài: Phân loại điểm tín dụng ngân hàng sử dụng mô hình thuật toán Machine Learning
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Khoa Viễn Thông 1
BÁO CÁO MÔN HỌC
Lưu Trữ Và Phân Tích Dữ Liệu
Đề tài: Phân loại điểm tín dụng ngân hàng
Nhóm 14
Hà Nội 10/4/2024
GIẢNG VIÊN : Nguyễn Minh Tuấn
THÀNH VIÊN : Phạm Ngọc Đông - B20DCVT112
Phạm Văn Chính - B20DCVT429
Trang 2Mục lục
1 Lý do chọn đề tài 1
2 Mục tiêu nghiên cứu 1
3 Phạm vi nghiên cứu 1
4 Khai phá dữ liệu và trực quan hóa dữ liệu 2
5 Xây dựng mô hình ML 18
5.1 Tiền xử lý dữ liệu 18
5.1.1 Xử lý dữ liệu bị thiếu 18
5.1.2 Mã hóa dữ liệu 18
5.1.3 Tách dữ liệu và chuẩn hóa dữ liệu 20
5.1.4 Chia bộ dữ liệu 21
5.2 Xây dựng mô hình phân loại sử dụng thuật toán RandomForest 21
5.3 Đánh giá mô hình 22
5.3.1 Độ chính xác của mô hình trên tập test 22
1
Trang 31.Lý do chọn đề tài
- Từ những dữ liệu trên các đặc trưng của khách hàng như thu nhập hàng năm,
số lượng tài khoản ngân hàng và lịch sử thanh toán,… Có thể phân loại những khách hàng có khả năng tài chính tốt Từ đó giúp doanh nghiệp đánh giá rủi ro tín dụng và đề xuất các chiến lược quản lý rủi ro
2 Mục tiêu nghiên cứu
- Xây dựng mô hình phân loại điểm tín dụng của khách hàng bằng việc đánh giá khả năng tài chính và rủi ro vay nợ của khách hàng
- Nội dung: sử dụng phương pháp học máy machine learning
3 Phạm vi nghiên cứu
- Sử dụng các lý thuyết đã học về Thư viện Pandas, Numpy, trực quan hóa qua
Seaborn, tiền xử lý dữ liệu qua Sckit Learn,…
- Sử dụng các phương pháp học máy machine learning như cây quyết định, mạng nơ-ron,… để xây dựng mô hình phân loại
4 Khai phá dữ liệu và trực quan hóa dữ liệu
- Tên file: banking.csv
- Nguồn: kaggle.com
- Dữ liệu gồm: 100000 dòng và 28 cột
2
Trang 4- Thông tin các cột :
3
Trang 5- Xem thông tin dữ liệu:|
4
Trang 6-> Dữ liệu không bị missing data
- Kiểm tra dữ liệu bị thiếu
5
Trang 7-Kiểm tra dữ liệu trùng lặp
-Thống kê tổng quan các cột dạng số trong DataFrame
-Thống kê các cột kiểu dữ liệu object trong DataFrame
Trực quan hóa dữ liệu
- Điểm tín dụng người dùng
6
Trang 1110
Trang 12-Thống kê các giá trị ngoại lai:
11
Trang 14-Ma trận tương quan
- Ma trận tương quan cung cấp thông tin về mức độ tương quan giữa các biến trong một tập dữ liệu
- Đánh giá mối quan hệ giữa các biến: Ma trận tương quan cho biết mức độ tương quan giữa từng cặp biến Nếu hai biến có một tương quan cao dương, điều này có thể chỉ ra rằng chúng tăng cùng nhau; trong khi một tương quan cao
âm có thể chỉ ra rằng chúng giảm cùng nhau Tương quan gần với 0 có nghĩa là không có mối quan hệ tuyến tính giữa chúng
- Loại bỏ đặc trưng tương quan cao: Trong quá trình xây dựng mô hình, các đặc trưng có thể có mức độ tương quan cao với nhau Điều này có thể dẫn đến hiện tượng đa cộng tuyến, làm giảm hiệu suất của mô hình Do đó, trong nhiều
trường hợp, loại bỏ các đặc trưng có tương quan cao có thể cải thiện hiệu suất của mô hình
13
Trang 15- Chọn biến đầu vào: Trong các thuật toán như RandomForestClassifier, ma trận tương quan có thể được sử dụng để chọn các biến đầu vào quan trọng cho mô hình Các biến với tương quan cao với biến mục tiêu thường được ưu tiên
- Hiểu về tương quan giữa biến đầu vào và biến mục tiêu: Ma trận tương quan cũng có thể giúp hiểu rõ hơn về mối quan hệ giữa các biến đầu vào và biến mục tiêu, giúp trong việc hiểu dữ liệu và xây dựng mô hình
5 Xây dựng mô hình ML
5.1 Tiền xử lý dữ liệu
- Tiền xử lý dữ liệu là một bước rất quan trọng trong việc giải các bài toán trong lĩnh vực AI Trong một mô hình máy học chia ra thành 2 phần đó là dữ liệu đầu vào và mô hình thuật toán, hai phần này đóng vai trò then chốt để có thể đưa ra được kết quả dự đoán đầu ra liệu có đạt được độ chính xác cao hay không đối với bài toán phân loại và độ sai số đối với bài toán phân loại
Nếu dữ liệu đầu vào không tốt thì chắc chắn rằng model xây dựng lên sẽ học không được tốt còn nếu dữ liệu đầu vào tốt mà mô hình của chúng ta không tốt thì cũng sẽ đưa ra một dự đoán không được tốt, chẳng hạn như mô hình bị hiện tượng under fitting hoặc overfitting
Như vậy, bất cứ với tập dữ liệu nào, trước khi đưa vào huấn luyện mô hình machine learning hoặc deep learning đều phải trải qua bước tiền xử dữ liệu bởi
vì thông thường tập dữ liệu ban đầu là tập dữ liệu thô, cần phải làm sạch nó thông qua quá trình làm sạch dữ liệu (data cleaning) rồi mới đưa vào huấn luyện
mô hình
14
Trang 165.1.1 Xử lý dữ liệu bị thiếu
- Dữ liệu không bị thiếu
5.1.2 Mã hóa dữ liệu
- Các dữ liệu ở dạng object sau khi khai phá thì đều ở dạng category (Đây là dạng dữ liệu mà các giá trị chỉ đơn giản là các nhóm hoặc danh mục không có thứ tự
- Khi làm việc với dữ liệu categorical trong các mô hình học máy, chúng thường cần được chuyển đổi thành dạng số học, bởi vì hầu hết các thuật toán học máy yêu cầu đầu vào là các số Các phương pháp phổ biến để chuyển đổi dữ liệu categorical là mã hóa one-hot (one-hot encoding) hoặc mã hóa số (label
encoding), tùy thuộc vào loại dữ liệu và thuật toán mà bạn sử dụng
- Đối với bài toán này, Chuyển đổi dữ liệu thô thành dữ liệu sạch Mã hóa các
dữ liệu danh mục (dữ liệu chuỗi ) thành dữ liệu số ( Vì dữ liệu máy học dựa trên những con số) sklearn.preprocessing: Modul Preprocessing sử dụng phương thức mã hóa OneHotEncoder Transform thành dạng vector
5.1.3 Tách dữ liệu và chuẩn hóa dữ liệu
- Thực hiện tách dữ liệu thành tập các tính năng đầu vào (x) và nhãn (y)
- Chuẩn hóa dữ liệu bằng phương pháp MinMaxScaler là một kỹ thuật phổ biến trong xử lý dữ liệu và mô hình hóa dữ liệu Phương pháp này chuyển đổi các giá trị của biến thành một phạm vi nhất định, thường là từ 0 đến 1 Quá trình này giúp đồng nhất hóa phạm vi giữa các biến, giúp mô hình học máy hội tụ nhanh hơn và cải thiện hiệu suất
- Dữ liệu sau khi làm sạch
15
Trang 175.1.4 Chia bộ dữ liệu
- Thực hiện chia bộ dữ liệu thành 2 tập train và test với tỉ lệ 80% cho việc học
và 20% cho việc kiểm thử mô hình (Chia 6 tháng đầu để train và 2 tháng sau để test)
5.2 Xây dựng mô hình RandomForest cho bài toán phân loại
- Thuật toán RandomForest là một phương pháp học máy rất phổ biến và hiệu
quả cho cả bài toán phân loại (classification) và hồi quy (regression) Nó dựa trên khái niệm của tập hợp học (ensemble learning) và cụ thể hơn là trên các cây quyết định (decision trees)
16
Trang 185.3 Đánh giá mô hình
17
Trang 195.3.1 Độ chính xác của mô hình trên tập test
Độ chính xác của mô hình xấp xỉ 0,8435 (84.35%) cho thấy mức độ mà mô hình
dự đoán đúng hoặc gần đúng giá trị của biến mục tiêu (biến phụ thuộc) trên tập
dữ liệu kiểm tra
18