Xử lý dữ liệu cho bài toán dự đoán rủi ro tín dụng

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng (Trang 54 - 58)

II. Một số thuật toán xây dựng cây

1. Xử lý dữ liệu cho bài toán dự đoán rủi ro tín dụng

Dữ liệu được sử dụng trong khai phá dữ liệu thường được lấy từ nhiều nguồn khác nhau và được lưu trữ trong nhiều năm, trên các thiết bị khác nhau. Điều này dẫn đến dữ liệu thu được từ thực tế có thể chứa nhiễu, lỗi, không hoàn chỉnh, có mâu thuẫn.

Nếu dữ liệu không sạch (có chứa lỗi, nhiễu, không đầy đủ, có mâu thuẫn), thì các kết quả khai phá dữ liệu sẽ bị ảnh hưởng và không đáng tin cậy. Các kết quả khai phá dữ liệu (các tri thức khám phá được) không chính xác (không đáng tin cậy) sẽ dẫn đến các quyết định không chính xác, không tối ưu. Vì vậy công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết.

Các công việc chính trong tiền xử lý dữ liệu gồm:

 Làm sạch dữ liệu (Data cleaning): Gán các giá trị thuộc tính còn thiếu, sửa chữa các dữ liệu nhiễu/lỗi, xác định hoặc loại bỏ các ngoại lai (outliers), giải quyết các mâu thuẫn dữ liệu

 Tích hợp dữ liệu (Data integration) : tích hợp nhiều cơ sở dữ liệu, nhiều khối dữ liệu (data cubes), hoặc nhiều tập tin dữ liệu.

 Biến đổi dữ liệu (Data transformation): Chuẩn hóa (normalize) và kết hợp (aggregate) dữ liệu

 Giảm bớt dữ liệu (Data reduction): giảm bớt về biểu diễn (các thuộc tính) của dữ liệu, giảm bớt kích thước dữ liệu nhưng vẫn đảm bảo thu được các kết quả khai phá dữ liệu tương đương (hoặc xấp xỉ)

 Rời rạc hóa dữ liệu (Data discretization): được sử dụng đối với các dữ liệu có các thuộc tính kiểu số.

Trong luận văn này tôi sử dụng phần mềm Weka 3.7 để xử lý dữ liệu và phân lớp nhóm nợ của khách hàng vay vốn.

Từ một tập nguồn dữ liệu gốc của ngân hàng Sacombank năm 2007, tôi lựa chọn ra bảng dữ liệu gồm 2090 bản ghi các khoản vay (với khách hàng là cá nhân). Mỗi bản ghi gồm 13 thuộc tính, trong đó thuộc tính chỉ số nợ là thuộc tính cần dự đoán

STT Tên thuộc tính Diễn giải

1 CUSID Mã khách hàng

2 JOB Nghề nghiệp khách hàng 3 POSITION Vị trí công tác / chức vụ

4 INCOME Lương thu nhập hàng tháng có ổn định không ( N, V) 5 TYPE Xếp loại khách hàng

6 DURTYPE Thời hạn khoản vay 7 PURPOSE Mục đích vay 8 RESIDENT Trạng thái cư trú 9 APRLIMIT Định mức được vay 10 AGE Tuổi

11 MARRIED Đã kết hôn chưa? 12 GTVALUE Giá trị đảm bảo 13 GDEBT Chỉ số nhóm nợ

Bảng 4.1. Bảng thông tin khách hàng vay vốn

Trong file dữ liệu một khách hàng được xác định duy nhất bởi thuộc tính CUSID, vì vậy ta tiến hành loại bỏ thuộc tính này.

Thuộc tính TYPE (đánh giá khách hàng) có vài bản ghi thiếu giá trị, tôi thay thế các giá trị thiếu này bằng giá trị chiếm nhiều nhất trong tập dữ liệu. Cụ thể là TYPE=”6”.

Hình 4.1. Giao diện Weka phân tích thuộc tính TYPE

Thuộc tính hạn mức được vay có giá trị là số. Giá trị nhỏ nhất và lớn nhất lần lượt là: 5300000 và 1150000000, mặt khác thuộc tính này có nhiều giá trị

khác nhau vì vậy tôi sẽ chuyển giá trị của thuộc tính từ kiểu số sang kiểu rời rạc. Tôi sử dụng phương pháp tạo ra 10 khoảng giá trị cho thuộc tính. Việc xác định các khoảng giá trị dựa trên tần suất xuất hiện của các giá trị trong tập dữ liệu. Kết quả là 10 khoảng giá trị thuộc tính như sau:

1. (-inf-116800000], gồm 403 mẫu

2. (116800000-231600000], gồm 363 mẫu 3. (231600000-346400000], gồm 358 mẫu 4. (346400000-461200000], gồm 263 mẫu 5. (461200000-576000000], gồm 117 mẫu

6. (576000000-690800000], gồm 106 mẫu 7. (690800000-805600000], gồm 110 mẫu 8. (805600000-920400000], gồm 113 mẫu 9. (920400000-1035200000], gồm 127 mẫu 10.(1035200000-inf), gồm 130 mẫu

Hình 4.2: Giao diện Weka phân tích thuộc tính hạn mức được vay

Tương tự, thuộc tính tuổi có các giá trị là số, từ 20 đến 65 tuổi. Vậy nên tôi chọn cách chuyển giá trị số của thuộc tính này thành các khoảng giá trị:

(-inf-29], gồm 349 mẫu (29-38], gồm 527 mẫu (38-47], gồm 452 mẫu (47-56], gồm 609 mẫu (56-inf), 153 mẫu.

Hình 4.3. Giao diện Weka phân tích thuộc tính tuổi khách hàng.

Các giá trị còn lại trong tập dữ liệu đều là các giá trị rời rạc và đầy đủ giá trị. Vì vậy không cần xử lý dữ liệu. Tập dữ liệu này gọi là tập A1

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng (Trang 54 - 58)

Tải bản đầy đủ (PDF)

(72 trang)