CHƢƠNG 3 : THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK
3.6. Biến đổi dữ liệu, tính tốn sinh ra các bảng
Bảng khách hàng
Tên trƣờng Loại dữ liệu Mơ tả
MA_KHACH_HANG Kiểu ký tự Số định đanh trên Corebanking của khách hàng (CIF NO).
HO_TEN Kiểu ký tự Họ tên khách hàng
NGHE_NGHIEP Kiểu ký tự Nghề nghiệp của khách hàng XEP_LOAI_KHACH_HANG Kiểu ký tự Xếp loại khách hàng (Tốt, Trung
Binh, Xấu). Trong luận văn này lấy tất cả khách hàng đều cĩ được ngân hàng xếp loại Tốt.
GIOI_TINH Kiểu ký tự Giới tính (Nam, Nữ)
TUOI Kiểu số Tuổi
THU_NHAP_ON_DINH Kiểu ký tự Thu nhập cĩ ổn định khơng (Cĩ, khơng). Trong luận văn lấy tất cả khách hàng đều cĩ thu
nhập ổn định.
TT_HON_NHAN Kiểu ký tự Tình trạng hơn nhân (Đã kết hơn, chưa kết hơn)
CON_CAI Kiểu số Số con (1,2,3 ..)
CU_TRU Kiểu ký tự Tình trạng cư trú (Khu vực Trung tâm thành phố, KV1 thành phố, nơng thơn …)
Bảng hợp đồng vay: Bảng tổng hợp bản ghi hợp đồng vay, bảng này chứa hầu hết các thơng tin hợp đồng cho vay
Tên trƣờng Loại dữ liệu Mơ tả
MA_KHACH_HANG Kiểu ký tự Số định đanh trên Corebanking của khách hàng.
SO_HOP_DONG_VAY Kiểu ký tự Số hợp đồng cho vay
SO_TIEN_VAY Kiểu số Số tiền vay
MUC_DICH_VAY Kiểu ký tự Mục đích vay
GT_DAM_BAO
Kiểu ký tự Giá trị đảm bảo khoản vay (VD: Bất động sản, tín chấp bằng lương …)
CHI_SO_NHOM_NO
Kiểu ký tự Nhĩm nợ của khoản vay Tốt (nhĩm 1,2), Xấu (nhĩm 3,4,5..).
Bảng định mức hợp đồng vay: Bảng này quản lý chi tiết định mức cấp khoản vay căn cứ vào thu nhập, thời gian vay của hợp đồng vay.
Tên trƣờng Loại dữ liệu Mơ tả
MA_KHACH_HANG Kiểu ký tự Số định đanh trên Corebanking của khách hàng.
SO_HOP_DONG_VAY Kiểu ký tự Số hợp đồng cho vay DINH_MUC_DUOC_VAY Kiểu số Định mức được vay
3.7. Làm sạch dữ liệu
Xử lý outliers
Loại bỏ những khoản vay kỳ hạn dưới 1 năm
Loại bỏ những giao dịch liên quan đến thế chấp thương mại, bảo lãnh hải quan
Loại bỏ các trường hợp cho vay ưu đãi với cán bộ nhân viên Ngân hàng Xử lý sai logic dữ liệu
Xử lý null value & missing value
Giảm bớt dữ liệu
3.7.1.
Giảm bớt về biểu diễn các thuộc tính của dữ liệu, giảm bớt kích thước dữ liệu nhưng vẫn đảm bảo thu được các kết quả khai phá dữ liệu tương đương
Gom nhĩm dữ liệu là một trong những cách phổ biến để giảm kích thước dữ liệu:
Gom thơng tin địa chỉ theo các khu vực
Gom các hình thức nghề nghiệp
Gom nhĩm tuổi
Gom nhĩm định mức các khoản vay
3.8. Lựa chọn dữ liệu
Hình 3.8.1: Lựa chọn dữ liệu
Tiến hành chuyển đổi dữ liệu các trường dữ liệu được trong các bảng dữ liệu trên thành tập hợp dữ liệu như danh sách bên dưới như sau.
Bảng danh sách các trƣờng dữ liệu dùng để thực nghiệm
Tên trƣờng Loại dữ liệu Mơ tả
XEP_LOAI_KHACH_HANG Kiểu ký tự Xếp loại khách hàng (Tốt, Trung Bình, Xấu)
THU_NHAP_ON_DINH Kiểu ký tự Thu nhập cĩ ổn định khơng (Cĩ, khơng) TT_HON_NHAN Kiểu ký tự Tình trạng hơn nhân (Đã kết hơn,
chưa kết hơn)
CU_TRU Kiểu ký tự Tình trạng cư trú (Khu vực Trung tâm thành phố, KV1 thành phố, nơng thơn …)
TUOI Kiểu số Tuổi
NGHE_NGHIEP Kiểu ký tự Nghề nghiệp của khách hàng DINH_MUC_DUOC_VAY Kiểu số Định mức được vay
MUC_DICH_VAY Kiểu ký tự Mục đích vay
GT_DAM_BAO Kiểu ký tự Giá trị đảm bảo khoản vay (VD: Bất động sản, tín chấp bằng lương …) CHI_SO_NHOM_NO Kiểu ký tự Nhĩm nợ của khoản vay Tốt (nhĩm
1,2), Xấu (nhĩm 3,4,5..).
3.9. Tìm hiểu dữ liệu
Tìm hiểu chung về từng trường dữ liệu như: phân bố, các thống kê như min, max, range, median, mode, chất lượng dữ liệu như null, missing value, empty value, outliers, v.v. và quay lại bước trước nếu cần thiết.
Biểu diễn mối liên quan giữa các Field thuộc tính với thơng tin Chi_So_No (thơng tin phân loại nhĩm nợ Tốt/Xấu)
: Nợ xấu : Nợ Tốt
Hình 3.9.1: Biểu diễn dữ liệu
3.10. Lựa chọn thuật tốn
Trong khuơn khổ luận văn, cũng như các thuộc tính dữ liệu của rủi ro tín dụng thường là rời rạc và cĩ thể tập hợp vào danh sách các nhĩm miền giá trị nhất định.
Do đĩ tác giả lựa chọn đi sâu nghiên cứu 3 thuật tốn để áp dụng là:
C4.5 – cây quyết định
Apriori – luật kết hợp
Nạve Bayes – tính xác suất điều kiện của các thơng tin đầu vào
Các thuật tốn này dùng để phân lớp dữ liệu & cĩ ưu điểm dễ mơ hình hĩa, tính trực quan cao, phù hợp với dữ liệu cĩ dải giá trị nhỏ
3.11. Lựa chọn cơng cụ
Trong khuơn khổ luận văn, tác giả chọn cơng cụ Weka - Waikato Environment for Knowledge Analysis
Weka là một bộ phần mềm học máy được phát triển tại Đại học Waikato, New Zealand. Chương trình được viết bằng Java. Nĩ chứa một bộ sưu tập các cơng cụ trực quan và các thuật tốn để phân tích dữ liệu và mơ hình tiên đốn kết hợp với giao diện người dùng đồ họa. Weka hỗ trợ một số nhiệm vụ Khai phá dữ liệu
tiêu chuẩn, cụ thể hơn, xử lý trước dữ liệu, phân cụm, phân loại, hồi quy, trực quan hĩa và lựa chọn tính năng.
Ngồi ra Weka cịn cung cấp giao tiếp API cho phép tích hợp bộ cơng cụ vào ứng dụng của doanh nghiệp. Và trong luận văn này, tác giả đã thực hiện tích hợp Weka API vào hệ thống Khảo sát tín dụng Survey360 của Ngân hàng Vietinbank