Biến đổi dữ liệu, tính tốn sinh ra các bảng

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng (Trang 45 - 50)

CHƢƠNG 3 : THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK

3.6. Biến đổi dữ liệu, tính tốn sinh ra các bảng

Bảng khách hàng

Tên trƣờng Loại dữ liệu Mơ tả

MA_KHACH_HANG Kiểu ký tự Số định đanh trên Corebanking của khách hàng (CIF NO).

HO_TEN Kiểu ký tự Họ tên khách hàng

NGHE_NGHIEP Kiểu ký tự Nghề nghiệp của khách hàng XEP_LOAI_KHACH_HANG Kiểu ký tự Xếp loại khách hàng (Tốt, Trung

Binh, Xấu). Trong luận văn này lấy tất cả khách hàng đều cĩ được ngân hàng xếp loại Tốt.

GIOI_TINH Kiểu ký tự Giới tính (Nam, Nữ)

TUOI Kiểu số Tuổi

THU_NHAP_ON_DINH Kiểu ký tự Thu nhập cĩ ổn định khơng (Cĩ, khơng). Trong luận văn lấy tất cả khách hàng đều cĩ thu

nhập ổn định.

TT_HON_NHAN Kiểu ký tự Tình trạng hơn nhân (Đã kết hơn, chưa kết hơn)

CON_CAI Kiểu số Số con (1,2,3 ..)

CU_TRU Kiểu ký tự Tình trạng cư trú (Khu vực Trung tâm thành phố, KV1 thành phố, nơng thơn …)

Bảng hợp đồng vay: Bảng tổng hợp bản ghi hợp đồng vay, bảng này chứa hầu hết các thơng tin hợp đồng cho vay

Tên trƣờng Loại dữ liệu Mơ tả

MA_KHACH_HANG Kiểu ký tự Số định đanh trên Corebanking của khách hàng.

SO_HOP_DONG_VAY Kiểu ký tự Số hợp đồng cho vay

SO_TIEN_VAY Kiểu số Số tiền vay

MUC_DICH_VAY Kiểu ký tự Mục đích vay

GT_DAM_BAO

Kiểu ký tự Giá trị đảm bảo khoản vay (VD: Bất động sản, tín chấp bằng lương …)

CHI_SO_NHOM_NO

Kiểu ký tự Nhĩm nợ của khoản vay Tốt (nhĩm 1,2), Xấu (nhĩm 3,4,5..).

Bảng định mức hợp đồng vay: Bảng này quản lý chi tiết định mức cấp khoản vay căn cứ vào thu nhập, thời gian vay của hợp đồng vay.

Tên trƣờng Loại dữ liệu Mơ tả

MA_KHACH_HANG Kiểu ký tự Số định đanh trên Corebanking của khách hàng.

SO_HOP_DONG_VAY Kiểu ký tự Số hợp đồng cho vay DINH_MUC_DUOC_VAY Kiểu số Định mức được vay

3.7. Làm sạch dữ liệu

Xử lý outliers

 Loại bỏ những khoản vay kỳ hạn dưới 1 năm

 Loại bỏ những giao dịch liên quan đến thế chấp thương mại, bảo lãnh hải quan

 Loại bỏ các trường hợp cho vay ưu đãi với cán bộ nhân viên Ngân hàng Xử lý sai logic dữ liệu

 Xử lý null value & missing value

Giảm bớt dữ liệu

3.7.1.

Giảm bớt về biểu diễn các thuộc tính của dữ liệu, giảm bớt kích thước dữ liệu nhưng vẫn đảm bảo thu được các kết quả khai phá dữ liệu tương đương

Gom nhĩm dữ liệu là một trong những cách phổ biến để giảm kích thước dữ liệu:

 Gom thơng tin địa chỉ theo các khu vực

 Gom các hình thức nghề nghiệp

 Gom nhĩm tuổi

 Gom nhĩm định mức các khoản vay

3.8. Lựa chọn dữ liệu

Hình 3.8.1: Lựa chọn dữ liệu

Tiến hành chuyển đổi dữ liệu các trường dữ liệu được trong các bảng dữ liệu trên thành tập hợp dữ liệu như danh sách bên dưới như sau.

Bảng danh sách các trƣờng dữ liệu dùng để thực nghiệm

Tên trƣờng Loại dữ liệu Mơ tả

XEP_LOAI_KHACH_HANG Kiểu ký tự Xếp loại khách hàng (Tốt, Trung Bình, Xấu)

THU_NHAP_ON_DINH Kiểu ký tự Thu nhập cĩ ổn định khơng (Cĩ, khơng) TT_HON_NHAN Kiểu ký tự Tình trạng hơn nhân (Đã kết hơn,

chưa kết hơn)

CU_TRU Kiểu ký tự Tình trạng cư trú (Khu vực Trung tâm thành phố, KV1 thành phố, nơng thơn …)

TUOI Kiểu số Tuổi

NGHE_NGHIEP Kiểu ký tự Nghề nghiệp của khách hàng DINH_MUC_DUOC_VAY Kiểu số Định mức được vay

MUC_DICH_VAY Kiểu ký tự Mục đích vay

GT_DAM_BAO Kiểu ký tự Giá trị đảm bảo khoản vay (VD: Bất động sản, tín chấp bằng lương …) CHI_SO_NHOM_NO Kiểu ký tự Nhĩm nợ của khoản vay Tốt (nhĩm

1,2), Xấu (nhĩm 3,4,5..).

3.9. Tìm hiểu dữ liệu

Tìm hiểu chung về từng trường dữ liệu như: phân bố, các thống kê như min, max, range, median, mode, chất lượng dữ liệu như null, missing value, empty value, outliers, v.v. và quay lại bước trước nếu cần thiết.

Biểu diễn mối liên quan giữa các Field thuộc tính với thơng tin Chi_So_No (thơng tin phân loại nhĩm nợ Tốt/Xấu)

: Nợ xấu : Nợ Tốt

Hình 3.9.1: Biểu diễn dữ liệu

3.10. Lựa chọn thuật tốn

Trong khuơn khổ luận văn, cũng như các thuộc tính dữ liệu của rủi ro tín dụng thường là rời rạc và cĩ thể tập hợp vào danh sách các nhĩm miền giá trị nhất định.

Do đĩ tác giả lựa chọn đi sâu nghiên cứu 3 thuật tốn để áp dụng là:

 C4.5 – cây quyết định

 Apriori – luật kết hợp

 Nạve Bayes – tính xác suất điều kiện của các thơng tin đầu vào

Các thuật tốn này dùng để phân lớp dữ liệu & cĩ ưu điểm dễ mơ hình hĩa, tính trực quan cao, phù hợp với dữ liệu cĩ dải giá trị nhỏ

3.11. Lựa chọn cơng cụ

Trong khuơn khổ luận văn, tác giả chọn cơng cụ Weka - Waikato Environment for Knowledge Analysis

Weka là một bộ phần mềm học máy được phát triển tại Đại học Waikato, New Zealand. Chương trình được viết bằng Java. Nĩ chứa một bộ sưu tập các cơng cụ trực quan và các thuật tốn để phân tích dữ liệu và mơ hình tiên đốn kết hợp với giao diện người dùng đồ họa. Weka hỗ trợ một số nhiệm vụ Khai phá dữ liệu

tiêu chuẩn, cụ thể hơn, xử lý trước dữ liệu, phân cụm, phân loại, hồi quy, trực quan hĩa và lựa chọn tính năng.

Ngồi ra Weka cịn cung cấp giao tiếp API cho phép tích hợp bộ cơng cụ vào ứng dụng của doanh nghiệp. Và trong luận văn này, tác giả đã thực hiện tích hợp Weka API vào hệ thống Khảo sát tín dụng Survey360 của Ngân hàng Vietinbank

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng (Trang 45 - 50)

Tải bản đầy đủ (PDF)

(68 trang)