III.1 Xây dựng tập dữ liệu phục vụ xây dựng mô hình dự báo nợ xấu
2. Thu thập và tiền xử lý dữ liệu
2.1. Trích xuất dữ liệu từ kho dữ liệu thực tế của ngân hàng
Dữ liệu của hệ thống online trong ngân hàng thƣờng đƣợc lƣu trữ tại cơ sở dữ liệu của hệ thống lõi (corebanking). Các dữ liệu này chƣa đƣợc xử lý, loại bỏ dƣ thừa để xây dựng các báo cáo gửi ngân hàng nhà nƣớc. Chính vì thế, các dữ liệu này chính là các dữ liệu nguyên bản và có giá trị cao cho việc phân tích theo nhiều chiều khác nhau.
Cơ sở dữ liệu này thƣờng đƣợc lƣu trữ và xử lý trên hệ quản trị cơ sở dữ liệu oracle database. Các phiên bản của hệ quản trị này đƣợc sử dụng phổ biến hệ thống lõi của các ngân hàng là bản oracle 11g. Để có thể trích xuất dữ liệu từ cơ sở dữ liệu này, tác giả luận văn đã sử dụng bộ công cụ gold data export import
phiên bản 5.0.
Gold data export import là bộ công cụ rất tiện lợi và có tốc độ xử lý cao. File dữ liệu xuất ra từ hệ thống có thể đƣợc trình bày theo nhiều định dạng khác nhau
đặc biệt là cấu trúc CSV đƣợc dùng nhiều trong các chƣơng trình thao tác dữ liệu. Các chƣơng trình này có thể đƣợc viết bằng R, Python, và các ngôn ngữ bậc cao khác. Tốc độ export dữ liệu của những bảng có hàng triệu bản ghi chỉ cần tầm 15’. Bộ công cụ này hỗ trợ xuất dữ liệu theo từng bảng dữ liệu trên hệ thống lõi của ngân hang. Từ đó chúng ta có thể dễ dàng sử dụng các bảng dữ liệu theo những mục đích khác nhau ngày sau khi xuất dữ liệu mà không cần tiền xử lý thêm.
Ngoài ra, những dữ liệu không chứa trong hệ thống lõi của hệ thống ngân hàng nhƣ các chỉ số của nền kinh tế thì cần phải thu thập và chuẩn bị đầu vào phù hợp. Các dữ liệu này có thể thu thập từ các tập tin báo cáo của các tổ chức kiểm toán nhà nƣớc thông qua hệ thống báo chí, các trang chủ của các tổ chức kiểm toán. Khi thu thập các dữ liệu này cần xem xét tính công khai, minh bạch, đúng đắn của các số liệu này.
2.2. Tiền xử lý dữ liệu và xây dựng cơ sở dữ liệu
Sau khi xuất dữ liệu từ hệ thống lõi, tác giả luận văn đã thực hiện ba bƣớc sau đây để chuẩn bị dữ liệu cho việc xây dựng mô hình dự báo nợ xấu:
Bƣớc 1: Tạo các bảng dữ liệu và Cơ sở dữ liệu;
Bƣớc 2: Import dữ liệu từ các file vào các bảng dữ liệu trong Cơ sở dữ liệu; Bƣớc 3: Nhập liệu cho các bảng dữ liệu có chứa dữ liệu ngoài hệ thống lõi. Tập dữ liệu phục vụ xây dựng mô hình dự báo nợ xấu có tên là THESIS gồm 22 bảng và 5 thủ tục. Danh mục các bảng:
STT TÊN BẢNG MÔ TẢ
1 TBCS_BRCD Danh sách các chi nhánh và phòng giao dịch các cấp
2 TBCS_SIDCD Danh mục các nghành nghề, lĩnh vực kinh doanh 3 TBCM_GENERAL Thông tin chung khách hàng trên toàn hệ thống 4 TBCM_INDV Thông tin bổ của khách hàng cá nhân
5 TBCM_CORP Thông tin bổ xung khác hàng doanh nghiệp 6 TBCM_CUSTID Danh sách mã khách hàng
9 TBLN_CL Danh sách tài sản thế chấp
11 T_CODE Danh mục dùng chung
12 TBLN_CRDTANAL Danh sách kết quả xếp hạng khách hàng 13 TBLN_DSBS Danh sách giải ngân
14 TBLN_AQC_VN Danh sách phân loại nợ
15 TBLN_AUTH Lịch sử thẩm định hợp đồng tíng ụng
16 TBLN_APL Lịch sử áp dụng các điều khoản của hợp đồng tín dụng
17 TEMP_SPRT Danh sách lãi suất ứng với từng hợp đồng tín dụng
18 CUST_ANALYSISY Danh sách hợp đồng có kèm xếp hạng tín dụng của từng hợp đồng
19 INDV_COLLAP Thông tin khách hàng cá nhân bao gồm thông tin chung và thông tin về tài sản thế chấp
20 CORP_COLLAP Thông tin khách hàng doanh nghiệp bao gồm thông tin chung và thông tin về tài sản thế chấp 21 INDV_PREDICTORS Bảng dữ liệu nguồn dự báo cho khách hàng cá
nhân
22 CORP_PREDICTORS Bảng dữ liệu nguồn dự báo cho khách hàng công ty
Bảng 3.9: Danh sách các bảng nguồn dữ liệu dự báo
Bảng dữ liệu khách hàng chung:
Column Name Data Type Comments Primary
BRCD CHAR (4) Mã chi nhánh Y CUSTSEQ CHAR (9) Mã khách hàng Y TRDT CHAR (8) Ngày tạo
STSCD CHAR (2) Trạng thái bản ghi
CUSTSTSCD CHAR (2) Trạng thái khách hàng CTRYCDLOC CHAR (2) Quê quán
IDTPCDNATL CHAR (2) Loại quốc tịch IDNONATL VARCHAR2 (20) Số hộ chiếu
CUSTTPCD CHAR (3) Loại khách hàng
CUSTDTLTPCD CHAR (3) Loại khách hàng chi tiết FINAINSTTPCD CHAR (4) Loại tổ chức tài chính
BKCD VARCHAR2 (11) Mã ngân hàng RSDTFLGLOC CHAR (1) Resident Flag (Local)
OVERKORFLG CHAR (1) Việt kiều?
EMAILADDR VARCHAR2 (35) Địa chỉ email ADDRTPCDMAIL CHAR (2) Địa chỉ hòm thƣ OTHRBANK VARCHAR2 (30) Ngân hàng khác TAXTPCDLOC CHAR (4) Loại mã số thuế
BISRTCD CHAR (2) Mã lãi xuất cơ bản CRDTCARDVISA CHAR (1) Có thẻ Visa?
CRDTCARDMASTER CHAR (1) Có thẻ Master? CRDTCARDDINERS CHAR (1) Có thẻ Dinner?
CRDTCARDAMEX CHAR (1) Có thẻ Amex? CRDTCARDOTHRN
M VARCHAR2 (20) Có loại thẻ khác? REFNO VARCHAR2 (30) Mã sốt tham chiếu
REM VARCHAR2 (200) ghi chú
ECOMIST CHAR (2) Phân khúc khác hàng VIPFLG CHAR (1) Khách hàng VIP? TAXNO VARCHAR2 (20) Mã số thuế
Bảng dữ liệu khách hàng cá nhân: TBCM_INDV
Column Name Data Type Comments Primary
BRCD CHAR (4) Mã chi nhánh Y CUSTSEQ CHAR (9) Mã khách hàng Y STSCD CHAR (2) Tình trạng bản ghi
TRDT CHAR (8) Ngày tạo
CNCLDT CHAR (8) Ngày hủy
SEXTPCD CHAR (2) Giới tính SALUCD CHAR (2) Salutation Type
FRSTNM VARCHAR2 (30) Họ
MIDNM VARCHAR2 (30) Tên đệm
LASTNM VARCHAR2 (30) Tên
FRSTNMLOC VARCHAR2 (30) Họ địa phƣơng MIDNMLOC VARCHAR2 (30) Tên đệm địa phƣơng LASTNMLOC VARCHAR2 (30) Tên địa phƣơng PROFCD CHAR (2) Trình độ
INDVDTLTPCD CHAR (2) Loại khách hàng cán hân EMPRNM VARCHAR2 (50) Mã số nhân viên
DEPTNM VARCHAR2 (30) Bộ phận
PSTN VARCHAR2 (30) Chức danh
EMPDT CHAR (8) Ngày bắt đầu làm việc
RETRDT CHAR (8) Ngày nghỉ hƣu
BRTHDT CHAR (8) Ngày sinh CELEBRTHDT CHAR (8) Ngày kỷ niệm ngày sinh CALNTPCD CHAR (2) Âm lịch/ dƣơn lịch MRTSTSCD CHAR (2) Tình trạng hôn nhân
MRGDT CHAR (8) Ngày kết hôn HOUSSTSCD CHAR (2) Trạng thái nhà ở CCYCDMORT CHAR (3) Loại tiền thế chấp MORTAMT NUMBER (21,3) Giá trị tài sản thế chấp EDULVLCD CHAR (2) Trình độ học vấn CCYCDINDV CHAR (3) Loại tiền thu nhập INCMAMT NUMBER (21,3) Thu nhập
RLGNCD CHAR (2) Tôn giáo HBBY VARCHAR2 (30) Sở thích RACECD CHAR (2) Dân tộc DIALECT VARCHAR2 (20) Dialect CELPHNNO VARCHAR2 (20) Số điện thoại PAGRNO VARCHAR2 (20) Mã số sổ đỏ
CARNO VARCHAR2 (20) Mã số ô tô
EMPNO CHAR (9) Mã số nhân viên
SPSLNM VARCHAR2 (30) Spousal Name MARTLNM VARCHAR2 (30) Patronymic Name
SICDLOC CHAR (5)
Nghành nghề chuyên môn
PROFLVLCD CHAR (2) Cấp bậc ngành nghề HOUSSTTFLG CHAR (2) Chủ nhà thế chấp LANDTPCD CHAR (2) Loại đất LANDOWN VARCHAR2 (20) Quyền sử dụng đất LANDSQU NUMBER (13,7) Diện tích LANDUNT VARCHAR2 (20) Đơn vị
Bảng dữ liệu khách hàng công ty: TBCM_CORP
Column Name Data Type Comments Primary
BRCD CHAR (4) Mã chi nhánh Y
CUSTSEQ CHAR (9) Mã khách hàng Y STSCD CHAR (2) Tình trạng
TRDT CHAR (8) Ngày tạo
CNCLDT CHAR (8) Ngày hủy ORGATPCD CHAR (2) Loại công ty
OPERTPCD CHAR (2) Ngành nghề sản xuất kinh doanh HOLDPERC NUMBER (13,8) % chủ sở hữu
DBANM VARCHAR2 (30) DBA Name
DBANMLOC VARCHAR2 (30) DBA Name(Local)
REPRNM VARCHAR2 (50) Representative MAJPRDT VARCHAR2 (50) Sản phẩm chính
SICDLOC CHAR (5) Lĩnh vực kinh doanh BSNSSCLTPC
D CHAR (2) Lĩnh vực kinh doanh lớn REGCOMPFL
G CHAR (1) Đã đăng ký?
INCRDT CHAR (8) Ngày thành lập công ty FINAENDMO
N CHAR (2) Fiscal Year End (Month) SHARTOT NUMBER (13,0) Tổng số cổ phiếu
EMPYNO NUMBER (7,0) Tổng số nhân viên
CCYCDCORP CHAR (3) Loại tiền tính doanh thu thuần NTWRTHTOT NUMBER (21,3) Doanh thu thuần
NETSALS NUMBER (21,3) Doanh thu thuần bán hàng NTINCM NUMBER (21,3) Loại nhuận thuần
CTRYCDOPER CHAR (2) Quốc gia hoạt động CTRYCDPRNT
COMP CHAR (2) Quốc gia đặt công ty cha PRNTCOMPN
M VARCHAR2 (50) Tên công ty cha LOCNO NUMBER (7,0) Số lƣợng trụ sở OWNSHP VARCHAR2 (3) Chủ công ty LEGCPTA NUMBER (21,3) Vốn điều lệ ACTCPTA NUMBER (21,3) Vốn ròng
Các thủ tục làm tổng hợp và làm sạch dữ liệu:
STT TÊN THỦ TUC MÔ TẢ
1 GET_GENERAL_COLLAPSE Lấy danh sách hợp đồng tín dụng bao gồm: thông tin chung và tài sản thế chấp 2 GET_ANALYSIS Lấy danh sách hợp đồng tín dụng có chứa
xếp hạng tín dụng
3 GET_INDV_PREDICTORS Tạo tập dữ liệu dự báo cho các hợp đồng tín dụng cá nhân
4 GET_CORP_PREDICTORS Tạo tập dữ liệu dự báo cho các hợp đồng tín dụng doanh nghiệp
5 GET_SUMMARY Thống kê thông tin tổng hợp về dữ liệu
Bảng 3.10: Danh sách các thủ tục làm sạch dữ liệu