Thu thập và tiền xử lý dữ liệu

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phân tích và dự báo nợ xấu bằng mô hình cây quyết định hồi quy và mô hình Logit,Probi (Trang 83 - 90)

III.1 Xây dựng tập dữ liệu phục vụ xây dựng mô hình dự báo nợ xấu

2. Thu thập và tiền xử lý dữ liệu

2.1. Trích xuất dữ liệu từ kho dữ liệu thực tế của ngân hàng

Dữ liệu của hệ thống online trong ngân hàng thƣờng đƣợc lƣu trữ tại cơ sở dữ liệu của hệ thống lõi (corebanking). Các dữ liệu này chƣa đƣợc xử lý, loại bỏ dƣ thừa để xây dựng các báo cáo gửi ngân hàng nhà nƣớc. Chính vì thế, các dữ liệu này chính là các dữ liệu nguyên bản và có giá trị cao cho việc phân tích theo nhiều chiều khác nhau.

Cơ sở dữ liệu này thƣờng đƣợc lƣu trữ và xử lý trên hệ quản trị cơ sở dữ liệu oracle database. Các phiên bản của hệ quản trị này đƣợc sử dụng phổ biến hệ thống lõi của các ngân hàng là bản oracle 11g. Để có thể trích xuất dữ liệu từ cơ sở dữ liệu này, tác giả luận văn đã sử dụng bộ công cụ gold data export import

phiên bản 5.0.

Gold data export import là bộ công cụ rất tiện lợi và có tốc độ xử lý cao. File dữ liệu xuất ra từ hệ thống có thể đƣợc trình bày theo nhiều định dạng khác nhau

đặc biệt là cấu trúc CSV đƣợc dùng nhiều trong các chƣơng trình thao tác dữ liệu. Các chƣơng trình này có thể đƣợc viết bằng R, Python, và các ngôn ngữ bậc cao khác. Tốc độ export dữ liệu của những bảng có hàng triệu bản ghi chỉ cần tầm 15’. Bộ công cụ này hỗ trợ xuất dữ liệu theo từng bảng dữ liệu trên hệ thống lõi của ngân hang. Từ đó chúng ta có thể dễ dàng sử dụng các bảng dữ liệu theo những mục đích khác nhau ngày sau khi xuất dữ liệu mà không cần tiền xử lý thêm.

Ngoài ra, những dữ liệu không chứa trong hệ thống lõi của hệ thống ngân hàng nhƣ các chỉ số của nền kinh tế thì cần phải thu thập và chuẩn bị đầu vào phù hợp. Các dữ liệu này có thể thu thập từ các tập tin báo cáo của các tổ chức kiểm toán nhà nƣớc thông qua hệ thống báo chí, các trang chủ của các tổ chức kiểm toán. Khi thu thập các dữ liệu này cần xem xét tính công khai, minh bạch, đúng đắn của các số liệu này.

2.2. Tiền xử lý dữ liệu và xây dựng cơ sở dữ liệu

Sau khi xuất dữ liệu từ hệ thống lõi, tác giả luận văn đã thực hiện ba bƣớc sau đây để chuẩn bị dữ liệu cho việc xây dựng mô hình dự báo nợ xấu:

Bƣớc 1: Tạo các bảng dữ liệu và Cơ sở dữ liệu;

Bƣớc 2: Import dữ liệu từ các file vào các bảng dữ liệu trong Cơ sở dữ liệu; Bƣớc 3: Nhập liệu cho các bảng dữ liệu có chứa dữ liệu ngoài hệ thống lõi. Tập dữ liệu phục vụ xây dựng mô hình dự báo nợ xấu có tên là THESIS gồm 22 bảng và 5 thủ tục. Danh mục các bảng:

STT TÊN BẢNG MÔ TẢ

1 TBCS_BRCD Danh sách các chi nhánh và phòng giao dịch các cấp

2 TBCS_SIDCD Danh mục các nghành nghề, lĩnh vực kinh doanh 3 TBCM_GENERAL Thông tin chung khách hàng trên toàn hệ thống 4 TBCM_INDV Thông tin bổ của khách hàng cá nhân

5 TBCM_CORP Thông tin bổ xung khác hàng doanh nghiệp 6 TBCM_CUSTID Danh sách mã khách hàng

9 TBLN_CL Danh sách tài sản thế chấp

11 T_CODE Danh mục dùng chung

12 TBLN_CRDTANAL Danh sách kết quả xếp hạng khách hàng 13 TBLN_DSBS Danh sách giải ngân

14 TBLN_AQC_VN Danh sách phân loại nợ

15 TBLN_AUTH Lịch sử thẩm định hợp đồng tíng ụng

16 TBLN_APL Lịch sử áp dụng các điều khoản của hợp đồng tín dụng

17 TEMP_SPRT Danh sách lãi suất ứng với từng hợp đồng tín dụng

18 CUST_ANALYSISY Danh sách hợp đồng có kèm xếp hạng tín dụng của từng hợp đồng

19 INDV_COLLAP Thông tin khách hàng cá nhân bao gồm thông tin chung và thông tin về tài sản thế chấp

20 CORP_COLLAP Thông tin khách hàng doanh nghiệp bao gồm thông tin chung và thông tin về tài sản thế chấp 21 INDV_PREDICTORS Bảng dữ liệu nguồn dự báo cho khách hàng cá

nhân

22 CORP_PREDICTORS Bảng dữ liệu nguồn dự báo cho khách hàng công ty

Bảng 3.9: Danh sách các bảng nguồn dữ liệu dự báo

Bảng dữ liệu khách hàng chung:

Column Name Data Type Comments Primary

BRCD CHAR (4) Mã chi nhánh Y CUSTSEQ CHAR (9) Mã khách hàng Y TRDT CHAR (8) Ngày tạo

STSCD CHAR (2) Trạng thái bản ghi

CUSTSTSCD CHAR (2) Trạng thái khách hàng CTRYCDLOC CHAR (2) Quê quán

IDTPCDNATL CHAR (2) Loại quốc tịch IDNONATL VARCHAR2 (20) Số hộ chiếu

CUSTTPCD CHAR (3) Loại khách hàng

CUSTDTLTPCD CHAR (3) Loại khách hàng chi tiết FINAINSTTPCD CHAR (4) Loại tổ chức tài chính

BKCD VARCHAR2 (11) Mã ngân hàng RSDTFLGLOC CHAR (1) Resident Flag (Local)

OVERKORFLG CHAR (1) Việt kiều?

EMAILADDR VARCHAR2 (35) Địa chỉ email ADDRTPCDMAIL CHAR (2) Địa chỉ hòm thƣ OTHRBANK VARCHAR2 (30) Ngân hàng khác TAXTPCDLOC CHAR (4) Loại mã số thuế

BISRTCD CHAR (2) Mã lãi xuất cơ bản CRDTCARDVISA CHAR (1) Có thẻ Visa?

CRDTCARDMASTER CHAR (1) Có thẻ Master? CRDTCARDDINERS CHAR (1) Có thẻ Dinner?

CRDTCARDAMEX CHAR (1) Có thẻ Amex? CRDTCARDOTHRN

M VARCHAR2 (20) Có loại thẻ khác? REFNO VARCHAR2 (30) Mã sốt tham chiếu

REM VARCHAR2 (200) ghi chú

ECOMIST CHAR (2) Phân khúc khác hàng VIPFLG CHAR (1) Khách hàng VIP? TAXNO VARCHAR2 (20) Mã số thuế

Bảng dữ liệu khách hàng cá nhân: TBCM_INDV

Column Name Data Type Comments Primary

BRCD CHAR (4) Mã chi nhánh Y CUSTSEQ CHAR (9) Mã khách hàng Y STSCD CHAR (2) Tình trạng bản ghi

TRDT CHAR (8) Ngày tạo

CNCLDT CHAR (8) Ngày hủy

SEXTPCD CHAR (2) Giới tính SALUCD CHAR (2) Salutation Type

FRSTNM VARCHAR2 (30) Họ

MIDNM VARCHAR2 (30) Tên đệm

LASTNM VARCHAR2 (30) Tên

FRSTNMLOC VARCHAR2 (30) Họ địa phƣơng MIDNMLOC VARCHAR2 (30) Tên đệm địa phƣơng LASTNMLOC VARCHAR2 (30) Tên địa phƣơng PROFCD CHAR (2) Trình độ

INDVDTLTPCD CHAR (2) Loại khách hàng cán hân EMPRNM VARCHAR2 (50) Mã số nhân viên

DEPTNM VARCHAR2 (30) Bộ phận

PSTN VARCHAR2 (30) Chức danh

EMPDT CHAR (8) Ngày bắt đầu làm việc

RETRDT CHAR (8) Ngày nghỉ hƣu

BRTHDT CHAR (8) Ngày sinh CELEBRTHDT CHAR (8) Ngày kỷ niệm ngày sinh CALNTPCD CHAR (2) Âm lịch/ dƣơn lịch MRTSTSCD CHAR (2) Tình trạng hôn nhân

MRGDT CHAR (8) Ngày kết hôn HOUSSTSCD CHAR (2) Trạng thái nhà ở CCYCDMORT CHAR (3) Loại tiền thế chấp MORTAMT NUMBER (21,3) Giá trị tài sản thế chấp EDULVLCD CHAR (2) Trình độ học vấn CCYCDINDV CHAR (3) Loại tiền thu nhập INCMAMT NUMBER (21,3) Thu nhập

RLGNCD CHAR (2) Tôn giáo HBBY VARCHAR2 (30) Sở thích RACECD CHAR (2) Dân tộc DIALECT VARCHAR2 (20) Dialect CELPHNNO VARCHAR2 (20) Số điện thoại PAGRNO VARCHAR2 (20) Mã số sổ đỏ

CARNO VARCHAR2 (20) Mã số ô tô

EMPNO CHAR (9) Mã số nhân viên

SPSLNM VARCHAR2 (30) Spousal Name MARTLNM VARCHAR2 (30) Patronymic Name

SICDLOC CHAR (5)

Nghành nghề chuyên môn

PROFLVLCD CHAR (2) Cấp bậc ngành nghề HOUSSTTFLG CHAR (2) Chủ nhà thế chấp LANDTPCD CHAR (2) Loại đất LANDOWN VARCHAR2 (20) Quyền sử dụng đất LANDSQU NUMBER (13,7) Diện tích LANDUNT VARCHAR2 (20) Đơn vị

Bảng dữ liệu khách hàng công ty: TBCM_CORP

Column Name Data Type Comments Primary

BRCD CHAR (4) Mã chi nhánh Y

CUSTSEQ CHAR (9) Mã khách hàng Y STSCD CHAR (2) Tình trạng

TRDT CHAR (8) Ngày tạo

CNCLDT CHAR (8) Ngày hủy ORGATPCD CHAR (2) Loại công ty

OPERTPCD CHAR (2) Ngành nghề sản xuất kinh doanh HOLDPERC NUMBER (13,8) % chủ sở hữu

DBANM VARCHAR2 (30) DBA Name

DBANMLOC VARCHAR2 (30) DBA Name(Local)

REPRNM VARCHAR2 (50) Representative MAJPRDT VARCHAR2 (50) Sản phẩm chính

SICDLOC CHAR (5) Lĩnh vực kinh doanh BSNSSCLTPC

D CHAR (2) Lĩnh vực kinh doanh lớn REGCOMPFL

G CHAR (1) Đã đăng ký?

INCRDT CHAR (8) Ngày thành lập công ty FINAENDMO

N CHAR (2) Fiscal Year End (Month) SHARTOT NUMBER (13,0) Tổng số cổ phiếu

EMPYNO NUMBER (7,0) Tổng số nhân viên

CCYCDCORP CHAR (3) Loại tiền tính doanh thu thuần NTWRTHTOT NUMBER (21,3) Doanh thu thuần

NETSALS NUMBER (21,3) Doanh thu thuần bán hàng NTINCM NUMBER (21,3) Loại nhuận thuần

CTRYCDOPER CHAR (2) Quốc gia hoạt động CTRYCDPRNT

COMP CHAR (2) Quốc gia đặt công ty cha PRNTCOMPN

M VARCHAR2 (50) Tên công ty cha LOCNO NUMBER (7,0) Số lƣợng trụ sở OWNSHP VARCHAR2 (3) Chủ công ty LEGCPTA NUMBER (21,3) Vốn điều lệ ACTCPTA NUMBER (21,3) Vốn ròng

Các thủ tục làm tổng hợp và làm sạch dữ liệu:

STT TÊN THỦ TUC MÔ TẢ

1 GET_GENERAL_COLLAPSE Lấy danh sách hợp đồng tín dụng bao gồm: thông tin chung và tài sản thế chấp 2 GET_ANALYSIS Lấy danh sách hợp đồng tín dụng có chứa

xếp hạng tín dụng

3 GET_INDV_PREDICTORS Tạo tập dữ liệu dự báo cho các hợp đồng tín dụng cá nhân

4 GET_CORP_PREDICTORS Tạo tập dữ liệu dự báo cho các hợp đồng tín dụng doanh nghiệp

5 GET_SUMMARY Thống kê thông tin tổng hợp về dữ liệu

Bảng 3.10: Danh sách các thủ tục làm sạch dữ liệu

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phân tích và dự báo nợ xấu bằng mô hình cây quyết định hồi quy và mô hình Logit,Probi (Trang 83 - 90)

Tải bản đầy đủ (PDF)

(113 trang)