CHƯƠNG 2 PHƯƠNG PHÁP NGHIÊN CỨU THIẾT KẾ LUẬN VĂN
2.2. Phương pháp thu thập dữ liệu
2.2.2. Mô tả quá trình thu thập dữ liệu
Bước 1. Xây dựng yêu cầu đầy đủ về dữ liệu cần thu thập
Thời gian thực hiện: tháng 9/2013
Sau khi nghiên cứu phương pháp luận về mô hình logistic, xây dựng mô hình, các yêu cầu về đo lường PD của Basel II, tác giả thiết kế xây dựng yêu cầu đầy đủ về dữ liệu cần thu thập gồm các nội dung chính sau:
Định nghĩa khách hàng không trả được nợ (sau đây gọi là khách hàng default) Các yêu cầu đầy đủ về dữ liệu là bước đầu tiên của quá trình thu thập dữ liệu. Đối với việc xác định PD của một khách hàng thì đầu tiên cần đưa ra khái niệm khách hàng không trả được nợ để phân biệt khách hàng tốt và khách hàng xấu.
Lập danh sách các thông tin cần thu thập
Nhằm dự đoán khả năng một khách hàng không trả được nợ, các thông tin cần thu thập gồm:
- Tình trạng không trả được nợ của khách hàng; - Tên, số CIF của khách hàng;
- Thông tin tài chính từ Báo cáo tài chính (Bảng cân đối kế toán, Báo cáo kết quả hoạt động kinh doanh, Báo cáo lưu chuyển tiền tệ);
- Thông tin phi tài chính (Ví dụ: Năng lực quản lý, Triển vọng ngành, Thời gian hoạt động của doanh nghiệp,v.v…)
Bước 2: Thiết kế và gửi Bảng mẫu thu thập thông tin khách hàng
Thời gian thực hiện thiết kế và gửi Bảng mẫu thu thập thông tin khách hàng: tháng 10/2013
Nguồn thu thập dữ liệu:
Hiện trạng dữ liệu: Ngân hàng đã áp dụng ba bộ chỉ tiêu (BCT) khác nhau từ cuối năm 2007.
Chi nhánh và phòng QLNCVĐ.
- Trung tâm CNTT: Dữ liệu được thu thập từ trung tâm CNTT, bao gồm thông tin về trạng thái không trả được nợ, báo cáo tài chính và các dữ liệu phi tài chính trong hệ thống xếp hạng tín dụng nội bộ từ cuối năm 2008 đến nay.
- Phòng QLNCVĐ: dữ liệu phân loại nợ từ năm 2008 đến tháng 6/2013.
- 151 Chi nhánh: Dữ liệu được thu thập từ các chi nhánh có khách hàng nợ xấu từ 2008 đến nay, bao gồm báo cáo tài chính, Hồ sơ cho vay, Báo cáo xếp hạng tín dụng khách hàng của các khách hàng nợ xấu.
Thời gian các đơn vị gửi thông tin thu thập: từ tháng 10/2013 đến tháng 1/2014.
Quản lý dữ liệu thu thập:
Dữ liệu thu thập mỗi khách hàng được lưu thành một mục riêng, lưu trữ trong máy tính.
Quản lý dữ liệu thu thập được từ các đơn vị lưu trữ theo thư mục:
Thư mục cấp 1 Thư mục cấp 2 Thư mục cấp 3 Thư mục cấp 4
1. Data collection Branch 122 (Chi nhánh mã 122) 106 (Chi nhánh mã 106) .... 122_NVT (mã chi nhánh_Tên cán bộ thực hiện)
TTCNTT File dữ liệu thu thập từ TTCNTT
NPL Các file dữ liệu phân loại nợ theo từng tháng
Bước 3: Làm sạch và tổng hợp dữ liệu
Thời gian thực hiện từ tháng 10/2013 đến tháng 3/2014.
Thực hiện làm sạch dữ liệu thu thập từ TTCNTT và 146 Chi nhánh (trong tổng số 151 Chi nhánh) theo các phương pháp, nguyên tắc làm sạch đã thiết kế.
Thực hiện tổng hợp báo cáo phân loại nợ từ báo cáo phân loại nợ từng tháng, sử dụng công cụ Microsoft excel để lọc khách hàng default (là khách hàng có phân loại nợ nhóm 3,4,5) và khách hàng không default (là khách hàng có phân loại nợ
nhóm 1,2). Đối với khách hàng default, tiếp tục lọc dữ liệu để tìm ra thời gian chuyển nợ xấu đầu tiên.
Liên kết dữ liệu phân loại nợ để gắn chỉ báo default cho mỗi khách hàng, tạo file tổng hợp dữ liệu đầy đủ.
Thực hiện và quản lý dữ liệu làm sạch:
- Các file được lưu trữ trong các tập file riêng và mỗi tập file được gắn danh sách tên chi nhánh, ID của chi nhánh và danh mục khách hàng tương ứng. Danh mục khách hàng và chi nhánh giúp công tác theo dõi dễ dàng hơn trong quá trình thực hiện. Danh mục này được gắn kèm file Control sheet. File “Số lượng sample cần check” nêu rõ số file cần phải kiểm tra cho từng chi nhánh.
- File dữ liệu cho một chi nhánh được đặt tên với cấu trúc: ID của chi nhánh. Sau đó thực hiện tổng hợp toàn bộ các file.
- Dữ liệu tổng hợp được lưu trữ thành 1 thư mục riêng theo cấp độ:
Thư mục cấp 1
Thư mục cấp 2 Thư mục cấp 3 File
2. Conso data Branch Branch 112 .... Branch_conso Allbranch_Data (file tổng hợp các chi nhánh) Số lượng sample cần check.... TTCNTT CNTT NPL NPL_Conso File tổng hợp tất cả dữ liệu 2.Data_Conso
Bước 4. Phân khúc cho mục đích thu thập dữ liệu và chọn mẫu dữ liệu
Thời gian thực hiện: tháng 3/2013 Phân khúc khách hàng:
điểm của hệ thống xếp hạng tín dụng nội bộ hiện tại, thực hiện phân khúc khách hàng. Trong đó, với những ngành mà số lượng khách hàng default không đủ thì nhóm những ngành tương tự nhau thành 1 phân khúc.
Sau quá trình phân khúc dữ liệu, các ngành ban đầu được phân khúc thành 7 nhóm khách hàng, chi tiết xem Phụ lục 03 – Nhóm ngành.
Chọn mẫu dữ liệu cho từng phân khúc
Với mỗi phân khúc khách hàng thực hiện lựa chọn mẫu phân tích đảm bảo tỷ lệ khách hàng default/khách hàng không default là 1:4 với kích thước mẫu thiết kế là 500 khách hàng, cho phép sai khác 10% với trường hợp dữ liệu khách hàng default ở mỗi mẫu không đủ 100 khách hàng do những hạn chế về dữ liệu.
Quản lý dữ liệu
Dữ liệu phân khúc và chọn mẫu được lưu thư mục riêng:
Thư mục cấp 1 Thư mục cấp 2 File
3. Sample
Classification 3.Data_Services (dữ liệu ngành Dịch vụ) ....
Sample 3. Sample_Services (mẫu lựa chọn ngành Dịch vụ) ...