(i) Mô hình cây quyết định
Cây quyết định (DT) là một kiểu mô hình phân lớp các quan sát dựa vào dãy các luật. Mô hình này bao gồm một nút gốc (Root node), các nút bên trong (Internal node) và nút lá (Leaf node).Mỗi một nút trong DT tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó (đây chính là điều kiện hay luật để phân nhánh cho mỗi node).
Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu; các giá trị cho trước của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó.
Hình 3.1: Mô phỏng mô hình cây quyết định
Nguồn: Abdou (2011)
Cây quyết định được xây dựng bằng cách phân tách thuộc tính các giá trị tại mỗi nút dựa trên một thuộc tính đầu vào. Quá trình phân lớp sử dụng các thuộc tính phân tách được thực hiện liên tục cho tới khi gặp các nút lá (giá trị mục tiêu). Tập hợp các luật đường đi từ nút gốc tới nút lá sẽ xác định cho chúng ta các luật quyết định mà hàm mục tiêu trả về giá trị là mức độ rủi ro tương ứng với khách hàng.
Việc phân tách tại các nút sẽ được xác định theo chỉ số Gini với thuật toán CART (Classicification and Regression Tree).
Gini(D) = 1 – ∑ (𝑝𝑚 𝑖)2 𝑖=1
Trong đó:
- m là tổng số lớp
- 𝑝𝑖 là xác suất để 1 bộ bất kỳ trong D thuộc về lớp 𝐶𝑖
Mô hình cây quyết định là một phương pháp phân lớp rất hiệu quảvà dễ hiểu. Tuy nhiên, hiệu quả phân lớp củacây quyết định phụ thuộc rất lớn vào dữ liệu huấn luyện (training data). Do vậy, việc sử dụng một bộ dữ liệu lớn về lịch sử vay nợ của khách hàng là rất cần thiết để xây dựng mô hình cây quyết định đáng tin cậy.
(ii) Mô hình Random forest
Mô hình Random forest – rừng ngẫu nhiên: đây là phương pháp xây dựng một tập hợp rất nhiều cây quyết định để đưa ra quyết định về biến mục tiêu cần được dự báo. Trong
đó mỗi cây quyết định được tạo ra một cách ngẫu nhiên từ việc: tái chọn mẫu (boostrap, random sampling) và chỉ dùng một phần nhỏ tập biến ngẫu nhiên (random features) từ toàn bộ các biến trong dữ liệu. Ở trạng thái sau cùng, mô hình random forest thường hoạt động rất chính xác nhưng điểm bất lợi của thuật toán là ta không thể hiểu được cơ chế hoạt động bên trong của mô hình vì cấu trúc quá phức tạp. Mô hình Random forest do đó được xem là một trong những mô hình hộp đen (black box).
Hình 3.2: Mô phỏng mô hình random forest