Phƣơng pháp lấy mẫu dữ liệu

Một phần của tài liệu Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng (Trang 58)

II. Một số thuật toán xây dựng cây

2. Phƣơng pháp lấy mẫu dữ liệu

Tập dữ liệu đôi khi phân bố không đồng đều điều này ảnh hưởng đến chất lượng học máy của thuật toán phân lớp. Có ba chiến lược lấy mẫu chính sau là giải pháp cho dữ liệu phân bố không đồng đều của các lớp.

a) Lấy mẫu lên: là việc tăng số ví dụ của lớp thiểu số trong tập dữ liệu làm cho tập dữ liệu cân bằng hơn. Một số phương pháp lấy mẫu lên phổ biến như sau:

Lấy mẫu lên ngẫu nhiên đơn giản (radom oversimpling): nhân đôi số ví dụ của lớp thiểu số trong tập dữ liệu ngẫu nhiên.

Lấy mẫu lên thiểu số nhân tạo: Chawla đưa ra một phương pháp lấy mẫu lên thông minh vào năm 2002, gọi là kỹ thuật lấy mẫu lên thiểu số nhân tạo (Synthetic Minority Over-sampling Technique – SMOTE). SMOTE thêm mới,

56 tạo ra các mẫu lớp thiểu số bằng ngoại suy giữa các ví dụ lớp thiểu số tồn tại từ trước hơn là đơn giản nhân đôi các ví dụ ban đầu. Kỹ thuật này trước hết tìm ra k hàng xóm lân cận của lớp thiểu số (khuyến cáo k=5). Các mẫu nhân tạo sau đó được sinh ra trong sự điều khiển của một số hoặc tất cả hàng xóm lân cận, phụ thuộc số lượng ví dụ lấy mẫu lên mong muốn.

Lấy mẫu lên SMOTE-đường biên: năm 2005, Han đưa ra một bản sửa đổi SMOTE của Chawla gọi là SMOTE – đường biên. Kỹ thuật này chọn các ví dụ thiểu số được xem xét trên đường biên của vùng quyết định thiểu số trong không gian đặc trưng và chỉ thực hiện SMOTE để lấy lên các ví dụ đó hơn là lấy tất cả hoặc một tập con ngẫu nhiên nào đó.

Lấy mẫu lên dựa vào cụm: có nhiều tập con các mẫu trong một lớp rời rạc trong không gian đặc trưng tạo thành sự không cân bằng trong lớp. Điều đó dẫn đến giảm giá trị phân lớp dữ liệu và lấy mẫu lên dựa vào cụm sẽ loại bỏ chúng mà không cần loại bỏ dữ liệu.

b)Lấy mẫu xuống (undersampling): là việc loại bớt các ví dụ của lớp đa số trong tập dữ liệu để tập dữ liệu có sự phân bố giữa các lớp đồng đều hơn. Một số phương pháp lấy mẫu phổ biến sau:

Lấy mẫu xuống ngẫu nhiên đơn giản (radom understampling) đơn giản là loại bỏ các ví dụ của lớp đa số trong tập dữ liệu một cách ngẫu nhiên để tập dữ liệu cân bằng hơn

Lựa chọn một mặt: năm 1997 Kubat & Matwin đề xuất một kỹ thuật gọi là lựa chọn một mặt. Lựa chọn một mặt lấy mẫu xuống của lớp đa số bằng cách loại bỏ bớt ví dụ của lớp đa số mà được coi như là dư thừa hoặc nhiễu

c) Kết hợp hai chiến lược trên:

Kết hợp hai phương pháp trên: thực hiện đồng thời lấy mẫu lên đối với lớp thiểu số và lấy mẫu xuống với mẫu đa số.

57 Trong các thực nghiệm, người ta thường áp dụng các kỹ thuật khai phá trên tập dữ liệu có kích thước nhỏ hơn tập dữ liệu của bài toán. Để bảo đảm kết quả không khác biệt so với khi sử dụng dữ liệu gốc của bài toán, một phương pháp lấy mẫu thường được sử dụng như sau:

Lấy mẫu kết hợp ngẫu nhiên: trong các thực nghiệm lấy mẫu lên hoặc xuống hoặc kết hợp của chúng cho thấy phương pháp lấy mẫu kết hợp thu được các kết quả tốt hơn.

Hợp nhất các lớp của tập dữ liệu

Trong bài toán dự đoán rủi ro tín dụng có 5 nhóm nợ tương ứng với 5 lớp cần dự đoán cho mỗi mẫu dữ liệu. Mặt khác, trong thực tế ngân hàng phân loại nợ thành 2 nhóm chính là nợ xấu và nợ tốt. Nợ xấu gồm nhóm 3,4,5. Nợ tốt gồm nhóm 1,2. Vì vậy tôi hợp nhất tập dữ liệu 5 lớp thành tập dữ liệu 2 lớp. Tập dữ liệu hợp nhất này gọi là tập A2

STT Lớp Số bản ghi Tỷ lệ trên tập dữ liệu (%)

1 1 1491 71.34% 2 2 276 13.21% 3 3 115 5.5% 4 4 133 6.36% 5 5 75 3.59% 6 Tổng 2090 100% Bảng 4.2. Tóm tắt tập dữ liệu A1

STT Lớp Số bản ghi Tỷ lệ trên tập dữ liệu (%)

1 1 1767 84.55%

2 2 323 15.45%

3 Tổng 2090 100%

Bảng 4.3. Tóm tắt tập dữ liệu A2

Một phần của tài liệu Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng (Trang 58)

Tải bản đầy đủ (PDF)

(72 trang)