Imbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoring
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM
Trang 2Công trình được hoàn thành tại: Trường Đại học Kinh tế TP Hồ Chí Minh Người hướng dẫn khoa học: PGS.TS Lê Xuân Trường, TS Tạ Quốc Bảo
Phản biện 1: ………
Phản biện 2: ………
Phản biện 3: ………
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp trường họp tại: ………
………
Vào hồi…… giờ… … ngày.… tháng… năm………
Có thể tìm hiểu luận án tại thư viện: ………
………
Trang 3DANH MỤC CÁC CÔNG TRÌNH NGHIÊN CỨU CỦA TÁC GIẢ
LIÊN QUAN ĐẾN LUẬN ÁN
1 My, B T T & An, L T T (2022) TOUS: A new technique for
imbalanced data classification Studies in systems, Decision and
Control, Vol 429, 595 – 612 Springer
2 My, B T T & Bao Q T (2023) An interpretable decision tree
ensemble model for imbalanced credit scoring datasets Journal of
Intelligent & Fuzzy Systems, Vol 45, No 6, 10853 – 10864
3 My, B T T & Bao Q T (2023) A modification of logistic regression with imbalanced data: F-measure-oriented Lasso-Logistic regression
ScienceAsia, 49S, 68 – 77
Trang 4đó, các hình mẫu này, thể hiện qua các mô hình phân loại đã được huấn luyện,
sẽ đưa ra dự đoán về nhãn của các mẫu mới
Phân loại được phân thành hai loại, nhị phân và đa phân loại Phân loại nhị phân là loại cơ bản
Định nghĩa 1.1.1 Một tập hợp có 𝑘 đặc tính đầu vào cho bài toán phân loại nhị
phân là tập hợp các phần tử 𝑆 = 𝑋 × 𝑌, với 𝑋 ⊂ ℝ𝑘 là tập hợp mô tả các đặc tính của các phần tử và 𝑌 = {0, 1} là tập hợp các nhãn
Tập hợp con gồm các phần tử có nhãn 1 được gọi là lớp dương tính, kí hiệu là
𝑆+ Tập hợp con còn lại được gọi là lớp âm tính, kí hiệu là 𝑆−
Định nghĩa 1.1.2 Một bộ phân loại nhị phân là một hàm từ tập các đặc tính 𝑋
vào tập hợp các nhãn {0, 1}
Trong nhiều ứng dụng với nhóm dương và âm tính cân bằng, độ chính xác
là thước đo quan trọng nhất của mỗi bộ phân loại Tuy nhiên, khi tập dữ liệu có chứa các phần tử dương tính với số lượng khá ít, các bộ phân loại thông thường rất khó nhận diện đúng nhóm dương tính Trong những tình huống như thế, cái giá của việc phân loại sai thường khá lớn Do đó, độ chính xác không còn là thước đo quan trọng nhất Hiện tượng phân phối chệch trong tập tập huấn luyện
được gọi là dữ liệu không cân bằng (ID)
1.2 Động lực nghiên cứu
Khi tập dữ liệu huấn luyện bị mất cân bằng, các bộ phân loại đơn giản thường có độ chính xác rất cao nhưng tỷ lệ dương tính thực (TPR) lại thấp Các phân loại này nhằm mục đích tối đa hóa độ chính xác, từ đó đánh đồng tổn thất
do lỗi loại I và lỗi loại II (Shen và cộng sự, 2019) Vì vậy, kết quả phân loại thường thiên về lớp lớp đa số (là lớp âm tính) (Galar và cộng sự, 2011; Haixiang
và cộng sự, 2017) Trong trường hợp dữ liệu mất cân bằng nghiêm trọng, lớp thiểu số (lớp dương tính) thường bị bỏ qua vì các bộ phân loại thông thường thường coi nó là nhiễu hoặc ngoại lai Do đó, mục tiêu nhận ra lớp dương tính không thành công Do đó, dữ liệu không cân bằng là một thách thức trong bài toán phân loại
Một trường hợp điển hình của bài toán phân loại không cân bằng là đánh giá tín dụng Tại Việt Nam, các ngân hàng thương mại hiện nay đã có ý thức quản lý rủi ro tín dụng bằng các quy trình thẩm định tín dụng chặt chẽ trước khi cấp vốn Trong nghiên cứu học thuật, chấm điểm tín nhiệm đã thu hút nhiều tác giả (Bình & Anh, 2021; Hưng & Trang, 2018; Quỳnh, Anh, & Linh, 2018;
Trang 5Thắng, 2022) Tuy nhiên, rất ít công trình giải quyết được vấn đề mất cân bằng (Mỹ, 2021)
Những tồn tại trên đã thôi thúc chúng tôi nghiên cứu luận án “Bài toán phân loại với dữ liệu không cân bằng: Nghiên cứu tình huống đánh giá tín dụng” nhằm tìm giải pháp hợp lý cho bài toán phân loại vướng phải các vấn đề: dữ liệu không cân bằng và các vấn đề liên quan, đặc biệt là nghiên cứu tình huống đánh giá tín dụng tại Việt Nam
1.3 Xác định khoảng trống nghiên cứu
1.3.1 Khoảng trống nghiên cứu trong đánh giá tín dụng
Một mô hình đánh giá tín dụng phải thoả hai yêu cầu quan trọng, đó là: i) khả năng phân loại chính xác các khách hàng xấu; và ii) khả năng dễ giải thích kết quả dự báo của bộ phân loại
Yêu cầu thứ nhất đã được giải quyết bằng sự phát triển các phương pháp
để nâng cao hiệu quả của các mô hình đánh giá tín dụng Đó là sự chuyển dịch
từ các mô hình đơn sang các mô hình quần hợp Trong các tài liệu về đánh giá tín dụng, các nghiên cứu thực nghiệm đã kết luận rằng các mô hình quần hợp
có hiệu suất vượt trội so với các mô hình đơn (Brown & Mues, 2012; Dastile, Celik, & Potsane, 2020; Lessmann và cộng sự, 2015) Tuy nhiên, các thuật toán quần hợp không trực tiếp xử lý vấn đề dữ liệu mất cân bằng
Yêu cầu thứ hai đưa ra các nguyên nhân cho kết quả phân loại, đây sẽ là khung sườn để quản lý và phòng ngừa rủi ro tín dụng Thường có sự đánh đổi giữa tính hiệu quả và tính giải thích của các bộ phân loại (Brown & Mues, 2012) Do đó, việc xây dựng một bộ phân loại tổng thể chấm điểm tín dụng đáp ứng cả hai yêu cầu là một nhiệm vụ thiết yếu
1.3.2 Khoảng trống nghiên cứu trong các tiếp cận xử lý dữ liệu không cân bằng
Có ba cách tiếp cận thông dụng với bài toán phân loại không cân bằng Đó
là các cách tiếp cận ở cấp độ thuật toán, cấp độ dữ liệu và dựa trên các mô hình quần hợp
Tiếp cận ở cấp độ thuật toán giải quyết dữ liệu không cân bằng bằng cách hiệu chỉnh các thuật toán phân loại để giảm sự thiên vị đối với lớp đa số Cách tiếp cận này cần có kiến thức sâu về các bộ phân loại nội tại mà người thực hành thường thiếu
Tiếp cận cấp độ dữ liệu cân bằng lại các tập dữ liệu huấn luyện bằng cách
áp dụng các kỹ thuật tái chọn mẫu, thuộc ba nhóm chính, bao gồm lấy mẫu quá mức, lấy mẫu dưới mức và kết hợp chúng Tiếp cận này thực hiện dễ dàng và độc lập với các thuật toán phân loại Tuy nhiên, kỹ thuật tái chọn mẫu làm thay đổi phân phối tập huấn luyện, điều này có thể dẫn đến mô hình phân loại kém (Baesen và cộng sự, 2003; Sun và cộng sự, 2018)
Trang 63
Cách tiếp cận dựa trên các mô hình quần hợp thường tích hợp các thuật toán phân loại với các cách tiếp cận ở cấp độ thuật toán hoặc cấp độ dữ liệu Cách tiếp cận học quần hợp khai thác lợi thế của các mô hình quần hợp để cải thiện các độ đo hiệu suất của mô hình phân loại Tuy nhiên, cách tiếp cận này thường xây dựng các mô hình phức tạp và khó diễn giải kết quả
Tóm lại, mặc dù có nhiều phương pháp tiếp cận ID nhưng mỗi phương pháp đều có một số nhược điểm Hơn nữa, rất ít nghiên cứu đề cập đến trường hợp dữ liệu không cân bằng kết hợp nhiễu và chồng lấn các lớp Do đó, cần có
ý tưởng về một thuật toán mới có thể giải quyết các vấn đề này trong bài toán phân loại
1.3.3 Khoảng trống nghiên cứu trong hồi quy Logistic với dữ liệu không cân bằng
Hồi quy Logistic (LR) là một trong những bộ phân loại đơn phổ biến nhất, đặc biệt trong đánh giá tín dụng (Onay & Öztürk, 2018) bởi vì LR cung cấp một mô hình dễ thực hiện và đảm bảo tính giải thích
Tuy nhiên, LR không hiệu quả trên tập dữ liệu không cân bằng (Firth, 1993; King & Zeng, 2001), cụ thể là các mẫu dương tính có khả năng bị phân loại sai Ngoài ra, mức ý nghĩa thống kê của các biến dự báo thường dựa trên quy trình kiểm định tham số, sử dụng tiêu chí giá trị p (p-value) Trong khi đó, p-value gần đây đã bị chỉ trích trong cộng đồng thống kê vì những hiểu lầm trong cách
sử dụng và diễn giải (Goodman, 2018)
Có nhiều phương pháp để xử lý dữ liệu không cân bằng cho LR, như hiệu chỉnh trước (Cramer, 2003; King & Zeng, 2001), ước lượng hợp cực lý có trọng
số (WLE) (Maalouf & Trafalis, 2011; Manski & Lerman, 1977; Ramalho & Ramalho, 2007) và hồi quy hợp lý có phạt (PLR) (Firth, 1993; Greenland & Mansournia, 2015; Puhr và cộng sự, 2017) Tất cả các phương pháp kể trên đều liên quan đến cách tiếp cận ở cấp độ thuật toán, đòi hỏi nhiều nỗ lực từ người dùng Sự kết hợp giữa các phương pháp này và kỹ thuật lấy mẫu lại chưa được xem xét trong tài liệu về LR với dữ liệu không cân bằng
1.4 Mục tiêu nghiên cứu, đối tượng nghiên cứu và phạm vi nghiên cứu 1.4.1 Mục tiêu nghiên cứu
Mục tiêu thứ nhất là đề xuất một bộ phân loại quần hợp đáp ứng hai yêu cầu quan trọng của một mô hình đánh giá tín dụng Mục tiêu thứ hai là đề xuất một kỹ thuật để giải quyết các vấn đề như dữ liệu không cân bằng, nhiễu và các lớp chồng lấn Mục tiêu cuối cùng là hiệu chỉnh quy trình tính toán hồi quy Logistic cho dữ liệu không cân bằng và giảm thiểu chồng chéo các lớp
1.4.2 Đối tượng nghiên cứu
Luận án nghiên cứu hiện tượng dữ liệu không cân bằng và các vấn đề liên quan như nhiễu và chồng lấn các lớp trong bài toán phân loại
Trang 71.4.3 Phạm vi nghiên cứu
Luận án tập trung nghiên cứu bài toán phân loại nhị phân cho các tập dữ liệu không cân bằng và ứng dụng trong đánh giá tín dụng Các bộ phân loại có khả năng giải thích, bao gồm hồi quy Logistic, hồi quy Lasso- logistic và Cây quyết định, đều được xem xét trong luận án Để xử lý dữ liệu không cân bằng, luận án tập trung vào cách tiếp cận cấp dữ liệu và tích hợp các phương pháp cấp độ dữ liệu với các thuật toán phân loại quần hợp
1.5 Dữ liệu nghiên cứu và phương pháp nghiên cứu
1.5.1 Dữ liệu nghiên cứu
Luận án sử dụng các bộ dữ liệu công khai và dữ liệu riêng để kiểm nghiệm các thuật toán đề xuất Các tập dữ liệu công khai được lấy từ kho lưu trữ máy học UCI như bộ dữ liệu đánh giá tính dụng của Đức, Đài Loan, Úc và Mỹ Các
bộ dữ liệu về đánh giá tín dụng khác có thể dễ dàng truy cập qua trang web Kaggle Bốn bộ dữ liệu riêng được lấy từ các ngân hàng thương mại Việt Nam
1.5.2 Phương pháp nghiên cứu
Luận án sử dụng phương pháp nghiên cứu định lượng để làm rõ tính hiệu quả của các thuật toán đề xuất Quá trình tính toán được thực hiện bởi ngôn ngữ lập trình R
1.7 Bố cục của luận án
Luận án bao gồm 5 chương
Chương 1 Giới thiệu
Chương 2 Tổng quan về bài toán phân loại với dữ liệu không cân bằng Chương 3 Dữ liệu không cân bằng trong đánh giá tín dụng
Chương 4 Một hiệu chỉnh hồi quy Logistic regression khi dữ liệu không
cân bằng Chương 5 Kết luận
Trang 8Một tập hợp được coi là không cân bằng (ID) khi tỉ lệ không cân bằng của
nó lớn hơn 1 và hầu hết các bộ phân loại cơ bản phân loại sai các phần tử thuộc nhóm thiểu số
2.1.2 Các trở ngại khi dữ liệu không cân bằng
Khi dữ liệu không cân bằng, lớp thiểu số thường bị phân loại sai vì có quá
ít thông tin cho các hình mẫu của nó Bên cạnh đó, các thuật toán phân loại cơ bản thường hoạt động theo quy tắc tối đa hoá độ chính xác trên tập huấn luyện
Vì thế, các bộ phân loại cơ bản thường đạt độ chính xác tổng thể rất cao nhưng
độ chính xác trên nhóm thiểu số rất thấp Mặt khác, các hình mẫu cho nhóm thiểu số khá đạc trưng, nhất là khi dữ liệu không cân bằng Điều này dẫn đến nhóm thiểu số thường bị bỏ qua Như vậy, nhóm thiểu số thường bị phân loại sai khi dữ liệu không cân bằng
2.1.3 Các trường hợp dữ liệu không cân bằng
Trong các ứng dụng thực tế, sự kết hợp giữa ID và các hiện tượng khác làm cho quá trình phân loại trở nên khó khăn hơn Một số tác giả còn cho rằng ID không chỉ là nguyên nhân chính mà sự chồng lấn các lớp, cỡ mẫu nhỏ, dữ liệu
bị phân nhỏ, các phần tử ranh giới, phần tử hiếm và ngoại lai cũng là nguyên nhân dẫn đến hiệu quả thấp của các thuật toán phân loại phổ biến
2.2 Các độ đo hiệu quả cho bài toán phân loại không cân bằng
2.2.1 Độ đo hiệu quả cho đầu ra dạng nhãn
2.2.1.1 Độ đo đơn giản
Độ chính xác, tỉ lệ lỗi, tỉ lệ dương tính thật, tỉ lệ dương tính giả, tỉ lệ âm tính thật, tỉ lệ âm tính giả, độ chuẩn xác
2.2.1.2 Complex metrics
Độ đo F, độ đo G
2.2.2 Độ đo hiệu quả cho đầu ra dạng điểm
2.2.2.1 Phần diện tích dưới đường cong ROC
2.2.2.2 Thống kê Kolmogorov-Smirnov
2.2.2.3 Độ đo H
2.2.3 Kết luận về các độ đo hiệu quả cho bài toán phân loại không cân bằng
Đối với đầu ra dạng nhãn, độ chính xác là thước đo hiệu quả phổ biến, nhưng
nó có thể đánh giá sai khi ID Trong các lĩnh vực ứng dụng như chấm điểm tín dụng hoặc chẩn đoán ung thư, độ đo F và G là những độ đo phổ biến
Đối với đầu ra dạng điểm, AUC, KS và độ đo H được sử dụng nhiều hơn Tuy nhiên, cần lưu ý rằng không có thước đo hiệu quả nào là hoàn hảo
Trang 92.3 Các tiếp cận cho bài toán phân loại không cân bằng
2.3.1 Tiếp cận ở cấp độ thuật toán
2.3.1.1 Hiệu chỉnh các thuật toán phân loại
2.3.1.2 Học chi phí nhạy cảm
2.3.1.3 Nhận xét về tiếp cận ở cấp độ thuật toán
Cách tiếp cận ở cấp độ thuật toán đòi hỏi sự hiểu biết sâu sắc về các thuật toán phân loại để giải quyết trực tiếp các hậu quả của ID Do đó, các phương pháp cấp độ thuật toán thường được thiết kế dựa trên các thuật toán phân loại cụ thể Cách tiếp cận này có vẻ kém linh hoạt hơn so với cách tiếp cận cấp độ dữ liệu Trong tương lai, cần xem xét kết hợp các phương pháp tiếp cận ở cấp độ thuật toán và cấp độ dữ liệu để tạo ra một phương pháp cân bằng linh hoạt và hiệu quả hơn
2.3.2 Tiếp cận ở cấp độ dữ liệu
2.3.2.1 Phương pháp tái chọn mẫu dưới mức
Chọn mẫu ngẫu nhiên dưới mức (RUS)
Quy tắc hàng xóm gần nhất thu gọn (CNN) (Hart, 1968)
Liên kết Tomek (Tomek et al., 1976)
One-side selection (OSS) (Kubat et al., 1997)
Quy tắc làm sạch lân cận (NCL) (Laurikkala, 2001)
Phương pháp dựa trên phân cụm (Yen & Le, 2006, 2009; Nugraha, Maulana,
& Sasongko, 2020; Rekha & Tyagi, 2021)
2.3.2.2 Phương pháp tái chọn mẫu quá mức
Chọn mẫu ngẫu nhiên quá mức (ROS)
Kỹ thuật nhân tạo phần tử thiểu số (SMOTE) (Chawla et al., 2002)
SMOTE- ranh giới (Han, Wang, & Mao, 2005)
Lấy mẫu tổng hợp thích ứng (ADASYN) (He, Bai, Garcia, & Li, 2008)
2.3.2.3 Phương pháp kết hợp
2.3.2.4 Nhận xét về tiếp cận cấp độ dữ liệu
Cách tiếp cận này được ưa chuộng hơn cấp độ thuật toán vì dễ thực hiện (Haixiang và cộng sự, 2017) Tuy nhiên, việc đánh giá hiệu quả của chúng còn chưa hoàn chỉnh (Prati và cộng sự, 2015) Ngoài ra, “lân cận” là một phương pháp hiệu quả để điều chỉnh tính ngẫu nhiên trong các kỹ thuật tái chọn mẫu Dựa trên đặc điểm của mẫu, cân nhắc các chiến lược cân bằng dữ liệu phù hợp
để hạn chế sai sót khi phân loại các phần tử ở khu vực không an toàn Hơn nữa, cách tiếp cận này có thể được kết hợp với cách tiếp cận ở cấp độ thuật toán hoặc dựa học quần hợp để tăng hiệu quả của các bộ phân loại
2.3.3 Tiếp cận dựa trên các mô hình quần hợp
2.3.3.1 Tích hợp phương pháp cấp độ thuật toán và các mô hình quần hợp 2.3.3.2 Tích hợp phương pháp cấp độ dữ liệu và các mô hình quần hợp 2.3.3.3 Nhận xét về tiếp cận học quần hợp
Trang 107
2.3.4 Kết luận về các tiếp cận dữ liệu không cân bằng
Có ba cách tiếp cận phổ biến đối với dữ liệu không cân bằng: tiếp cận ở cấp
độ thuật toán, cấp độ dữ liệu và dựa trên học quần hợp Mỗi tiếp cận đều có ưu
và nhược điểm Lưu ý rằng mặc dù các phương pháp này có thể cải thiện hiệu suất của bộ phân loại trên ID nhưng không có giải pháp nào phù hợp cho tất cả Việc lựa chọn giải pháp phụ thuộc vào vấn đề cụ thể, kích thước dữ liệu, tỷ lệ không cân bằng và số đo hiệu quả mà người ứng dụng mong muốn cải thiện
2.4 Đánh giá tín dụng
2.4.1 Ý nghĩa của đánh giá tín dụng
Trong luận án, đánh giá tín dụng là việc phân biệt khách hàng “xấu” hay
“tốt” dựa trên đặc điểm và đặc điểm khoản vay của họ Nhãn “xấu” được gán cho những khách hàng có khả năng vỡ nợ cao và ngược lại, nhãn “tốt” dành cho những người có khả năng vỡ nợ thấp
Một mô hình đánh giá tín dụng hữu ích cần đáp ứng hai yêu cầu: i) Phân loại chính xác khách hàng xấu; ii) Giải thích rõ ràng kết quả phân loại
2.4.2 Đầu vào cho mô hình đánh giá tín dụng
Đầu vào của mô hình chấm điểm tín dụng không bị giới hạn trong khuôn khổ lý thuyết cứng nhắc
2.4.3 Khả năng giải thích của mô hình đánh giá tín dụng
Trong các ứng dụng đánh giá tín dụng, khả năng giải thích có thể được đo lường từ hai khía cạnh:
i) Kích thước của tập hợp các quy tắc quyết định, thường được sử dụng để đánh giá các mô hình dựa trên cây quyết định (Dumitrescu và cộng sự, 2021); ii) Tác động biên của các yếu tố dự đoán chẳng hạn như các đặc điểm quan trọng hoặc kết quả đầu ra có thể cho điểm rõ ràng (Wang và cộng sự, 2015) Khả năng diễn giải và tính hiệu quả là những mặt cạnh tranh của mô hình đánh giá tín dụng (Brown & Mues, 2012) Khả năng diễn giải liên quan đến một cấu trúc đơn giản và minh bạch trong khi tính hiệu quả lại liên quan đến một cấu trúc phức tạp và rõ ràng Chỉ có 8% các nghiên cứu sơ cấp đã đề xuất các mô hình đánh giá tín dụng mới với cấu trúc dễ giải thích (Datile và cộng sự, 2020)
2.4.4 Các tiếp cận dữ liệu không cân bằng trong đánh giá tín dụng
Mặc dù tất cả các phương pháp xử lý dữ liệu không cân bằng đều có thể được áp dụng cho bài toán đánh giá tín dụng, các phương pháp phổ biến nhất là học chi phí nhạy cảm, kỹ thuật tái chọn mẫu và phương pháp dựa trên học quần hợp với các tác phầm điển hình như:
• Học chi phí nhạy cảm: Moepya et al (2014); Petrides và cộng sự (2022); Xiao
và cộng sự (2020); W Zhang và cộng sự (2020)
• Kỹ thuật tái chọn mẫu: Batista et al (2004); Brown và Mues (2012); Marqués
và cộng sự (2013); Thần và cộng sự (2019)
Trang 11• Phương pháp dựa trên học quần hợp: Abdoli et al (2023); Fiore và cộng sự (2019); He và cộng sự (2018); Shen và cộng sự (2021); Wang và cộng sự (2015); Yotsawat và cộng sự (2021); Zhang và cộng sự (2021)
Cách tiếp cận dựa trên học quần hợp là xu hướng hiện nay Tuy nhiên, các
mô hình càng hiệu quả thì cấu trúc của chúng càng phức tạp và do đó kết quả dự đoán của chúng càng khó diễn giải Do đó, một mô hình giải quyết được cả vấn
đề ID và tính giải thích là một kỳ vọng đối với ứng dụng đánh giá tín dụng
2.4.5 Các mô hình quần hợp đánh giá tín dụng gần đây
Abdoli và cộng sự (2023); Zhang và cộng sự (2021); Fiore và cộng sự (2019); Shen và cộng sự (2021); Yang và cộng sự (2021); Yotsawat và cộng sự (2021); X Chen và cộng sự (2020); Dumitrescu và cộng sự (2021)
Tóm lại, các mô hình chấm điểm tín dụng gần đây nhất là các mô hình phân loại quần hợp Tuy nhiên, hầu hết chúng đều không giải quyết được cả ID và khả năng giải thích
2.5 Tóm tắt chương
Trang 129
Chapter 3 DỮ LIỆU KHÔNG CÂN BẰNG TRONG ĐÁNH GIÁ TÍN DỤNG
Chương này nghiên cứu dữ liệu không cân bằng trong một ứng dụng cụ thể là đánh giá tín dụng, trong đó khách hàng xấu thường được quan tâm hơn khách hàng tốt Luận án đề xuất một mô hình quần hợp đánh giá tín dụng cho các tập
dữ liệu không cân bằng Mô hình đề xuất có thể xếp hạng mức độ quan trọng của các đặc điểm đầu vào đối với kết quả cuối cùng Ngoài ra, ý tưởng giải quyết vấn đề đánh giá tín dụng không cân bằng đã đưa đến một giải pháp cho trường hợp phức tạp hơn: dữ liệu không cân bằng, các lớp chồng chéo và nhiễu
3.1 Các bộ phân loại cho đánh giá tín dụng
3.1.1 Bộ phân loại đơn
3.1.1.1 Phân tích biệt số
3.1.1.2 K-láng giềng gần nhất
3.1.1.3 Hồi quy Logistic
3.1.1.4 Hồi quy Lasso-Logistic
3.1.1.5 Cây quyết định
3.1.1.6 Máy vector hỗ trợ
3.1.1.7 Mạng thần kinh nhân tạo
3.1.2 Bộ phân loại quần hợp
3.1.2.1 Bộ phân loại dị hợp
3.1.2.2 Bộ phân loại tương hợp
Bộ phân loại Bagging (Breiman, 1996)
Rừng ngẫu nhiên (RF) (Breiman, 2001)
AdaBoost (Freund, Schapire và cộng sự, 1996)
3.1.3 Kết luận về các mô hình thống kê trong đánh giá tín dụng
Các mô hình thống kê và học máy đã được sử dụng rất đa dạng trong đánh giá tín dụng Chúng có thể được nhóm lại theo đặc điểm của các bộ phân loại như đơn lẻ hoặc quần hợp; cấu trúc rõ ràng hoặc “hộp đen” Mỗi loại đều có ưu
và nhược điểm Về tính hiệu quả, các bộ phân loại tương hợp và dị hợp thường chiếm ưu thế Tuy nhiên, liên quan đến khả năng giải thích, các thuật toán phân loại quần hợp thường xây dựng các mô hình đánh giá tín dụng có cấu trúc hộp đen Vì vậy, việc xây dựng một mô hình quần hợp có thể giải thích là một yêu cầu cấp thiết trong đánh giá tín dụng
3.2 Mô hình đánh giá tín dụng được đề xuất – mô hình quần hợp dựa trên cây quyết định
Phần này đề xuất một mô hình quần hợp, được gọi là mô hình quần hợp các cây quyết định (DTE) Thuật toán cây quyết định (DT) được chọn làm thuật toán
cơ sở để đảm bảo tính đa dạng của các mô hình con và khả năng giải thích của
mô hình được đề xuất DTE bao gồm B mô hình con, đó là các mô hình DT được huấn luyện trên B tập dữ liệu huấn luyện cân bằng với số phần tử khác nhau Kết
Trang 13quả dự đoán cuối cùng là kết quả phổ biến nhất của B mô hình con Để thuận tiện, DTE(B) kí hiệu cho DTE bao gồm B mô hình con
Quá trình tính toán DTE(B) có hai giai đoạn Đó là (i) cân bằng dữ liệu và (ii) xây dựng bộ phân loại quần hợp Ý tưởng của DTE(B) khá giống với cây Bagging Tuy nhiên, mỗi bộ phân loại con của cây bagging được huấn luyện trên các phiên bản boostrap của tập dữ liệu gốc, các phiên bản này không giải quyết vấn đề dữ liệu không cân bằng Hơn nữa, khả năng giải thích của cây bagging bị
bỏ qua DTE(B) có thể giải quyết những vấn đề này dựa trên thuật toán OUS(B)
và DTE(B) tương ứng với hai giai đoạn của DTE(B)
3.2.1 Các thuật toán được đề xuất
3.2.1.1 Thuật toán cho cân bằng dữ liệu - OUS(B)
Khi 𝑖 biến thiên từ 1 đến 𝐵, các tập hợp 𝑇𝑖 là cân bằng và có số phần tử khác nhau Đây là tiền đề cho sự đa dạng của các mô hình con trong DTE(𝐵) Việc kết hợp ROS và RUS nhằm khai thác các ưu điểm và hạn chế của các kỹ thuật này Cần lưu ý rằng khi 𝑖 bằng 𝐵, 𝑇𝐵 được tạo ra chỉ bởi ROS Như vậy, không
có sự mất mát thông tin của nhóm âm tính Thuật toán OUS(B) được miêu tả trong Bảng 3.2
Bảng 3.2: Thuật toán OUS(B)
Đầu vào 𝑇: tập huấn luyện; 𝑀𝐼 và 𝑀𝐴: lớp dương và âm tính của tập 𝑇;
𝐵: Số các tập cân bằng mới sẽ tạo ra
3.2.1.2 Thuật toán xây dựng mô hình quần hợp - DTE( 𝑩)
Bảng 3.3: Thuật toán DTE(B)
Đầu
vào
{𝑇𝑖}𝑖=1𝐵 : Họ các tập cân bằng có cùng số đặc trưng; 𝑝: Số các đặc trưng của mỗi phần tử trong các tập 𝑇𝑖; DT: Bộ phân loại cây quyết định