Tóm tắt: Imbalanced Data in classification: A case study of credit scoring

Imbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoringImbalanced Data in classification: A case study of credit scoring

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM

Trang 2

Công trình được hoàn thành tại: Trường Đại học Kinh tế TP Hồ Chí Minh Người hướng dẫn khoa học: PGS.TS Lê Xuân Trường, TS Tạ Quốc Bảo

Phản biện 1: ………

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp trường họp tại: ………

………

Vào hồi…… giờ… … ngày.… tháng… năm………

Có thể tìm hiểu luận án tại thư viện: ………

………

Trang 3

DANH MỤC CÁC CÔNG TRÌNH NGHIÊN CỨU CỦA TÁC GIẢ

LIÊN QUAN ĐẾN LUẬN ÁN

1 My, B T T & An, L T T (2022) TOUS: A new technique for

imbalanced data classification Studies in systems, Decision and

Control, Vol 429, 595 – 612 Springer

2 My, B T T & Bao Q T (2023) An interpretable decision tree

ensemble model for imbalanced credit scoring datasets Journal of

Intelligent & Fuzzy Systems, Vol 45, No 6, 10853 – 10864

3 My, B T T & Bao Q T (2023) A modification of logistic regression with imbalanced data: F-measure-oriented Lasso-Logistic regression

ScienceAsia, 49S, 68 – 77

Trang 4

đó, các hình mẫu này, thể hiện qua các mô hình phân loại đã được huấn luyện,

sẽ đưa ra dự đoán về nhãn của các mẫu mới

Phân loại được phân thành hai loại, nhị phân và đa phân loại Phân loại nhị phân là loại cơ bản

Định nghĩa 1.1.1 Một tập hợp có 𝑘 đặc tính đầu vào cho bài toán phân loại nhị

phân là tập hợp các phần tử 𝑆 = 𝑋 × 𝑌, với 𝑋 ⊂ ℝ𝑘 là tập hợp mô tả các đặc tính của các phần tử và 𝑌 = {0, 1} là tập hợp các nhãn

Tập hợp con gồm các phần tử có nhãn 1 được gọi là lớp dương tính, kí hiệu là

𝑆+ Tập hợp con còn lại được gọi là lớp âm tính, kí hiệu là 𝑆−

Định nghĩa 1.1.2 Một bộ phân loại nhị phân là một hàm từ tập các đặc tính 𝑋

vào tập hợp các nhãn {0, 1}

Trong nhiều ứng dụng với nhóm dương và âm tính cân bằng, độ chính xác

là thước đo quan trọng nhất của mỗi bộ phân loại Tuy nhiên, khi tập dữ liệu có chứa các phần tử dương tính với số lượng khá ít, các bộ phân loại thông thường rất khó nhận diện đúng nhóm dương tính Trong những tình huống như thế, cái giá của việc phân loại sai thường khá lớn Do đó, độ chính xác không còn là thước đo quan trọng nhất Hiện tượng phân phối chệch trong tập tập huấn luyện

được gọi là dữ liệu không cân bằng (ID)

1.2 Động lực nghiên cứu

Khi tập dữ liệu huấn luyện bị mất cân bằng, các bộ phân loại đơn giản thường có độ chính xác rất cao nhưng tỷ lệ dương tính thực (TPR) lại thấp Các phân loại này nhằm mục đích tối đa hóa độ chính xác, từ đó đánh đồng tổn thất

do lỗi loại I và lỗi loại II (Shen và cộng sự, 2019) Vì vậy, kết quả phân loại thường thiên về lớp lớp đa số (là lớp âm tính) (Galar và cộng sự, 2011; Haixiang

và cộng sự, 2017) Trong trường hợp dữ liệu mất cân bằng nghiêm trọng, lớp thiểu số (lớp dương tính) thường bị bỏ qua vì các bộ phân loại thông thường thường coi nó là nhiễu hoặc ngoại lai Do đó, mục tiêu nhận ra lớp dương tính không thành công Do đó, dữ liệu không cân bằng là một thách thức trong bài toán phân loại

Một trường hợp điển hình của bài toán phân loại không cân bằng là đánh giá tín dụng Tại Việt Nam, các ngân hàng thương mại hiện nay đã có ý thức quản lý rủi ro tín dụng bằng các quy trình thẩm định tín dụng chặt chẽ trước khi cấp vốn Trong nghiên cứu học thuật, chấm điểm tín nhiệm đã thu hút nhiều tác giả (Bình & Anh, 2021; Hưng & Trang, 2018; Quỳnh, Anh, & Linh, 2018;

Trang 5

Thắng, 2022) Tuy nhiên, rất ít công trình giải quyết được vấn đề mất cân bằng (Mỹ, 2021)

Những tồn tại trên đã thôi thúc chúng tôi nghiên cứu luận án “Bài toán phân loại với dữ liệu không cân bằng: Nghiên cứu tình huống đánh giá tín dụng” nhằm tìm giải pháp hợp lý cho bài toán phân loại vướng phải các vấn đề: dữ liệu không cân bằng và các vấn đề liên quan, đặc biệt là nghiên cứu tình huống đánh giá tín dụng tại Việt Nam

1.3 Xác định khoảng trống nghiên cứu

1.3.1 Khoảng trống nghiên cứu trong đánh giá tín dụng

Một mô hình đánh giá tín dụng phải thoả hai yêu cầu quan trọng, đó là: i) khả năng phân loại chính xác các khách hàng xấu; và ii) khả năng dễ giải thích kết quả dự báo của bộ phân loại

Yêu cầu thứ nhất đã được giải quyết bằng sự phát triển các phương pháp

để nâng cao hiệu quả của các mô hình đánh giá tín dụng Đó là sự chuyển dịch

từ các mô hình đơn sang các mô hình quần hợp Trong các tài liệu về đánh giá tín dụng, các nghiên cứu thực nghiệm đã kết luận rằng các mô hình quần hợp

có hiệu suất vượt trội so với các mô hình đơn (Brown & Mues, 2012; Dastile, Celik, & Potsane, 2020; Lessmann và cộng sự, 2015) Tuy nhiên, các thuật toán quần hợp không trực tiếp xử lý vấn đề dữ liệu mất cân bằng

Yêu cầu thứ hai đưa ra các nguyên nhân cho kết quả phân loại, đây sẽ là khung sườn để quản lý và phòng ngừa rủi ro tín dụng Thường có sự đánh đổi giữa tính hiệu quả và tính giải thích của các bộ phân loại (Brown & Mues, 2012) Do đó, việc xây dựng một bộ phân loại tổng thể chấm điểm tín dụng đáp ứng cả hai yêu cầu là một nhiệm vụ thiết yếu

1.3.2 Khoảng trống nghiên cứu trong các tiếp cận xử lý dữ liệu không cân bằng

Có ba cách tiếp cận thông dụng với bài toán phân loại không cân bằng Đó

là các cách tiếp cận ở cấp độ thuật toán, cấp độ dữ liệu và dựa trên các mô hình quần hợp

Tiếp cận ở cấp độ thuật toán giải quyết dữ liệu không cân bằng bằng cách hiệu chỉnh các thuật toán phân loại để giảm sự thiên vị đối với lớp đa số Cách tiếp cận này cần có kiến thức sâu về các bộ phân loại nội tại mà người thực hành thường thiếu

Tiếp cận cấp độ dữ liệu cân bằng lại các tập dữ liệu huấn luyện bằng cách

áp dụng các kỹ thuật tái chọn mẫu, thuộc ba nhóm chính, bao gồm lấy mẫu quá mức, lấy mẫu dưới mức và kết hợp chúng Tiếp cận này thực hiện dễ dàng và độc lập với các thuật toán phân loại Tuy nhiên, kỹ thuật tái chọn mẫu làm thay đổi phân phối tập huấn luyện, điều này có thể dẫn đến mô hình phân loại kém (Baesen và cộng sự, 2003; Sun và cộng sự, 2018)

Trang 6

3

Cách tiếp cận dựa trên các mô hình quần hợp thường tích hợp các thuật toán phân loại với các cách tiếp cận ở cấp độ thuật toán hoặc cấp độ dữ liệu Cách tiếp cận học quần hợp khai thác lợi thế của các mô hình quần hợp để cải thiện các độ đo hiệu suất của mô hình phân loại Tuy nhiên, cách tiếp cận này thường xây dựng các mô hình phức tạp và khó diễn giải kết quả

Tóm lại, mặc dù có nhiều phương pháp tiếp cận ID nhưng mỗi phương pháp đều có một số nhược điểm Hơn nữa, rất ít nghiên cứu đề cập đến trường hợp dữ liệu không cân bằng kết hợp nhiễu và chồng lấn các lớp Do đó, cần có

ý tưởng về một thuật toán mới có thể giải quyết các vấn đề này trong bài toán phân loại

1.3.3 Khoảng trống nghiên cứu trong hồi quy Logistic với dữ liệu không cân bằng

Hồi quy Logistic (LR) là một trong những bộ phân loại đơn phổ biến nhất, đặc biệt trong đánh giá tín dụng (Onay & Öztürk, 2018) bởi vì LR cung cấp một mô hình dễ thực hiện và đảm bảo tính giải thích

Tuy nhiên, LR không hiệu quả trên tập dữ liệu không cân bằng (Firth, 1993; King & Zeng, 2001), cụ thể là các mẫu dương tính có khả năng bị phân loại sai Ngoài ra, mức ý nghĩa thống kê của các biến dự báo thường dựa trên quy trình kiểm định tham số, sử dụng tiêu chí giá trị p (p-value) Trong khi đó, p-value gần đây đã bị chỉ trích trong cộng đồng thống kê vì những hiểu lầm trong cách

sử dụng và diễn giải (Goodman, 2018)

Có nhiều phương pháp để xử lý dữ liệu không cân bằng cho LR, như hiệu chỉnh trước (Cramer, 2003; King & Zeng, 2001), ước lượng hợp cực lý có trọng

số (WLE) (Maalouf & Trafalis, 2011; Manski & Lerman, 1977; Ramalho & Ramalho, 2007) và hồi quy hợp lý có phạt (PLR) (Firth, 1993; Greenland & Mansournia, 2015; Puhr và cộng sự, 2017) Tất cả các phương pháp kể trên đều liên quan đến cách tiếp cận ở cấp độ thuật toán, đòi hỏi nhiều nỗ lực từ người dùng Sự kết hợp giữa các phương pháp này và kỹ thuật lấy mẫu lại chưa được xem xét trong tài liệu về LR với dữ liệu không cân bằng

1.4 Mục tiêu nghiên cứu, đối tượng nghiên cứu và phạm vi nghiên cứu 1.4.1 Mục tiêu nghiên cứu

Mục tiêu thứ nhất là đề xuất một bộ phân loại quần hợp đáp ứng hai yêu cầu quan trọng của một mô hình đánh giá tín dụng Mục tiêu thứ hai là đề xuất một kỹ thuật để giải quyết các vấn đề như dữ liệu không cân bằng, nhiễu và các lớp chồng lấn Mục tiêu cuối cùng là hiệu chỉnh quy trình tính toán hồi quy Logistic cho dữ liệu không cân bằng và giảm thiểu chồng chéo các lớp

1.4.2 Đối tượng nghiên cứu

Luận án nghiên cứu hiện tượng dữ liệu không cân bằng và các vấn đề liên quan như nhiễu và chồng lấn các lớp trong bài toán phân loại

Trang 7

1.4.3 Phạm vi nghiên cứu

Luận án tập trung nghiên cứu bài toán phân loại nhị phân cho các tập dữ liệu không cân bằng và ứng dụng trong đánh giá tín dụng Các bộ phân loại có khả năng giải thích, bao gồm hồi quy Logistic, hồi quy Lasso- logistic và Cây quyết định, đều được xem xét trong luận án Để xử lý dữ liệu không cân bằng, luận án tập trung vào cách tiếp cận cấp dữ liệu và tích hợp các phương pháp cấp độ dữ liệu với các thuật toán phân loại quần hợp

1.5 Dữ liệu nghiên cứu và phương pháp nghiên cứu

1.5.1 Dữ liệu nghiên cứu

Luận án sử dụng các bộ dữ liệu công khai và dữ liệu riêng để kiểm nghiệm các thuật toán đề xuất Các tập dữ liệu công khai được lấy từ kho lưu trữ máy học UCI như bộ dữ liệu đánh giá tính dụng của Đức, Đài Loan, Úc và Mỹ Các

bộ dữ liệu về đánh giá tín dụng khác có thể dễ dàng truy cập qua trang web Kaggle Bốn bộ dữ liệu riêng được lấy từ các ngân hàng thương mại Việt Nam

1.5.2 Phương pháp nghiên cứu

Luận án sử dụng phương pháp nghiên cứu định lượng để làm rõ tính hiệu quả của các thuật toán đề xuất Quá trình tính toán được thực hiện bởi ngôn ngữ lập trình R

1.7 Bố cục của luận án

Luận án bao gồm 5 chương

Chương 1 Giới thiệu

Chương 2 Tổng quan về bài toán phân loại với dữ liệu không cân bằng Chương 3 Dữ liệu không cân bằng trong đánh giá tín dụng

Chương 4 Một hiệu chỉnh hồi quy Logistic regression khi dữ liệu không

cân bằng Chương 5 Kết luận

Trang 8

Một tập hợp được coi là không cân bằng (ID) khi tỉ lệ không cân bằng của

nó lớn hơn 1 và hầu hết các bộ phân loại cơ bản phân loại sai các phần tử thuộc nhóm thiểu số

2.1.2 Các trở ngại khi dữ liệu không cân bằng

Khi dữ liệu không cân bằng, lớp thiểu số thường bị phân loại sai vì có quá

ít thông tin cho các hình mẫu của nó Bên cạnh đó, các thuật toán phân loại cơ bản thường hoạt động theo quy tắc tối đa hoá độ chính xác trên tập huấn luyện

Vì thế, các bộ phân loại cơ bản thường đạt độ chính xác tổng thể rất cao nhưng

độ chính xác trên nhóm thiểu số rất thấp Mặt khác, các hình mẫu cho nhóm thiểu số khá đạc trưng, nhất là khi dữ liệu không cân bằng Điều này dẫn đến nhóm thiểu số thường bị bỏ qua Như vậy, nhóm thiểu số thường bị phân loại sai khi dữ liệu không cân bằng

2.1.3 Các trường hợp dữ liệu không cân bằng

Trong các ứng dụng thực tế, sự kết hợp giữa ID và các hiện tượng khác làm cho quá trình phân loại trở nên khó khăn hơn Một số tác giả còn cho rằng ID không chỉ là nguyên nhân chính mà sự chồng lấn các lớp, cỡ mẫu nhỏ, dữ liệu

bị phân nhỏ, các phần tử ranh giới, phần tử hiếm và ngoại lai cũng là nguyên nhân dẫn đến hiệu quả thấp của các thuật toán phân loại phổ biến

2.2 Các độ đo hiệu quả cho bài toán phân loại không cân bằng

2.2.1 Độ đo hiệu quả cho đầu ra dạng nhãn

2.2.1.1 Độ đo đơn giản

Độ chính xác, tỉ lệ lỗi, tỉ lệ dương tính thật, tỉ lệ dương tính giả, tỉ lệ âm tính thật, tỉ lệ âm tính giả, độ chuẩn xác

2.2.1.2 Complex metrics

Độ đo F, độ đo G

2.2.2 Độ đo hiệu quả cho đầu ra dạng điểm

2.2.2.1 Phần diện tích dưới đường cong ROC

2.2.2.2 Thống kê Kolmogorov-Smirnov

2.2.2.3 Độ đo H

2.2.3 Kết luận về các độ đo hiệu quả cho bài toán phân loại không cân bằng

Đối với đầu ra dạng nhãn, độ chính xác là thước đo hiệu quả phổ biến, nhưng

nó có thể đánh giá sai khi ID Trong các lĩnh vực ứng dụng như chấm điểm tín dụng hoặc chẩn đoán ung thư, độ đo F và G là những độ đo phổ biến

Đối với đầu ra dạng điểm, AUC, KS và độ đo H được sử dụng nhiều hơn Tuy nhiên, cần lưu ý rằng không có thước đo hiệu quả nào là hoàn hảo

Trang 9

2.3 Các tiếp cận cho bài toán phân loại không cân bằng

2.3.1 Tiếp cận ở cấp độ thuật toán

2.3.1.1 Hiệu chỉnh các thuật toán phân loại

2.3.1.2 Học chi phí nhạy cảm

2.3.1.3 Nhận xét về tiếp cận ở cấp độ thuật toán

Cách tiếp cận ở cấp độ thuật toán đòi hỏi sự hiểu biết sâu sắc về các thuật toán phân loại để giải quyết trực tiếp các hậu quả của ID Do đó, các phương pháp cấp độ thuật toán thường được thiết kế dựa trên các thuật toán phân loại cụ thể Cách tiếp cận này có vẻ kém linh hoạt hơn so với cách tiếp cận cấp độ dữ liệu Trong tương lai, cần xem xét kết hợp các phương pháp tiếp cận ở cấp độ thuật toán và cấp độ dữ liệu để tạo ra một phương pháp cân bằng linh hoạt và hiệu quả hơn

2.3.2 Tiếp cận ở cấp độ dữ liệu

2.3.2.1 Phương pháp tái chọn mẫu dưới mức

Chọn mẫu ngẫu nhiên dưới mức (RUS)

Quy tắc hàng xóm gần nhất thu gọn (CNN) (Hart, 1968)

Liên kết Tomek (Tomek et al., 1976)

One-side selection (OSS) (Kubat et al., 1997)

Quy tắc làm sạch lân cận (NCL) (Laurikkala, 2001)

Phương pháp dựa trên phân cụm (Yen & Le, 2006, 2009; Nugraha, Maulana,

& Sasongko, 2020; Rekha & Tyagi, 2021)

2.3.2.2 Phương pháp tái chọn mẫu quá mức

Chọn mẫu ngẫu nhiên quá mức (ROS)

Kỹ thuật nhân tạo phần tử thiểu số (SMOTE) (Chawla et al., 2002)

SMOTE- ranh giới (Han, Wang, & Mao, 2005)

Lấy mẫu tổng hợp thích ứng (ADASYN) (He, Bai, Garcia, & Li, 2008)

2.3.2.3 Phương pháp kết hợp

2.3.2.4 Nhận xét về tiếp cận cấp độ dữ liệu

Cách tiếp cận này được ưa chuộng hơn cấp độ thuật toán vì dễ thực hiện (Haixiang và cộng sự, 2017) Tuy nhiên, việc đánh giá hiệu quả của chúng còn chưa hoàn chỉnh (Prati và cộng sự, 2015) Ngoài ra, “lân cận” là một phương pháp hiệu quả để điều chỉnh tính ngẫu nhiên trong các kỹ thuật tái chọn mẫu Dựa trên đặc điểm của mẫu, cân nhắc các chiến lược cân bằng dữ liệu phù hợp

để hạn chế sai sót khi phân loại các phần tử ở khu vực không an toàn Hơn nữa, cách tiếp cận này có thể được kết hợp với cách tiếp cận ở cấp độ thuật toán hoặc dựa học quần hợp để tăng hiệu quả của các bộ phân loại

2.3.3 Tiếp cận dựa trên các mô hình quần hợp

2.3.3.1 Tích hợp phương pháp cấp độ thuật toán và các mô hình quần hợp 2.3.3.2 Tích hợp phương pháp cấp độ dữ liệu và các mô hình quần hợp 2.3.3.3 Nhận xét về tiếp cận học quần hợp

Trang 10

7

2.3.4 Kết luận về các tiếp cận dữ liệu không cân bằng

Có ba cách tiếp cận phổ biến đối với dữ liệu không cân bằng: tiếp cận ở cấp

độ thuật toán, cấp độ dữ liệu và dựa trên học quần hợp Mỗi tiếp cận đều có ưu

và nhược điểm Lưu ý rằng mặc dù các phương pháp này có thể cải thiện hiệu suất của bộ phân loại trên ID nhưng không có giải pháp nào phù hợp cho tất cả Việc lựa chọn giải pháp phụ thuộc vào vấn đề cụ thể, kích thước dữ liệu, tỷ lệ không cân bằng và số đo hiệu quả mà người ứng dụng mong muốn cải thiện

2.4 Đánh giá tín dụng

2.4.1 Ý nghĩa của đánh giá tín dụng

Trong luận án, đánh giá tín dụng là việc phân biệt khách hàng “xấu” hay

“tốt” dựa trên đặc điểm và đặc điểm khoản vay của họ Nhãn “xấu” được gán cho những khách hàng có khả năng vỡ nợ cao và ngược lại, nhãn “tốt” dành cho những người có khả năng vỡ nợ thấp

Một mô hình đánh giá tín dụng hữu ích cần đáp ứng hai yêu cầu: i) Phân loại chính xác khách hàng xấu; ii) Giải thích rõ ràng kết quả phân loại

2.4.2 Đầu vào cho mô hình đánh giá tín dụng

Đầu vào của mô hình chấm điểm tín dụng không bị giới hạn trong khuôn khổ lý thuyết cứng nhắc

2.4.3 Khả năng giải thích của mô hình đánh giá tín dụng

Trong các ứng dụng đánh giá tín dụng, khả năng giải thích có thể được đo lường từ hai khía cạnh:

i) Kích thước của tập hợp các quy tắc quyết định, thường được sử dụng để đánh giá các mô hình dựa trên cây quyết định (Dumitrescu và cộng sự, 2021); ii) Tác động biên của các yếu tố dự đoán chẳng hạn như các đặc điểm quan trọng hoặc kết quả đầu ra có thể cho điểm rõ ràng (Wang và cộng sự, 2015) Khả năng diễn giải và tính hiệu quả là những mặt cạnh tranh của mô hình đánh giá tín dụng (Brown & Mues, 2012) Khả năng diễn giải liên quan đến một cấu trúc đơn giản và minh bạch trong khi tính hiệu quả lại liên quan đến một cấu trúc phức tạp và rõ ràng Chỉ có 8% các nghiên cứu sơ cấp đã đề xuất các mô hình đánh giá tín dụng mới với cấu trúc dễ giải thích (Datile và cộng sự, 2020)

2.4.4 Các tiếp cận dữ liệu không cân bằng trong đánh giá tín dụng

Mặc dù tất cả các phương pháp xử lý dữ liệu không cân bằng đều có thể được áp dụng cho bài toán đánh giá tín dụng, các phương pháp phổ biến nhất là học chi phí nhạy cảm, kỹ thuật tái chọn mẫu và phương pháp dựa trên học quần hợp với các tác phầm điển hình như:

• Học chi phí nhạy cảm: Moepya et al (2014); Petrides và cộng sự (2022); Xiao

và cộng sự (2020); W Zhang và cộng sự (2020)

• Kỹ thuật tái chọn mẫu: Batista et al (2004); Brown và Mues (2012); Marqués

và cộng sự (2013); Thần và cộng sự (2019)

Trang 11

• Phương pháp dựa trên học quần hợp: Abdoli et al (2023); Fiore và cộng sự (2019); He và cộng sự (2018); Shen và cộng sự (2021); Wang và cộng sự (2015); Yotsawat và cộng sự (2021); Zhang và cộng sự (2021)

Cách tiếp cận dựa trên học quần hợp là xu hướng hiện nay Tuy nhiên, các

mô hình càng hiệu quả thì cấu trúc của chúng càng phức tạp và do đó kết quả dự đoán của chúng càng khó diễn giải Do đó, một mô hình giải quyết được cả vấn

đề ID và tính giải thích là một kỳ vọng đối với ứng dụng đánh giá tín dụng

2.4.5 Các mô hình quần hợp đánh giá tín dụng gần đây

Abdoli và cộng sự (2023); Zhang và cộng sự (2021); Fiore và cộng sự (2019); Shen và cộng sự (2021); Yang và cộng sự (2021); Yotsawat và cộng sự (2021); X Chen và cộng sự (2020); Dumitrescu và cộng sự (2021)

Tóm lại, các mô hình chấm điểm tín dụng gần đây nhất là các mô hình phân loại quần hợp Tuy nhiên, hầu hết chúng đều không giải quyết được cả ID và khả năng giải thích

2.5 Tóm tắt chương

Trang 12

9

Chapter 3 DỮ LIỆU KHÔNG CÂN BẰNG TRONG ĐÁNH GIÁ TÍN DỤNG

Chương này nghiên cứu dữ liệu không cân bằng trong một ứng dụng cụ thể là đánh giá tín dụng, trong đó khách hàng xấu thường được quan tâm hơn khách hàng tốt Luận án đề xuất một mô hình quần hợp đánh giá tín dụng cho các tập

dữ liệu không cân bằng Mô hình đề xuất có thể xếp hạng mức độ quan trọng của các đặc điểm đầu vào đối với kết quả cuối cùng Ngoài ra, ý tưởng giải quyết vấn đề đánh giá tín dụng không cân bằng đã đưa đến một giải pháp cho trường hợp phức tạp hơn: dữ liệu không cân bằng, các lớp chồng chéo và nhiễu

3.1 Các bộ phân loại cho đánh giá tín dụng

3.1.1 Bộ phân loại đơn

3.1.1.1 Phân tích biệt số

3.1.1.2 K-láng giềng gần nhất

3.1.1.3 Hồi quy Logistic

3.1.1.4 Hồi quy Lasso-Logistic

3.1.1.5 Cây quyết định

3.1.1.6 Máy vector hỗ trợ

3.1.1.7 Mạng thần kinh nhân tạo

3.1.2 Bộ phân loại quần hợp

3.1.2.1 Bộ phân loại dị hợp

3.1.2.2 Bộ phân loại tương hợp

Bộ phân loại Bagging (Breiman, 1996)

Rừng ngẫu nhiên (RF) (Breiman, 2001)

AdaBoost (Freund, Schapire và cộng sự, 1996)

3.1.3 Kết luận về các mô hình thống kê trong đánh giá tín dụng

Các mô hình thống kê và học máy đã được sử dụng rất đa dạng trong đánh giá tín dụng Chúng có thể được nhóm lại theo đặc điểm của các bộ phân loại như đơn lẻ hoặc quần hợp; cấu trúc rõ ràng hoặc “hộp đen” Mỗi loại đều có ưu

và nhược điểm Về tính hiệu quả, các bộ phân loại tương hợp và dị hợp thường chiếm ưu thế Tuy nhiên, liên quan đến khả năng giải thích, các thuật toán phân loại quần hợp thường xây dựng các mô hình đánh giá tín dụng có cấu trúc hộp đen Vì vậy, việc xây dựng một mô hình quần hợp có thể giải thích là một yêu cầu cấp thiết trong đánh giá tín dụng

3.2 Mô hình đánh giá tín dụng được đề xuất – mô hình quần hợp dựa trên cây quyết định

Phần này đề xuất một mô hình quần hợp, được gọi là mô hình quần hợp các cây quyết định (DTE) Thuật toán cây quyết định (DT) được chọn làm thuật toán

cơ sở để đảm bảo tính đa dạng của các mô hình con và khả năng giải thích của

mô hình được đề xuất DTE bao gồm B mô hình con, đó là các mô hình DT được huấn luyện trên B tập dữ liệu huấn luyện cân bằng với số phần tử khác nhau Kết

Trang 13

quả dự đoán cuối cùng là kết quả phổ biến nhất của B mô hình con Để thuận tiện, DTE(B) kí hiệu cho DTE bao gồm B mô hình con

Quá trình tính toán DTE(B) có hai giai đoạn Đó là (i) cân bằng dữ liệu và (ii) xây dựng bộ phân loại quần hợp Ý tưởng của DTE(B) khá giống với cây Bagging Tuy nhiên, mỗi bộ phân loại con của cây bagging được huấn luyện trên các phiên bản boostrap của tập dữ liệu gốc, các phiên bản này không giải quyết vấn đề dữ liệu không cân bằng Hơn nữa, khả năng giải thích của cây bagging bị

bỏ qua DTE(B) có thể giải quyết những vấn đề này dựa trên thuật toán OUS(B)

và DTE(B) tương ứng với hai giai đoạn của DTE(B)

3.2.1 Các thuật toán được đề xuất

3.2.1.1 Thuật toán cho cân bằng dữ liệu - OUS(B)

Khi 𝑖 biến thiên từ 1 đến 𝐵, các tập hợp 𝑇𝑖 là cân bằng và có số phần tử khác nhau Đây là tiền đề cho sự đa dạng của các mô hình con trong DTE(𝐵) Việc kết hợp ROS và RUS nhằm khai thác các ưu điểm và hạn chế của các kỹ thuật này Cần lưu ý rằng khi 𝑖 bằng 𝐵, 𝑇𝐵 được tạo ra chỉ bởi ROS Như vậy, không

có sự mất mát thông tin của nhóm âm tính Thuật toán OUS(B) được miêu tả trong Bảng 3.2

Bảng 3.2: Thuật toán OUS(B)

Đầu vào 𝑇: tập huấn luyện; 𝑀𝐼 và 𝑀𝐴: lớp dương và âm tính của tập 𝑇;

𝐵: Số các tập cân bằng mới sẽ tạo ra

3.2.1.2 Thuật toán xây dựng mô hình quần hợp - DTE( 𝑩)

Bảng 3.3: Thuật toán DTE(B)

Đầu

vào

{𝑇𝑖}𝑖=1𝐵 : Họ các tập cân bằng có cùng số đặc trưng; 𝑝: Số các đặc trưng của mỗi phần tử trong các tập 𝑇𝑖; DT: Bộ phân loại cây quyết định

Tiêu đề	Bài Toán Phân Loại Với Dữ Liệu Không Cân Bằng: Nghiên Cứu Tình Huống Đánh Giá Tín Dụng
Tác giả	Bùi Thị Thiện Mỹ
Người hướng dẫn	PGS.TS. Lê Xuân Trường, TS. Tạ Quốc Bảo
Trường học	Trường Đại Học Kinh Tế TP.HCM
Chuyên ngành	Thống Kê
Thể loại	luận án tiến sĩ
Năm xuất bản	2024
Thành phố	TP.Hồ Chí Minh

Định dạng
Số trang	27
Dung lượng	618,29 KB