Như vậy, xử lý hiện tượng dữ liệu không cân bằng cho mô hình hồiquy Logistic cần xem xét ở cả hai cấp độ dữ liệu và thuật toán, thay vì chỉ ởcấp độ mô hình - thuật toán như các phương ph
Mục đích nghiên cứu
Nghiên cứu được thực hiện nhằm đề xuất một hiệu chỉnh cho mô hình hồi quy Logistic đạt các mục đích sau:
• Mô hình hiệu chỉnh hồi quy Logistic có hiệu quả tốt hơn so với các phương pháp quen thuộc khi phân loại dữ liệu không cân bằng.
• Mô hình hiệu chỉnh hồi quy Logistic có khả năng chỉ ra các biến có ảnh hưởng đến xác suất thuộc nhóm dương tính mà không sử dụng các thủ tục kiểm định giả thuyết thống kê truyền thống.
• Giới thiệu một phiên bản cải tiến thuật toán cân bằng dữ liệu SMOTE dựa trên kết hợp cấp độ dữ liệu và cấp độ thuật toán.
Bên cạnh các mục đích trên, nghiên cứu còn mong muốn cung cấp các kiến thức phổ thông, bao gồm các độ đo hiệu quả, các kỹ thuật cơ bản trong giải quyết bài toán phân loại với dữ liệu không cân bằng Đây là kiến thức chuyên môn hẹp của lĩnh vực học máy và chưa nhận được sự quan tâm đúng mức trong nghiên cứu thực nghiệm ở Việt Nam.
Dữ liệu và phương pháp nghiên cứu
Dữ liệu nghiên cứu: Nghiên cứu sử dụng chín bộ dữ liệu, trong đó tám bộ dữ liệu công khai và một bộ dữ liệu riêng Các bộ dữ liệu công khai được lấy từ các thư viện dữ liệu của cộng đồng học máy (UCI và trang web Kaggle), gồm bảy bộ dữ liệu về đánh giá tín dụng và một bộ dữ liệu thuộc lĩnh vực y tế Bộ dữ liệu riêng về đánh giá tín dụng được thu thập từ một ngân hàng thương mại cổ phần ở Việt Nam Vì lí do bảo mật thông tin khách hàng nên bộ dữ liệu này chỉ được sử dụng trong tính toán, đánh giá hiệu quả của các mô hình, các phương pháp; và không được công khai trên các cơ sở dữ liệu công cộng.
Phương pháp nghiên cứu: Phương pháp nghiên cứu định lượng được sử dụng để chứng minh tính hiệu quả của mô hình hồi quy Logistic hiệu chỉnh mà nghiên cứu đề xuất Quá trình tính toán được thực hiện bằng ngôn ngữ lập trình R,một công cụ phổ biến trong cộng đồng thống kê và học máy.
Đóng góp mới
Nghiên cứu đề xuất một hiệu chỉnh cho mô hình hồi quy Logistic ứng dụng trên dữ liệu phân loại không cân bằng Mô hình hiệu chỉnh có các độ đo hiệu quả như độ đo F (F-measure) và KS (Kolmogorov-Smirnov statistic) cao hơn khi so sánh với các phương pháp xử lý dữ liệu không cân bằng đã có cho mô hình hồi quy Logistic Bên cạnh đó, mô hình hiệu chỉnh vẫn đảm bảo được khả năng chỉ ra các biến đầu vào có ảnh hưởng đến xác suất thuộc nhóm dương tính mà không dùng đến p-value để đánh giá mức ý nghĩa thống kê của các tham số trong mô hình.
Bố cục
Báo cáo nghiên cứu gồm 4 chương.
• Chương 2 Các kiến thức liên quan
• Chương 3 Hiệu chỉnh mô hình hồi quy Logistic và nghiên cứu thực nghiệm
Chương 2KIẾN THỨC LIÊN QUAN
Bài toán phân loại dữ liệu không cân bằng
Các khái niệm
Một tập dữ liệu cho phân loại nhị phân với p đặc điểm đầu vào là tập hợp
S = X × Y, trong đó X ⊂R p là tập hợp thể hiện p đặc điểm hoặc tính chất và
Y = {0, 1} là tập hợp nhãn của các phần tử.
Các phần tử có nhãn 1 được gọi là phần tử dương tính, ngược lại được gọi là phần tử âm tính. Định nghĩa 2.1.1 Một bộ phân loại (mô hình phân loại) nhị phân là một hàm số từ tập hợp các đặc điểm X đến tập hợp các nhãn {0, 1}. Định nghĩa 2.1.2 Xét một tập hợp S và một bộ phân loại f : X → {0, 1} Với mỗi phần tử s 0 = (x 0 , y 0 ) ∈ S, có bốn khả năng sau đây:
• Nếu f(s 0 ) = y 0 = 1, s 0 được gọi là phần tử dương tính thật.
• Nếu f(s 0 ) = y 0 = 0, s 0 được gọi là phần tử âm tính thật.
• Nếu f(s 0 ) = 1 and y 0 = 0, s 0 được gọi là phần tử dương tính giả.
• Nếu f(s 0 ) = 0 and y 0 = 1, s 0 được gọi là phần tử âm tính giả.
Số phần tử dương tính thật, âm tính thật, dương tính giả, âm tính giả được kí hiệu lần lượt là TP, TN, FP, FN. Định nghĩa 2.1.3 Cho tập dữ liệu S = S + ∪ S − với S + và S − là tập hợp gồm các phần tử dương tính S + và âm tính S − Nếu có sự chênh lệch giữa số phần tử của nhóm âm tính và nhóm dương tính thì S được gọi là tập dữ liệu không cân bằng Ngoài ra, tỉ lệ không cân bằng của S được định nghĩa là tỉ lệ số phần tử của hai nhóm âm tính và dương tính:
Hậu quả của dữ liệu không cân bằng
2.1.2.1 Dữ liệu không cân bằng và hiệu quả của các mô hình phân loại
Khi dữ liệu không cân bằng, lớp dương tính là lớp thiểu số Vì số phần tử quá ít, các thông tin về nhãn dương tính không đủ để tổng quát hoá các hình mẫu, quy luật nhận dạng nhãn dương tính Bên cạnh đó, các mô hình phân loại cơ bản thường tính toán dựa trên nguyên tắc tối đa hoá độ chính xác của tập huấn luyện Vì thế, khi dữ liệu không cân bằng, đa số các mô hình phân loại thường cho kết quả có độ chính xác cao nhưng độ chính xác trên lớp dương tính rất bé Trong các bài toán phân loại thực tế, thông thường nhóm dương tính là nhóm được quan tâm nhiều hơn nhóm âm tính Vì thế, dữ liệu không cân bằng làm giảm hiệu quả thực tế của các mô hình phân loại cơ bản.
Nghiên cứu thực nghiệm cũng chứng minh lập luận nói trên Brown và Mues (2012) kết luận rằng khi tỉ lệ không cân bằng của dữ liệu (IR) càng lớn thì hiệu quả của các mô hình phân loại cơ bản càng giảm Hơn nữa, Prati, Batista và Silva (2015) cho rằng mức tổn thất khi dữ liệu không cân bằng (đo bằng tỉ lệ giữa độ đo hiệu quả một mô hình trên dữ liệu không cân bằng và hiệu quả của chính mô hình đó trên dữ liệu cân bằng), trở nên có ý nghĩa khi IR từ 9/1 và lớn hơn Prati và cộng sự cũng chỉ ra kỳ vọng tổn thất của hiệu quả sẽ tăng khi
Tóm lại, IR là một tham số từ dữ liệu, ảnh hưởng đến hiệu quả của các mô hình phân loại cơ bản.
2.1.2.2 Dữ liệu không cân bằng và một số vấn đề khác
Hiện tượng dữ liệu không cân bằng còn đi kèm với các hiện tượng khác, như chồng lấn dữ liệu (overlapping classes) và mẫu nhỏ (small sample size) càng làm cho hậu quả của hiện tượng mất cân bằng trầm trọng hơn (Batista, Prati, & Monard, 2004; Fernández et al., 2018; Napierala & Stefanowski, 2016).
Chồng lấn dữ liệu là hiện tượng đường ranh giới giữa lớp dương tính và âm tính không thể xác định rõ ràng Khi có hiện tượng chồng lấn, các phần tử của hai lớp có thể nằm lẫn vào nhau Hình 2.1a) và b) là các ví dụ minh hoạ cho hiện tượng dữ liệu không có chồng lấn và có chồng lấn Trên dữ liệu có hiện tượng chồng lấn, các thuật toán phân loại cơ bản như cây quyết định (DT), máy vector hỗ trợ (SVM), K- láng giềng gần (KNN) trở nên khó hoạt động. Batista và cộng sự (2004) cho rằng dữ liệu không cân bằng không ảnh hưởng nhiều đến hiệu quả của các mô hình phân loại, mà mức độ chồng lấn dữ liệu mới là nhân tố ảnh hưởng Tương tự, Fernández và cộng sự (2018) tin rằng nếu không có chồng lấn dữ liệu, bất kỳ một thuật toán phân loại có thể hoạt động tốt bất chấp dữ liệu không cân bằng. a) b)
Hình 2.1: Minh hoạ dữ liệu không cân bằng không chồng lấn và có chồng lấn
Nguồn: Galar, Fernandez, Barrenechea, Bustince và Herrera (2011)
Mẫu nhỏ: Các thuật toán phân loại cần đủ số lượng quan sát trong tập dữ liệu huấn luyện để tổng quát hoá quy luật phân biệt các lớp Vì vậy, khi mẫu nhỏ, một bộ phân loại không thể tổng quát hoá các đặc trưng của mỗi lớp đồng thời có thể tạo ra một mô hình quá khớp (over-fitting model) (Cui, Davis, Cheng,
& Bai, 2004; Wasikowski & Chen, 2009) Nếu dữ liệu không cân bằng và kích thước quá nhỏ, sự thiếu hụt thông tin cho nhóm dương tính càng trầm trọng hơn Krawczyk và Wo´zniak (2015) cho rằng nếu cố định giá trị IR, nhóm thiểu số càng nhiều quan sát thì tỉ lệ sai sót (error rate) của các mô hình phân loại càng thấp.
Phần tử ranh giới, phần tử ngoại lai : Các tính chất đặc trưng của phần tử dương tính như ở ranh giới, ngoại lai và là phần tử hiếm sẽ làm giảm hiệu quả của các bộ phân loại quen thuộc (Napierala & Stefanowski, 2016; Prati,Batista, & Silva, 2015; Van Hulse & Khoshgoftaar, 2009).
Độ đo hiệu quả cho bài toán phân loại dữ liệu không cân bằng
Hiệu quả của một mô hình phân loại được đánh giá dựa trên tập kiểm tra (testing data) Có nghĩa là nhãn dự báo (đầu ra của mô hình phân loại) được so sánh với nhãn thực sự của các phần tử trên tập kiểm tra Đầu ra của các mô hình phân loại thường có dạng nhãn (labeled type) hoặc dạng điểm (scored type) Tuỳ thuộc vào kiểu đầu ra, một số độ đo được sử dụng để đánh giá hiệu quả của mô hình phân loại Đối với dữ liệu không cân bằng, vấn đề độ đo hiệu quả cần được chú ý để có đánh giá đúng đắn về hiệu quả của các thuật toán/mô hình phân loại.
2.1.3.1 Độ đo hiệu quả cho đầu ra dạng nhãn
Hầu hết các thuật toán phân loại cho đầu ra dạng nhãn, ví dụ như KNN, DT và các mô hình quần hợp (ensemble classifier) dựa trên DT Một cách thuận tiện để giới thiệu hiệu quả của các thuật toán dạng này là sử dụng ma trận nhầm lẫn (confusion matrix).
Bảng 2.1: Ma trận nhầm lẫn
Dự báo dương tính Dự báo âm tính Tổng phần tử
Thật sự dương tính TP FN POS
Thật sự âm tính FP TN NEG
Trong Bảng 2.1, TP, FP, FN và TN theo Định nghĩa 2.1.2 Bên cạnh đó, POS và NEG là số các phần tử thật sự dương và âm tính trong tập dữ liệu PPOS và PNEG là số các phần tử được dự báo dương và âm tính N là tổng số phần tử trên tập dữ liệu.
Từ ma trận nhầm lẫn, một số độ đo hiệu quả được xây dựng để phân tích những khía cạnh khác nhau của một mô hình phân loại Bảng 2.2 giới thiệu các độ đo hiệu quả có thể tính toán từ ma trận nhầm lẫn.
Các độ đo như độ chính xác, TPR, TNR và độ chuẩn xác càng cao càng thể hiện tính hiệu quả của mô hình, trong khi tỉ lệ lỗi, FPR và FNR ngược lại. Độ đo F và độ đo G là các độ đo phức hợp, tổng hợp thông tin từ các độ đo đơn giản Độ đo F cao khi và chỉ khi TPR và độ chuẩn xác cao Tương tự, độ
Bảng 2.2: Một số độ đo hiệu quả thông dụng Độ đo hiệu quả Công thức tính Ý nghĩa Độ chính xác
N Tỉ lệ phân loại đúng
N Tỉ lệ phân loại sai
Tỉ lệ dương tính thật
Tỉ lệ lớp dương tính được phân loại đúng
Tỉ lệ dương tính giả
Tỉ lệ lớp âm tính bị phân loại sai
Tỉ lệ âm tính thật
Tỉ lệ lớp âm tính được phân loại đúng
Tỉ lệ âm tính giả (False negative rate, FNR)
Tỉ lệ lớp dương tính bị phân loại sai Độ chuẩn xác
Tỉ lệ các phần tử thật sự dương tính trong số các phần tử được dự báo dương tính Độ đo F
(F-measure) 2 × Độ chuẩn xác T P R Độ chuẩn xác+T P R
Trung bình điều hoà của độ chuẩn xác và TPR Độ đo G
√ T P R × T N R Trung bình nhân của TPR và
TNR Nguồn: Tác giả tổng hợp đo G cao khi và chỉ khi TPR và TNR cao.
Mặc dù độ chính xác và tỉ lệ lỗi dễ diễn giải ý nghĩa khi đánh giá hiệu quả của các mô hình phân loại, chúng có thể cung cấp một cái nhìn không toàn diện trong trường hợp dữ liệu không cân bằng Thông thường, các mô hình phân loại cơ bản có độ chính xác cao và tỉ lệ lỗi thấp khi dữ liệu không cân bằng.Khi đó, TPR và độ chuẩn xác thường rất thấp Nghĩa là rất ít phần tử dương tính thật sự được phân loại đúng Vì thế, các nghiên cứu trên dữ liệu không cân bằng thường sử dụng các độ đo tập trung vào một nhóm cụ thể, ví dụ nhưTPR, FPR, TNR, FNR hoặc độ chuẩn xác Trong ứng dụng thực tế, một số độ đo được quan tâm hơn Ví dụ như trong đánh giá tín dụng (credit scoring) và chẩn đoán ung thư (cancer diagnosis), nếu chỉ chú trọng vào TPR và bỏ qua FPR, một mô hình phân loại sẽ gán toàn bộ các quan sát có nhãn dương Khi đó, các mô hình này phân loại sai tất cả các phần tử âm tính Điều này gây ra một tổn thất không nhỏ Vì thế, các mô hình đánh giá tín dụng hoặc chẩn đoán ung thư thường yêu cầu TPR, độ chuẩn xác và TNR cao Trong trường hợp này, độ đo F và G được sử dụng vì tổng hợp được thông tin từ TPR, độ chuẩn xác và TNR.
Tóm lại, mỗi độ đo hiệu quả có một ý nghĩa nhất định Việc lựa chọn độ đo hiệu quả phụ thuộc vào lĩnh vực ứng dụng thực tế.
2.1.3.2 Độ đo hiệu quả cho đầu ra dạng điểm
Bên cạnh đầu ra dạng nhãn, một số mô hình phân loại cho đầu ra dạng điểm, ví dụ như mô hình hồi quy Logistic Thông thường, đầu ra dạng điểm được chuyển về dạng nhãn bằng cách so sánh với một giá trị ngưỡng: Nếu giá trị điểm đầu ra lớn hơn ngưỡng, phần tử tương ứng được gán nhãn dương và ngược lại Nếu mục đích của bài toán phân loại là hạn chế nhận diện sai nhóm dương tính, một ngưỡng với giá trị thấp sẽ được chọn Điều này khiến mô hình phân loại có TPR và FPR cao Ngược lại, nếu giá trị ngưỡng cao thì FPR thấp nhưng FNR cao Như vậy, việc chọn một ngưỡng để phân loại cho mô hình có đầu ra dạng điểm tuỳ thuộc vào mục đích tối ưu độ đo hiệu quả nào Bên cạnh đó, khi chuyển từ đầu ra dạng điểm sang đầu ra dạng nhãn, các phần tử có nhãn giống nhau được xem như nhau mặc dù khả năng thuộc nhóm dương tính rất khác nhau Do đó, một số độ đo khác có thể đánh giá hiệu quả của mô hình phân loại mà không phụ thuộc vào giá trị ngưỡng, ví dụ như AUC (Area under the Receiver Operating Characteristics Curve ) và thống kê KS (Kolmogorov- Smirnov statistic) Các độ đo này xem xét một cách tổng quát hiệu quả của các mô hình phân loại và thường được dùng khi dữ liệu không cân bằng. Độ đo AUC là diện tích phần dưới đường cong ROC (Receiver OperatingCharacteristics Curve) Trong đó ROC là đồ thị biểu diễn mối quan hệ giữaTPR (trục tung) và FPR (trục hoành) tương ứng với tất cả các giá trị ngưỡng.Hình 2.2 minh hoạ đường cong ROC của ba mô hình phân loại Trong hình
Hình 2.2: Minh hoạ đường ROC
Nguồn: Tác giả thiết kế vuông cạnh bằng 1, đường cong ROC được kỳ vọng nhô cao về góc trái vì mô hình phân loại có TPR cao và FPR thấp với cùng giá trị ngưỡng Vì thế phần diện tích dưới đường ROC càng lớn - tức AUC càng lớn thì hiệu quả phân loại của mô hình càng cao Ngoài ra, đường cong ROC phải nằm trên đường chéo (màu đỏ) - là đường ROC tương ứng với bộ phân loại ngẫu nhiên Như vậy, AUC của một mô hình phân loại bất kỳ được kỳ vọng nằm trong khoảng (0, 5; 1) Với một chuỗi các ngưỡng rời rạc {α i } n 1 , AUC được ước lượng theo công thức sau:
|F P R(α i ) − F P R(α i−1 )| (T P R(α i ) + T P R(α i−1 )) (2.1) với T P R(α) và F P R(α) là TPR và FPR tương ứng với ngưỡng α.
Trong đánh giá các mô hình phân loại với dữ liệu không cân bằng, AUC là một trong những độ đo hiệu quả phổ biến, dùng để so sánh hiệu quả của các thuật toán (Batista et al., 2004; Brown & Mues, 2012; Huang & Ling, 2005).
Thống kê KS rất phổ biến trong các bài toán phân loại không cân bằng (He, Zhang, & Zhang, 2018; Shen, Zhao, Kou, & Alsaadi, 2021; F Yang, Qiao, Huang, Wang, & Wang, 2021) KS đánh giá mức độ phân tách giữa nhóm dự báo dương tính và nhóm dự báo âm tính Công thức tính toán cho KS là:
Hình 2.3: Minh hoạ cách xác định KS
Nguồn: Tác giả thiết kế
Trong hình 2.3, giá trị KS được xác định tại ngưỡng 0.534 Mặc dù giá trị
KS càng lớn càng thể hiện hiệu quả cao, nhưng KS chỉ phản ánh tốt hiệu quả của mô hình phân loại trong lân cận của ngưỡng xác định KS ( ˇRezáˇc & ˇRezáˇc,2011) Vì thế, khi đánh giá mô hình cần kết hợp cả AUC và KS để hiệu quả của mô hình được đánh giá toàn diện hơn.
Một số kỹ thuật xử lý dữ liệu không cân bằng
Có hai cách tiếp cận chính khi xử lý dữ liệu không cân bằng Đó là tiếp cận theo cấp độ thuật toán (algorithm-level) và cấp độ dữ liệu (data-level) Mỗi cách tiếp cận có những ưu điểm và nhược điểm riêng.
2.1.4.1 Tiếp cận theo cấp độ thuật toán
Cách tiếp cận này tập trung vào cấu trúc bên trong của các mô hình phân loại bằng cách chỉnh sửa, cải tiến các tính toán trong thuật toán nhằm hạn chế những ảnh hưởng tiêu cực của dữ liệu không cân bằng Thông thường, mục đích của tiếp cận theo cấp độ thuật toán là ngăn ngừa hoặc giảm hiện tượng dự báo chệch về nhóm âm tính, thể hiện qua làm tăng một độ đo hiệu quả cụ thể.Những điều chỉnh đối với mô hình máy vector hỗ trợ (Support vector machine,SVM) thường tập trung vào đường ranh giới Đối với mô hình cây quyết định(Decision tree, DT), các hiệu chỉnh thường xoay quanh các tiêu chí phân chia đặc điểm Đối với mô hình hồi quy Logistic, các điều chỉnh thường liên quan đến hàm hợp lí hoặc quá trình tính toán các ước lượng bằng phương pháp hợp lí cực đại Bảng 2.3 tóm tắt một số nghiên cứu đại diện cho xử lý dữ liệu không cân bằng theo tiếp cận ở cấp độ thuật toán.
Tiếp cận ở cấp độ thuật toán có ưu điểm là không làm thay đổi phân phối của bộ dữ liệu huấn luyện Tuy vậy, các điều chỉnh bên trong thuật toán cơ sở chỉ thiết kế cho từng thuật toán phân loại cụ thể, do đó tính linh hoạt của cách tiếp cận này kém hơn so với cách tiếp cận ở cấp độ dữ liệu Bên cạnh đó, tiếp cận ở cấp độ thuật toán đòi hỏi người thực hành phải có kiến thức sâu sắc về bản chất toán học và thống kê của các thuật toán phân loại cơ sở.
Bảng 2.3: Một số nghiên cứu xử lý dữ liệu không cân bằng theo tiếp cận thuật toán
Máy vector hỗ trợ Áp dụng hiệu chỉnh hạt nhân để thiết kế đường ranh giới giữa hai lớp (Wu & Chang, 2004; Xu, 2016; C.-Y Yang, Yang, & Wang, 2009).
Gán trọng số lên các quan sát trong tập huấn luyện dựa trên mức độ quan trọng (phần tử dương tính có trọng số cao hơn) (Lee, Jun, & Lee, 2017; Lee et al., 2017; X Yang, Song, & Wang, 2007). Áp dụng các thuật toán học chủ động (active learning paradigm), ví dụ như trong tình huống một số quan sát không có nhãn (Hoi, Jin, Zhu, & Lyu, 2009; Sun, Xu, & Zhou, 2016; ˇZliobait˙e, Bifet, Pfahringer, & Holmes, 2013).
Cây quyết định Đề xuất hàm khoảng cách mới cho quá trình tách các tính chất (Cieslak, Hoens, Chawla, & Kegelmeyer, 2012). Đề xuất các tiêu chí tách mới (Boonchuay, Sinapiromsaran, & Lursinsap, 2017; Lenca, Lallich, Do, & Pham, 2008; Liu, Chawla, Cieslak, & Chawla, 2010).
Tính toán lại ước lượng hệ số chặn và xác suất có điều kiện thuộc nhóm dương tính (Cramer, 2003; King & Zeng, 2001). Ước lượng hợp lý cực đại có trọng số (Maalouf & Siddiqi, 2014; Maalouf & Trafalis, 2011; Manski & Lerman, 1977). Ước lượng hợp lý cực đại với tham số phạt (Firth, 1993; Fu, Xu, Zhang, & Yi, 2017; Li et al., 2015).
Nguồn: Tác giả tổng hợp
2.1.4.2 Tiếp cận theo cấp độ dữ liệu
Cách tiếp cận này liên quan đến các kỹ thuật tái chọn mẫu nhằm cân bằng lại hoặc giảm hiện tượng không cân bằng giữa hai nhóm dương và âm tính Các kỹ thuật tái chọn mẫu dễ thực hành và không phụ thuộc vào thuật toán/ mô hình phân loại sẽ áp dụng sau đó, vì thế tính linh hoạt của cách tiếp cận này cao hơn so với tiếp cận ở cấp độ thuật toán Các nghiên cứu thực nghiệm đều cho rằng các kỹ thuật tái chọn mẫu có tác dụng trong việc làm gia tăng độ đo hiệu quả của hầu hết các mô hình phân loại (Batista et al., 2004; Brown & Mues, 2012; Prati, Batista, & Monard, 2004) Có ba nhóm kỹ thuật tái chọn mẫu thuộc nhóm tiếp cận ở cấp độ dữ liệu, đó là lấy mẫu dưới mức (under-sampling), lấy mẫu quá mức (over-sampling) và kết hợp lấy mẫu quá mức và dưới mức. Bảng 2.5 giới thiệu một số phương pháp tái chọn mẫu trong xử lý dữ liệu phân loại không cân bằng Trong các phương pháp tái chọn mẫu được liệt kê, lấy mẫu ngẫu nhiên dưới mức (random under-sampling, RUS), lấy mẫu ngẫu nhiên quá mức (random over-sampling, ROS) và SMOTE (Synthetic minority over-sampling technique) thường được áp dụng hơn các phương pháp còn lại.
RUS tạo ra tập huấn luyện cân bằng bằng cách loại bỏ ngẫu nhiên các phần tử thuộc nhóm âm tính (là nhóm chiếm đa số) RUS dễ áp dụng và làm ngắn thời gian thực hành Tuy nhiên, khi dữ liệu mất cân bằng nghiêm trọng (IR quá lớn) thì RUS loại bỏ khá nhiều phần tử âm tính, do đó làm mất thông tin hữu ích để dự báo nhóm âm tính Hình 2.4 minh hoạ kỹ thuật RUS.
Dữ liệu gốc Dữ liệu cân bằng
Hình 2.4: Minh hoạ kỹ thuật RUS
Nguồn: Tác giả thiết kế
ROS tạo ra tập huấn luyện cân bằng bằng cách chọn lại ngẫu nhiên các phần tử thuộc nhóm dương tính, qua đó làm tăng số phần tử của nhóm thiểu số ROS dễ áp dụng nhưng lại làm tăng thời gian tính toán Bên cạnh đó, việc lặp lại ngẫu nhiên các phần tử dương tính có thể dẫn đến hiện tượng quá khớp (over- fitting) của mô hình phân loại (Batista et al., 2004; Fernández et al., 2018). Hình 2.5 minh hoạ kỹ thuật ROS.
Dữ liệu gốc Dữ liệu cân bằng
Hình 2.5: Minh hoạ kỹ thuật ROS
Nguồn: Tác giả thiết kế
SMOTE (Chawla et al., 2002) làm tăng lực lượng nhóm thiểu số bằng cách tạo ra các phần tử dương tính nhân tạo trong lân cận mỗi phần tử dương tính ban đầu Cách làm này hạn chế khả năng quá khớp của mô hình phân loại khi áp dụng ROS Tóm tắt thuật toán SMOTE được giới thiệu ở Bảng 2.4.
Hình vẽ 2.6 minh hoạ cách vận hành kỹ thuật SMOTE Trong hình vẽ, phần tử dương tính x 0 có 5 phần tử lân cận gần nhất là x 0i , i ∈ 1, 5 Trên các đoạn thẳng “tưởng tượng” nối x 0 và x 0i , chọn ngẫu nhiên 6 phần tử, gọi làs 0j , j ∈ 1, 6 và gán nhãn dương cho 6 phần tử này Đây là những phần tử không có mặt trong bộ dữ liệu, chúng được gọi là các phần tử tổng hợp (synthetic samples) hoặc dương tính nhân tạo Như vậy, với mỗi phần tử dương tính ban đầu, 6 phần tử dương tính nhân tạo được tạo thêm; từ đó làm gia tăng số phần tử của nhóm dương tính. Ý tưởng của SMOTE xuất phát từ nhận xét: Những phần tử ở rất gần nhau thường có tính chất tương tự nhau Do đó, việc gán nhãn dương cho các phần tử s 0j , j ∈ 1, 6, vốn thuộc lân cận của phần tử dương tính x 0, là một cách làm hợp lý Với cách tạo thêm phần tử dương tính như thế, ranh giới của nhóm x 0 x 01 x 02 x 03 x 04 x 05 s 01 s 02 s 03 s 04 s 05
Phần tử dương tính Phần tử nhân tạo s 06
Hình 2.6: Minh hoạ kỹ thuật SMOTE
Nguồn: Fernández và cộng sự (2018) dương tính được đẩy sâu vào vùng không gian của nhóm âm tính (Bellinger, Drummond, & Japkowicz, 2016; Maciejewski & Stefanowski, 2011), làm tăng mức độ chồng lấn giữa hai nhóm dương và âm tính Đây là một điểm hạn chế của SMOTE.
Bảng 2.4: Tóm tắt thuật toán SMOTE Đầu vào:
T, M A, và M I: tập huấn luyện, lớp đa số, và lớp thiểu số.
N: số phần tử cần tăng thêm; k: số phần tử láng giềng gần nhất.
1 Với i từ 1 đến |M I| thực hiện như sau:
2 Trên tập T, xác định k phần tử gần nhất của x i ∈ M I; kí hiệu x ij , j ∈ 1, k.
3 Chọn ngẫu nhiên N phần tử trong các x ij , j ∈ 1, k; Kí hiệu {x h ij } N h=1
4 Vớih từ 1 đến N thực hiện như sau:
7 Gán nhãn dương cho phần tử s ih
8 Kết thúc vòng lặp thứ nhất
9 Kết thúc vòng lặp thứ hai. Đầu ra: N.|M I| phần tử dương tính nhân tạo {s ih } i,h
Nguồn: Chawla và cộng sự (2002)
Khái niệm láng giềng gần nhất được xác định dựa vào các hàm khoảng cách. Tuỳ vào loại đặc điểm đầu vào dạng định tính hay định lượng, một số loại hàm khoảng cách được sử dụng (xem Phụ lục A).
Bảng 2.5: Một số phương pháp tái chọn mẫu trong xử lý dữ liệu không cân bằng
RUS (Random under-sampling) (Brown & Mues, 2012; D’Addabbo & Maglietta, 2015).
CNN (Condensed nearest neighbor rule) (Angiulli, 2005; Chou, Kuo, & Chang, 2006; Liang, Xu, & Xiao, 2017).
Liên kết Tomek (Tomek-link) (Devi, Biswas, & Purkayastha, 2017; Tomek et al., 1976).
OSS (One-side selection) (Batista, Carvalho, & Monard, 2000; Ku- bat, Matwin, et al., 1997).
NCL (Neighborhood cleaning rule) (Agustianto & Destarianto, 2019; Faris, 2014; Laurikkala, 2001).
ROS (Random over-sampling) (Ebenuwa, Sharif, Alazab, & Al- Nemrat, 2019; Fotouhi, Asadi, & Kattan, 2019).
SMOTE (Synthetic minority over-sampling technique) (Chawla et al., 2002; Kitali, Alluri, Sando, & Wu, 2019; Shrivastava, Jeyanthi,
Borderline-SMOTE (Han, Wang, & Mao, 2005; Jiang, Lv, & Li, 2023; Li et al., 2021; Smiti & Soui, 2020; Zhang & Li, 2017).
ADASYN (Adaptive synthetic sampling) (Gosain & Sardana, 2017; He, Bai, Garcia, & Li, 2008; Ramadhan, 2021; Revathi & Ramyachitra, 2021).
Kết hợp lấy mẫu quá mức và dưới mức
ROS và các kỹ thuật lấy mẫu dưới mức (Elahi, Ayub, & Hussain, 2021; Elhassan & Aljurf, 2017; Yılmaz, Gezer, Aydın, & G¨ung¨or, 2021).
SMOTE và các kỹ thuật lấy mẫu dưới mức (Batista et al., 2004; Junsomboon & Phienthrakul, 2017; Mundra et al., 2022; Sham- sudin, Yusof, Jayalakshmi, & Khalid, 2020; Yun, Ha, & Lee, 2016).
ADASYN và các kỹ thuật lấy mẫu dưới mức (S Park & Park, 2021).
Nguồn: Tác giả tổng hợp
2.1.4.3 Nhận xét về các tiếp cận xử lý dữ liệu không cân bằng
Các cách tiếp cận ở cấp độ dữ liệu và thuật toán có những ưu điểm và nhược điểm riêng Không có phương pháp hay kỹ thuật nào là tuyệt đối tốt hơn các phương pháp khác Vì vậy, ứng dụng các kỹ thuật xử lý dữ liệu không cân bằng cho bài toán phân loại cần tính đến ý nghĩa ứng dụng thực tế Việc kết hợp các kỹ thuật thuộc hai nhóm tiếp cận là một giải pháp hứa hẹn để phát huy các điểm mạnh và hạn chế điểm yếu của từng phương pháp.
Mô hình hồi quy Logistic và dữ liệu không cân bằng
Mô hình hồi quy Logistic
Cho tập huấn luyện T = X × Y, trong đó X ⊂ R p thể hiện p tính chất hoặc đặc điểm và Y ∈ {0, 1} là biến chỉ nhãn của các quan sát trong tập huấn luyện.
Mô hình hồi quy Logistic (LR) giả sử xác suất có điều kiện để một quan sát là dương tính như sau: π(x) = P (Y = 1|X = x) = e β 0 +βx T
1 + e β 0 +βx T (2.3) Ở đây, β 0 được gọi là hệ số chặn; β = (β 1 , , β p ) là tham số thể hiện ảnh hưởng của các đặc điểm đầu vào đến xác suất thuộc nhóm dương tính của một phần tử Xác suất có điều kiện π(x) còn được gọi làđiểm (score) của phần tử có đặc điểm đầu vào là x ∈R p
Giả sử tập huấn luyện T gồm n phần tử độc lập
(x i , y i ) ∈R p+1 , i ∈ 1, n Khi đó, các tham số trong mô hình (2.3) được ước lượng bằng phương pháp ước lượng hợp lí cực đại Đó là tìm các β j sao cho tối đa hoá logarit tự nhiên của hàm hợp lý (likelihood function): l (Y |X, β) : = logL (P ( Y | X, β)) = log n
Lời giải cho (2.4) có thể được tính toán bằng các thuật toán tương tác(interactive algorithms), ví dụ như phương pháp Newton-Raphson Khi đó, một phần tử có đặc điểm đầu vào là x ∗ được phân loại là dương tính khi và chỉ khi điểm của nó lớn hơn một giá trị ngưỡng γ ∈ (0, 1) cho trước Chi tiết về LR có thể tìm thấy trong các tài liệu thống kê và học máy (James, Witten, Hastie, & Tibshirani, 2013). Để kết luận ảnh hưởng của các đặc điểm đầu vào đến điểm, các thủ tục kiểm định so sánh tham số β j , (j ∈ 1, p)với giá trị 0 Nếu tham sốβ j có ý nghĩa thống kê ở mức α thì đặc điểm đầu vào thứ j được xem là có ảnh hưởng đến điểm.Các kiểm định này dễ dàng thực hiện bằng cách so sánh mức ý nghĩa α với giá trị p (p− value) Ngày nay, các phần mềm thống kê, các gói lệnh hỗ trợ bởi các ngôn ngữ lập trình có thể tính toán giá trị p một cách nhanh chóng Do đó, có thể nói LR là một mô hình đơn giản, dễ giải thích và dễ thực hành.
Các điều chỉnh cho mô hình hồi quy Logistic với dữ liệu không cân bằng
Khi dữ liệu không cân bằng, tương tự các mô hình phân loại cơ bản, LR cho kết quả dự báo chệch về nhóm âm tính Nghĩa là, các phần tử dương tính thường bị phân loại sai Hơn nữa, trên mẫu nhỏ, các ước lượng cho các tham số β j , (j ∈ 1, p)cũng chệch (Firth, 1993; King & Zeng, 2001) Trong các nghiên cứu liên quan về xử lý dữ liệu không cân bằng cho LR, bên cạnh hướng tiếp cận ở cấp độ dữ liệu, nổi bật là các nhóm phương pháp thuộc cấp độ thuật toán Đó là hiệu chỉnh trước (Prior correction), ước lượng hợp lý có trọng số (Weighted likelihood estimation, WLE) và hồi quy hợp lý có phạt (Penalized likelihood regression, PLR).
Hiệu chỉnh trước tính toán lại các ước lượng hợp lý cực đại (MLE) cho hệ số chặn β 0 của LR chuẩn Các ước lượng MLE cho các tham số β j , j ∈ 1, p không cần hiệu chỉnh vì chúng hiệu quả (Cramer, 2003; King & Zeng, 2001) Hiệu chỉnh cho β 0 có công thức: βe 0 = βb 0 − ln δ 1 δ 0 δ 1 = y τ ; δ 0 = 1 − y
Với βb0 là MLE của β 0; τ và y là tỉ lệ lớp dương tính trong tổng thể và trong mẫu.
Khi đó, điểm được tính toán lại theo công thức: eπ(x) = P (Y = 1|X = x) = 1
Với βblà MLE của β. Ưu điểm lớn nhất của phương pháp hiệu chỉnh trước là dễ sử dụng Tuy nhiên, giá trị τ thì thường không có sẵn Ngoài ra, nếu mô hình bị định dạng sai thì các ước lượng cho β 0 và β kém vững hơn phương pháp ước lượng hợp lý có trọng số (Xie & Manski, 1989).
2.2.2.2 Ước lượng hợp lý có trọng số (WLE)
Thay vì giải quyết bài toán tối ưu trong phương trình (2.4), WLE (Manski
& Lerman, 1977) xem xét logarit hàm hợp lý có trọng số như sau: logLW (P (Y |X, β)) = n
Trong (2.7), w i là trọng số của quan sát thứ i th trong dữ liệu mẫu Giá trị τ và y lần lượt là tỉ lệ nhóm dương tính trong tổng thể và trong mẫu.
WLE thường cho kết quả tốt hơn phương pháp hiệu chỉnh trước trong trường hợp mẫu lớn và mô hình định dạng sai (Xie & Manski, 1989) Với mẫu nhỏ, WLE có thể kém hiệu quả hơn so với phương pháp điều chỉnh trước mặc dù sự khác biệt không đáng kể (Scott & Wild, 1986) Bên cạnh đó, vấn đề định dạng sai thường gặp trong các nghiên cứu khoa học xã hội, do đó WLE nên được ưu tiên áp dụng so với phương pháp hiệu chỉnh trước (King & Zeng, 2001; Xie & Manski, 1989).
Một số nghiên cứu thực nghiệm sử dụng WLE cho LR (Maalouf & Siddiqi,2014; Maalouf & Trafalis, 2011) trong tình huống có sẵn giá trịτ Trong khi đó,thông tin về nhóm dương tính trong tổng thể thường là ẩn số Duy nhất một nghiên cứu giải quyết vấn đề giá trị τ bằng phương pháp ước lượng moment tổng quát với các điều kiện moment cho mẫu phân tầng nội sinh (Ramalho &Ramalho, 2007) Tuy vậy, tính hiệu quả của phương pháp đề xuất được kiểm nghiệm dựa trên thiết kế nghiên cứu giả lập (simulation study) theo Cosslett. Điều này cho thấy hiệu quả của phương pháp đề xuất chưa được đánh giá trên đủ nhiều tình huống có thể xảy ra.
2.2.2.3 Hồi quy hợp lý có phạt (PLR)
PLR có dạng tổng quát như sau:
Xác định các β j sao cho tối đa hàm: logL ∗ (P (Y |X, β )) = log L (P (Y |X, β )) + A (β ) (2.8) Trong phương trình (2.8), A(β) có thể là một trong các dạng sau đây:
2 log(det(I(β))), với I (β) là ma trận thông tin Fisher (Firth, 1993).
• Ridge:A(β) = −λPp j=1 β j 2 , vớiλ > 0(Maalouf & Trafalis, 2011; M Y Park
• Lasso: A(β) = −λPp j=1 |β j |, với λ > 0 (Fu et al., 2017; Li et al., 2015).
Firth (FIR) có thể làm giảm độ chệch của các ước lượng tham số khi mẫu nhỏ Tuy nhiên, FIR lại gây ra hiện tượng chệch cho giá trị điểm (chệch về giá trị 0.5) Khi dữ liệu mất cân bằng nghiêm trọng (tỉ số IR rất lớn), độ chệch càng lớn Để khắc phục nhược điểm này, Puhr và cộng sự (2017) đã đề xuất hai phương pháp hiệu chỉnh kiểu FIR Đó là hiệu chỉnh trên hệ số chặn (intercept correction, FLIC) và hiệu chỉnh ma trận hiệp phương sai (added covariate approach, FLAC) Mặc dù FLIC và FLAC tốt hơn FIR, chúng lại không thắng được Ridge trong hầu hết các nghiên cứu với dữ liệu thực nghiệm và giả lập (Puhr et al., 2017) Ngoài ra, FIR, FLIC và FLAC khá nhạy cảm với các giá trị ban đầu trong quá trình tính toán ước lượng hợp lý cực đại.
Ridge và Lasso có ý tưởng tương tự, đó là áp đặt một ràng buộc lên độ lớn của các tham số trong LR cơ bản.
Mô hình Ridge-Logistic như sau:
Mô hình Lasso-Logistic như sau:
Với l(Y |X, β) là logarit tự nhiên hàm hợp lý được đề cập trong bài toán LR cơ bản (2.4); t > 0 là tham số điều chỉnh.
Bài toán tối ưu tương đương với (2.9) (hoặc (2.10)) là bài toán (2.8) dạng Ridge (hoặc dạng Lasso) Trong đó, tham số phạt λ tương ứng một - một với tham số điều chỉnh t Khiλ bằng 0, bài toán trở về LR cơ bản Ngược lại, khi λ khá lớn, độ lớn củaβ j , j ∈ 1, pbị hạn chế Như vậy, có thể nói Ridge và Lasso là các phương pháp ước lượng co rút (shrinkage estimator), tham số phạt λ điều chỉnh độ lớn của các ước lượngβ j (j ̸= 0) (được ký hiệu làβbj) Các ước lượng có thể được xác định bằng thuật toán giảm chiều (Coordinate descent algorithm) (Friedman, Hastie, & Tibshirani, 2010) Giá trị λ tối ưu thường được xác định bằng thủ tục xác thực chéo (cross-validation procedure, CV) dựa trên nguyên tắc tối thiểu tỉ lệ lỗi (hoặc tối đa độ chính xác), trong đó ngưỡng phân loại được mặc định là 0.5.
Ridge có thể cạnh tranh với FLIC và FLAC Tuy vậy, Ridge thường dẫn đến một mô hình có rất ít βb bằng 0 mặc dù giá trị các ước lượng này rất bé Do đó, khi dữ liệu có nhiều biến đầu vào, Ridge thường chiếm nhiều thời gian tính toán.
Tương tự Ridge, Lasso là một phương pháp ước lượng làm giảm độ lớn các ước lượng tham số của LR cơ bản Bên cạnh đó, Lasso còn là một phương pháp chọn biến Lasso giữ lại các biến đầu vào có liên quan mật thiết với kết quả đầu ra Khi dữ liệu có rất nhiều biến đầu vào, Lasso không mất quá nhiều thời gian tính toán như Ridge vì đã loại bỏ phần lớn các biến Tuy vậy, Lasso không trực tiếp giải quyết hiện tượng dữ liệu không cân bằng Một số nghiên cứu đã dùng kỹ thuật SMOTE để cân bằng dữ liệu trước khi áp dụng Lasso (Kitali et al.,2019; Shrivastava et al., 2020) Mặc dù rất phổ biến trong xử lý dữ liệu không cân bằng, SMOTE có thể gây ra vấn đề chồng lấn các lớp - là hiện tượng làm giảm hiệu quả của các bộ phân loại.
Chương 3 ĐỀ XUẤT HIỆU CHỈNH MÔ HÌNH HỒI QUY LOGISTIC
VÀ NGHIÊN CỨU THỰC NGHIỆM
Nghiên cứu các tài liệu liên quan LR với dữ liệu không cân bằng đã dẫn đến các kết luận sau đây LR vẫn có thể hữu ích nhờ tính có thể giải thích, đó là thể hiện ảnh hưởng của các biến đầu vào đến kết quả đầu ra qua phiên bản hồi quy có phạt kiểu Lasso Cách làm này có thể tránh sử dụng p-value trong đánh giá ảnh hưởng của các biến đầu vào Để giải quyết vấn đề dữ liệu không cân bằng, cần xem xét kết hợp bên trong (tiếp cận cấp độ thuật toán) và bên ngoài (tiếp cận cấp độ dữ liệu) quá trình tính toán hồi quy Lasso-Logistic (LLR) Hơn nữa, tiếp cận ở cấp độ dữ liệu cần dựa vào cấp độ thuật toán để phát huy những điểm mạnh và hạn chế những điểm yếu Ví dụ, SMOTE có thể chỉ áp dụng trên một tập con của nhóm dương tính chứa các phần tử mang những đặc trưng rõ nét của nhóm dương tính.
Từ ý tưởng kết hợp cấp độ thuật toán và cấp độ dữ liệu trong xử lý dữ liệu không cân bằng cho LR, chương này giới thiệu một hiệu chỉnh cho LR với tên gọi Hồi quy Lasso-Logistic định hướng theo độ đo F (F-LLR).
Các thuật toán đề xuất
Một hiệu chỉnh cho thủ tục xác thực chéo
F-LLR sử dụng LLR là thuật toán cơ sở Trong đó, thay vì dùng thủ tục xác thực chéo (CV) để tìm λ tối ưu, chúng tôi đề xuất một hiệu chỉnh cho CV - gọi là Thủ tục xác thực chéo dựa trên độ đo F (F-CV) Với F-CV, tiêu chuẩn để đánh giá λ tối ưu là độ đo F, là thước đo hiệu quả phù hợp hơn độ chính xác trên dữ liệu không cân bằng Chi tiết về CV và F-CV được mô tả ở các Bảng 3.1 và 3.2.
Theo các ký hiệu được đề cập trong Bảng 3.2, với mỗi giá trị ngưỡng α j, giá trị độ đo F qua xác thực chéo (cross-validation F-measure), F ij, là ước lượng
Bảng 3.1: Thủ tục xác thực chéo cho hồi quy Lasso Logistic Đầu vào: Tập huấn luyện T, chuỗi tham số phạt {λ i } h 1 , số nguyên K > 1.
1 Chia ngẫu nhiên T thành K tập kích thước bằng nhau T 1 , , T K
2 Với i ∈ {1, 2, , h} thực hiện như sau:
3 Vớik ∈ {1, 2, , K } thực hiện như sau:
4 Trên tập T \T k , áp dụng bộ phân loại LLR với λ i để được mô hình LLR(λ i ).
5 Trên tập T k , áp dụng mô hìnhLLR(λ i ) để có điểm của tất cả các phần tử.
6 So sánh điểm với giá trị ngưỡng mặc định 0.5 để dự báo nhãn của các phần tử.
7 Tính độ chính xác trên tập T k , kí hiệu là ACC ik
{ACC i } Đầu ra: Mô hình LLR(λ i 0 ) với tham số phạt tối ưu λ i 0.
Nguồn: Friedman và cộng sự (2010) của độ đo F trên tập kiểm tra của mô hình LLR(λ i ) Khi tham số phạt λ và ngưỡng α thay đổi lần lượt trong các chuỗi giá trị {λ i } h 1 và {α j } l 1 , F i 0 j 0 ở Bước
10 là một ước lượng của độ đo F tối đa mà mô hình LLR(λ) có thể đạt được trên tập T Do đó, F-CV không chỉ xác định được tham số phạt tối ưu λ i 0 mà còn có thể đề xuất giá trị ngưỡngα j 0 tối ưu tương ứng với F i 0 j 0 Quá trình tính toán của F-CV được minh hoạ qua Hình 3.1.
Có ba điểm khác biệt giữa CV và F-CV.
• Thứ nhất, CV cố định ngưỡng 0.5 để phân biệt nhãn dương và âm tính trong khi F-CV xem xét một chuỗi các giá trị {α j } l 1 để tìm ngưỡng tối ưu.
• Thứ hai, CV xác địnhλ tối ưu dựa trên độ chính xác qua xác thực chéo (kí hiệu là ACC i tại Bước 9, Bảng 3.1), là trung bình của tất cả các độ chính xác trên các tập con T k , (k ∈ 1, K) Ngược lại, F-CV dùng độ đo F qua xác thực chéo (kí hiệu là F ij tại Bước 9, Bảng 3.2).
• Thứ ba, F-CV có thể chỉ ra ngưỡng tối ưu cho quá tình phân loại trong khi
Bảng 3.2: Thủ tục xác thực chéo dựa trên độ đo F Đầu vào: Tập huấn luyện T, chuỗi tham số phạt {λ i } h 1 , chuỗi ngưỡng {α j } l 1 , số nguyên K(K > 1).
1 Chia ngẫu nhiên T thành K tập kích thước bằng nhau T 1 , , T K
2 Với i ∈ {1, 2, , h} thực hiện như sau:
3 Với j ∈ {1, 2, , l} thực hiện như sau:
4 Với k ∈ {1, 2, , K} thực hiện như sau:
5 Trên tập T \T k , xây dựng mô hình LLR(λ i ).
6 Trên tậpT k , áp dụngLLR(λ i ) để có điểm của tất cả các phần tử.
7 So sánh điểm với giá trị ngưỡng α j để dự báo nhãn của các phần tử trong tập T k
8 Tính độ đo F, kí hiệu là F ijk
10 F i 0 j 0 = max i,j {F ij } Đầu ra: Mô hình LLR(λ i 0 ), tham số phạt tối ưu λ i 0 và ngưỡng tối ưu α j 0
Nguồn: Tác giả đề xuất
𝑇 1 𝑇 2 … 𝑇 𝑘 … 𝑇 𝐾 Tập dữ liệu huấn luyện
Xây dựng LLR(𝜆 𝑖 ) Độ đo
Nguồn: Tác giả thiết kế
Một hiệu chỉnh cho mô hình hồi quy Logistic
Bảng 3.3: Thuật toán cho mô hình hồi quy Lasso-Logistic với dữ liệu không cân bằng Đầu vào:
Tập huấn luyệnT 0 ; nhóm dương và âm tínhS 0 + , S 0 − ; chuỗi{λ i } h 1 , chuỗi {α j } l 1 , số nguyên K. r U : tỉ lệ loại bỏ các phần tử âm tính; r S : tỉ lệ gia tăng các phần tử dương tính bằng kỹ thuật SMOTE (thoả (1 − r U )|S 0 − | > |S 0 + |).
1 Áp dụng thuật toán F-CV lên tập T 0 để xây dựng mô hình LLR(λ 0 ).
2 Áp dụng mô hìnhLLR(λ 0 )để tính điểm của tất cả các phần tử thuộc tập T 0
3 Sắp thứ tự các phần tử thuộc lớp dương tính S 0 + và âm tínhS 0 − theo điểm từ cao đến thấp.
4 Trên tậpS 0 − , bỏ (r U × |S 0 − |) phần tử có điểm cao nhất, được tập S 1 −
5 Trên tập S 0 + , xác định tập con gồm (r S × |S 0 + |) phần tử có điểm cao nhất, kí hiệu là S 0 ++
7 Trên tập conS 0 ++ , dùng kỹ thuật SMOTE để tạo ra(m − 1)r S × |S 0 + | phần tử nhân tạo và gán nhãn dương tính.
9 Áp dụng F-CV trên tập cân bằng T 1 = S 1 + ∪ S 1 − Đầu ra: Mô hình LLR(λ 1 ) và ngưỡng tối ưu α 1
Với |A| ký hiệu lực lượng của tập hợp A.
Nguồn: Tác giả đề xuất
Quá trình tính toán mô hình được đề xuất F-LLR gồm hai giai đoạn được thể hiện trong Bảng 3.3 Đầu tiên, tất cả các phần tử trong tập huấn luyện được tính điểm bằng thủ tục F-CV Sau đó, căn cứ vào điểm của mỗi phần tử, kỹ thuật lấy mẫu dưới và SMOTE lần lượt được áp dụng để cân bằng tập huấn luyện Sau cùng, trên tập cân bằng vừa được tạo ra, thủ tục F-CV lại được áp dụng để xây dựng mô hình F-LLR. Điểm
+ + + + Phần tử bị loại bỏ
Phần tử nhân tạo Điểm
Nguồn: Tác giả thiết kế
Sự kết hợp kỹ thuật lấy mẫu dưới và SMOTE nhằm mục đích loại bỏ phần tử không có lợi và gia tăng phần tử hữu ích cho quá trình phân loại Đối với phần tử âm tính, điểm càng cao thì khả năng bị phân loại sai càng lớn Đây có thể là những phần tử nhiễu, phần tử ở ranh giới hoặc các phần tử nằm vào vùng không gian của nhóm dương tính Những phần tử này làm giảm các độ đo hiệu quả của các bộ phân loại Vì thế, thay vì áp dụng kỹ thuật RUS - loại bỏ ngẫu nhiên các phần tử âm tính, chúng tôi đã loại bỏ một tỉ lệ các phần tử âm tính có điểm cao Kế đến, thay vì chọn toàn bộ nhóm dương tính, chúng tôi chỉ áp dụng kỹ thuật SMOTE lên tập con gồm các phần tử dương tính có điểm cao Ý tưởng này ngược lại với ẩn ý khi loại bỏ phần tử âm tính có điểm cao Những phần tử dương tính điểm cao thường được phân loại đúng khi ngưỡng phân loại thay đổi Việc tạo thêm các phần tử mới trong lân cận của nhóm dương tính điểm cao sẽ cung cấp thêm nhiều quan sát (từ đó thêm nhiều thông tin) hữu ích của nhóm dương tính Cách thức của chúng tôi là phát triển lực lượng dương tính mà mang rõ nét các đặc trưng của nhóm dương tính Hơn nữa, những phần tử dương tính điểm cao này thường cách xa đường ranh giới hai nhóm, do đó tạo thêm các phần tử dương tính trong lân cận của chúng sẽ hạn chế được vấn đề chồng lấn dữ liệu - là một nhược điểm của SMOTE Hình 3.2 minh hoạ ý tưởng sau Bước 3 và 8 trong quá trình thực hiện mô hình F-LLR.
Nghiên cứu thực nghiệm
Dữ liệu thực nghiệm
Đánh giá tín dụng (credit scoring) là một ví dụ điển hình của bài toán phân loại dữ liệu không cân bằng Trong đó, nhóm dương tính là nhóm khách hàng xấu và nhóm âm tính là nhóm khách hàng tốt Vì các tổ chức tín dụng thường có các quy định nhằm sàng lọc khách hàng trước khi cấp vốn, số lượng khách hàng xấu luôn ít hơn rất nhiều lần số lượng khách hàng tốt Một ví dụ khác của bài toán phân loại dữ liệu không cân bằng là bài toán chẩn đoán ung thư. Trong đó, nhóm bệnh nhân ung thư là nhóm dương tính, nhóm còn lại là âm tính Nhóm bệnh nhân ung thư luôn ít hơn nhóm không có bệnh.
Tám tập dữ liệu tín dụng và một tập dữ liệu y khoa được sử dụng trong nghiên cứu thực nghiệm Tám tập dữ liệu tín dụng được lấy từ các nước khác nhau như Úc (AUS) 1 , Đức (GER) 2 , Đài Loan (TAI) 3 và tập dữ liệu của Việt Nam (VN) Ngoài ra, một số tập dữ liệu khác với các tên gọi như: Dữ liệu rủi ro tín dụng (Credit 1) 4 , Dữ liệu thẻ tín dụng (Credit 2) 5 , Dữ liệu vỡ nợ tín dụng (Credit 3) 6 , Dữ liệu khách hàng cá nhân (BANK) 7
Bộ dữ liệu y khoa về chẩn đoán bệnh nhân viêm gan siêu vi C (HEPA) 8 Đây là tập dữ liệu vừa không cân bằng vừa có kích thước nhóm dương tính rất nhỏ (chỉ có 63 phần tử dương tính).
Chín tập dữ liệu không cân bằng với những mức độ khác nhau, thể hiện qua giá trị IR Một số đặc điểm của các bộ dữ liệu được trình bày trong bảng 3.4 với thứ tự sắp xếp theo cột IR từ bé đến lớn Căn cứ vào IR, các bộ dữ liệu được chia thành ba nhóm Nhóm thứ nhất, gồm AUS, GER, TAI và Credit 1, là các bộ dữ liệu có mức độ mất cân bằng thấp (IR≤ 5) Trong đó, AUS, GER và TAI rất quen thuộc với các nghiên cứu về đánh giá tín dụng Bộ dữ liệu Credit 1 được chọn ngẫu nhiên 20% từ bộ dữ liệu gốc nhằm rút gọn thời gian tính toán. Credit 1 vẫn đảm bảo tỉ lệ IR như bộ dữ liệu gốc trên trang Kaggle Nhóm thứ hai, gồm các bộ Credit 2, 3, BANK và HEPA, có mức độ mất cân bằng trung
1 http://archive.ics.uci.edu/dataset/143/statlog+australian+credit+approval
2 http://archive.ics.uci.edu/dataset/144/statlog+german+credit+data
3 http://archive.ics.uci.edu/dataset/350/default+of+credit+card+clients
4 https://www.kaggle.com/datasets/laotse/credit-risk-dataset
5 https://www.kaggle.com/datasets/samuelcortinhas/credit-card-classification-clean-data
6 https://www.kaggle.com/datasets/gargvg/univai-dataset
7 https://www.kaggle.com/datasets/teertha/personal-loan-modeling
8 http://archive.ics.uci.edu/dataset/571/hcv+data
Bảng 3.4: Tóm tắt dữ liệu thực nghiệm
Bộ dữ liệu Kích thước # dương tính a Tỉ lệ IR Số biến #định lượng b
VN 10,889 602 17.09 11 0 a: Số phần tử nhóm dương tính; b : Số biến định lượng
Nguồn: Tác giả tổng hợp bình (5 |S 0 + | Thông thường, nếu kỹ thuật RUS được áp dụng,một tập con chiếm tỉ lệ IR−1 IR của nhóm âm tính sẽ bị loại bỏ một cách ngẫu nhiên Tuy nhiên, trong cách thực hành này, chúng tôi không loại bỏ quá nhiều phần tử âm tính nhằm hạn chế khả năng hao hụt thông tin của nhóm âm tính.
• Chuỗi tỉ lệ {r S } 20 1 gồm 20 giá trị từ 0.05 đến 0.75 Với kỹ thuật SMOTE nguyên bản,100% các phần tử dương tính được sử dụng để tạo ra các phần tử nhân tạo trong lân cận của chúng Theo phương pháp mà chúng tôi đề xuất, chỉ tối đa 75% nhóm dương tính gồm các phần tử có điểm cao nhất được chọn, từ đó sinh ra các phần tử nhân tạo Cách làm này đã không quan tâm đến các phần tử dương tính có điểm nhỏ, vì chúng thường nằm gần đường ranh giới hai nhóm Việc không sinh thêm các phần tử nhân tạo trong lân cận của nhóm âm tính có điểm nhỏ nhằm hạn chế hiện tượng chồng lấn dữ liệu - là một nhược điểm lớn của kỹ thuật SMOTE nguyên bản.
Trên mỗi tập dữ liệu, tất cả các bộ phân loại được thực hiện 20 lần Các độ đo hiệu quả được tính trên tập kiểm tra và lấy trung bình sau 20 lần thực hiện.Đây là căn cứ để so sánh hiệu quả của các bộ phân loại.
Kết quả thực nghiệm
Với các chuỗi {r U } 20 1 và {r S } 20 1 được xác định như trên, tính toán qua các bộ dữ liệu thấy rằng giá trị tối ưu của tỉ lệ loại bỏ nhóm âm tính r U nằm trong khoảng [0.05; 0.25], tỉ lệ gia tăng các phần tử dương tính r S thuộc khoảng [0.20; 0.75] Với bộ dữ liệu HEPA, là bộ có mức độ mất cân bằng trung bình nhưng rất ít số phần tử dương tính, giá trị tối ưu của các tỉ lệ này là r U = 0.07 và r S = 0.75 Có thể thấy rằng, việc gia tăng lực lượng nhóm dương tính thể hiện vai trò lớn hơn việc loại bỏ nhóm âm tính trong quá trình tính toán F-LLR ở nghiên cứu thực nghiệm này.
Giá trị trung bình các độ đo hiệu quả của các mô hình phân loại được thể hiện ở Bảng 3.6 và Bảng 3.7 Nhìn chung, F-LLR có hiệu quả cao hơn các mô hình còn lại ở giá trị KS và độ đo F trên các tập dữ liệu thực nghiệm.
Trên các tập dữ liệu TAI, Credit 2, Credit 3 và HEPA, F-LLR là mô hình hiệu quả nhất, bởi vì F-LLR vượt trội các mô hình khác ở ít nhất ba độ đo hiệu quả Trên các tập dữ liệu còn lại (trừ tập BANK), F-LLR thắng ở hai chỉ tiêu.
Bảng 3.6: Độ đo hiệu quả trung bình của các mô hình
Bộ dữ liệu Độ đo hiệu quả
LLR RUS ROS SMOTE Ridge WLE F-LLR
∗: Ngưỡng tối ưu tương ứng với độ đo F cao nhất.
Giá trị in đậm là giá trị cao nhất mỗi dòng.
Bảng 3.7: Độ đo hiệu quả trung bình của các mô hình (tiếp theo.)
Bộ dữ liệu Độ đo hiệu quả
LLR RUS ROS SMOTE Ridge WLE F-LLR
∗: Ngưỡng tối ưu tương ứng với độ đo F cao nhất.
Giá trị in đậm là giá trị cao nhất mỗi dòng.
Nguồn: Tác giả tính toán
Trên bộ VN - là bộ dữ liệu có tỉ lệ IR lớn nhất, F-LLR là mô hình đáng chú ý nhất F-LLR chiến thắng các mô hình còn lại ở cả hai chỉ tiêu KS và độ đo
F Mặc dù thua ROS-LLR ở độ đo G, sự khác biệt giá trị G của ROS-LLR và của F-LLR không đáng kể Tương tự khi so sánh với WLE ở tiêu chuẩn AUC. Ngoài ra, Ridge có hiệu quả kém hơn tất cả các mô hình được xem xét trên bộ dữ liệu VN.
Tóm lại, F-LLR có KS và độ đo F cao hơn hầu hết các mô hình còn lại qua các bộ dữ liệu thực nghiệm Ngược lại, phương pháp tiếp cận ở cấp độ dữ liệu khi xử lý không cân bằng trên các bộ GER, Credit 2 và HEPA không đạt kết quả tốt - thậm chí làm cho các độ đo hiệu quả giảm so với LLR không sử dụng bất cứ kỹ thuật mẫu nào Bên cạnh đó, Ridge có khả năng cạnh tranh với F-LLR ở một số bộ dữ liệu như AUS, GER và BANK.
Với ngưỡng phân loại tối ưu - theo nghĩa tối đa độ đo F, F-LLR có ngưỡng cao hơn các mô hình còn lại.
Kiểm định kết quả thực nghiệm
Kiểm định chỉ dấu (Sign test) được sử dụng để có kết luận thuyết phục về hiệu quả của F-LLR Kiểm định chỉ dấu không có bất kỳ giả thuyết về phân phối của các độ đo hiệu quả Nó chỉ đếm số tập dữ liệu mà mô hình được quan tâm thắng các mô hình khác Chi tiết về kiểm định chỉ dấu có thể tìm đọc ở các tài liệu như Demˇsar (2006); Sheskin (2003) Khi so sánh nhiều mô hình với nhau, kết quả có thể được thể hiện theo từng cặp trên một ma trận.
Khi đánh giá một mô hình cho trước với một mô hình khác dựa trên một độ đo hiệu quả nào đó (có thể là AUC, KS hoặc đọ đo F), có hai khả năng xảy ra: thắng hoặc không Như vậy, số lần thắng của mô hình cho trước tuân theo luật phân phối nhị thức Binorm(N; p) Dưới giả thuyết vô hiệu (độ đo hiệu quả của hai mô hình như nhau), tham số của phân phối nhị thức được xác định như sau:
• N: Số bộ dữ liệu thực nghiệm.
• p = 0.5: Xác suất thắng dưới giả thuyết vô hiệu.
Từ phân phối nhị thức Binorm(N ; 0.5) có thể dễ dàng tính toán giá trị tới hạn của số lần thắng của mô hình cho trước Ví dụ, với N = 9, giá trị tới hạn tương ứng với mức ý nghĩaα = 5%(hoặc 10%) là w α = 8(hoặc w α = 7) (Demˇsar, 2006) Điều đó có nghĩa là, mô hình cho trước tốt có độ đo hiệu quả cao hơn mô hình còn lại nếu độ đo hiệu quả của nó cao hơn ít nhất trênw α tập dữ liệu.
Bảng 3.8: Số lần thắng của F-LLR trên các bộ dữ liệu Độ đo hiệu quả
So sánh từng đôi So sánh toàn thể LLR RUS-LLR ROS-LLR SMOTE-LLR Ridge
∗∗ và ∗ : có ý nghĩa thống kê mức 5% và 10%.
Nguồn: Tác giả tính toán
Từ Bảng 3.6 và Bảng 3.7, chúng tôi thực hiện so sánh hiệu quả của mô hình F-LLR từng đôi đồng thời so sánh với toàn thể các mô hình đã xem xét Tuy nhiên, không thể thực hiện kiểm định thống kê để so sánh hiệu quả của F-LLR và WLE vì chỉ có một quan sát cho phép so sánh này.
Số lần thắng của F-LLR được trình bày ở Bảng 3.8 Trong đó, F-LLR thắng toàn thể các mô hình khác trên 7 bộ dữ liệu ở chỉ tiêu KS và độ đo F Điều đó có nghĩa là với mức ý nghĩa 10%, F-LLR có KS và độ đo F cao hơn tất cả các mô hình còn lại. Ở các so sánh từng đôi, một số nhận xét sau đây được rút ra từ Bảng 3.8:
• Theo chỉ tiêu AUC: F-LLR thắng LLR và RUS-LLR trên cả 9 bộ dữ liệu; thắng ROS-LLR trên 5 bộ, thắng SMOTE-LLR trên 6 bộ, và Ridge trên 6 bộ Như vậy, F-LLR tốt hơn LLR và RUS-LLR với mức ý nghĩa 5%.
• Theo chỉ tiêu G: F-LLR thắng LLR trên 8 bộ dữ liệu Bên cạnh đó, F-LLR thắng RUS-LLR, SMOTE-LLR, và Ridge trên 7 bộ dữ liệu nhưng thắng ROS-LLR trên 6 Như vậy, trừ ROS-LLR, F-LLR tốt hơn các mô hình còn lại với mức ý nghĩa từ 5 đến 10%.
Tóm lại, F-LLR có các độ đo hiệu quả KS và F cao hơn tất cả các mô hình được xem xét Khi so sánh từng đôi, F-LLR thật sự thắng LLR và RUS-LLR ở cả bốn chỉ tiêu đánh giá, thắng SMOTE và Ridge ở ba chỉ tiêu.
Biến đầu vào quan trọng
3.2.6.1 Xác định biến đầu vào quan trọng cho mô hình F-LLR
Lasso là một phương pháp chọn biến nhờ vào khả năng giữ lại các biến đầu vào quan trọng mà không dùng đến tiêu chuẩn p-value Do đó, F-LLR thừa hưởng được khả năng này của phương pháp Lasso. Đối với đặc điểm đầu vào được mô tả bởi biến định lượng, giá trị ước lượng tham số tương ứng thể hiện mức độ quan trọng của nó Giá trị tuyệt đối của ước lượng tham số càng lớn, sự ảnh hưởng của đặc điểm đầu vào này đến điểm (là xác suất thuộc nhóm dương tính) càng lớn. Đối với đặc điểm đầu vào dạng định tính có m phạm trù, m − 1 biến nhị phân được sử dụng để mô tả thông tin của biến định tính đó Phạm trù tương ứng với cả m − 1 biến nhị phân bằng 0 được gọi là phạm trù cơ sở Giá trị βc jk , (k ∈ 1, m − 1)thể hiện sự khác biệt trong ảnh hưởng đến điểm của phạm trù thứ k so với phạm trù cơ sở Điều đó có nghĩa là nếu hai quan sát có cùng các đặc điểm còn lại, βc jk dương khi và chỉ khi quan sát thuộc phạm trù k có điểm cao hơn quan sát thuộc phạm trù cơ sở Vì thế, giá trị βc jk có thể được dùng để đánh giá sự quan trọng của phạm trù k của một đặc điểm định tính cho trước. Trong cách xây dựng mô hình của chúng tôi, F-LLR được lặp lại 20 lần trên mỗi bộ dữ liệu để hạn chế độ chệch của các độ đo hiệu quả Vì vậy, số lần xuất hiện của một biến cho trước tuân theo quy luật phân phối nhị thức Binorm(N ; p) Biến này có ảnh hưởng đến điểm khi và chỉ khi số lần xuất hiện của nó qua 20 lần có ý nghĩa thống kê.
Với giả thuyết vô hiệu làH0: Biến cho trước không ảnh hưởng đến điểm (một cách tương đương là Sự xuất hiện của biến này là ngẫu nhiên trong mô hình), tham số của phân phối nhị thức là:
• N = 20: Số lần chạy trên mỗi bộ dữ liệu.
• p = 0.5: Xác suất xuất hiện của biến trong mô hình ở mỗi lần chạy.
Theo phân phố nhị thứcBinorm(20; 0.5), giá trị tới hạn số lần xuất hiện của các biến được tính toán Với mức ý nghĩa thống kê α = 5% (hoặc 10%), giá trị tới hạn là w α = 15 (hoặc w α = 14) (Demˇsar, 2006) Nghĩa là, một biến có ảnh hưởng đến điểm với mức ý nghĩa α khi số lần xuất hiện của nó ít nhất là w α.
3.2.6.2 Các biến đầu vào quan trọng trong tập dữ liệu Việt Nam
Bộ dữ liệu VN có tất cả các đặc điểm đầu vào dạng định tính Bảng 3.9 và 3.10 thể hiện các đặc điểm, các phạm trù của mỗi đặc điểm, số lần xuất hiện qua 20 lần thực hiện ước lượng mô hình F-LLR và mức độ quan trọng đối với đầu ra (trường hợp này là xác suất là khách hàng xấu) Ở đây, mức độ quan trọng của một biến là trung bình các ước lượng hệ số tương ứng với biến đó trong 20 mô hình Mức độ quan trọng của một biến chỉ được tính khi số lần xuất hiện của biến đó qua 20 lần có ý nghĩa thống kê.
Bảng 3.9: Sự quan trọng của các đặc điểm đầu vào của bộ dữ liệu Việt Nam Đặc điểm Các phạm trù Số lần xuất hiện Mức độ quan trọng
Khác phạm trù cơ sở ———
∗∗ và ∗ : có ý nghĩa thống kê ở mức 5% và 10%.
Bảng 3.10: Sự quan trọng của các đặc điểm đầu vào của bộ dữ liệu Việt Nam (tiếp theo) Đặc điểm Các phạm trù Số lần xuất hiện Mức độ quan trọng
Cá nhân phạm trù cơ sở ———
CML phạm trù cơ sở ———
Số dư hiện tại từ các khoản vay khác
Nữ phạm trù cơ sở ———
∗∗ và ∗ : có ý ngĩa thống kê ở mức 5% và 10%.
Nguồn: Tác giả tính toán
Từ Bảng 3.9 và 3.10, có thể rút ra một số nhận xét sau về vai trò của các đặc điểm đầu vào đối với điểm (xác suất là khách hàng xấu).
• Các đặc điểm “Loại khách hàng”, “Loại hình vay”, “Giới tính” và “Điều khoản” không liên quan đến điểm Ngược lại, có bằng chứng thống kê cho thấy các đặc điểm còn lại ảnh hưởng đến xác suất vỡ nợ của khách hàng.
• Đặc điểm “Thời hạn”: Khách hàng có thời hạn vay dài hơn 36 tháng thì có xác suất vỡ nợ cao hơn các khách hàng với thời hạn vay khác Trong đó, nhóm khách hàng có rủi ro cao nhất là nhóm với thời hạn trên 42 tháng (biến chỉ phạm trù này xuất hiện cả 20 lần trong 20 lần tính toán thực nghiệm trên bộ dữ liệu của Việt Nam) Ngoài ra, điểm của các khách hàng ở các thời hạn vay dưới 36 tháng thì không khác biệt nhau.
• Đặc điểm “Lãi suất”: Khách hàng chịu mức lãi suất trong khoảng 10% – 14% là nhóm có rủi ro cao, đặc biệt nhóm khách hàng với mức lãi suất 12% – 14% có rủi ro cao nhất Không có bằng chứng cho thấy có sự khác biệt điểm số của khách hàng ở các mức lãi suất còn lại.
• Đặc điểm “Thể loại vay”: Chỉ loại hình lãi định kỳ ít rủi ro hơn so với các thể loại vay còn lại Không có bằng chứng cho thấy có sự khác biệt về điểm của các thể loại vay còn lại.
• Đặc điểm “Mục đích”: Nhóm khách hàng với mục đích được kí hiệu P2 có rủi ro cao nhất Bên cạnh đó, nhóm khách hàng với mục đích P5 có mức rủi ro thấp nhất Không có sự khác biệt về điểm của các khách hàng với các mục đích P1, P2 và P4.
• Đặc điểm “Số dư hiện tại từ các khoản vay khác”: Nhóm các khách hàng với số dư hiện tại từ các khoản vay khác trong khoảng [250; 350] (triệu VND) giảm khả năng vỡ nợ so với nhóm khách hàng thuộc phạm trù cơ sở Ngoài ra, không có bằng chứng thống kê cho thấy điểm của các khách hàng tương ứng với các mức số dư còn lại thì khác biệt nhau.
• Đặc điểm “Dư nợ gốc”: Các khách hàng với dư nợ gốc dưới 4 (triệu VND) thì rủi ro vỡ nợ thấp nhất Các khách hàng với các mức dư nợ gốc còn lại thì không có khác biệt về mức độ rủi ro.
• Đặc điểm “Chi nhánh”: Các chi nhánh B4 và B5 có khả năng rủi ro cao nhất, kế đến là chi nhánh B2 Không có khác biệt về điểm của các khách hàng ở chi nhánh B1 và B3.
Tóm lại, các đặc điểm của bộ dữ liệu Việt Nam như “Chi nhánh”, “Lãi suất”,
“Thời hạn”, “Thể loại vay”, “Mục đích”, “Số dư tài khoản thanh toán thời điểm vay”, and “Dư nợ gốc”, là các đặc điểm có nhiều thông tin đến rủi ro vỡ nợ của khách hàng.
Thảo luận kết quả
Kết quả tính toán thực nghiệm và kiểm định thống kê cho thấy mô hình đề xuất F-LLR thật sự hiệu quả hơn LLR và RUS-LLR (vượt trội ở cả 4 chỉ tiêu đánh giá AUC, KS, F và G), tốt hơn SMOTE-LLR và Ridge-LLR (ở 3 chỉ tiêu). Hơn nữa, F-LLR có các độ đo hiệu quả KS và F cao hơn tất cả các mô hình được xem xét trong nghiên cứu thực nghiệm Điều đó có nghĩa là F-LLR có thể phân tách phân bố dương tính thực và phân phối dương tính giả tốt hơn các mô hình khác; cũng như F-LLR cho thấy sự cân bằng tốt nhất giữa độ chuẩn xác và tỉ lệ dương tính thực.
Trong ứng dụng đánh giá tín dụng, tỉ lệ dương tính thực quan trọng hơn độ chuẩn xác Tuy nhiên, nếu một bộ phân loại nhấn mạnh đến tỉ lệ dương tính thực và bỏ qua độ chuẩn xác thì nhiều khách hàng tốt sẽ bị từ chối Đây cũng là một kịch bản không hay đối với các tổ chức tài chính hoạt động vì lợi nhuận.
Vì vậy, F-LLR với khả năng làm gia tăng độ đo F (đồng nghĩa với F-LLR tối ưu cả tỉ lệ dương tính thực và độ chuẩn xác) là một lựa chọn tốt ứng dụng trong đánh giá tín dụng Bên cạnh tính hiệu quả, khả năng lựa chọn biến của F-LLR đáp ứng yêu cầu về khả năng giải thich của một mô hình đánh giá tín dụng.
Đóng góp mới của nghiên cứu
Ngày nay, bài toán phân loại được giải quyết bằng nhiều mô hình và phương pháp hiện đại trong lĩnh vực học máy, học sâu Tuy vậy, hồi quy Logistic vẫn là một trong những mô hình phân loại truyền thống phổ biến nhất, đặc biệt trong đánh giá tín dụng (Onay & ¨Ozt¨urk, 2018) Tương tự như các mô hình phân loại cơ bản, hồi quy Logistic vận hành không hiệu quả trên dữ liệu không cân bằng Các cách xử lý ở cấp độ dữ liệu và thuật toán có thể làm giảm nhẹ các hậu quả của dữ liệu không cân bằng nhưng hiệu quả không vững Nghiên cứu đã đề xuất một hiệu chỉnh cho hồi quy Logistic bằng cách kết hợp tiếp cận ở cấp độ thuật toán và cấp độ dữ liệu trong xử lý dữ liệu không cân bằng.
Mô hình đề xuất được gọi là Hồi quy Lasso-Logistic định hướng theo độ đo
F (F-LLR) đã kế thừa mô hình Lasso-Logistic Đây là một phiên bản của hồi quy có phạt bằng cách đặt một ràng buộc bởi siêu tham số λ lên các tham số trong mô hình hồi quy Logistic cơ bản Mô hình đề xuất có hai hiệu chỉnh Thứ nhất, hiệu chỉnh thủ tục xác thực chéo để tìm λ tối ưu Thứ hai, kết hợp kỹ thuật lấy mẫu dưới và SMOTE một cách có định hướng để cân bằng tập dữ liệu Kết quả thực nghiệm cho thấy F-LLR có độ đo F và KS tốt hơn các phiên bản hoặc phương pháp cổ điển áp dụng cho hồi quy Logistic với dữ liệu không cân bằng, ví dụ như Lasso-Logistic, Ridge-Logisitic, hồi quy có trọng số hoặc RUS-Logistic, ROS-Logistic, SMOTE-Logistic Ngoài ra, kế thừa tính chất của phương pháp ước lượng Lasso, F-LLR có khả năng chỉ ra các biến đầu vào có ảnh hưởng đến đầu ra (là xác suất thuộc nhóm dương tính).
Như vậy, F-LLR có hai ưu điểm là tính hiệu quả và tính có thể giải thích. Hai đặc điểm này có tính cạnh tranh nhau và đa số các mô hình học máy không sở hữu đồng thời Với hai ưu điểm này, F-LLR là lựa chọn phù hợp cho các bài toán phân loại không cân bằng trong đánh giá tín dụng và chẩn đoán y khoa.
Hạn chế và hướng phát triển đề tài
Các tỉ lệr U và r S trong quá trình tính toán của F-LLR cần được nghiên cứu sâu hơn để có thể kết luận chính xác về giá trị tối ưu của các siêu tham số này. Việc xác định được giá trị tối ưu của các siêu tham số này sẽ tiết kiệm được thời gian thực hành Bên cạnh đó, F-LLR cần được áp dụng trên nhiều bộ dữ liệu ở các lĩnh vực khác để có thể kết luận vững chắc về hiệu quả của nó. Trong thực tế, bài toán phân loại dữ liệu đa lớp thường gặp hơn bài toán phân loại nhị phân Vấn đề dữ liệu không cân bằng đối với bài toán phân loại đa lớp chưa được quan tâm nhiều như bài toán phân loại nhị phân Cách thức kết hợp cấp độ thuật toán và cấp độ dữ liệu của mô hình F-LLR có thể áp dụng và cải tiến cho hồi quy Softmax - một phiên bản phân loại đa lớp của hồi quyLogistic.
Agustianto, K., & Destarianto, P (2019) Imbalance data handling using neighborhood cleaning rule (ncl) sampling method for precision student modeling In 2019 international conference on computer science, information technology, and electrical engineering (icomitee) (p 86-89) doi: 10.1109/ICOMITEE.2019.8921159
Angiulli, F (2005) Fast condensed nearest neighbor rule In Proceedings of the 22nd inter- national conference on machine learning (p 25–32) New York, NY, USA: Association for Computing Machinery Retrieved from https://doi.org/10.1145/1102351.1102355 doi: 10.1145/1102351.1102355
Batista, G., Carvalho, A., & Monard, M C (2000) Applying one-sided selection to unbalanced datasets In O Cairó, L E Sucar, & F J Cantu (Eds.), Micai 2000: Advances in artificial intelligence (pp 315–325) Berlin, Heidelberg: Springer Berlin Heidelberg.
Batista, G., Prati, R C., & Monard, M C (2004) A study of the behavior of several methods for balancing machine learning training data ACM SIGKDD Explorations Newsletter , 6(1), 20–29.
Bektas, J., Ibrikci, T., & Ozcan, I T (2017) Classification of real imbalanced cardiovascular data using feature selection and sampling methods: a case study with neural networks and logistic regression International Journal on Artificial Intelligence Tools, 26 (06), 1750019.
Bellinger, C., Drummond, C., & Japkowicz, N (2016) Beyond the boundaries of smote In Machine learning and knowledge discovery in databases (pp 248–263) Springer International Publishing. Boonchuay, K., Sinapiromsaran, K., & Lursinsap, C (2017) Decision tree induction based on minority entropy for the class imbalance problem Pattern Analysis and Applications, 20 , 769–782. Brown, I., & Mues, C (2012) An experimental comparison of classification algorithms for imbalanced credit scoring data sets Expert Systems with Applications , 39 (3), 3446–3453.
Chawla, N V., Bowyer, K W., Hall, L O., & Kegelmeyer, W P (2002) Smote: synthetic minority over-sampling technique Journal of artificial intelligence research , 16 , 321–357.
Chou, C.-H., Kuo, B.-H., & Chang, F (2006) The generalized condensed nearest neighbor rule as a data reduction method In 18th international conference on pattern recognition (icpr’06) (Vol 2, p 556-559) doi: 10.1109/ICPR.2006.1119
Cieslak, D A., Hoens, T R., Chawla, N V., & Kegelmeyer, W P (2012) Hellinger distance decision trees are robust and skew-insensitive Data Mining and Knowledge Discovery, 24 , 136–158. Cramer, J S (2003) Logit models from economics and other fields Cambridge University Press. Cui, Y.-J., Davis, S., Cheng, C.-K., & Bai, X (2004) A study of sample size with neural network.
In Proceedings of 2004 international conference on machine learning and cybernetics (ieee cat. no 04ex826) (Vol 6, pp 3444–3448).
Demˇ sar, J (2006) Statistical comparisons of classifiers over multiple data sets The Journal of Machine learning research, 7 , 1–30.
Devi, D., Biswas, S., & Purkayastha, B (2017) Redundancy-driven modified tomek-link based un- dersampling: A solution to class imbalance Pattern Recognition Letters, 93 , 3-12 Retrieved from https://www.sciencedirect.com/science/article/pii/S0167865516302719 (Pat- tern Recognition Techniques in Data Mining) doi: https://doi.org/10.1016/j.patrec.2016.10 006
D’Addabbo, A., & Maglietta, R (2015) Parallel selective sampling method for imbalanced and large data classification Pattern Recognition Letters, 62 , 61-67 Retrieved from https:// www.sciencedirect.com/science/article/pii/S0167865515001531 doi: https://doi.org/ 10.1016/j.patrec.2015.05.008
Ebenuwa, S H., Sharif, M S., Alazab, M., & Al-Nemrat, A (2019) Variance ranking attributes selection techniques for binary classification problem in imbalance data IEEE Access , 7, 24649-
Elahi, E., Ayub, A., & Hussain, I (2021) Two staged data preprocessing ensemble model for software fault prediction In 2021 international bhurban conference on applied sciences and technologies (ibcast) (pp 506–511).
Elhassan, T., & Aljurf, M (2017) Classification of imbalance data using tomek link (t-link) combined with random under-sampling (rus) as a data reduction method Global J Technol Optim S , 1. Faris, H (2014) Neighborhood cleaning rules and particle swarm optimization for predicting customer churn behavior in telecom industry International Journal of Advanced Science and Technology,
Fernández, A., García, S., Galar, M., Prati, R C., Krawczyk, B., & Herrera, F (2018) Learning from imbalanced data sets (Vol 10) Springer.
Firth, D (1993) Bias reduction of maximum likelihood estimates Biometrika, 80 (1), 27–38. Fotouhi, S., Asadi, S., & Kattan, M W (2019) A comprehensive data level analysis for cancer diagnosis on imbalanced data Journal of Biomedical Informatics, 90 , 103089 Retrieved from https://www.sciencedirect.com/science/article/pii/S1532046418302302 doi: https:// doi.org/10.1016/j.jbi.2018.12.003
Friedman, J., Hastie, T., & Tibshirani, R (2010) Regularization paths for generalized linear models via coordinate descent Journal of Statistical Software , 33 (1), 1–22.
Fu, G.-H., Xu, F., Zhang, B.-Y., & Yi, L.-Z (2017) Stable variable selection of class-imbalanced data with precision-recall criterion Chemometrics and Intelligent Laboratory Systems, 171 , 241–250 doi: https://doi.org/10.1016/j.chemolab.2017.10.015
Galar, M., Fernandez, A., Barrenechea, E., Bustince, H., & Herrera, F (2011) A review on ensem- bles for the class imbalance problem: bagging-, boosting-, and hybrid-based approaches IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 42 (4), 463–484.
Goodman, S (2008) A dirty dozen: twelve p-value misconceptions Seminars in hematology, 45 (3), 135–140.
Gosain, A., & Sardana, S (2017) Handling class imbalance problem using oversampling techniques:
A review In 2017 international conference on advances in computing, communications and informatics (icacci) (pp 79–85).
Greenland, S., & Mansournia, M A (2015) Penalization, bias reduction, and default priors in logistic and related categorical and survival regressions Statistics in Medicine, 34 (23), 3133–3143. Han, H., Wang, W.-Y., & Mao, B.-H (2005) Borderline-smote: a new over-sampling method in imbalanced data sets learning In Advances in intelligent computing: International conference on intelligent computing, icic 2005, hefei, china, august 23-26, 2005, proceedings, part i 1 (pp. 878–887).
He, H., Bai, Y., Garcia, E A., & Li, S (2008) Adasyn: Adaptive synthetic sampling approach for imbalanced learning In 2008 ieee international joint conference on neural networks (ieee world congress on computational intelligence) (pp 1322–1328).
He, H., Zhang, W., & Zhang, S (2018) A novel ensemble method for credit scoring: Adaption of different imbalance ratios Expert Systems with Applications, 98 , 105–117.
Hoi, S C., Jin, R., Zhu, J., & Lyu, M R (2009) Semisupervised svm batch mode active learning with applications to image retrieval ACM Transactions on Information Systems (TOIS), 27 (3), 1–29.
Huang, J., & Ling, C X (2005) Using auc and accuracy in evaluating learning algorithms IEEE Transactions on knowledge and Data Engineering, 17 (3), 299–310.
James, G., Witten, D., Hastie, T., & Tibshirani, R (2013) An introduction to statistical learning. Springer New York, NY.
Jiang, C., Lv, W., & Li, J (2023) Protein-protein interaction sites prediction using batch normal- ization based cnns and oversampling method borderline-smote IEEE/ACM Transactions on Computational Biology and Bioinformatics.
Junsomboon, N., & Phienthrakul, T (2017) Combining over-sampling and under-sampling tech- niques for imbalance dataset In Proceedings of the 9th international conference on machine learning and computing (pp 243–247).
Khemais, Z., Nesrine, D., & Mohamed, M (2016) Credit scoring and default risk prediction: A comparative study between discriminant analysis & logistic regression International Journal of Economics and Finance , 8(4), 39–53.
King, G., & Zeng, L (2001) Logistic regression in rare events data Political analysis, 9 (2), 137–163. Kitali, A E., Alluri, P., Sando, T., & Wu, W (2019) Identification of secondary crash risk factors using penalized logistic regression model Transportation Research Record, 2673(11), 901–914. Kubat, M., Matwin, S., et al (1997) Addressing the curse of imbalanced training sets: one-sided selection In Icml (Vol 97, pp 179–186).
Laurikkala, J (2001) Improving identification of difficult small classes by balancing class distribution.
In Conference on artificial intelligence in medicine in europe (pp 63–66).
Lee, W., Jun, C.-H., & Lee, J.-S (2017) Instance categorization by support vector machines to adjust weights in adaboost for imbalanced data classification Information Sciences, 381 , 92–103. Lenca, P., Lallich, S., Do, T.-N., & Pham, N.-K (2008) A comparison of different off-centered entropies to deal with class imbalance for decision trees In Advances in knowledge discovery and data mining: 12th pacific-asia conference, pakdd 2008 osaka, japan, may 20-23, 2008 proceedings
Li, Y., Chen, J., Tan, C., Li, Y., Gu, F., Zhang, Y., & Mehmood, Q (2021) Application of the borderline-smote method in susceptibility assessments of debris flows in pinggu district, beijing, china Natural Hazards, 105 , 2499–2522.
Li, Y., Yu, C., Qin, Y., Wang, L., Chen, J., Yi, D., Ma, S (2015) Regularized receiver operating characteristic-based logistic regression for grouped variable selection with composite criterion. Journal of Statistical Computation and Simulation, 85 (13), 2582–2595.
Liang, T., Xu, X., & Xiao, P (2017) A new image classification method based on modified condensed nearest neighbor and convolutional neural networks Pattern Recognition Let- ters , 94 , 105-111 Retrieved from https://www.sciencedirect.com/science/article/pii/ S016786551730168X doi: https://doi.org/10.1016/j.patrec.2017.05.019
Liu, W., Chawla, S., Cieslak, D A., & Chawla, N V (2010) A robust decision tree algorithm for imbalanced data sets In Proceedings of the 2010 siam international conference on data mining (pp 766–777).
Maalouf, M., & Siddiqi, M (2014) Weighted logistic regression for large-scale imbalanced and rare events data Knowledge-Based Systems , 59 , 142–148.
Maalouf, M., & Trafalis, T B (2011) Robust weighted kernel logistic regression in imbalanced and rare events data Computational Statistics & Data Analysis, 55 (1), 168–183.
Maciejewski, T., & Stefanowski, J (2011) Local neighbourhood extension of smote for mining imbalanced data In 2011 ieee symposium on computational intelligence and data mining (cidm) (pp 104–111).
Manski, C F., & Lerman, S R (1977) The estimation of choice probabilities from choice based samples Econometrica, 45 (5), 1977–1988.
Muchlinski, D., Siroky, D., He, J., & Kocher, M (2016) Comparing random forest with logistic regression for predicting class-imbalanced civil war onset data Political Analysis, 24 (1), 87– 103.
Mundra, S., Vijay, S., Mundra, A., Gupta, P., Goyal, M K., Kaur, M., Rajpoot, A K (2022). Classification of imbalanced medical data: An empirical study of machine learning approaches. Journal of Intelligent & Fuzzy Systems , 43 (2), 1933–1946.
Napierala, K., & Stefanowski, J (2016) Types of minority class examples and their influence on learning classifiers from imbalanced data Journal of Intelligent Information Systems , 46 , 563– 597.
Onay, C., & ¨ Ozt¨ urk, E (2018) A review of credit scoring research in the age of big data Journal of Financial Regulation and Compliance.
Park, M Y., & Hastie, T (2008) Penalized logistic regression for detecting gene interactions. Biostatistics, 9 (1), 30–50.
Park, S., & Park, H (2021) Combined oversampling and undersampling method based on slow-start algorithm for imbalanced network traffic Computing , 103 (3), 401–424.
Prati, R C., Batista, G E., & Monard, M C (2004) Learning with class skews and small disjuncts InAdvances in artificial intelligence–sbia 2004: 17th brazilian symposium on artificial intelligence, sao luis, maranhao, brazil, september 29-ocotber 1, 2004 proceedings 17 (pp 296–306). Prati, R C., Batista, G E., & Silva, D F (2015) Class imbalance revisited: a new experimental setup to assess the performance of treatment methods Knowledge and Information Systems,
Puhr, R., Heinze, G., Nold, M., Lusa, L., & Geroldinger, A (2017) Firth’s logistic regression with rare events: accurate effect estimates and predictions? Statistics in Medicine, 36 (14), 2302–2317. Ramadhan, N G (2021) Comparative analysis of adasyn-svm and smote-svm methods on the detection of type 2 diabetes mellitus Scientific Journal Of Informatics , 8 (2), 276–282. Ramalho, E A., & Ramalho, J J (2007) On the weighted maximum likelihood estimator for endogenous stratified samples when the population strata probabilities are unknown Applied Economics Letters, 14 (3), 171–174.
Revathi, M., & Ramyachitra, D (2021) A modified borderline smote with noise reduction in imbal- anced datasets Wireless Personal Communications, 121 , 1659–1680.
Rezᡠˇ c, M., & ˇ Rezᡠc, F (2011) How to measure the quality of credit scoring models Finance a úvˇ er: Czech Journal of Economics and Finance, 61 (5), 486–507.