1. Trang chủ
  2. » Tất cả

document

7 0 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 7
Dung lượng 596,59 KB

Nội dung

Một số kĩ thuật học máy cho chấm điểm tín dụng Giang Thị Thu Huyền Học viện Ngân hàng Ngày nhận: 23/10/2020 Ngày nhận sửa: 29/01/2021 Ngày duyệt đăng: 23/03/2021 Tóm tắt: Chấm điểm tín dụng giai đoạn quan trọng quy trình quản lý rủi ro tổ chức tài ngân hàng Chấm điểm tín dụng tốt góp phần làm cho chất lượng cho vay tốt Chất lượng cho vay yếu tố định hàng đầu đến cạnh tranh, tồn lợi nhuận tổ chức tài ngân hàng Các kỹ thuật học máy góp phần cải tiến đáng kể hiệu suất phân loại chấm điểm tín dụng, đồng thời giảm thiểu rủi ro cho đánh giá tín dụng Bài báo đưa số kỹ thuật học máy cho chấm điểm tín dụng tổ chức tài ngân hàng sử dụng; đưa kết thử nghiệm kỹ thuật học máy liệu Kaggle- liệu miễn phí cho nghiên cứu khoa học liệu, từ đánh giá hiệu suất phân loại kỹ thuật học máy Qua đánh giá thì các thuật toán về học sâu cho kết quả khá tốt và cần tiếp tục nghiên cứu tương lai Từ khóa: Kỹ thuật học máy, Chấm điểm tín dụng, Học sâu Giới thiệu dung quan trọng quản lý rủi ro hệ thống ngân hàng thương mại Kết xếp hạng tín dụng yếu tố quan Xếp hạng tín dụng khách hàng nội Some machine learning techniques for credit scoring Abstract: Credit scoring is an important stage in the risk management process of financial institutions and banks A good credit score will contribute to a better loan quality Loan quality is the decisive aspect of the competition, existence and profitability of banks and financial institutions Machine learning techniques have contributed to a significant improvement in the grading performance in credit scoring while also minimizing the risk of credit rating The paper outlines some machine learning techniques for credit scoring that have been used by financial terms The test results of machine learning techniques are obtained based on Kaggle datasets, the free datasets for data science research, which evaluate the classification efficiency of these machine learning techniques and suggest some recommendations The deep learning algorithms give good results to study in the future Keywords: Machine learning techniques, Credit scoring, Deep learning Huyen Thi Thu Giang Email: huyengtt@hvnh.edu.vn Banking Academy of Vietnam Tạp chí Khoa học & Đào tạo Ngân hàng Số 227- Tháng 2021 34 © Học viện Ngân hàng ISSN 1859 - 011X GIANG THỊ THU HUYỀN trọng cần xem xét việc định cho vay Do đó, hệ thống xếp hạng tín dụng cơng cụ quan trọng để tăng cường tính khách quan, nâng cao chất lượng hiệu hoạt động tín dụng Hiện nay, ngân hàng thương mại áp dụng nhiều kĩ thuật khác để xếp hạng tín dụng khách hàng Mơ hình tính điểm tín dụng phương pháp lượng hố mức độ rủi ro, thông qua đánh giá thang điểm, tiêu đánh giá mơ hình chấm điểm áp dụng khác loại khách hàng Cùng với phát triển khoa học máy tính kĩ thuật khai phá liệu, nhiều phương pháp khai phá liệu đưa vào sử dụng thực tế định kĩ thuật phân lớp, phân cụm, học sâu… Theo Amitha Mathew (2021), kỹ thuật học sâu thực tốt kỹ thuật học máy đặc biệt là với liệu phi cấu trúc Hand Jacka (1998) nói “Q trình (bởi tổ chức tài chính) mơ hình hóa mức độ tín nhiệm gọi chấm điểm tín dụng” Q trình bao gồm thu thập, phân tích phân loại yếu tố biến số tín dụng khác để đánh giá định tín dụng Trong mơ hình chấm điểm tín dụng truyền thống sử dụng, người vay tiềm phải có đủ thơng tin tín dụng Cách làm phụ thuộc nhiều vào quan điểm chủ quan nhân viên tín dụng, ngân hàng phải đối mặt với nhiều rủi ro trình độ thẩm định nhân viên hạn chế, nhân viên thơng đồng với khách hàng để nâng hạng tín dụng… Trong trường hợp khơng có thơng tin này, điểm tín dụng khơng thể tính tốn được, người vay có khả đáng tin cậy thường khó có khả tiếp cận tín dụng xây dựng lịch sử tín dụng với ngân hàng Với việc sử dụng nguồn liệu thay ứng dụng thuật toán học máy để giúp phát triển khả đánh giá sẵn lòng trả nợ, người cho vay đưa định tín dụng trước khơng thể Nhu cầu chấm điểm tín dụng mà thực tế đặt khiến nhà nghiên cứu phát triển mơ hình chấm điểm tín dụng, từ giúp người cho vay định cấp hay từ chối tín dụng cho người nộp đơn Cơng cụ chấm điểm tín dụng sử dụng học máy thiết kế để tăng tốc định cho vay, đồng thời có khả hạn chế rủi ro Áp dụng thuật toán học máy cho phép phân khúc chất lượng người vay lớn hơn, nhanh rẻ hơn, giúp tạo điều kiện tiếp cận tín dụng tốt Mục tiêu mơ hình chấm điểm tín dụng phân loại người nộp đơn tín dụng thành hai hạng: hạng “tín dụng tốt” có trách nhiệm bồi hồn nghĩa vụ tài hạng “tín dụng xấu” bị từ chối tín dụng khả vỡ nợ cao Việc phân loại phụ thuộc vào đặc điểm xã hội học người vay (như tuổi, trình độ học vấn, nghề nghiệp thu nhập), tình hình trả nợ khoản vay trước loại khoản vay Một số kỹ thuật học máy cho chấm điểm tín dụng như: mạng nơ ron nhân tạo, K-Nearest neighbour, support vector machine - SVM, định… Theo Amitha Mathew (2021), kỹ thuật học sâu dựa mạng nơ ron sâu ứng dụng hướng nghiên cứu nhiều người quan tâm thu kết khả quan Kỹ thuật học sâu đã giải quyết được một số vướng mắc mà các thuật toán hiện gặp phải đó là xử lý với dũ liệu phi cấu trúc Bài báo giới thiệu một số thuật toán học máy và thử nghiệm, so sánh, đánh giá các thuật toán bộ dữ liệu Kaggle và từ đó đưa kết luận Các kỹ thuật học máy cho chấm điểm tín dụng Một vấn đề lớn tổ chức tài Số 227- Tháng 2021- Tạp chí Khoa học & Đào tạo Ngân hàng 35 Một số kĩ thuật học máy cho chấm điểm tín dụng ngân hàng làm để xác định tín dụng xấu, tín dụng xấu gây vấn đề nghiêm trọng tương lai Điều dẫn đến thất thoát vốn, giảm doanh thu làm tăng tổn thất ngân hàng, dẫn đến khả toán phá sản Hiện nay, có nhiều kĩ thuật học máy để phân loại khách hàng Bài báo đưa số kĩ thuật hay sử dụng: 2.1 K láng giềng gần (K-Nearest Neighbors - KNN) Theo Ram Babu, Mr.A.Rama Satish (2013) thì thuật toán K láng giềng gần kĩ thuật học có giám sát (supervised learning) dùng để phân loại đối tượng cách tìm điểm tương đồng quan sát với liệu sẵn có Một đối tượng phân lớp dựa vào K láng giềng K số nguyên dương xác định trước thực thuật tốn Người ta thường dùng khoảng cách Euclidean để tính khoảng cách đối tượng Thuật toán KNN mô tả sau: - Xác định giá trị tham số K (số láng giềng gần nhất) - Tính khoảng cách đối tượng cần phân lớp với tất đối tượng tập huấn luyện (thường sử dụng khoảng Euclidean) - Sắp xếp khoảng cách theo thứ tự tăng dần xác định K láng giềng gần với đối tượng cần phân lớp - Lấy tất lớp K láng giềng gần xác định - Dựa vào phần lớn lớp láng giềng gần để xác định lớp cho đối tượng cần phân lớp KNN mơ hình đơn giản trực quan có hiệu cao khơng tham số; mơ hình khơng đưa giả định việc phân phối liệu Hơn nữa, 36 sử dụng trực tiếp để phân loại đa lớp 2.2 Cây định Theo Joao A Bastos (2008), Cây định kỹ thuật phân loại khác sử dụng để phát triển mô hình tính điểm tín dụng Cây định thuật toán máy học phổ biến Với kỹ thuật phân lớp dựa định, kết q trình xây dựng mơ hình cho định Thuật toán bắt đầu với nút gốc chứa mẫu người nộp đơn tín dụng tốt xấu Sau đó, thuật tốn lặp lại tất phép phân tách có để tìm thuộc tính giá trị giới hạn tương ứng mang lại phân tách tốt thành bên có phần lớn tín dụng tốt bên chủ yếu tín dụng xấu Cây định sinh luật để dự đoán lớp đối tượng chưa biết Cây định mà nút biểu diễn đặc trưng (tính chất), nhánh (branch) biểu diễn quy luật (rule) biểu biễn kết (giá trị cụ thể hay nhánh tiếp tục) Có nhiều thuật toán định ID3, J48, C4.5, CART (Classification and Regression Tree) CART  kĩ thuật  học máy  áp dụng để dự đoán CART dùng Gini Index để kiểm tra Chỉ số Gini thước đo phân tán tính đa dạng nút 2.3 Naive Bayes Theo Olatunji J Okesola (2017), Thuật toán Naive Bayes (NB) thuật toán dựa định lý Bayes lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê, ứng dụng để đưa dự đốn có độ xác cao, dựa tập liệu thu thập Thuật toán Naive Bayes thuộc vào nhóm học máy có giám sát Tạp chí Khoa học & Đào tạo Ngân hàng- Số 227- Tháng 2021 GIANG THỊ THU HUYỀN 2.4 Máy hỗ trợ vector- Support Vector Machine (SVM) Theo R.H Davis, D.B Edelman, A.J Gammerman (1992), Máy hỗ trợ vectorSupport Vector Machine (SVM) thuật tốn học máy có giám sát sử dụng phổ biến cho toán phân lớp SVM Vapnik giới thiệu lần sau trở nên phổ biến Ý tưởng SVM tìm siêu phẳng (hyper lane) đóng vai trị ranh giới định, để tách hai lớp khác Vấn đề có nhiều siêu phẳng, phải chọn để tối ưu nhất? Siêu phẳng tối ưu mà cần chọn siêu phẳng phân tách có lề lớn Lý thuyết học máy siêu phẳng cực tiểu hóa giới hạn lỗi mắc phải 2.5 Kỹ thuật học sâu (Deep learning) Theo Cuicui Luo, Desheng Wu, Dexiang Wu (2017) khái niệm học sâu phát triển lần đầu vào năm 1960 Đến năm 2011 2012, thuật toán học sâu thúc đẩy gia tăng mạnh mẽ sức mạnh tính tốn máy tính đại đạt nhiều thành tựu nhiều lĩnh vực có tài ngân hàng Học sâu cho phép lượng lớn liệu phân tích nhanh chóng, xử lý phạm vi đầu vào tín dụng rộng hơn, giảm chi phí đánh giá rủi ro tín dụng Kỹ thuật học sâu thuật toán học máy xây dựng dựa số ý tưởng mô hệ thống não người Nó biểu diễn liệu thông qua nhiều tầng từ cụ thể đến trừu tượng qua trích rút đặc trưng có ý nghĩa Theo Amitha Mathew (2021) Học sâu  (deep learning) gọi học có cấu trúc sâu học phân cấp, phần của học máy dựa mạng nơ ron nhân tạo Học sâu là tập hợp thuật tốn để mơ hình liệu trừu tượng hóa mức cao cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, cách khác bao gồm nhiều biến đổi phi tuyến Theo Cuicui Luo (2017) thì có nhiều kỹ thuật học sâu Deep learning cho chấm điểm tín dụng, báo đưa bốn kỹ thuật học sâu cho chấm điểm tín dụng: 2.5.1 Mạng nơ ron nhiều lớp (Deep Sequential Neural Network) Mạng nơ-ron nhiều lớp kiểu đơn giản mơ hình Deep learning với mạng nơ-ron chứa lớp liên tiếp xếp chồng Trong thực nghiệm, để nâng cao hiệu mơ hình, ta thiết kế tầng mạng với mật độ nơ-ron khác cho tầng Sử dụng hàm kích hoạt (activation function) sau rectified linear (ReLU): θ(x) = max(0, x); hyperbolic tangent (tanh): θ(x) = sinh (x) ÷ cosh (x) = (ex - e-x) ÷ (ex + e-x); sigmoid: θ(x) = (1 + e−x)−1 Để đánh giá mơ hình cách khách quan, sử dụng Hàm loss cross-entropy L(θ) = =- [yilog(pi) + (1 - pi)log(1 - pi)] yijlog(pij) Trong i số quan sát, j lớp, y nhãn pij ∈ (0,1): ∑j pij = 1, giá trị dự đốn Kiến trúc mơ hình mơ tả chi tiết (áp dụng cho liệu Kaggle Credit): Thuật tốn mơ tả sau: Input (length = 60) Dense layer (60, input dim = 10, kernel initializer = ‘uniform’, activation function =’relu’) Dense layer (5, kernel initializer = ‘uniform’, activation function =’relu’) Dense layer (1, kernel initializer = ‘uniform’, activation function = ‘sigmoid’) Số 227- Tháng 2021- Tạp chí Khoa học & Đào tạo Ngân hàng 37 Một số kĩ thuật học máy cho chấm điểm tín dụng 2.5.2 Mạng nơ ron tích chập (Convolutional Neural Network) Mạng nơ ron tích chập mạng nơ ron nhân tạo với tốn tử tích chập Nó có khả học lượng lớn liệu khoảng thời gian ngắn nhiều so với mạng nơ ron thơng thường Lý sử dụng trọng số độ xác phần nhỏ so với kiến trúc truyền thống Thuật tốn mơ tả sau: Input (length = 14, shape(14,1)) 1D Convolution layer (filters = 150, kernel size=1) Max pooling layer (pool size = 1) Fully connected (N = 14, activation function = ’relu’) Fully connect (N = 1, activation function = ’sigmoid’) 2.5.3 Mạng nơ ron hồi quy (Recurrent Neural Network) Ý tưởng mạng nơ ron hồi quy sử dụng chuỗi thông tin Trong mạng nơ-ron truyền thống tất đầu vào đầu độc lập với nhau, không liên kết thành chuỗi Mạng nơ ron hồi quy gọi hồi quy lẽ chúng thực tác vụ cho tất phần tử chuỗi với đầu phụ thuộc vào phép tính trước Nói cách khác mạng nơ ron hồi quy có khả nhớ thơng tin tính tốn trước Thuật tốn mơ tả sau: Input (length = 24) RNN = SimpleRNN(N = 100, return_ sequences = True, dropout = self.dropout, activation function = ‘sigmoid’) Dropout(0.5) Full connected(N = 1, activation function = ‘sigmoid’) 2.5.4 Mạng nhớ ngắn-dài hạn (Long Short-Term Memory) 38 Mô hình mạng nhớ ngắn-dài hạn khơng khác mơ hình truyền thống mạng nơ ron hồi quy, chúng khác cách tính tốn nút ẩn, mạng nhớ ngắn-dài hạn sử dụng hàm tính tốn khác trạng thái ẩn Bộ nhớ mạng nhớ ngắn-dài hạn gọi tế bào (Cell) bạn tưởng tượng chúng hộp đen nhận đầu vào trạng thái phía trước đầu vào Bên hộp đen tự định cần phải nhớ xố Sau đó, chúng kết hợp với trạng thái phía trước, nhớ đầu vào Vì mà ta truy xuất quan hệ phụ thuộc xa hiệu Thuật tốn mơ tả sau: Input (length = 24) LSTM(N = 24, activation function = ‘sigmoid’, loss = ’binary cross entropy’, optimizer = ’rmsprop’) Dropout(0.5) Full connected(N = 1,activation code = ‘sigmoid’) Kết thử nghiệm kỹ thuật học máy Bài báo sử dụng liệu Kaggle đánh giá hiệu kỹ thuật học máy Kaggle có nhiều liệu khác cho lĩnh vực nhằm hỗ trợ cho nghiên cứu học máy khoa học liệu Kaggle nhà nghiên cứu giới sử dụng rộng rãi Kaggle credit liệu tốt sử dụng cho thi nghiên cứu chấm điểm tín dụng Bộ liệu bao gồm thông tin 250.000 người vay vốn với 150.000 ghi có nhãn 100.000 trường hợp khơng có nhãn Các ghi gán nhãn tương ứng với “tín dụng xấu” “tín dụng tốt” Thực nghiệm liệu Kaggle sử dụng phương pháp đánh giá chéo (10-fold cross validation), lấy kết trung bình để Tạp chí Khoa học & Đào tạo Ngân hàng- Số 227- Tháng 2021 GIANG THỊ THU HUYỀN so sánh hiệu thuật toán K-Nearest neighbor (kNN), hồi quy (CART), Naive Bayes (NB) máy hỗ trợ vectorSupport Vector Machine (SVM), thuật toán học sâu (mạng nơ ron nhiều lớp (Deep Sequential Neural Network– DSNN), mạng nơ ron tích chập (Convolutional Neural Network- CNN), mạng nơ ron hồi quy (Recurrent Neural Network– RNN), mạng nhớ ngắn-dài hạn (Long ShortTerm Memory– LSTM) Đánh giá hiệu thuật toán dựa độ đo sau đây: Accuracy, Precision, Recall F1-score TP = số lượng tích cực FP = số lượng sai tích cực TN = số lượng tiêu cực FN = số lượng sai tiêu cực P = số lượng ghi lớp tích cực thực tế N = số lượng ghi lớp tiêu cực thực tế Kết độ xác thuật toán thể Bảng Kết tổng hợp liệu Kaggle credit so sánh độ đo accuracy, thuật toán có kết tốt 90% (trừ CART 89,2%) Khi so sánh độ đo Precision, Recall và F1 thì độ chính xác của các thuật tốn học sâu tớt so vói các tḥt toán truyền thống Kết tốt đạt với độ đo F1-socre 51,12%, độ đo Precision là 53,20%, độ đo Recall là 49,20% mạng RNN đem lại Nguyên nhân khả học của các thuật toán học sâu tốt được điều chỉnh số lớp và số nơ ron ở mỗi lớp; mặt khác, liệu Kaggle credit có tính khơng cân thuật tốn nhạy cảm với liệu khơng cân Với liệu Kaggle credit thuật toán sử dụng kỹ thuật học sâu cho kết phân loại tốt so với thuật tốn cịn lại Kết luận Các thuật tốn chấm điểm tín dụng công Bảng Mô tả biến liệu Kaggle Credit Thuộc tính SeriousDlqin2yrs RevolvingUtilizationOf_ UnsecuredLines Age NumberOfTime3059DaysPastDueNotWorse DebtRatio MonthlyIncome NumberOfOpenCredit_ LinesAndLoans NumberOfTimes90DaysLate NumberRealEstateLoans_ OrLines NumberOfTime6089DaysPastDueNotWorse NumberOfDependents Mô tả Người trải qua 90 ngày hạn Tổng số dư thẻ tín dụng hạn mức tín dụng cá nhân ngoại trừ bất động sản khơng có nợ trả góp khoản vay mua ô tô chia cho tổng hạn mức tín dụng Tuổi người vay (năm) Số lần người vay hạn 30-59 ngày năm gần Tổng mức chi tiêu hàng tháng chia cho tổng mức thu nhập hàng tháng Thu nhập hàng tháng Số lượng khoản vay mở (trả góp vay mua tơ chấp) Dịng tín dụng (ví dụ: thẻ tín dụng) Số lần người vay hạn 90 ngày Số lượng khoản vay chấp bất động sản bao gồm dịng vốn chủ sở hữu tín dụng Số lần người vay hạn 60-89 ngày năm gần Số lượng người phụ thuộc (trẻ em, vợ/chồng) Nguồn https://www.kaggle.com/ Số 227- Tháng 2021- Tạp chí Khoa học & Đào tạo Ngân hàng 39 Một số kĩ thuật học máy cho chấm điểm tín dụng Bảng Độ xác thuật tốn kNN CART NB SVM DSNN CNN RNN LSTM Accuracy 0,9287 0,8920 0,9288 0,9301 0,9342 0,9277 0,9350 0,9360 Precision 0,3031 0,2515 0,3585 0,3670 0,5200 0,3682 0,5320 0,5156 Recall 0,0172 0,2786 0,0234 0,2840 0,4870 0,3745 0,4920 0,503 F1 0,0325 0,2644 0,0438 0,3205 0,5029 0,3713 0,5112 0,509 Nguồn: Tác giả chạy thử nghiệm và tổng hợp kết quả cụ quan trọng cho vấn đề dự đoán phân loại Bài báo giới thiệu số kĩ thuật chấm điểm tín dụng với liệu Kaggle credit Trên sở kết thu được, cho thấy kĩ thuật học sâu giải pháp cho ứng dụng chấm điểm tín dụng Các kỹ thuật hỗ trợ người định tín dụng dự đốn khách hàng có lịch sử tín dụng tốt hay tín dụng xấu dựa thuộc tính thơng tin “tín dụng” họ Tuy nhiên, cần nhấn mạnh khơng có mơ hình tính điểm tín dụng lý tưởng khơng có kỹ thuật tốt sử dụng để xây dựng mơ hình chấm điểm tín dụng; kỹ thuật tốt cho tập liệu chưa tốt tập liệu khác Kỹ thuật kỹ thuật khác khả dự đoán trường hợp cụ thể khác “Kĩ thuật tốt nhất” phụ thuộc vào yêu cầu cụ thể, cấu trúc liệu, chức ứng dụng, mức độ tách biệt lớp mục tiêu phân loại Ngoài ra, việc sử dụng kết hợp kỹ thuật hứa hẹn cho khả phân loại dự đoán tốt cần phải xem xét đến ảnh hưởng quan trọng sách quy định tổ chức tài ngân hàng Bài nghiên cứu mới chỉ thử nghiệm bộ dữ liệu dành cho nghiên cứu của Kaggle Trên sở kết thu được, kết luận kĩ thuật học sâu giải pháp quan trọng cho ứng dụng chấm điểm tín dụng tương lai ■ Tài liệu tham khảo Amitha Mathew, P.Amudha, S.Sivakumari (2021), Deep Learning Techniques: An Overview, Advanced Machine Learning Technologies and Applications Cuicui Luo, Desheng Wu, Dexiang Wu (2017),A deep learning approach for credit scoring using credit default swaps, Engineering Applications of Artificial Intelligence Denoyer, Gallinari (2011), Deep sequential neural network, University Pierre et Marie Curie - Paris, France Hand, Jacka (1998) Statistics in Finance, Arnold Applications of Statistics: London Hussein A Abdou, John Pointon (2011), Credit scoring, statistical techniques and evaluation criteria: A review of the literature, Intelligent Systems in Accounting, Finance & Management Joao A Bastos (2008), Credit scoring with boosted decision trees, School of Economics and Management (ISEG) Technical University of Lisbon, Portugal Olatunji J Okesola et al (2017), An improved Bank Credit Scoring Model A Naïve Bayesian Approach, International Conference on Computational Science and Computational Intelligence Ram Babu, Mr.A.Rama Satish (2013), Improved of K-Nearest Neighbor Techniques in Credit Scoring, International Journal For Development of Computer Science & Technology R.H Davis, D.B Edelman, A.J Gammerman (1992), Machine learning algorithms for credit-card applications IMA Journal of Management Mathematics https://www.hindawi.com/journals/aor/2019/1974794/; https://www.kaggle.com/ 40 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 227- Tháng 2021

Ngày đăng: 26/05/2021, 22:00

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w