Sự cần thiết- Khoa học dữ liệu cho kinh doanh là việc thu thập, quản lý, xử lý và phân tíchlượng dữ liệu để phục vụ cho các hoạt động trong quản trị, kinh doanh, marketing,đầu tư, ….Vậy
GIỚI THIỆU
Sự cần thiết
- Khoa học dữ liệu cho kinh doanh là việc thu thập, quản lý, xử lý và phân tích lượng dữ liệu để phục vụ cho các hoạt động trong quản trị, kinh doanh, marketing, đầu tư, ….Vậy để có thể thực hiện các hoạt động trên chúng ta cần những những phương pháp như xử lý dữ liệu với pandas, trực quan hóa dữ liệu, học máy,… Và một trong những phương pháp đặc biệt hiệu quả là phương pháp trực quan hóa dữ liệu.
- Trực quan hóa dữ liệu là phương pháp biểu diễn dữ liệu có sử dụng các yếu tố trực quan như biểu đồ và đồ thị để phát hiện xu hướng, mẫu hình và các giá trị ngoại lệ, từ đó tổng hợp nhanh chóng thông tin chuyên sâu và hỗ trợ trong việc ra quyết định tức thời Trong thế giới ngày nay, việc hiểu được khối lượng dữ liệu khổng lồ mà doanh nghiệp tạo ra mỗi ngày ngày càng quan trọng.
Lý do chọn đề tài
Trong xã hội hiện đại ngày nay, lượng thông tin tiếp thụ hàng ngày nhiều đáng kể, việc phân tích và đưa ra quyết định chính xác cùng theo đó cũng càng trở thành vấn đề đáng nan giải đối với mọi người Chính vì lý do này, nhóm em quyết định chọn chủ đề “ Bài toán Scorecard” để thực hiện đồ án.
“Scorecard” có thể hiểu là một thẻ điểm tín dụng, nơi đánh giá các mức độ rủi ro thông qua các thông tin mà ta đưa vào Kết quả dựa trên điểm số rất nhất quán, đồng thời mô hình có thể xét thêm những lượng biến thay đổi theo thời gian mà không làm ảnh hưởng tới thời gian đưa ra dự báo.
Những lợi thế nêu trên, phần nào cho ta thấy được lợi ích khi dùng mô hìnhScorecard này Vì thế, công cụ thống kê này được các tổ chức cho vay sử dụng rộng rãi để đánh giá mức độ tín nhiệm của các khách hàng tiềm năng và hiện tại của họ,giúp ngân hàng giảm thiểu rủi ro và tối đa hóa lợi nhuận Không những thế, mô
2 hình Scorecard này có thể áp dụng cho nhiều linh vực khác, có thể kể đến là: xếp hạng khách hàng, doanh nghiệp, quốc gia, hay một tổ chức tài chính,…
Mục tiêu nghiên cứu, tìm hiểu
Nhằm để làm rõ tầm quan trọng của phương pháp này, nhóm chúng em đã lựa chọn đề tài “Bài toán Scorecard - hồi quy logistic trong đánh giá rủi ro tín dụng.” Bài toán Scorecard - hồi quy logistic cho chúng ta một cách trực quan hiệu quả nhất đối với từng chỉ số cụ thể dựa trên điểm tín nhiệm từ đó các tổ chức tài chính có thể cung cấp các sản phẩm, dịch vụ cho khách hàng tùy theo điểm tín nhiệm.
Phạm vi tìm hiểu của đồ án, Phương pháp nghiên cứu
1.4.1 Phạm vi tìm hiểu của Đồ án
Bộ dữ liệu chứa 1000 mục nhập với 20 biến độc lập (7 số, 13 phân loại) và 1 biến mục tiêu do Giáo sư Hofmann biên soạn Trong tập dữ liệu này, mỗi mục nhập đại diện cho một người nhận tín dụng của ngân hàng.
Tìm hiểu và nghiên cứu các tài liệu về nợ tín dụng cũng như là những kiến thức liên quan Sau đó, nghiên cứu cách học máy, kỹ thuật lập trinh.
Từ đó, xây dựng và phát triển và sửa chửa mô hình cho phù hợp, theo những gì đã thu nhập được trên ứng dụng Colaboratory.
Cuối cùng là đánh giá kết quả thu được từ mô hình, đưa ra nhận xét về tính hữu ích của mô hình.
CƠ SỞ LÝ THUYẾT
Trình bày kiến thức miền và lĩnh vực có liên quan
Scorecard model là một lớp mô hình được ứng dụng trong nhiều lĩnh vực như tài chính, kinh doanh, quản lý xã hội Mô hình Scorecard có tác dụng lượng hóa một hồ sơ cá nhân hoặc tổ chức thành một điểm tín nhiệm dựa trên khả năng xảy ra của một sự kiện nào đó như vỡ nợ, vi phạm luật Dựa trên điểm tín nhiệm, các tổ
3 chức tài chính hoặc chính phủ có thể cung cấp các sản phẩm, dịch vụ tốt hơn nếu chủ thể có điểm tín nhiệm cao và thấp hơn đối với chủ thể có điểm tín nhiệm thấp. Để đánh giá rủi ro tín dụng chúng ta có thể áp dụng phương pháp chuyên gia hoặc sử dụng mô hình thống kê
Phương pháp chuyên gia (Methods) : phương pháp chuyên gia sẽ dựa trên ý kiến thẩm định của các chuyên gia về rủi ro đối với một khoản tín dụng Rủi ro sẽ được căn cứ trên các thông tin chủ yếu đó là: Đặc điểm của chủ thể vay (character): Thẩm định danh tiếng, tính trung thực của người vay vốn.
Vốn (capital): Nguồn vốn có thể là các chi phí mà người vay đang phải chi trả như chi tiêu gia đình, chi phí sinh hoạt, chi phí trả lãi từ các khoản vay khác,….
Tài sản đảm bảo (collateral): Sẽ có 2 loại hình thức cho vay được phân chia dựa trên tài sản đảm bảo đó là vay thế chấp (có tài sản đảm bảo) và vay tín chấp (không có tài sản đảm bảo) Rủi ro của 2 hình thức cho vay này là khác nhau nên lãi suất và hạn mức của chúng cũng sẽ khác biệt để đảm bảo dung hòa giữa lợi nhuận và rủi ro đối với ngân hàng. Đối với vay thế chấp ngân hàng sẽ phải định giá chính xác giá trị của các tài sản thế chấp Giá trị các tài sản này sẽ quyết định hạn mức tín dụng mà ngân hàng sẽ cấp cho người vay Rủi ro đối với các khoản vay thế chấp là thấp hơn tín chấp vì trong trường hợp khách hàng không có khả năng thanh toán, ngân hàng được quyền thu hồi tài sản đảm bảo.
Khả năng trả nợ (capacity): Là các thông tin liên quan trực tiếp đến khả năng tài chính của người vay đó là: nghề nghiệp, mức thu nhập, trạng thái hôn nhân, số người phụ thuộc,…. Điều kiện (condition): Đánh giá sơ bộ trạng thái của người vay có tham chiếu tới điều kiện thị trường, bối cảnh tài chính, áp lực cạnh tranh, mục đích sử dụng vốn.
Phương pháp chuyên gia là phương pháp thủ công vì nó dựa trên kinh nghiệm của con người Do đó quá trình thẩm định sẽ tốn kém về thời gian Đồng thời ý kiến đánh giá cũng không nhất quán giữa các chuyên gia Do đó một phương pháp khác được
4 khuyến nghị phát triển ở hội nghị basel nhằm đưa ra các đánh giá nhanh chóng và nhất quán hơn Đó chính là phương pháp mô hình.
Phương pháp mô hình: Phương pháp mô hình sẽ dựa trên điểm số được lượng hóa từ mô hình học máy, Phương pháp này có nhiều điểm tối ưu hơn so với phương pháp chuyên gia:
Những mô hình đưa ra kết quả dường như là ngay lập tức Do đó thời gian thẩm định hồ sơ nhanh chóng và rất phù hợp với các nền tảng cho vay online.
Năng suất thẩm định từ mô hình cao hơn rất nhiều so với các chuyên gia Một môt hình có thể giải quyết số lượng hồ sơ bằng khối lượng công việc của hàng trăm chuyên gia.
Giảm thiểu chi phí lao động khi không phải chi trả lương cho các chuyên gia thẩm định.
Kết quả đánh giá hồ sơ là rất nhất quán dựa trên điểm số tín nhiệm là duy nhất, trong khi đó các chuyên gia có thể đưa ra kết quả đánh giá khác nhau dựa trên cảm quan của họ về rủi ro Khi xảy ra bất đồng ý kiến, sẽ cần hội đồng chuyên gia đánh giá lại hồ sơ và khá tốn thời gian để hoàn thành thẩm định.
Mô hình sẽ xem xét toàn diện các biến số đầu vào và thậm chí có thể gia tăng số lượng biến tùy ý mà không ảnh hưởng tới thời gian dự báo. Trong khi phương pháp chuyên gia sẽ chịu hạn chế bởi khả năng của con người là có hạn Việc đánh giá hồ sơ đôi khi chỉ được nhận định trên một số biến chính.
Chính vì những lợi thế đó, phương pháp mô hình đang dần thay thế phương pháp chuyên gia và trở thành phương pháp thẩm định chủ yếu tại các ngân hàng.
Khái niệm khoa học dữ liệu và học máy
Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác đầy đủ thông tin dành cho hoạt động kinh doanh Đây là một phương thức kết hợp những nguyên tắc và phương pháp thực hành của các lĩnh vực toán học, thống kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích một khối lượng dữ liệu lớn và phức tạp Kết quả phân tích dữ liệu này sẽ giúp các nhà khoa
Scarselli 2009 - mô hình neural network
5 học dữ liệu đặt ra và trả lời những câu hỏi như sự kiện gì đã xảy ra, tại sao nó xảy ra, sự kiện gì sẽ xảy ra và có thể sử dụng kết quả thu được cho mục đích gì.
Học máy (Machine Learning – ML) là một lĩnh vực nghiên cứu của Trí tuệ nhân tạo (Artificial Intelligence – AI)
Các định nghĩa về học máy
Một quá trình nhờ đó một hệ thống cải thiện hiệu suất (hiệu quả hoạt động) của nó [Simon, 1983]
Một quá trình mà một chương trình máy tính cải thiện hiệu suất của nó trong một công việc thông qua kinh nghiệm [Mitchell, 1997]
Việc lập trình các máy tính để tối ưu hóa một tiêu chí hiệu suất dựa trên các dữ liệu ví dụ hoặc kinh nghiệm trong quá khứ [Alpaydin, 2020]
Mô hình nghiệp vụ bài toán thực tế, miền ứng dụng
2.3.1 Mô hình nghiệp vụ rủi ro tín dụng
Rủi ro tín dụng là rủi ro có thể xảy ra tổn thất do người đi vay không trả được khoản vay hoặc không đáp ứng các nghĩa vụ theo hợp đồng Nếu một công ty cung cấp tín dụng cho khách hàng của mình, thì sẽ có rủi ro là khách hàng của họ có thể không thanh toán hóa đơn của họ.
Các loại rủi ro tín dụng:
Rủi ro tốt: Một khoản đầu tư mà người ta tin rằng có khả năng sinh lời Thuật ngữ này thường đề cập đến một khoản vay được thực hiện cho một người hoặc công ty đáng tin cậy Rủi ro tốt được coi là đặc biệt có khả năng được hoàn trả.
Rủi ro Xấu: Khoản vay không có khả năng hoàn trả vì lịch sử tín dụng xấu, thu nhập không đủ hoặc một số lý do khác Rủi ro xấu
6 làm tăng rủi ro đối với người cho vay và khả năng vỡ nợ của người đi vay.
Trong hoạt động tín dụng, mục tiêu của mô hình scorecard là đánh giá năng lực trả nợ của người giữ vị thế vay trong tương lai Đầu vào của mô hình Scorecard gồm các thông tin nằm trong hồ sơ cá nhân của khách hàng
Giúp giảm thiểu tổn thất từ góc độ của ngân hàng, ngân hàng cần có một quy tắc quyết định về việc ai là người phê duyệt khoản vay và ai là người không được chấp thuận Hồ sơ nhân khẩu học và lịch sử tín dụng, thông tin tài sản đảm bảo của một cá nhân có thể được sử dụng để dự đoán xác suất vỡ nợ của người nộp đơn được người quản lý khoản vay xem xét trước khi đưa ra quyết định về đơn xin vay của người đó.
Mô tả tập dữ liệu:
Dữ liệu Tín dụng của Đức ( German credit ) chứa dữ liệu về 20 biến số và phân loại xem người nộp đơn được coi là rủi ro tín dụng Tốt hay Xấu cho 1000 người nộp đơn vay Một mô hình dự đoán được phát triển dựa trên dữ liệu này được kỳ vọng sẽ cung cấp hướng dẫn cho người quản lý ngân hàng để đưa ra quyết định có chấp thuận khoản vay cho một ứng viên tiềm năng hay không dựa trên hồ sơ của họ Dữ liệu gồm những trường sau:
Tên trường trong dữ liệu Tên trường bằng tiếng việt status.of.existing.checking.account Tình trạng của tài khoản séc hiện có. duration.in.month Thời hạn trong tháng.
7 credit.history Lịch sử tín dụng. purpose Mục đích. credit.amount Số tiền tín dụng. saving.account.and.bonds Tài khoản tiết kiệm và trái phiếu. present.employment.since Việc làm hiện tại việc làm kể từ lúc bắt đầu. installment.rate.in.percentage.of.disposab le.income
Tỷ lệ trả góp theo tỷ lệ phần trăm của thu nhập khả dụng. personal.status.and.sex Tình trạng cá nhân và giới tính. other.debtors.or.guarantors Những người mắc nợ hoặc người bảo lãnh khác. property Tài sản. age.in.years Tuổi tính theo năm.
8 other.installment.plans Các kế hoạch. housing Nhà ở. number.of.exisiting.credits.at.this.bank Số lượng tín dụng hiện có tại ngân hàng này. jobs Công việc. number.of.people.being.liable.to.provide. maintenance.for
Số người có trách nhiệm cung cấp bảo trì cho. telephone Điện thoại. foreign.worker Lao động nước ngoài. credit ability Khả năng tín dụng.
Một tên miền cơ sở dữ liệu, đơn giản nhất của nó, là kiểu dữ liệu được sử dụng bởi một cột trong cơ sở sở dữ liệu Kiểu dữ liệu liệu này có thể là một kiểu dựng sẵn hoặc một kiểu tùy chỉnh xác định các ràng buộc trên dữ liệu Cụ thể trong bộ dữ liệu sẽ dùng là:
Các trường Miền dữ liệu
- Installment rate in percentage of disposable income
- Number of existing credits at this bank
- Number of people being liable to provide maintenance for
- Status of existing checking account
- Other installment plans Định tính
Cơ sở lý thuyết của đồ án
Trong phần khai báo dữ liệu, chúng em có khai báo được một số thư viện như seaborn, matplotlib, numpy, pandas, LogisticRegression, Scorecardpy.
Khai báo numpy để cung cấp một mảng đối tượng, nâng cao hiệu suất và các công cụ để làm việc với các mảng.
Khai báo thư viện Matplotlib với mục đích trực quan hóa dữ liệu, cụ thể là vẽ đồ thị để quan sát dữ liệu trong bài toán thực tế nhóm làm.
Nắm được các ưu điểm của thư viện seaborn như làm cho việc trực quan hóa dữ liệu trở nên dễ dàng,Seaborn hoạt động cực kỳ hiệu quả với cấu trúc dữ liệu của Pandas,được xây dựng trên Matplotlib - Seaborn cho phép chúng ta tận dụng tính linh hoạt để tránh được sự phức tạp trong quá trình xử lý dữ liệu Do đó, nhóm em đã khai báo thư viện seaborn để giúp phần dữ liệu được xử lý dễ dàng hơn.
Việc khai báo thư viện pandas giúp nhóm em có thể dễ dàng loại bỏ một số trường không quan trọng, từ đó người xem có thể nắm bắt thông tin dễ dang hơn, không bị phân tâm bởi những thông tin không quan trọng.
Logistic Regression là 1 thuật toán phân loại được dùng để gán các đối tượng cho 1 tập hợp giá trị rời rạc (như 0, 1, 2, )
Scorecardpy - gói này là phiên bản python của thẻ điểm gói R Mục tiêu của nó là làm cho việc phát triển mô hình thẻ điểm rủi ro tín dụng truyền thống dễ dàng và hiệu quả hơn bằng cách cung cấp các chức năng cho một số nhiệm vụ chung.
2.4.2 Xóa một số trường dữ liệu Để người xem có thể nắm bắt được dữ liệu một cách dễ dàng hơn thì nhóm em đã loại bỏ một số trường không quan trọng bằng việc sử dụng chức năng remove, cụ thể là xóa một vài cột có dữ liệu không quan trọng.
Cú pháp: var_filter(dt, y, x=None) dt: Khung dữ liệu có cả x (dự đoán / tính năng) và y (phản hồi / nhãn) biến. y: Tên của biến y. x: Tên của biến x Mặc định là NULL Nếu x là NULL, thì tất cả các biến ngoại trừ y được tính là biến x.
Thực hiện lọc 1000 biến, trong đó những biến có khả năng tín dụng mang giá trị Good thì sẽ xuất ra số 1, giá trị nào Bad sẽ xuất ra số 0.
2.4.4 Chia tập dữ liệu và thử nghiệm
Cú pháp: split_df(dt, y=None) dt: Khung dữ liệu. y: Tên của biến y, mặc định là NULL Dữ liệu đầu vào sẽ chia nhỏ dựa trên dự đoán y, nếu nó được cung cấp.
Chức năng: Để chia tập dữ liệu “creditability” gồm 1000 biến thành hai tập dữ liệu nhỏ : tập dữ liệu train có 700 biến và tập dữ liệu test có 300 biến Để ước tính khách quan về hiệu suất dự đoán của mô hình học máy, ta nên sử dụng dữ liệu chưa được sử dụng để điều chỉnh mô hình.
2.4.5 Áp dụng mô hình WOE Để đánh giá về sức mạnh dự báo nợ xấu, Nhóm chúng em đã áp dụng mô hình WOE, đây là một trong những kĩ thuật tạo đặc trưng (feature engineering) và lựa chọn đặc trưng (feature selection) khá hiệu quả, thường được áp dụng trong quá trình xây dựng mô hình scorecard Phương pháp này sẽ xếp hạng các biến thành mạnh, trung bình, yếu, không tác động,… Đồng thời mô hình cũng tạo ra các đặc trưng cho mỗi biến Giá trị này sẽ đo lường sự khác biệt trong phân phối giữa GOOD và BAD.
Phương pháp WOE sẽ có các kĩ thuật xử lý khác biệt đối với biến liên tục và biến phân loại:
1 Đối với biến liên tục: WOE sẽ gán nhãn cho mỗi một quan sát theo nhãn giá trị bins mà nó thuộc về Các bins sẽ là các khoảng liên tiếp được xác định từ biến liên tục sao cho số lượng quan sát ở mỗi bin là bằng nhau Để xác định các bins thì ta cần xác định số lượng bins. Chúng ta có thể hình dung đầu mút của các khoảng bins chính là các quantile.
2 Đối với biến phân loại: WOE có thể cân nhắc mỗi một nhóm là một bin hoặc có thể nhóm vào nhóm có số lượng quan sát ít vào một bin.Ngoài ra mức độ chênh lệch giữa phân phối GOOD/BAD được đo lường thông qua chỉ số WOE cũng có thể được sử dụng để nhận diện
13 các nhóm có cùng tính chất phân loại Nếu giá trị WOE của chúng càng gần nhau thì có thể chúng sẽ được nhóm vào một nhóm Ngoài ra, trường hợp Null cũng có thể được coi là một nhóm riêng biệt nếu số lượng của nó là đáng kể hoặc nhóm vào các nhóm khác nếu nó là thiểu số.
2.4.6 Phương trình hồi quy logistic
Cú pháp: woebin_ply(dt, bins) dt: Khung dữ liệu. bins: Thông tin thùng được tạo từ `woebin`.
Trong credit scorecard sẽ không hồi quy trực tiếp trên các biến gốc mà thay vào đó giá trị WOE ở từng biến sẽ được sử dụng thay thế để làm đầu vào Nên Chuyển đổi các biến thành các giá trị woe
Xây dựng phương trình hồi qui logistic các biến đầu vào WOE Trong mô hình này, các xác suất mô tả các kết quả có thể có của một thử nghiệm đơn lẻ được mô hình hóa bằng cách sử dụng một hàm logistic.
Accuracy_score ( y_true, y_pred) y_true: giống mảng 1d hoặc mảng chỉ báo nhãn / ma trận thưa thớt Nhãn sự thật(chính xác)
14 y_pred: giống mảng 1d hoặc mảng chỉ báo nhãn / ma trận thưa thớt Các nhãn được dự đoán, do bộ phân loại trả về.
QUÁ TRÌNH THU NHẬP, TIỀN XỬ DỮ LIỆU
Quá trình thu thập
Đồ án thực hiện nghiên cứu bài toán Scorecard, mục tiêu của mô hình scorecard là đánh giá năng lực trả nợ của người giữ vị thế vay trong tương lai Bộ dữ liệu
“German credit” chứa 1000 mục nhập với 20 biến độc lập (7 số, 13 phân loại) và 1 biến mục tiêu do Giáo sư Hofmann biên soạn Đối với bài toán scorecard này nhóm quyết định sử dụng thư viện “scorecardpy”,đặc biệt trong thư viện này đã có bộ dữ liệu của “German credit”, để lấy bộ dữ liệu này ta thực hiện đoạn code đơn giản sau:
Làm sạch dữ liệu
Làm sạch dữ liệu là một phần không thể thiếu trong việc chuẩn bị dữ liệu, là quá trình sửa chữa hoặc loại bỏ dữ liệu không chính xác hoặc không cần thiết từ một tập dữ liệu trước khi phân tích dữ liệu Sau đây là các bước mà nhóm em đã làm:
Nhập thư viện cần thiết:
● Nhập bộ bộ dữ liệu germancredit:
● Xác định biến cần loại bỏ: Để chạy mô mô hình tín dụng, chúng ta cần các thông tin cơ bản sau:
Nhân khẩu học (demographic): Là những thông tin liên quan đến thu nhập, nghề nghiệp,
Lịch sử tín dụng (credit history): Dữ liệu lịch sử vay của khách hàng được tổng hợp từ toàn bộ các ngân hàng hoạt động trên lãnh thổ của một quốc gia vào một data center Như vậy ngân hàng có thể kiểm tra chéo thông tin tín dụng của khách hàng từ những ngân hàng khác.
Thông tin tài sản đảm bảo (property): Đây là một thông tin đi kèm với các khoản vay thế chấp
Với 20 trường của bộ dữ liệu được đánh giá là khá nhiều, vì thế dựa trên các thông tin cơ bản cần thiết đã nêu trên, chúng em quyết định sẽ loại bỏ một số trường để đơn giản hóa mô hình.
Sau khi lại thực hiện loại bỏ một số trường, bộ dữ liệu gốc từ 20 trường ta còn lại 8 trường như sau:
KẾT QUẢ PHÂN TÍCH DỮ LIỆU, DỰ BÁO
Sau khi chạy các mã code kết quả thu được như sau:
Woebin_plot sẽ tạo các đồ thị phân phối số đếm và xác suất dương cho mỗi bin Thông tin binning được tạo ra bởi woebin.
+ Số tiền tín dụng được vay càng cao, thì rất có thể khoản vay sẽ trở nên tồi tệ. Nếu số tiền tín dụng được vay từ 1800 trở lên, thì xác suất cho khoản vay đó là một khoản nợ xấu sẽ tăng lên đáng kể.
+ Nội thất / thiết bị, thiết bị gia dụng, kinh doanh, sửa chữa, ô tô (mới), tạo ra gần 40% tổng rủi ro và có mức phân bổ tín dụng cao nhất Radio / TV ít rủi ro hơn từ quan điểm hoạt động vì nó có khoảng cách lớn giữa rủi ro tốt và xấu Phần còn lại của các mục đích không phải là mục đích thường xuyên trong việc xin vay.
+ Về “housing” chúng ta có thể thấy rằng rủi ro nhà riêng và rủi ro tốt có mối tương quan cao
+ Đối với lịch sử tín dụng: “không có tín dụng nào được thực hiện” tạo ra gần40% tổng rủi ro và có mức phân bổ tín dụng cao nhất.
● Accuracy_score: Có chức năng tính toán độ chính xác.Trong phân loại đa nhãn, hàm trả về độ chính xác của tập hợp con
+ Trong bài toán thực tế về tín dụng nhóm em đã làm thì độ chính xác của tập train là 0.7257142857142858 và độ chính xác của tập test là 0.74 Cả hai đều có độ chính xác cao ( gần với 1,0)
● Đường cong ROC: minh họa hiệu suất của hệ thống phân loại nhị phân vì ngưỡng phân biệt của nó là khác nhau
+ Chỉ số AUC (area under curve) đo lường phần diện tích nằm dưới đường cong ROC cho biết khả năng phân loại của các hợp đồng GOOD/BAD của mô hình hồi qui Logistic là mạnh hay yếu Giá trị của nó càng lớn thì mô hình càng tốt Trong mô hình này AUC thu được là 0,73 là cao, cho thấy khả năng dự báo của mô hình tốt và có thể áp dụng mô hình vào thực tiễn.
● Chỉ số ổn định mô hình PSI: là chỉ số ổn định dân số (PSI) và cung cấp phân phối điểm tín dụng dựa trên bộ dữ liệu điểm tín dụng.
+ Theo kết quả của bài toán thực tế nhóm đã làm thì giá trị PSI là 0.0199, dò tìm bảng trên thì giá trị này rơi vào trường hợp thứ nhất (< 0.1), điều này cho thấy có sự thay đổi về dân số là không đáng kể so với mẫu xác thực hoặc điểm chuẩn Vậy cho thấy mô hình có tính ổn định và từ scorecard trên ta có thể xây dựng một chiến lược phù hợp với tình hình hoạt động của ngân hàng
Tổng quan lại, sau khi chạy mô hình ta đánh giá được mức độ tín nhiệm của cá nhân, tổ chức bằng một số trường cơ bản từ đó giúp ngân hàng đưa ra được quyết định về hạn mức, lãi suất và kỳ hạn cho vay Đồng thời hỗ trợ các ngân hàng dự báo được khả năng vỡ nợ của các chủ thể.