3.3.1 Mục tiêu phân tích
Nghiên cứu này áp dụng các phương pháp khai thác dữ liệu vào bài toán tính điểm tín dụng cho tín dụng tiêu dùng. Nó xem xét cách đánh giá độ tin cậy của cá nhân – người yêu cầu tín dụng khi mua hàng hóa hoặc dịch vụ. Các nhà khai thác tín dụng khác nhau nhận hàng ngàn đơn tín dụng mỗi ngày, nên họ cần một hệ thống để giúp họ chấp nhận hoặc từ chối yêu cầu. Các nghiên cứu gần đây đã đề xuất các hệ thống hỗ trợ quyết định hay các mô hình tính điểm. Chúng nhanh chóng, khách quan, không tốn kém và cực kỳ hiệu quả. Điều này đặc biệt đúng đối với tín dụng tiêu dùng, ở đó các giá trị của mỗi khoản vay là khá nhỏ. Ta sẽ lấy dữ liệu khách hàng từ một ngân hàng quan trọng ở miền nam nước Đức và sử dụng nó để xây dựng lên một mô hình tính điểm cho tín dụng tiêu dùng. Đây là đối tượng mà tác giả Giudici đã nghiên cứu.
Thuật ngữ “tính điểm tín dụng” mô tả các phương pháp thống kê được sử dụng để phân loại những người đi vay thành 2 loại: tốt và xấu. Các mô hình thống kê cho tính điểm tín dụng thường được gọi là các mô hình phiếu ghi điểm, sử dụng các biến giải thích thu được từ thông tin về người nộp đơn để ước lượng xác suất của một khoản vay không hoàn trả. Một yêu cầu tín dụng được chấp nhận hoặc bị từ chối sau khi so sánh xác suất ước lượng với một ngưỡng thích hợp. Các phương pháp thống kê hầu hết được sử dụng để phát triển các phiếu ghi điểm là các mạng thần kinh, hồi quy logistic và các cây phân lớp. Luận văn này không nói về mạng thần kinh.
Dữ liệu để xây dựng lên một phiếu ghi điểm nói chung thu được từ một mẫu những người nộp đơn cho bên chấp nhận thẻ tín dụng. Để tính điểm cho một yêu cầu tín dụng, thì dữ liệu khách hàng được so sánh với phiếu ghi điểm để phân lớp người nộp đơn mới vào một trong số các nhóm theo hành vi được quan sát và xác định một điểm số dự báo. Thường thì một mô hình ghi điểm có thể gán một điểm số với mỗi đặc tính đo được của người nộp đơn. Các điểm số này sau đó được tổng hợp để sinh ra một điểm số tổng thể.
3.3.2 Mô tả dữ liệu
Tập dữ liệu là 1000 quan sát trên 1000 người nộp đơn tín dụng tới một ngân hàng lớn ở miền Nam nước Đức (xem Fashrmeir và Hamerle (1994) để có một mô tả dữ liệu chi tiết hơn). Ta xét 21 biến, một trong số các biến đó là biến nhị thức Y: credit reliability (Y 0=
khác được xử lý như là các biến giải thích. Sau đây là danh sách các biến giải thích và bảng mô tả sơ bộ dữ liệu.
• Các biến xã hội nhân khẩu học:
1. sex & marital status: giới tính và tình trạng hôn nhân 2. age: độ tuổi
3. residence: số năm cư trú tại nhà ở hiện nay
• Các biến cá nhân và tài chính:
4. account: sở hữu tài khoản ngân hàng 5. bank book: sở hữu một tập chi phiếu 6. previous rep: lịch sử trả nợ
7. debt: số tiền nợ trước
8. concurrent: các kinh phí khác được yêu cầu 9. employment: loại việc làm
10. working years: số năm làm việc
11. forreign: có phải là lao động nước ngoài hay không 12. family: số người ăn theo
• Các biến đặc trưng cho khoản vay:
13. loan: lượng tiền vay 14. purpose: mục đích vay 15. deadline: thời hạn vay
16. monthly interest: lãi suất hàng tháng 17. others: con nợ đồng thời khác
• Các chỉ số về tài sản:
18. house: sở hữu của một ngôi nhà 19. effects: sự bảo lãnh cá nhân khác
Bảng 3.22 Cấu trúc của ma trận dữ liệu
Chỉ có 3 trong số 20 biến giải thích là liên tục: deadline, loan, age. 17 biến còn lại là rời rạc,
nhưng chỉ 2 trong số này là biến nhị thức: telephone, foreign. 15 biến rời rạc khác có số mức
khác nhau; purpose có 11 mức.
Dữ liệu được phân tầng thành 300 khách hàng được chọn theo sự không đáng tin cậy (
Y 1= nếu các khoản vay không được hoàn trả) và 700 khách hàng theo sự đáng tin cậy (
Y 0= nếu các khoản vay được hoàn trả). Do đó tỷ lệ phần trăm của các khách hàng tốt và
xấu luôn được cố định.
Mặc dù sẽ mất thông tin, nhưng để đơn giản hóa việc phân tích ta sẽ chuyển đổi các biến ban đầu thành các biến nhị thức, nhưng việc nhị phân hóa cho phép ta điều tra tỷ số chênh. Đối với các biến định lượng, ta tạo ra 2 mức: một mức tương ứng với các giá trị cao hơn hoặc bằng trung vị, mức kia tương ứng với các giá trị thấp hơn của trung vị. Ví dụ
deadline có các giá trị trong khoảng 0 – 72 tháng, nhưng ta đã chuyển đổi nó như trong bảng 3.23. Với tất cả các biến khác, ta đưa ra giá trị 0 vào loại ít tin cậy và giá trị 1 vào loại tin cậy
hơn. Lấy previous rep làm một ví dụ. Ta đưa giá trị 1 tương ứng với quá khứ hoàn trả kịp
thời, giá trị 0 tương ứng với quá khứ hoàn trả chậm trễ. Một số biến rời rạc phải được tái
phân lớp. Chẳng hạn account được chia nhỏ thành 2 biến nhị thức mới: good_account và
bad_account. Bảng 3.24 cho thấy các phân lớp mới và cũ. Biến sex & marital status được chia thành 2 biến nhị thức riêng biệt: sex và marital status. Bảng 3.25 tóm tắt biểu diễn này.
Bảng 3.23 Phân lớp biến deadline
Lớp cũ Lớp mới Hạn vay
Deadline ≥ 18 tháng 1 Dài hạn
Deadline < 18 tháng 0 Ngắn hạn
Biến cũ Biến mới
account bad_account good_account
1. không tài khoản Trung bình 0 0
2. chênh lệch âm Tồi 1 0
3. chênh lệch ∈[0; 200] Trung bình 0 0
4. chênh lệch >200 Tốt 0 1
Bảng 3.25 Phân lớp các biến sex và marital status
Biến cũ Biến mới
sex & marital status sex Marital status
1. đàn ông Độc thân, đã ly hôn, đang ly thân 0 0
2. đàn bà Độc thân, đã ly hôn, đang ly thân 1 0
3. đàn ông Đã kết hôn, mất vợ 0 1
4. đàn bà Đã kết hôn, mất chồng 1 1
3.3.3 Phân tích dữ liệu thăm dò
Ta bắt đầu với phân tích một chiều để điều tra cường độ của các liên kết giữa mỗi biến giải thích với biến phản ứng. Điều này cho thấy ảnh hưởng của mỗi biến giải thích trong việc
xác định các khách hàng không đáng tin cậy (Y 1= ). Các biến giải thích kết hợp mạnh hơn
với biến phản ứng sẽ có khả năng tốt hơn khi xác định độ tin cậy của khách hàng. Mặc dù bỏ qua sự tương tác giữa các biến, nhưng phân tích một chiều thường rất hữu dụng. Đó là một bước sơ bộ quan trọng trong việc thiết lập một mô hình đa biến.
Để điều tra sự kết hợp giữa biến phản ứng với từng biến giải thích trong số 22 biến giải thích, ta xây dựng tỷ số chênh. Lúc này tỷ số chênh càng cao thì sự kết hợp âm của biến giải thích với độ tin cậy tín dụng càng cao.
Bảng 3.26 cho thấy các tỷ số chênh và các khoảng tin cậy 95% tương ứng; cột cuối
cùng hiển thị p – giá trị của thống kê khi – bình phương Pearson. 22 biến giải thích được
xếp theo thứ tự giảm dần của tỷ số chênh. Các kết luận này đều được xác nhận bởi các p –
giá trị của thống kê khi – bình phương trong cột cuối cùng của bảng.
• 8 biến đầu tiên trong bảng có một sự kết hợp âm với biến phản ứng; thực tế tỷ số
chênh thể hiện một giá trị lớn hơn 1. Ở đây, p – giá trị nhỏ hơn 0,05; điều này có
nghĩa là giả thuyết rỗng bị bác bỏ và sự tồn tại kết hợp được chấp nhận.
• 5 biến cuối cùng có một sự kết hợp dương với biến phản ứng, vì tỷ số chênh nhận các
giá trị trong khoảng (0; 1) . Ở đây, p – giá trị nhỏ hơn 0,05; điều này có nghĩa là giả thuyết rỗng bị bác bỏ và sự tồn tại kết hợp được chấp nhận.
• Biến monthly interests thể hiện một sự kết hợp âm có thể xảy ra vì tỷ số chênh chỉ lớn
hơn 1 một chút vì p – giá trị dưới 0,05 một chút; điều này có nghĩa là sự kết hợp với
biến phản ứng có ý nghĩa bấp bênh. Ta sẽ sử dụng phân tích đa biến để ra một quyết định vững chắc hơn.
• Các biến giải thích còn lại cho thấy sự kết hợp không đáng kể với biến phản ứng, vì khoảng tin cậy chứa giá trị 1. Ở đây, p – giá trị lớn hơn 0,05; điều này có nghĩa là giả
thuyết rỗng được chấp nhận.
Bảng 3.27 cho thấy cách ta suy ra các tỷ số chênh và cho phép ta rút ra các kết luận.
Bảng 3.27 Giải thích các tỷ số chênh
* Thực tế việc đi từ các khách hàng có tài khoản trung bình hoặc một độ chênh lệch âm (good_account = 0) tới các khách hàng có một tài khoản tốt (good_account = 1) thì xác suất hoàn trả tăng dần; nó chạy từ độ chênh 0,594 đến độ chênh 3,243. Do đó tồn tại một sự kết hợp dương giữa độ tin cậy và sự sở hữu một tài khoản hiện thời tốt; độ đo chính xác của sự kết hợp này được chỉ ra bởi tỷ số chênh 5,459.
* Những lao động Đức đáng tin cậy hơn những lao động nước ngoài. Đi từ khách hàng là lao
động Đức (foreign = 0) đến khách hàng là lao động nước ngoài (foreign = 1) thì khả năng
hoàn trả giảm từ 3,541 xuống 0,966. Điều này có nghĩa là có sự kết hợp âm tồn tại giữa lao động nước ngoài và sự đáng tin cậy.
* Những người sở hữu các bảo lãnh (effects = 1) hoặc những người có nhà ở (house = 1) thì
là do các chủ sở hữu nhà ở sẵn sàng nhận lấy tín dụng bằng hình thức thế chấp. Để đối phó với sự thế chấp, có thể đưa họ vào loại khách hàng không đáng tin cậy.
3.3.4 Xây dựng mô hình
Bây giờ ta chuyển sang phân tích nhiều chiều bằng cách xác định một mô hình thống kê. Ta sẽ cô gắng kết hợp tất cả các tín hiệu từ các biến giải thích khác nhau để thu được một tín hiệu tổng thể cho biết độ tin cậy của mỗi người nộp đơn. Để lựa chọn một mô hình, ta phải làm rõ bản chất của vấn đề. Rõ ràng là ta có một bài toán phân lớp dự báo, vì biến phản ứng là biến nhị thức và mục đích của ta là dự báo xem một người nộp đơn tín dụng có đáng tin cậy hay không đáng tin cậy. Ta sẽ tập trung vào hồi quy logistic và các cây phân lớp, các phương pháp đó thường được sử dụng nhiều nhất cho phân lớp dự báo nói chung và cho tính
điểm tín dụng nói riêng. Người ta cũng hay dùng một số phương pháp khác như bootstrap,
bagging và boosting... Song những phương pháp này không được trình bày trong luận văn.
3.3.4.1 Các mô hình hồi quy logistic
Ta sẽ chọn một mô hình hồi quy logistic bằng cách sử dụng quy trình lựa chọn tiến lên với mức ý nghĩa 0,05. Để kiểm tra mô hình, ta thử một quy trình từng bước và một quy trình giật lùi sau đó xác minh rằng tất cả 3 mô hình tạo theo 3 cách đó đều tương tự nhau. Bảng 3.28 mô tả quy trình lựa chọn tiến lên. Điểm khởi đầu là mô hình đơn giản nhất, chỉ chứa chắn. Sau đó tại mỗi bước ta so sánh các độ lệch để quyết định xem có bổ sung 1 biến giải thích hay không.
Bảng 3.28 Kết quả của quy trình lựa chọn tiến lên
SAS Enterprise Miner sử dụng thống kê tỷ số hợp lý trong quy trình tiến lên và thống kê Wald trong quy trình giật lùi. Theo bảng 3.28, mô hình cuối cùng thu được trong bước 10; bên cạnh intercept, nó bao gồm cả các biến giải thích sau:
1 2 3 4 5 X deadline X previous rep X purpose X bank book X monthly interests = = = = = 6 7 8 9 10 _ X age X house X foreign X good account X marital status = = = = =
Để kiểm tra chất lượng tổng thể của mô hình cuối cùng, ta tính thống kê kiểm định tỷ số hợp lý G2 đối với mô hình cuối cùng (H1) đối lập với mô hình rỗng (Ho). Ta có G2 =
219,89 với 10 bậc tự do và p – giá trị tương ứng của kiểm định nhỏ hơn 0,0001 nên giả
thuyết rỗng bị bác bỏ, suy ra rằng có ít nhất một hệ số của mô hình trong bảng 3.28 là có ý nghĩa. Mô hình đó có một điểm AIC là 1023,828 và một điểm BIC là 1077,814. Tỷ lệ lỗi phân lớp tổng cộng là 0,244. Tỷ lệ lỗi phân lớp của mô hình có mặt tất cả các biến là 0,252 lớn hơn 0,244 một chút.
Bảng 3.29 Ước lượng hợp lý cực đại của các tham số
Bảng 3.29 đưa ra các ước lượng hợp lý cực đại tương ứng với mô hình cuối cùng và ý
nghĩa thống kê của các tham số. Đối với tất cả các biến giải thích, ta có được một p – giá trị
nhỏ hơn 0,05 do đó giả thuyết rỗng luôn bị bác bỏ. Điều này có nghĩa là tất cả 10 biến giải thích được chọn bằng cách sử dụng quy trình từng bước kết hợp đáng kể với biến phản ứng
và nó hữu dụng trong việc giải thích liệu một người nộp đơn có đáng tin cậy (Y 0= ) hay
không đáng tin cậy (Y 1= ).
Mô hình hồi quy logistic đạt được có thể được mô tả bởi công thức sau:
1 1 2 2 10 10 ( 1) log ... ( 0) o P Y X X X P Y = = +β β +β + +β =
trong đó biến phản ứng là độ tin cậy tín dụng (Y 0= nếu có, Y 1= nếu không) và các biến giải thích như đã mô tả. Bảng 3.30 cho thấy các ước lượng tham số và các tỷ số chênh được ước lượng cho mỗi biến. Ta có thể giải thích bảng 3.30 bằng cách sử dụng công thức mô
hình. Công thức này được xây dựng bằng cách đặt Y 1= khi con nợ không đáng tin cậy, nên
ta có thể nói rằng một tham số có dấu dương chỉ ra rằng biến tương ứng làm giảm độ tin cậy của con nợ. Ngược lại, một tham số có dấu âm chỉ ra rằng biến tương ứng làm tăng độ tin cậy của con nợ.
Biến good_account có một tham số âm (β = −ˆ 1, 4690); điều này có nghĩa là các khách
hàng có một tài khoản hiện thời tốt thể hiện một xác suất hoàn trả lớn hơn các khách hàng có tài khoản trung bình hoặc có một độ chênh lệch âm. Các lý luận tương tự cũng đúng đối với
deadline, previous rep, purpose, bank book, monthly interest, age, marital status. Cụ thể, ta có thể liệt kê 8 mức của 8 biến làm gia tăng xác suất hoàn trả:
• Một tài khoản hiện thời tốt
• Quá khứ hoàn trả kịp thời
• Sự sở hữu một chi phiếu ngân hàng
• Một khoản vay ngắn hạn
• Một mục đích kinh doanh cho khoản vay
• Sự hiện diện của các tỷ lệ lãi suất cao
• Không độc thân
• Độ tuổi trên 33
Những lao động nước ngoài yêu cầu vay tiền (foreign = 1) ít tin cậy hơn các lao động
Đức vì β =ˆ 1,3932. Như ta đã thấy trong suốt giai đoạn thăm dò, các khách hàng sở hữu một
ngôi nhà (house = 1) có lẽ có một hợp đồng thế chấp thì ít đáng tin cậy hơn các khách hàng
không sở hữu nhà. Điều này được chỉ ra bằng hệ số β =ˆ 0,4934 0> .
Tỷ số chênh đo sức mạnh của sự kết hợp giữa mỗi biến giải thích và biến phản ứng. Bảng 3.31 so sánh các tỷ số chênh ước lượng với các tỷ số chênh từ phân tích thăm dò. Các tỷ số chênh nhiều chiều này đáng tin cậy hơn các tỷ số chênh một chiều. Chúng đưa ra một mô tả tốt hơn về những mối quan hệ tương tác giữa các biến, vì từng sự kết hợp được điều chỉnh