em quyết định lựa chọn đề tài “Hiệu quả của kỹ thuật phân nhóm dữ liệu theo WOE Weight of Evidence trong bài toán phân loại sử dụng mô hình Logistic và thuật toán học máy”.. Bên cạnh đó,
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TE QUOC DAN
KHOA TOÁN KINH TẾ
CHUYÊN ĐÈ THỰC TẬP
CHUYEN NGÀNH TOÁN TÀI CHÍNH
Dé tai:
HIEU QUA CUA KY THUAT PHAN NHOM DU
LIEU THEO WOE (Weight of Evidence) TRONG BAI TOÁN PHAN LOẠI SỬ DUNG MÔ HÌNH LOGISTIC
VÀ THUẬT TOÁN HỌC MÁY
Giảng viên hướng dẫn : Ths Nguyễn Thị Liên
Hà Nội, 2022
Trang 2LỜI CẢM ƠNLời đầu tiên, em xin gửi lời cảm ơn chân thành đến Thạc sĩ Nguyễn Thị Liên
— Giang viên bộ môn Toán Tài chính, khoa Toán Kinh tẾ, trường Đại học Kinh tế
Quốc dân đã đồng hành và hướng dẫn em hoàn thành chuyên đề thực tập này
Em xin gửi lời biết ơn sâu sắc đến các thầy cô khoa Toán Kinh tế đã luôn tận
tình truyền dạy kiến thức và định hướng cho sinh viên chúng em Đó là những kiếnthức cần thiết, là hành trang quý báu dé chúng em từng ngày hoàn thiện và tự tin cốnghiến hết mình cho sự nghiệp sau này
Bên cạnh đó, em cũng chân thành cảm ơn người thân trong gia đình, bạn bẻ
đã lăng nghe, chia sẻ và tạo điều kiện, nhiệt tình hỗ trợ, luôn là điểm tựa giúp em yêntâm bước chân vững chắc trên cả chặng đường của quá trình học Đại học
Tuy nhiên, do trình độ của bản thân còn nhiều mặt hạn chế, đề tài có thể cònnhiều mặt chưa được hoàn chỉnh Vì vậy, em rất mong nhận được những lời góp ý từthầy cô và bạn học dé bài đề tài trở nên hoàn thiện hơn Thêm vào đó, em hy vọng đềtài này sẽ mang tính ứng dung cao, có thé áp dụng kết quả nghiên cứu dé cải thiện về
mô hình của các ngân hàng, doanh nghiệp, trong các bai toán phân loại.
Cuối cùng, em xin kính chúc các thầy cô đồi dao sức khỏe và thành công trong
cuộc song.
Em xin chan thanh cam on!
Sinh vién thuc hién,
Ha
Nguyễn Thi Thu Ha
Trang 3MỤC LỤC
LỜI MỞ DAU oiceescsssessesssesssesssesssessecssecssessusssecssessusssusssecssessssssessssssessusssesssesssessessseeases 1
1 Lý do lựa chọn để taiccecceccecccccccsssssssscsscsscsscssessesscsucssssessessessesscsuessesscsssessessesseeseanees 1
2 Mục tiêu nghiÊn CỨU G1 1919931991119 11H nh HH nh 3
3 Phương pháp nghiÊn CỨU - . - «+ 1t 1 931931 1 ng HH ng nh nh nàn 3
5 Dự kiến kết quả -:- + 2 + £+S£+E£EE£EEEEEEEE2E1211215217171111111211 1111111111 c0.5
6 Ket cau 0ýn) 0 Nga ˆOỪ Ầ 5CHƯƠNG 1: CƠ SỞ LÝ THUYET VA TONG QUAN NGHIÊN CỨU 6
1.1 Cơ sở lý thuyết về bài toán phân loại - - +: + 2+ ++££+E£+E££EerEerxerxerxrrezes 6
1.2 Các phương pháp sử dụng trong bài toán phân loại ¿++-+++s<++s+ss 8
1.2.1 Phương pháp mô hình LOB1SfIC - 5 5 + 1x1 rkeeeekrrrrkrrke 8
1.2.1.1 Phương pháp Goldberger ((196⁄‡) - sư 8 1.2.1.2 Phương pháp Berkson ((1953) c c 1x 1x 1 1 1191 11 8 rệt 9
1.2.1.3 Ưu nhược điểm của mô hình LOgistiC 2 2 2522 x£s+zszss2 10
1.2.2 Phương pháp học mấy - 5 +2 2331193115113 11111 1111 ng ng rưy 10
1.2.2.1 Học máy là gì -¿- ¿- + 2212 kEEEE21211211717112112111111 21121 11x 10
1.2.2.2 Một số thuật toán học MAY - 2 ¿+ s+++£++E++E£EezEerkerxersrreee 11
1.3 Kỹ thuật phan nhóm theo WOIE - + kg Hư, 15
1.3.1 Giới thiệu về kỹ thuật WOE ¿- ¿5c St E2 121121121121 11 11111 xe 15
1.3.2 Phương pháp phân nhóm theo kỹ thuật WOE - - 525cc sssssssseres 15
1.3.3 Ưu nhược điểm của kỹ thuật WOE 2-55 ©522c2+EEvEEeEEEEerxerkerree 17
1.4 Mô hình Logistic kết hợp kỹ thuật WOE 2- 52c ©5£222EE‡EEtZEzEerxerrree 17
1.4.1 Dang tổng quát mô hình 2 ¿¿++++E+++Ex++E++E+++zx++zxezxxerxeerxee 171.4.2 Đặc điểm mô hình 2- 2-52 %+Sk£SE£E2EEEEEEEEEEEEEEEE2171 71121121 EErxe 17
1.4.3 Đánh giá mô hình 2-2 ©5£+2++2x£SE2E+2EEEEEEEEEEEEEEEEEEEEEEErrrrrrrkrrvee 18
1.4.3.1 Mục đích của việc đánh giá mô hình - 55+ ++s+++c+sxsesserss 18 1.4.3.2 Các chỉ tiêu đánh giá mô hình 2-5 ©5¿+£+x+£x+x+x+zzerxrseee 18
1.4.4 Công thức tinh điểm từ kết quả mô hình - 2 2 22 s2 £x+zs+zs+s+2 22CHƯƠNG 2: THUC TRANG MỘT SO LĨNH VUC KINH TẾ XÃ HỘI 24
Trang 42.1 Tổng quan quy trình xây dựng thẻ điểm ngân hàng -. : 24
2.1.1 Sự cần thiết của thẻ điểm ngân hàng ¿ 2 525x+2zx+cxevrxesrxee 242.1.2 Quy trình xây dựng thẻ điểm cơ bản của Ngân hàng - 25
2.1.2.1 Lập kết hoạch xây dựng mô hình ¿2 2 s+x+££+£z+£x+rxrsez 252.1.2.2 Xem xét dữ liệu và thông sé dự AN ecccceccccccsessececeeseessseeeeeeeessaeees 26
2.1.2.3 Tạo lập cơ sở dit LGU o.ceecccescessesssesssesssessssssesssecssessssssecssecsuscsesssecssecseeenes 28
2.1.2.4 Phát triển mô hình - 2-2 + ©+£+S£+EE+EE+EE+EEE£EE+EEtEEezEerrerrxerxerree 282.1.2.5 Hậu kiểm mô hình - 2-2 ¿+ +£++£++£+EE£+EE+EEE£EE++EE++Exrrxerrxerrxee 30
2.2 Sự cần thiết của bài toán dự báo trong y học ¿- 2 x+cxczezresrxerxcres 31
2.3 Sự cần thiết của bài toán dự báo kha năng rời bỏ của khách hàng 32CHƯƠNG 3: XÂY DUNG MÔ HINH LOGISTIC GIẢI QUYET MỘT SO BÀI
¡9 98:790097.1007 sa 34
3.1 Xây dựng mô hình Logistic với bài toán châm điểm khách hàng 34
3.1.2 Xây dung mô hình Logistic với dữ liệu phân nhóm WOE 36
3.1.2.1 Phân tích thống kê mô tả và kết quả nhóm dữ liệu WOE 36
3.1.2.2 i0 án 42
3.1.2.3 Phân tích kết quả hồi quy - + ¿+ E©E+EE+E++EE+EzEerEerxerxerxrree 42E6 no nnn 433.1.2.5 Kiểm định mô hình 2-2 + ¿+ £+EE+EE£EE£EEESEEEEEtEErEerEkrrxerkerree 44
3.1.3 Xây dựng mô hình Logistic với dit liệu gốc - 2z scx+cs+cs+ce2 45
3.2 Xây dựng mô hình Logistic với bài toán dự báo ung thư 46
3.2.1 Mô tả dữ liệu -¿- ¿2+ ©++22E22EE2E12211271127121127112112211211 11121121 cre.46 3.2.2 Xây dựng mô hình Logistic với dữ liệu phan nhóm WOE 48
3.2.2.1 Phân tích thống kê mô tả và kết quả nhóm dit liệu WOE 48
3.2.2.2 Phân tích tương Quan - - c3 3221323135111 111111111 50
3.2.2.3 Phân tích kết quả hồi quy - 2-2 + +E2E++EE+£E+£EzEzEsrkerxerree 503.2.2.4 Bảng điỂm -:- 6S EEEEE1211211211211 1111111111111 11 1111 11k 513.2.2.5 Kiểm định mô hình ¿2-2 5¿+S£2E++EE+EEtEEEEEEEEEerErEerrrerxerkerree 52
3.2.3 Xây dựng mô hình Logistic với tập dữ liệu gốc "— 53
Trang 53.3 Xây dựng mô hình Logistic với bài toán dự báo khả năng rời bỏ của khách hàng
¬ 54 3.3.1 MG ta dit 54 3.3.2 Xây dung mô hình Logistic với tập dữ liệu phân nhóm WOE 57
3.3.2.1 Phân tích thống kê mô tả và kết quả nhóm dữ liệu WOE 57
3.3.2.2 Phân tích tương Quañ - c 132113123111 1113 11 1111 11 E111 ng rry 58
3.3.2.3 Phan tích kết quả hồi quy - 2 2 + +E2E++EE+EE+EEzEzEzrxerxerxee 59
k8: cu ynn ,ÔỎ 593.3.2.5 Kiểm định mô hình - 2-2 £+S£+EE+EE+EEtEEE+EEEEEtEErEerrkrrkrrkerree 603.3.3 Xây dựng mô hình Logistic với tập dit liệu gỐc - ¿5 5 + +2 61
3.4 So sánh kết quả dự báo từ mô hình Logistic dé giải quyết ba bài toán phân loại
¬— 62
CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN HOC MAY GIẢI QUYẾT MỘT SO BÀI
TOÁN PHAN LOẠI 2: 2£ ©5£+S<EEE9EEEEEE2E1E21211211211717112111171211 111110 64
4.1 Kết quả dự báo từ thuật toán học máy với dữ liệu phân nhóm WOE 644.2 Kết quả dự báo từ thuật toán học máy với dit liệu gốc -::-s 644.3 So sánh kết quả dự báo giữa phương pháp mô hình Logistic và phương pháp
Isi000695 71
Trang 6DANH MỤC TỪ VIET TAT
WOE Weight of Evidence
MAPE Mean Absolute Percentage Error
MLE Maximum Likelihood Estimation
LPM Linear Probability Model
OLS Ordinary Least Square
G Good
B Bad
Trang 7DANH MỤC BANG Bảng 1: Thông tin dit liệu trong đề tài -¿- 2 ¿+ +Sx+SE+EE+E£EeEEEEESEEEErEerkerkerkrreee 4 Bảng 2: Thang đánh giá chỉ số Gini -2 252 2SE‡EEEEEEE2EEEEEEEEEEErEkrrkerkrred 20 Bảng 3: Dạng ma trận nhầm lẫn 2-2 ¿5£ SE+SE£EE£EE£EE£EE+EEvEEtEEzEerrkrrrrred 21 Bảng 4: Thông tin các biến độc lập tap đữ liệu ngân hàng -.2- 52552 35 Bang 5: Thống kê mô tả và thông tin lựa chọn biến sau khi phân nhóm với tập dữ liệu
0118001115200 -4a- 37
Bảng 6: Thông tin liên quan biến “interest” sau khi chia thành 20 nhóm 38
Bảng 7: Thông tin liên quan biến “interest” sau khi chia lại nhóm - 39
Bảng 8: Thông tin liên quan biến “total_loan” sau khi chia thành 20 nhóm 40
Bảng 9: Ma trận tương quan các biến đã được chuyển đổi WOE tập dữ liệu ngân 9 43
Bảng 11: Bảng điểm cuối cùng với tập dữ liệu ngân hang phân nhóm WOE 44
Bang 12: Chỉ số Gini của mô hình từ tap dit liệu ngân hang phân nhóm WOE 44
Bang 13: Ma trận nhằm lẫn với tập dữ liệu ngân hàng phân nhóm WOE 45
Bảng 14: Chỉ số đo độ chính xác mô hình từ tập dữ liệu ngân hàng phân nhóm "9 45
Bảng 15: Ma trận nhằm lẫn mô hình Logistic với tập dữ liệu ngân hàng gốc 46
Bang 16: Thông tin các biến độc lập tập dữ liệu y sinh 2-2 2 z+sezxsxs 47 Bang 17: Phân biệt khối u lành tính và khối u ác tính -2- ¿22 s2£+zxz+se2 48 Bảng 18: Thông tin thống kê mô tả và lựa chọn biến sau khi phân nhóm theo kỹ thuật WOE v6i tap dit LGU y Sime 49
Bang 19: Ma trận tương quan các biến đã được chuyên đổi WOE tap dit liệu y
Trang 8Bang 21: Thẻ điểm cuối cùng với tập dit liệu y sinh phân nhóm WOE 52Bảng 22: Chỉ số Gini của mô hình xây dựng từ tập dữ liệu y sinh phân nhóm WOE
Bảng 23: Ma trận nhằm lẫn tập dit liệu y sinh phân nhóm WOE . 53Bang 24: Chi số do độ chính xác mô hình từ tập dữ liệu y sinh phân nhóm
WOE 33
Bảng 25: Ma trận nhằm lẫn mô hình Logistic với tập dữ liệu y sinh gốc 54Bang 26: Thông tin các biến độc lập tập dữ liệu viễn thông 2: 55Bảng 27: Thống kê mô tả và thông tin lựa chọn biến sau khi phân nhóm với tập dữ
i0 2758/07 17777-““‹“‹1 57Bảng 28: Ma trận tương quan các biến đã được chuyển đôi WOE tập dữ liệu viễn
Bang 29: Ma trận tương quan các biến đã được chuyển đôi WOE tập dữ liệu viễn
thông có hệ số tương quan nhỏ hơn (.5 2-2 2+2 ESE£EE2E£+E££E+EE+EE+EEzEzEerszrs 5Bảng 30: Kết quả hồi quy mô hình với tập dữ liệu viễn thông phân nhóm WOE
Bang 33: Ma trận nhằm lẫn tập dữ liệu viễn thông phân nhóm WOE 61Bảng 34: Chỉ số đo độ chính xác mô hình từ tập dữ liệu viễn thông phân nhóm WOE
Bang 35: Ma trận nhằm lẫn mô hình Logistic với tap dit liệu viễn thông gốc 62
Bảng 36: So sánh kết quả dự báo từ mô hình Logistic với đữ liệu gốc và dữ liệu phân nhóm
Trang 9Bảng 37: Ma trận nhằm lẫn kết quả từ thuật toán học máy trên tập kiểm định dữ liệu
Trang 10DANH MỤC HÌNH VẼ
Hình 1: Đồ thi dang hàm Sigmoid -2- 2-52 2E E£SE£EE£EE+E£EEEESEEEEEEEErEerkerkerkee 8
Hình 2: Mô tả thuật toán Random FOreSf << 3333232222 EE£EEeeseeess 13
Hình 3: Mô tả thuật toán Gradient BOOSfITE - 5 G119 He, 14
Hình 4: Sơ đồ phương pháp xác định thời gian lay dữ liệu -5¿ 27Hình 5: Biểu đồ số lượng good, bad và giá trị WOE từng nhóm của biến “interest”
[400810 210)00200:1105i 001157 39
Hình 6: Biểu đồ số lượng good, bad và giá tri WOE từng nhóm của biến “interest”
khi Chia lạI 2 22 1122231813231 1123311 12531 1110311 cư 40
Hình 7: Biéu đồ số lượng good, bad và giá tri WOE từng nhóm của biến “total loan”
khi chia thành 20 nhóm - + ¿2 E121 91 211 11 11 1 1123 1 H1 TH ngư 41
Hình 8: Hình anh so sánh tế bào thường và tế bào ung thư 2 555248
Trang 11CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
LOI MO DAU
1 Ly do lựa chọn đề taiTrong các mô hình Kinh tế Lượng, có hai bài toán chính, đó là là bài toán dự
báo (đối với biến mục tiêu liên tục) và bài toán phân loại (đối với biến mục tiêu là rời
rac) Bài toán phân loại là lớp bài toán được ứng dụng phô biến trong nhiều lĩnh vực
có thé kề đến như:
Phân loại khách hàng trong ngân hàng: Sự khác biệt về sức khoẻ tín dụng giữacác ngân hàng được đánh giá trên khả năng kiểm soát nợ xấu Các khoản cho vay củangân hàng luôn tiềm an những nguy cơ vỡ nợ, do đó các ngân hàng cần phải đánh giárủi ro đối với khách hàng của mình thông qua các mô hình phân loại nợ xấu để raquyết định có cho vay hay không và vay với hạn mức, kỳ hạn, lãi suất là bao nhiêu
Bên cạnh những biện pháp về phòng ngừa và tuân thủ, dé tạo ra một hệ thống quan
trị rủi ro hiệu quả, ngân hàng cần sử dụng các công cụ mô hình dé lượng hoá rủi ro
về vị trí, kích thước và loại khối u,
Bên trên là một số ứng dụng nhỏ về tính hữu ích và sự phô biến của các bàitoán phân loại Có thé thay rang, bài toán phân loại hiện tại đang giải quyết rất nhiềuvan dé mà con người đang phải đối mặt Đồng thời với vai trò to lớn của mình, nó đã
và đang mang lại nhiều thay đổi cho nhân loại
Dé giải quyết các bài toán trên, mô hình tốt nhất được dé xuất là mô hìnhLogistic Tuy nhiên, mô hình Logistic cần một dữ liệu đủ nhiều quan sát dé đảm bảo
tính chính xác của mô hình, đông thời gặp vân đê với các biên thiêu giá trị, các giá trị
Sinh viên thực hiện: Nguyễn Thị Thu Hà 1
Trang 12CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
ngoại lai và không thé đưa biến rời rac vào mô hình nếu không sử dung biến giả,
nhưng, việc dùng biến giả cho các biến định tính có nhiều đặc tính hơn hai sẽ mat
nhiều bậc tự do, đặc biệt nếu mẫu quan sát nhỏ, ước lượng thu được không chính xác
Đối với người xây dựng mô hình, việc tận dụng được tất cả các dữ liệu đang
có thể hiện khả năng xây dựng tốt của họ Ví dụ như một bộ dữ liệu ngân hàng, vớicác biến như giới tinh, ta dé dang mã hóa 0 là nữ va 1 là nam Tuy nhiên, các biếnnhư nghề nghiệp, loại sản pham vay dùng, rõ rang có tác động đến khả năng thanh
toán đúng hạn, vậy làm sao có thé đưa nó vào mô hình Logistic dé đưa ra quyết định
cho khách hàng vay hay không?
Câu trả lời, đó là có thé dùng kỹ thuật WOE (weight of evidence) dé rời rac
hóa một biến bằng cách chia nhóm mà các quan sát trong nhóm có đặc tính giống
nhau, mỗi nhóm được gắn một giá tri đại diện Day cũng là cách đơn giản để giải
quyết các van đề như thiếu quan sát, giá trị ngoại lai, bién rời rac, làm tăng tính chính
xác trong dự báo Một số nghiên cứu đã chỉ ra tính ưu việt của phương pháp này, cụthé:
Regmi, Netra R., John R Giardino và John D Vitek (2010) đã nghiên cứu kha
năng sac lở đất bởi 17 yếu tố thông qua phương pháp WOE Băng cách kết hợp cácyếu tô đại diện cho địa hình, thủy văn, địa chất, lớp phủ đất và ảnh hưởng của conngười, sáu mô hình đã được phát triển Bản đồ kết quả của các khu vực dễ bị sạt lở
với phương pháp WOE có độ chính xác dự đoán là 78%.
Fang, Jintao (2019) đã xây dựng mô hình điểm tín dụng để phân tích nhiềutham số được thu thập thông qua các kênh khác nhau và dé xác định ai đủ điều kiệnvay, ở mức lãi suất nào và giới hạn tín dụng Dự án này đã chỉ ra rằng, WOE là mộtphương pháp tiềm năng để cải thiện hiệu suất của mô hình điểm tín dụng
Với sự cần thiết và nhu cầu thực tiễn của các lĩnh vực ngân hàng, y tế, điện tử
viễn thông, em quyết định lựa chọn đề tài “Hiệu quả của kỹ thuật phân nhóm dữ
liệu theo WOE (Weight of Evidence) trong bài toán phân loại sử dụng mô hình
Logistic và thuật toán học máy” Em hy vọng răng đây là một đề tài mang tính ứng
Sinh viên thực hiện: Nguyễn Thị Thu Hà 2
Trang 13CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
dụng cao, có thé áp dụng kết qua nghiên cứu nay dé cải thiện về mô hình của các
ngân hàng, doanh nghiệp, trong các bai toán phân loại.
2 Mục tiêu nghiên cứu
Đề tài này trước tiên nghiên cứu về ưu nhược điểm của kỹ thuật WOE, từ đó
đưa ra những điều kiện, phương pháp dé sử dụng kỹ thuật WOE dé xử lý biến Bên
cạnh đó, đề tài đánh giá tính ứng dụng của kỹ thuật WOE trong các ngành: ngân hàng,
y học, viễn thông dé đưa ra dự báo, và từ dit liệu phân nhóm WOE sẽ được ứng dụng
vào mô hình Logistic và học máy Cụ thé:
- Phân tích ưu nhược điểm, điều kiện sử dụng và phương pháp áp dụng kỹthuật WOE dé xử lý dữ liệu
- So sánh hiệu quả dự báo khi sử dụng phương pháp mô hình Logistic và thuật
toán học máy giữa dữ liệu gốc và dữ liệu phân nhóm WOE, kỳ vọng kết quả sử dụng
dữ liệu phân nhóm WOE đưa ra dự báo chính xác hơn.
- So sánh hiệu quả dự báo giữa phương pháp mô hình Logistic và phương pháp
học máy, kỳ vọng phương pháp học máy đưa ra dự báo chính xác hơn.
3 Phương pháp nghiên cứu
Đề tài sử dụng kỹ thuật WOE dé rời rac hóa và phân nhóm dữ liệu, phân tích
tương quan dé lựa chọn biến và sử dụng hồi quy Logistic với dữ liệu gốc và dữ liệu
phân nhóm WOE dé đưa ra kết quả Quá trình này sử dụng ngôn ngữ SAS
Bên cạnh đó, đề tài sử dụng một số thuật toán như Random Forest, Light GBM
và XGBoost dé xây dựng mô hình hoc máy với dữ liệu gốc và dit liệu đã phân nhómWOE để dua ra dự báo Quá trình này được thực hiện băng R
4 Phạm vi và dữ liệu
Đề tài thực hiện nghiên cứu hiệu quả của kỹ thuật WOE khi áp dụng vào mô
hình bài toán phân loại trên 3 lĩnh vực: ngân hàng, y sinh và viễn thông Với tap dit
liệu ngân hàng, phạm vi nghiên cứu là những người nộp hồ sơ yêu cầu vay tiền của
ngân hàng, với tập dữ liệu y sinh là những bệnh nhân có khối u và với tập dữ liệu
viễn thông là những khách hàng đang sử dụng dịch vụ của công ty.
Sinh viên thực hiện: Nguyễn Thị Thu Hà 3
Trang 14CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Đề tài lựa chọn nhiều lĩnh vực nhằm mục dich kiểm tra tính ứng dụng đa dạngcủa kỹ thuật WOE với nhiễu loại dit liệu, kiêm tra sự phù hợp của kỹ thuật WOE với
từng bài toán thực tế Cả ba tập dit liệu này đều có biến phụ thuộc chuyên đôi được
về hai giá trị 0 và 1, các biến độc lập có biến rời rạc, có giá trị ngoại lai nên thích hợp
dé đánh giá được tính ưu việt của kỹ thuật WOE khi xử lý biến Chi tiết các dữ liệu
sử dụng trong đề tài được tóm tắt tại bảng sau:
Bang 1: Thông tin dữ liệu trong dé tài
Loại Định nghĩa Mục tiêu Nguồn
dữ liệu biến phụ thuộc mô hình dữ liệu
Khách hàng đã từng quá | Đánh giá khách hang có | https://www.datafo
hạn trong 90 ngày gần | khả năng quá hạn trong | untain.cn/datasets/
nhất, với quy ước: 90 ngày, từ đó đưa ra | 6274
Ngân A, a: ⁄ ⁄om" | 1; Khách hàng đã quá hạn | quyết định có cho khách
hàng ` A
trong 90 ngay hàng vay hay không
0: Khách hàng chưa quá
hạn trong 90 ngày.
Bệnh nhân có khối u, với | Đánh giá xem bệnh | https://www.kaggl
quy ước: nhân có khối u lành tính | e.com/code/buddhi
Ysinh „ Ậ z :
B (1): Khối u lành tính có thê chuyên sang ác |
niw/breast-cancer-M (0): Khối u ác tính tính hay không prediction/data
Sự gắn bó của khách hàng | Đánh giá khả năng | https://www.kaggl
với dịch vụ của công ty | khách hàng rời bỏ dich | e.com/datasets/bla
- viễn thông, với quy ước: | vụ của công ty
Trang 15CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
5 Du kién két quaXây dựng mô hình Logistic trên dit liệu đã được phân nhóm WOE cho kết qua
dự báo ưu việt hơn khi xây dựng mô hình trên dữ liệu gốc, đồng thời phương phápthuật toán học máy cho kết quả chính xác hơn phương pháp mô hình Logistic
6 Kết cau chuyên đề
Đề tài gồm chương, cụ thể:
Chương 1: Cơ sở lý thuyết và tong quan nghiên cứuChương 2: Thực trạng một số lĩnh vực kinh tế xã hội cần thiếtChương 3: Xây dựng mô hình Logistic giải quyết một số bài toán phân loại
Chương 4: Sử dụng thuật toán học máy giải quyết một số bài toán phân loại
Chương 5: Kết luận và khuyến nghị
Sinh viên thực hiện: Nguyễn Thị Thu Hà 5
Trang 16CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
CHUONG 1: CO SO LY THUYET VA TONG QUAN NGHIEN CUU
Trong chương này trình bày về co sở lý thuyết của bài toán phân loại, một sốphương pháp giải quyết bài toán phân loại (cụ thể là phương pháp mô hình Logistic
và phương pháp thuật toán học máy).
Bên cạnh đó, chương này cung cấp lý thuyết tong quan về đặc điểm, điều kiện
áp dụng, công thức, ưu nhược điểm của một kỹ thuật tiền xử lý dữ liệu trước khi tiễnhành xây dựng mô hình hay huấn luyện thuật toán, đó là kỹ thuật phân nhóm dữ liệuWOE (Weight of Evidence — trọng số băng chứng), đồng thời đưa ra phương pháp áp
dụng kỹ thuật này vào mô hình.
1.1 Cơ sở lý thuyết về bài toán phân loại
Mặc dù đến nay vẫn chưa có một khái niệm cụ thé được mọi người cùng chấp
thuận, tuy nhiên, kinh tế lượng đã và đang được ứng dụng cho rất nhiều lĩnh vực, vàtrong mỗi lĩnh vực đó, người ta có một quan niệm khác nhau Thuật ngữ tiếng Anh
“Econometrics” được ghép từ hai gốc từ: “Econo” nghĩa là “kinh tế” va “Metrics”nghĩa là “đo lường” Hiểu nôm na, kinh tế lượng là đo lường kinh tế Đó là sự kết hợp
giữa kinh tế học, toán học và thống kê toán nhằm lượng hóa, kiểm định và dự báo cácquan hệ kinh tế Thông qua mô hình kinh tế lượng, các con số trở nên “biết nói” hơn,
các nhà kinh tế có một “con mắt mới” dé nghiên cứu các vấn đề kinh tẾ, và từ đó có
một cơ sở thực nghiệm để con người áp dụng và đưa ra quyết định trong mọi lĩnh
vực: sản xuất kinh doanh, hoạch định chính sách, xây dựng chiến lược kinh tế - xã
hội,
“Giá cổ phiếu ngày mai có thé là bao nhiêu?”, “GDP của quốc gia năm tới có
khả năng tăng trưởng như thế nào?”, “Ước tính thu nhập của người lao động trongnăm nay?”, đó là một số bài toán mà kinh tế lượng có thé giải quyết Một đặc điểm
chung của những bài toán này, đó là biến phụ thuộc (biến mục tiêu) cần ước lượngđều là biến liên tục
Tuy nhiên, có nhiều hiện tượng, nhiều quá trình mà khi mô tả bằng mô hìnhkinh tế lượng, biến phụ thuộc là biến định tính, nhận hai giá trị có thể có là 0 và 1
Sinh viên thực hiện: Nguyễn Thị Thu Hà 6
Trang 17CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Ngoài ra, cũng có nhiều trường hợp biến phụ thuộc có thé nhận giá trị nguyên, hoặc
bị hạn chế trong một khoảng nào đó Nhiều bài toán được đặt ra cần giải quyết liên
quan đến van dé này, ví dụ như: “Trong nông nghiệp, người nông dân quyết định cócanh tác hay không?”; “Trong ngân hàng, ngân hàng và tô chức tín dụng quyết định
có cho khách hàng vay không?”; “Trong y học, bệnh nhân có khả năng chuyền biếnkhối u từ lành tính sang ác tính hay không?”; “Trong quan lý kinh tế, một gia đình có
phải hộ nghèo hay không?”;
Như vậy, tóm lại, trong các mô hình kinh tế lượng, có hai bài toán chính, đó
là là bài toán dự báo (đối với biến phụ thuộc là biến liên tục) và bài toán phân loại(đối với biến phụ thuộc là biến là rời rạc) Trong các bài toán phân loại, bài toánthường gặp và phô biến nhất là bài toán nhị phân
Phân loại nhị phân là bài toán có biến phụ thuộc gồm hai giá trị là 0 va 1, trong
đó quy ước | là nhãn tích cực (positive) va 0 là nhãn tiêu cực (negative) Nhãn tích
cực ở đây mang hàm ý xảy ra sự kiện, còn nhãn tiêu cực thé hiện sự vắng mặt của sựkiện Mục tiêu của bài toán phân loại nhị phân là ước lượng ra xác suất xuất hiện hayvắng mặt của sự kiện, lần lượt tương ứng với nhãn tích cực và nhãn tiêu cực Tổng
của hai xác suất này bang 1
a(x) =
Ham Sigmoid có dạng đường cong chữ S và tinh đơn điệu tăng Dé dàng chứng
minh được giá trị của hàm Sigmoid nam trong đoạn từ 0 đến 1:
Jim, a(x) = im, 1+e* =1 Jim, a(x) ~ Jim, 1+e* =0
Sinh viên thực hiện: Nguyễn Thị Thu Hà 7
Trang 18CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
=10.0 “75 50 25 00 75 50 75 100
Hình 1: Do thị dang hàm Sigmoid
Do đó, hàm Sigmoid phù hợp để dự báo xác suất ở những bài toán phân loại,
nên còn được gọi là hàm Logistic.
1.2 Các phương pháp sử dụng trong bài toán phân loại
1.2.1 Phương pháp mô hình Logistic
Bài toán phân loại thường sử dung mô hình hồi quy Logistic
Phương trình nay được gọi là hàm phân bố Logistic
Nhận xét thấy, p; không phải hàm tuyến tính của các biến độc lập Với mỗi
XB €(—œ; +00), thì p; € [0; 1], p; phi tuyến với X và các tham số B, do đó khôngthê sử dụng ước lượng OLS Người ta sử dụng phương pháp ước lượng hợp lý tối đa(MLE - Maximum Likelihood Estimation) dé ước lượng ổ
Do chi có Y = 0 hoặc Y = 1, tức Y có phân bồ nhị thức, nên hàm hợp lý với
mẫu kích thước n có dạng như sau:
TT ah
b= | [pha-poTM = ar ry se0D)
Sinh viên thực hiện: Nguyễn Thi Thu Hà 8
Trang 19CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Suy ra:
InL = HỒ XY,) — » In(1 + exp(X;B))
Ước lượng Ø bang cách tìm cực trị của hàm số trên
Sau khi ước lượng được B, tính được:
Mã
1 + exp (X;P)
Như vậy, thay vì nghiên cứu tính ảnh hưởng trực tiếp của biến độc lập lên biếnphụ thuộc, mô hình Logistic xem xét đến ảnh hưởng của các biến độc lập đến xácsuất dé biến phụ thuộc nhận giá trị bằng 1
Ảnh hưởng của biến phụ thuộc X„ đến p; được tính như sau:
Op;
aX, pi(1 — pi) Bx
1.2.1.2 Phuong phap Berkson (1953)
Phương pháp này xác định p; bang cách tuyến tính hóa:
Pi
1— pj
Ly = In(P) + uy = Bọ + BiX1 + + BX + ty
Do đó, L không chi tuyến tính với biến số mà còn tuyến tính với tham số
Phương pháp này phù hợp với dữ liệu phân nhóm Do chưa biết p; nên sẽ sửdụng ước lượng của p; Giả sử rằng mỗi mẫu có Ñ, giá trị X;, trong Ñ; quan sát này
Thực hiện biến đồi biến số và dùng OLS, ước lượng mô hình:
VwiLi = Bo wi + Bry wi Xi + JWiui
Hay: Lj; = Bọ + BX; + vị
Sinh viên thực hiện: Nguyễn Thị Thu Hà 9
Trang 20CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
1.2.1.3 Ưu nhược điểm của mô hình Logistic
Về mặt ưu điểm, mô hình Logistic đã cải thiện được vẫn đề của mô hình LPM
(mô hình xác suất tuyến tính) là giả thiết xác suất là một hàm tuyến tính của biến độc
lập Đây là giả thiết không phù hợp với thực tế, dẫn đến các nhược điểm như phươngsai không đồng đều, sai số không phân phối chuẩn, ước lượng của biến phụ thuộc
nằm ngoài đoạn [0, 1], hệ số xác định thấp.
Tuy nhiên, mô hình Logistic cũng tồn tại một số van đề như sau
Một là, cần một lượng mẫu đủ lớn dé phân bồ logistic là phân phối chuẩn, do
đó nếu dữ liệu thu thập có giá trị quan sát thiếu, giá trị ngoại lai, nếu dùng cáchloại bỏ chúng sẽ giảm kích thước mẫu, mô hình không là tốt nhất có thẻ
Hai là, mô hình Logistic thuần túy chỉ sử dụng được các biến độc lập là cácbiến liên tục Tuy nhiên, ứng dụng của mô hình Logistic là rộng trong hầu hết cáclĩnh vực, việc không tận dụng được các biến rời rac là một tôn thất Khi đó, cần sử
dụng các kỹ thuật khác dé khắc phục nhược điểm này
1.2.2 Phương pháp học máy
1.2.2.1 Học máy là gì?
Những năm trở lại đây, trí tuệ nhân tao (Artificial Intelligance — AT) đã và dang
nhanh chóng phát triển, có khả năng tạo ra nhiều sự hình thành theo những phương
pháp bất ngờ, đưa ra nhiều cơ hội và thách thức mới Thuật ngữ AI được sử dụng lầnđầu bởi John McCarthy — một nhà khoa học máy tính của Đại học Stanford (Hoa Kỳ)
Ngoài việc phát triển và cách mạng hóa các lĩnh vực như hàng không, giáo dục, y tế,
giao thông vận tải, robot, AI cũng ngày càng được sử dụng nhiều trong các ngànhtài chính — ngân hàng dé khai thác dit liệu, phân tích thị trường, quan lý tài sản, xác
định các mô hình và đưa ra dự đoán chính xác cho tương lai, từ đó đạt được mục tiêu
quản lý của con người Không thể phủ định rằng, AI là nhân tố cốt lõi trong các hệ
thống công nghệ cao, được ứng dụng trong hau hết các lĩnh vực đời sống hiện tại
Theo Simon, khái niệm “học” (learning) được mô tả là quá trình cải thiện hành
vi thông qua việc tìm hiểu, khám phá và tích lũy những kiến thức mới theo thời gian
Sinh viên thực hiện: Nguyễn Thị Thu Hà 10
Trang 21CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Nhu vậy, việc học được thực hiện băng các thiết bị máy, được gọi là “học máy”, haychính là Machine Learning — ML Có thé coi hoc máy là một tập con cua trí tuệ nhân
tạo.
Học máy và các phương pháp tiếp xan dựa trên bộ dir liệu đang dan trở nên
quan trọng trong nhiều lĩnh vực Trong ngân hàng và các tô chức tài chính, ML được
sử dụng dé xác định dữ liệu quan trong và ngăn chặn gian lận, ; đối với chính phủ,
việc tận dụng ML có thể khai thác nhiều nguồn dữ liệu hơn dé tăng hiệu quả các
phương pháp vi mô, phòng ngừa và ngăn chặn hành vi đánh cắp thông tin, ; tronglĩnh vực giao thông vận tải, ML có thé từ việc phân tích dữ liệu dé đưa ra các tuyến
đường hiệu quả và dự đoán các van đề tiềm ấn trên hành trình của tài xé; Và, mụcđích chính của học máy là phát triển các mô hình và cải thiện kết quả dự đoán của
các mô hình nghiên cứu trước đây.
1.2.2.2 Một số thuật toán học máy
Các thuật toán của học máy nhìn chung được mô tả dưới dạng hàm sau đây:
pháp dé ước lượng các hệ số thường được sử dụng với thuật toán này là phương pháp
bình phương nhỏ nhất (Ordinary Least Square — OLS)
Hai là, thuật toán hồi quy Logistic (logistic regression) Giỗng như thuật toán
hồi quy tuyến tính, thuật toán này được mượn từ lĩnh vực thống kê vào học máy
Logistic là một hàm không tuyến tính, với biến phụ thuộc Y nhận giá trị trong đoạn
từ 0 đến 1 Phương pháp dé ước lượng các hệ số thường được sử dụng với thuật toán
này là phương pháp ước lượng hợp lý cực đại (Maximum Likelihood Estimation —
MLE).
Sinh viên thực hiện: Nguyễn Thi Thu Hà II
Trang 22CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Ba là, thuật toán phân tích phân loại tuyến tinh (linear discriminant analyst)
Biến độc lập là các giá trị trung bình của mỗi lớp và phương sai các lớp Dự đoán
được thực hiện bằng cách tính giá trị phân biệt cho mỗi lớp và dự đoán cho lớp có giá
trị lớn nhất
Bon là, thuật toán cây quyết định (decisiom tree) Đây là một thuật toán quantrọng Với thuật toán này, mỗi “node” được hiểu là đại diện cho một biến độc lập X
và một điểm phân chia trên biến đó Các dự đoán được thực hiện bằng cách đi trên
các nhánh của cây cho đến khi đến một “node” và đưa ra giá trị tại “node” đó
Và còn rất nhiều thuật toán khác
Tuy nhiên, trong học máy có một định lý gọi là “No Free Lunch” Đây là một
định lý xuất phát từ tóa học dân gian, lần đầu xuất hiện vào năm 1997 trong bài báo
“No Free Lunch Theorems forr Optimization”, dịch nghĩa là “Tối ưu các định lýkhông có bữa trưa miễn phí” được viết bởi David Wolpert và William G Macready
Và chính Wolpert đã áp dụng các định lý này dành cho học máy trước đó (năm 1996,
tuy nhiên khi ay “No Free Lunch” chưa được công bồ là một định lý) Hiểu một cáchngắn gọn, “No Free Lunch” cho rằng, không có thuật toán nào là tốt nhất trong mọivấn đề
Do đó, thay vì cố gắng xây dựng một mô hình tốt nhất, có thể xây dựng mộtnhóm các mô hình yếu hơn nhưng khi kết hợp lại thu được mô hình vượt trội Một số
thuật toán có thé đáp ứng điều này:
Mot là, thuật toán Bagging Mục tiêu của Bagging là giảm phương sai, áp
dụng cho các mô hình đã có sẵn độ lệch thấp nhưng đang bị phương sai cao Theo
thuật toán này sẽ xây dựng một lượng lớn các mô hình thường là cùng loại trên các
mẫu phát triển khác nhau từ mẫu ban đầu Những mô hình này được xây dựng độc
lập và song song nhau nhưng dự đoán biến phụ thuộc sẽ được tinh băng cách laytrung bình cộng “Random forest” (rừng ngẫu nhiên) là một thuật toán con tiêu biểu
cho thuật toán này Các bước thực hiện của “Random forest”:
Sinh viên thực hiện: Nguyễn Thị Thu Hà 12
Trang 23CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Bước 1: Tao tập dữ liệu đầu vào cho các mô hình cây quyết định Nếu bộ dữ
liệu gốc có M biến, chọn m thuộc tính ngẫu nghiên được sử dụng đưa vào xây dựngcây quyết định (m < M) Chọn ngẫu nhiên n quan sát từ bộ dit liệu (1 quan sát bat
kỳ có thê được lấy lặp lại) tạo ra bộ dữ liệu mới
Bước 2: Xây dựng cây quyết định dựa trên bộ số liệu vừa được tạo
Bước 3: Chọn số lượng cây quyết định muốn xây dựng là N
Bước 4: Lặp lại bước 1 và 2 cho đến khi đủ cây quyết định
Bước 5: Đưa ra kết quả dự đoán cho các điểm dữ liệu mới của các cây quyết
định và gán nhãn cho danh mục dành được đa số phiếu bầu
majority voting / averaging the predictions
Hình 2: Mô tả thuật toán Random Forest
Hai là, thuật toán Boosting Mục tiêu của Boosting là giảm độ lệch, áp dụng
cho các mô hình có phương sai thấp nhưng đang bị độ lệch cao Theo thuật toán này
cũng xây dựng một lượng lớn các mô hình cùng loại, mỗi mô hình sau sẽ học cách
sửa lỗi của mô hình trước, tức sửa với những quan sát mà mô hình trước dự đoán sai,
từ đó tạo thành một chuỗi các mô hình mà mô hình sau sẽ tốt hơn mô hình trước, vàlây kết quả của mô hình cuối cùng làm kết quả dự đoán biến phụ thuộc Light GBM
và XGBoost là hai thuật toán nồi tiếng và được ưa chuộng nhất Cả hai đều được cải
tiền từ thuật toán Gradient Boosting
Gradient Boosting xây dựng để giải quyết bài toán tối ưu sau:
Sinh viên thực hiện: Nguyễn Thị Thu Hà 13
Trang 24CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
N
min L » CnụM,
Cu=1:N,wn=1:N Ớ, nWn)
n=1
Các bước của thuật toán Gradient Boosting:
Bước 1: Khởi tạo giá trị pseudo-residuals là bang nhau cho từng điểm dữ liệu:
; 0
pseudo residuals = —n 2w Wav)
Bước 2: Tại vòng lặp thứ i, tiến hành xây dựng mô hình mới được thêm vào
dé điền vào giá tri của pseudo-residuals đã có, tính toán giá trị confidence score của
mô hình vừa xây dựng, cập nhật mô hình chính W = W + c,w;, rồi tính toán giá tripseudo-residuals để làm nhãn cho các mô hình tiếp theo
Bước 3: Lap lai với vòng lặp i + 1.
train a weak model update the pseudo-residuals
+ 33- and aggregate it to œ< considering predictions of @ predictions of the current ensemble model
sembi
bón ung the current ensemble model TM@ pseudo-residuals (targets of the weak learner)
Hình 3: Mô tả thuật toán Gradient Boosting
Sinh viên thực hiện: Nguyễn Thị Thu Hà 14
Trang 25CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
1.3 Kỹ thuật phân nhóm theo WOE
1.3.1 Giới thiệu về kỹ thuật WOE
Như đã trình bày ở trên, không thể ước lượng trực tiếp các biến rời rạc là nhượcđiểm của mô hình Logistic Sử dụng biến giả là một phương pháp Tuy nhiên, việc
dùng biến giả cho các biến định tính có đặc tính nhiều hơn hai sẽ mat nhiều bậc tự
do Thêm vào đó, mỗi bộ dữ liệu đều có thé gặp các vấn đề giá trị bị thiếu, giá trị
ngoại lai, Kỹ thuật WOE sẽ giải quyết được vấn đề này
Giá trị bị thiếu là một thuật ngữ chỉ các giá trị không có thông tin Nguyênnhân của giá trị bị thiếu đến từ các lý do như: lỗi trong quá trình thu thập dữ liệu, bản
thân quan sát không có giá trị, hay cách ghi nhận của hệ thống Do mô hình hồi quy
chỉ chạy trên các quan sát không có giá trị bị thiếu, do đó không thể ước lượng giá trịbiến phụ thuộc với các quan sát có giá trị bị thiếu Thông thường, người ta xóa cácquan sát có giá trị bị thiếu trong trường hợp tỷ lệ giá trị bị thiếu nhỏ; xóa biến có giátrị bị thiếu trong trường hợp tỷ lệ giá trị bị thiếu lớn; thay thế giá trị bị thiếu bởi các
giá trị đại diện chung của mẫu khác như trung bình, trung vị, mode, Một cách khác
nữa là tiền hành phân nhóm dữ liệu (binning)
Giá trị ngoại lai là một thuật ngữ chỉ các giá trị lớn hoặc nhỏ bat thuong.
Nguyên nhân có thé do lỗi trong quá trình thu nhập dữ liệu hoặc bản thân quan sát
Giá trị ngoại lai ảnh hưởng đến các chi số thống kê như trung bình, phương sai,
đồng thời ảnh hưởng đến ước lượng tham số mô hình Có thể xử lý giá trị ngoại laibằng cách xóa các quan sát chứa giá trị giá trị ngoại lai, chuyển đổi bằng ham log
hoặc tiễn hành phân nhóm dữ liệu (binning)
Như vậy, kỹ thuật WOE là việc rời rạc hóa một biến bằng cách chia biến thànhcác nhóm mà các quan sát trong nhóm có đặc tính giống nhau, mỗi nhóm được gán
một giá tri đại diện cho cả nhóm.
1.3.2 Phương pháp phân nhóm theo kỹ thuật WOE
Việc sử dụng kỹ thuật WOE đề đưa các biến liên tục vào mô hình Logistic bao
gôm các bước sau:
Sinh viên thực hiện: Nguyễn Thị Thu Hà 15
Trang 26CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Bước 1: Chia biến thành 20 nhóm, tùy thuộc vào số lượng quan sát có thé lay
nhỏ hon 20 nhóm, đảm bảo không có nhóm nào 0 “good” hoặc 0 “bad”.
Bước 2: Tính toán WOE và vẽ đường WOE của mỗi nhóm.
Bước 3: Nhóm các nhóm nhỏ thành các nhóm lớn theo các tiêu chí:
- Các nhóm có WOE tương tự.
- Mỗi nhóm tối thiểu 5% quan sát
- Giải thích được xu hướng biến
Bước 4: Lặp lại bước 3 nếu kết quả nhận được chưa vừa ý
Với các biến rời rạc, thực hiện chia nhóm bằng cách gộp các quan sát có giátrị giống nhau thành một nhóm, tiến hành đánh giá sự tác động của từng nhóm tớibiến phụ thuộc, dựa vào các tiêu chí như độ rủi ro, để xem xét biến có xu hướng
phù hợp hay không Có thể nhóm các nhóm rời rạc có ý nghĩa tương đồng.
Giá trị đại diện cho mỗi nhóm (WOE) được tính bằng công thức:
Thang đánh giá chi số IV:
IV < 0.02 : Biến không có tính dự báo
0.02 < IV < 0.1 : Biến dự báo yếu
0.1<IV<0.3 : Biến dự báo trung bình IV>0.3 : Biến dự báo mạnh
Sinh viên thực hiện: Nguyễn Thị Thu Hà 16
Trang 27CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Trong do:
Good: Số lượng quan sát mà biến phụ thuộc nhận gid trị là tốt trong
mỗi nhóm (vi dụ với 0 là khách hàng chưa từng quá hạn, I là khách hang đã từng quá
hạn, thi “good” là sỐ lượng quan sát mà biến phụ thuộc nhận giá tri băng 0)
Bad: Sé lượng quan sát mà biến phụ thuộc nhận giá trị là xấu trong mỗi
nhóm (như ví dụ trên, “bad” là số lượng quan sát mà biến phụ thuộc nhận giá trị bằng
1).
Total: Tống số lượng quan sát trong mỗi nhóm
1.3.3 Ưu nhược điểm của kỹ thuật WOE
Kỹ thuật WOE có các ưu điểm như sau:
- Chuẩn hóa giá trị của các biến
- Giảm thiểu lỗi khi tính toán với số mũ
- Quan sát trực quan và rõ ràng mối liên hệ giữa biến độc lập và biến phụ thuộc
thông qua đường xu hướng của WOE từng nhóm.
- Tăng tính chính xác khi dự đoán.
- Có thể điều chỉnh kết quả dựa trên hiéu biết về dữ liệu Điều này thể hiện kỹ
năng và trình độ của người xây dựng mô hình.
Tuy nhiên, việc chuẩn hóa giá tri các biến có thể dẫn đến hiện tượng
“overfitting”, đó là nhược điểm của kỹ thuật này
1.4 Mô hình Logistic kết hợp kỹ thuật WOE1.4.1 Dạng tổng quát mô hình
Hàm hồi quy có cấu trúc một Neural Network, các biến được chuyên đổi thành
dạng WOE trước khi đưa vào mô hình hôi quy:
In ( ; P 5) = In (odds) = By + B; WOEx, + By WOE, + : + B,WOEx,
1.4.2 Đặc điểm mô hình
Mô hình Logistic kết hợp kỹ thuật WOE có những ưu điểm nổi bật sau đây:
Sinh viên thực hiện: Nguyễn Thị Thu Hà 17
Trang 28CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
- Cau tric mé hinh don gian
- M6 hinh manh.
- Dé giai thich.
- Không gặp các vấn đề với giá tri bi thiéu, giá tri ngoại lai, biến rời rạc.
- Dễ dàng sử dụng.
Khi sử dụng mô hình WOE — Logistic, cần lưu ý dau của các hệ số ước lượng
đều phải dương, bởi WOE được tinh bang logarit tự nhiên của ty lệ “good” chia tỷ lệ
“bad”, do đó các biến độc lập trong mô hình có quan hệ đồng biến với biến phụ thuộc
Nếu kết quả ước lượng mang dấu âm, bắt buộc phải loại bién ra khỏi mô hình
1.4.3 Đánh giá mô hình
1.4.3.1 Mục đích của việc đánh giá mô hình
Mỗi một mô hình được xây dựng luôn phục vụ cho một ứng dụng thực tế
Người xây dựng mô hình không nhằm mục đích chỉ đưa ra kết quả hồi quy, mà từ kếtquả đó có thê đưa ra hỗ trợ quyết định cho bài toán ban đầu Do đó, chất lượng môhình tốt là mục tiêu hướng đến của mọi người xây dựng
Do đó, mục đích của việc đánh giá mô hình:
- Là các đánh giá định lượng về chất lượng của mô hình
- Có sự so sánh tương quan giữa các mô hình với nhau.
- Quyết định sử dụng hay từ chối mô hình dựa trên các tiêu chí đánh giá
- Đánh giá lợi ích thu được từ việc sử dụng mô hình.
1.4.3.2 Các chỉ tiêu đánh giá mô hình
Chia tập dữ liệu thành hai phan “Xây dựng mô hình” dé xây dựng mô hình va
kiêm định mô hình dé kiêm nghiệm Sau khi xây dựng mô hình trên tập “train”, cầntính toán các chỉ số để đánh giá mô hình Các tính toán này cũng đồng thời được thựchiện trên tập kiểm định mô hình
Sinh viên thực hiện: Nguyễn Thị Thu Hà 18
Trang 29CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
- Đánh giá độ 6n định
Do tập quan sát mẫu có thé thay đôi theo thời gian, do thay đối chính sáchhoặc lỗi hệ thống mà mô hình có thé bị mat 6n định.
Đánh giá độ ôn định toàn mẫu của mô hình nhằm mục đích đảm bảo giả thuyết
tương lai giống với quá khứ, đảm bảo các chỉ số cut — off vẫn giữ nguyên ý nghĩa với
mau Bên cạnh đó, đánh giá độ ôn định từng biến nhằm tìm ra nguyên nhân mat ônđịnh của mô hình, đánh giá biến động của mỗi biến qua thời gian và tìm ra các sai sóttrong hệ thống Đánh giá độ 6n định từng biến qua thời gian dài bằng cách quan sát
đồ thị phân phối biến, dé từ đó thấy được xu hướng dịch chuyền giữa các nhóm biết
và phát hiện các sai sót trong dữ liệu.
Đề đánh giá độ ôn định của mô hình, sử dụng chi số PSI
%Rec;: Tỷ lệ quan sát ở hạng thứ i so với toàn mẫu ở tập kiểm định mô hình
%Dev;: Tỷ lệ quan sát ở hạng thứ i so với toàn mẫu ở tập xây dựng mô hình
Thang đánh giá chỉ số PSI:
PSI < 10 : Mô hình ổn định
10 < PSI < 20 : Mô hình tương đối ổn định
PSI > 20 : Mô hình không ổn định
- Đánh giá độ phân biệt
Độ phân biệt trong mô hình là độ phân biệt về mục tiêu giữa các nhóm Một
độ phân biệt tốt mang đến nhiều lợi ích, chăng hạn như với bài toán chấm điểm kháchhàng để quyết định có cho khách hàng vay hay không, khi xác định điểm cắt sẽ lọcđược nhiều khách hàng xấu và tránh lọc nhằm các khách hàng tốt Nói chung, độ
phân biệt tốt giúp có thé lọc ra các quan sát tốt hay xấu đúng với yêu cầu xây dựng
mô hình Có hai cách cơ bản dé đánh giá độ phân biệt
Sinh viên thực hiện: Nguyễn Thị Thu Hà 19
Trang 30CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Một là, kiểm tra thứ tu “bad rate” — ty lệ xấu Sau khi chia mẫu ra thành từngnhóm, tính “bad rate” thực tế trong mỗi nhóm Một mô hình tốt cần đảm bảo “badrate” giảm dần theo dự báo từ xấu đến tốt
Hai là, sử dụng đường cong Gini và chỉ số Gini
Về mặt ý tưởng, cách đánh giá độ phân biệt trong mô hình WOE — Logisticlay từ hệ số Gini dùng dé biéu thị độ bat bình đăng trong thu nhập trên nhiều vùng
miền, tầng lớp của một đất nước Nó có giá trị từ 0 (mọi người đều có mức thu nhập
bình đăng) đến 1 (bất bình đăng) và băng tỷ số giữa phần diện tích nằm giữa đườngcong Lorenz và đường bình dang tuyệt đối với phần diện tích năm dưới đường bìnhđăng tuyệt đối Hệ số này được phát triển bởi nhà thống kê học người Ý Corrado Gini
và được chính thức công bồ trong bài viết năm 1912 của ông mang tên “Variabilità emutabilità” Chỉ số Gini là hệ số Gini được thé hiện dưới dạng tỷ lệ phan trăm, được
tính bằng hệ số Gini nhân với 100
Công thức tính chỉ số Gini:
Gini = 2AUROC — 1
Thang đánh giá chỉ số Gini:
Bảng 2: Thang đánh giá chỉ số Gini
Application Model Behavior Model Danh gia phan biét
Gini < 30% Gini < 50% Yéu
30% < Gini < 40% 50% < Gini < 60% Trung binh
Gini = 40% Gini = 60% Manh
- Đánh gia độ chính xác
Sai số dự báo là thước đo đánh giá giá trị dự báo so với giá trị thực tế Có nhiều
tiêu chí để đánh giá độ chính xác của mô hình, như MSE, RMSE, MAE, MAPPE,
Tuy nhiên, khi đánh giá các mô hình được xây dựng trên cùng tập đữ liệu, các biếnđưa vào trong mô hình có thê khác nhau, dạng mô hình khác nhau, do đó thường dùngMAPE để đánh giá, vì đây là thước đo tương đối
Sinh viên thực hiện: Nguyễn Thị Thu Hà 20
Trang 31CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
A, là giá trị thực tế trong nhóm điểm k
P, là giá trị dự đoán trong nhóm điểm k
Thang đánh giá chỉ số MAPE:
„ Good True Positive False Negative Giá tri thực tê
Bad False Positive True Negative
Một sô chỉ sô được xét từ ma trận:
“Accuracy” hay độ chính xác được hiểu là độ chính xác tổng quát của mô hình
đang xây dựng, được tính bằng tỷ lệ giữa các quan sát dự báo đúng và tổng số quansát Đây cũng là chỉ số quan trọng nhất được tính ra từ ma trận
Trang 32CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Bên cạnh đó, ta còn xét đến “Precision” là tỷ lệ dự báo đúng các quan sát tốttrong tổng số các quan sát dự báo là tốt
TP Precision = ———=
Nếu mô hình có “Precision” thấp va “Sensitivity” cao hoặc ngược lại, có thé
sử dụng F — score dé đánh giá mô hình F — score nhận giá tri trong khoảng (0; 1],
giá trị này càng cao thì độ phân loại mô hình càng tốt
2 * Sensitivity + Precision
F — score = —————_
Sensitivity + Precision
1.4.4 Công thức tinh điểm từ kết qua mô hình
Do công thức của Logistic đôi khi không thể thực hiện trên các hệ thống, do
đó cần đưa ra kết quả đơn giản hơn, đồng thời so sánh được trọng số của từng nhóm
trong từng biến dé các đơn vị kinh doanh có thé hiểu được
Ta có:
f(t) =
© 1+ert
Với: t = In(odds) = By + B; WOE,, + B2WOE,, + :
Theo lý thuyết, ham f(t) là hàm đồng biến, do đó:
f(t,) > f(t.) et, >t,
Sinh viên thực hiện: Nguyễn Thi Thu Hà 22
Trang 33CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Công thức biến đối:
Score = Offset + Factor + In(odds)
odds = —— p
pdo
Factor = actor m@)
Offset = BaseScore — Factor * In (odds)
Và: pdo là điểm dé nhân đôi hệ số odds
Sinh viên thực hiện: Nguyễn Thị Thu Hà 23
Trang 34CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
CHUONG 2: THUC TRANG MOT SO LĨNH VUC KINH TE XÃ HOIKinh tế xã hội ngày càng phát triển, một phần nguyên nhân đó là con người
đã, đang và luôn luôn sử dụng trí tuệ của mình dé giải quyết những bài toán thực tếđặt ra trong quá trình nền kinh tế vận hành Sự xuất hiện của những cuộc khủng hoảng
trong ngành ngân hàng tài chính, những công ty viễn thông bị khách hàng rời bỏ,
đã chỉ ra rằng hệ thống quản lý đang có sự yếu kém Hay cùng với sự phát triển kinh
tế và các cuộc cách mạng công nghiệp, nhiều căn bệnh mới cũng xuất hiện và ảnh
hưởng trực tiếp đến sức khỏe con người Lam sao dé quản lý hoạt động kinh doanh
hiệu quả, và làm sao để phòng ngừa và chữa trị những căn bệnh mới? Chương nàytrình bày về thực trạng một số lĩnh vực kinh tế xã hội, cụ thể đó là sự cần thiết củaviệc xây dựng thẻ điểm ngân hàng, sự cần thiết của dự báo ung thư trong y học và sựcần thiết của việc đánh giá khả năng khách hàng rời bỏ của công ty dịch vụ viễn
thông.
2.1 Tổng quan quy trình xây dựng thẻ điểm ngân hàng
2.1.1 Sự cần thiết của thẻ điểm ngân hàng
Việc phát triển thẻ điểm tin dụng này nay trở nên pho biến ở nhiều quốc gia
và nhiều ngân hàng Có nhiều yêu tố thúc day việc sử dụng thẻ điểm, trong đó, yếu
tố lớn nhất là do Hiệp định Basel II
Cụ thể, các ngân hàng đã chọn (hoặc được yêu cầu) tuân thủ phương pháp tiếp
cận dựa trên đánh giá nội bộ cơ sở, ước tính được xác suất vỡ nợ (PD — Probability
of Default), cũng như tỷ trong tốn thất ước tinh (LGD — Loss Given Default) và tổng
du ng khach hang tai thoi diém không trả được nợ (EAD — Exposure at Default)
Nhiều tổ chức, chang hạn như các công ty tin dụng bán lẻ, hoặc các công tycho vay ô tô, không bắt buộc phải tuân thủ Basel I, nhưng ho đã chọn tuân thủ nhưmột cách dé chứng minh năng lực của họ với thị trường, cũng như một dấu chứng
nhận mạnh mẽ trong quy trình nội bộ của họ Và lợi ích lớn nhất của việc tuân thủBasel II, đó không phải là một hoạt động quản lý bắt buộc, mà còn có thé phát triển
Sinh viên thực hiện: Nguyễn Thị Thu Hà 24
Trang 35CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
các phương pháp dẫn đến cơ hội cai thiện các quy trình nội bộ mỗi ngân hàng, công
ty, doanh nghiép,
Vào thời điểm đó, các ngân hàng lớn đã mở rộng việc phát triển thẻ điểm tíndụng và buộc phải chứng minh năng lực của họ trong việc chấm điểm, và tại nhiều
quốc gia, đặc biệt là Châu Âu, các ngân hàng nhỏ bị áp lực cạnh tranh khi vẫn sử
dụng các phương pháp thủ công và phán đoán, nên họ cũng quyết định áp dụng nhữngcách tiếp cận mới này, do đó, lần đầu tiên các ngân hàng phải bắt đầu xây dựng mô
hình Điều này dẫn đến một số thách thức, khi ngân hàng chưa bao giờ xây dựng thẻ
điểm, họ sẽ bắt đầu từ đâu?
Câu trả lời là, các ngân hàng có thể có hai lựa chon Một là, họ có thé đi mua
thẻ điểm từ các tổ chức có kha năng xây dựng và phát hành Hai là, họ phải tự đầu tư
nhân lực, vật lực dé tự xây dựng thẻ điểm Quyết định này tùy thuộc vào tình huống
riêng của từng ngân hàng: số lượng và loại dữ liệu có san, trình độ kiến thức, đội ngũ
nhân viên, các giới hạn về thời gian chờ đợi, Với việc thuê ngoài, chi phí sẽ rẻ hơnvới các danh mục đầu tư nhỏ, không cần quản lý tài nguyên và công nghệ dé duy trì
thẻ điểm Tuy nhiên, nếu tự phát triển thẻ điểm, ngân hàng có thể linh hoạt hơn khi
có sự thay đổi trong các quy định giám sát, không cần chờ đợi nhà cung cấp, có thé
phân tích phân khúc khách hàng toàn diện với ngân hàng mình, đồng thời tăng hiểubiết của ngân hàng về khách hàng họ đang có
Và trong mục đích phát triển dài hạn, với những quy định và lợi ích mà thẻđiểm mang lại, việc tự phát triển nó là một xu hướng tất yếu của các ngân hàng, trong
đó có Ngân hang Thương mại Cổ phan Việt Nam Thịnh Vuong (VP Bank)
2.1.2 Quy trình xây dựng thẻ điểm cơ bản của Ngân hàng
2.1.2.1 Lập kết hoạch xây dựng mô hình
Bước đầu tiên trong bat kỳ dự án phát triển thẻ điểm nào đều là xác định mục
tiêu của ngân hàng cũng như vai trò của thẻ điểm
Về mục tiêu của ngân hàng, có thể bao gồm:
- Giảm nợ xâu / phá sản / khiêu nại / gian lận.
Sinh viên thực hiện: Nguyễn Thị Thu Hà 25
Trang 36CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
- Tăng ty lệ phê duyệt, vi dụ như trong các lĩnh vực khoản vay có tài sản théchấp
- Tăng hiệu quả hoạt động hoặc tiết kiệm chi phí Ví dụ nhiều ngân hàng cònđang sử dụng phương pháp chuyên gia (phương pháp thủ công), bây giờ mong muốn
xử lý hồ sơ nhanh hơn qua phương pháp mô hình
- Cải thiện, tăng khả năng dự đoán của thẻ điểm hiện tại
2.1.2.2 Xem xét dữ liệu và thông số dự ánSau khi lập kế hoạch xây dựng mô hình, cần xem xét việc phát triển thẻ điểm
có khả thi hay không và nếu có, cần thiết lập các thông số dự án Giai đoạn này đặt
ra van dé cần giải quyết, đó là: “Dữ liệu có đủ tốt dé bắt đầu dự án không?”, tức quantâm, đánh giá đến số lượng và chat lượng dữ liệu
Số lượng đữ liệu cần thiết cho mỗi dự án có thể khác nhau, nhưng nói chungphải đáp ứng đầy đủ các yêu cầu về độ tin cậy, ý nghĩa thống kê, tính đại diện và tínhngẫu nhiên Việc tìm kiếm và xác định mẫu tối ưu là công việc cần thiết, và theo
Crone và Finlay, những người đã nghiên cứu xem xét ảnh hưởng của kích thước mau
và tỷ lệ “good” và “bad”, đưa ra khuyến nghị với các mô hình hồi quy Logistic, mộtmẫu tối thiểu 5000 quan sát là “bad” với thẻ điểm tín dụng (application score) và
12000 quan sát là “bad” với thẻ điểm hành vi (behavioral score) có thé dat duoc hé
số Gini tối đa
Tuy nhiên, chất lượng dữ liệu có thể bù đắp cho việc thiếu đữ liệu Trong thời
đại của “Big data”, nơi các ngân hang có thé thực hiện xây dựng mô hình với hang tyquan sát, thì một bộ dữ liệu sạch va đáng tin cậy sẽ là tốt nhất đề xây dựng thẻ điểm
Sau khi đánh giá số lượng và chất lượng dữ liệu nội bộ, ngân hàng có thé quyết
định xây dựng thẻ điểm chỉ dựa trên dit liệu nội bộ hoặc lựa chọn đữ liệu bổ sung từcác nguồn bên ngoài như văn phòng tín dụng, kho lưu trữ trung tâm, nhà cung cấp dữ
liệu,
Sinh viên thực hiện: Nguyễn Thị Thu Hà 26
Trang 37CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Vào cuối giai đoạn nay, khi xác định rằng có dữ liệu đủ tốt dé xây dựng thẻđiểm, thì công việc tiếp theo là thu thập dữ liệu ban đầu dé xác định thông số dự án
Các thông số dự án cần xác định bao gồm:
- Target: La giá tri mà mô hình cần dự báo, ví dụ: dự đoán khách hàng có bị
quá han 90 ngày trong | năm tới hay không, dự đoán khách hàng có đóng thẻ trong một tháng tới hay không, dự đoán lợi nhuận từ thẻ tín dụng của khách hàng trong 6
tháng tiếp theo, Target được đặc trưng bởi hai yếu té là outcome và denfinition
+ Outcome: Là khoảng thời gian trong tương lai mà mô hình sé dự đoán Cách
xác định outcome phụ thuộc vào mục tiêu của mô hình hoặc từ phân tích của người
xây dựng Đối với các mô hình phục vụ Basel, IFRS hoặc mô hình hành vi thông
thường thì outcome là 1 năm sau ngày quan sát, còn đối với mô hình phục vụcollection thì thời gian outcome có thể ngắn hơn Ví dụ với mô hình tín dụng, việcxác định outcome chính xác giúp các khách hàng xấu thật sự có đủ thời gian dé trở
thành xấu Đề xác định outcome, lấy tích lũy tỷ lệ quá hạn 30+ trong các khoảng thờigian, vẽ đồ thi và quan sát khoảng thời gian mà tỷ lệ 30+ không tăng đáng kẻ
+ Denfinition: Là định nghĩa cua target, phụ thuộc vào mục tiêu của mô hình
hoặc từ phân tích của người xây dựng Các định nghĩa có thê là các sự kiện đơn giảnnhư “đóng thẻ”, “tất toán sớm”, hay phức tạp như “khách hàng quá hạn 90 ngày”,
“lợi nhuận”,
- Observation date: Là thời gian lây các quan sát, được xác định như công
thức và hình vẽ minh họa sau đây:
Earliest day + behavior period < obs date < recent day — outcome
Hình 4: So đô phương pháp xác định thời gian lấy dữ liệu
Sinh viên thực hiện: Nguyễn Thị Thu Hà 27
Trang 38CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
Lưu ý, đữ liệu xây dựng mô hình được quan sát trong quá khứ, nên cần lui vềquá khứ dé xác định biến phụ thuộc và biến độc lập Mô hình được xây dựng sẽ ápdụng cham điểm trên dữ liệu hiện tại nên cần dam bảo thời gian quan sát không quá
xa với thời điểm hiện tại Và trong trường hơp dữ liệu từ thời điểm sớm nhất đến hiện
tại nhỏ, cần cân nhắc về outcome và số lượng quan sát là “bad” trong mô hình
2.1.2.3 Tạo lập cơ sở dữ liệu
Việc lựa chọn các biến để xây dựng mô hình là một phần quan trọng của việcphát triển thẻ điểm Thông thường, các biến độc lập của một thẻ điểm bao gồm:
- Nhân khẩu học: Là những thông tin liên quan đến cá nhân người đi vay, nhưgiới tính, tuổi tác, nghề nghiệp, tình trạng hôn nhân, tình trạng nhà ở, thu nhập,
- Lịch sử tín dụng: Là những thông tin được quản lý tập trung bởi cục tín dụng
và các ngân hàng có thê kiểm tra chéo thông tin tín dụng của khách hàng từ các ngân
Sau khi xác định được mẫu hoàn chỉnh, chia dữ liệu làm hai phan 70 — 80%
dữ liệu được sử dung để xây dựng mô hình, 20 — 30% dir liệu còn lại để thực hiện
kiểm định và đánh giá mô hình, từ đó đưa ra được thẻ điểm tối ưu
2.1.2.4 Phát triển mô hìnhPhát triển mô hình là giai đoạn trọng tâm của quá trình phát triển thẻ điểm
Giai đoạn này bao gồm các công đoạn: lựa chọn biến, xây dựng các mô hình trên cácbiến đã chọn và đánh giá mô hình, lựa chọn mô hình tốt nhất
- Xử lý và lựa chọn biến đưa vào hồi quy
Sơ đồ tông quan các bước trong công đoạn xử lý và lựa chọn biến:
Sinh viên thực hiện: Nguyễn Thị Thu Hà 28
Trang 39CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
x Khai pha đữ liệu Xửlý biến
Dữ liệu gốc —————> Các biến ban đầu —— Các biến đã được xử lý
Biến đổi biến „ Lựa chọn biến
———>Các biến đã được biến đổi ———— Danh sách biến rút gọn.
Khai phá di liệu là quá trình phân tích tổng quan ý nghĩa các biến trong cơ sở
dữ liệu đã tạo lập trong giai đoạn 3, phân tích lý thuyết xu hướng biến và lựa chọn
các biến dé đưa vào phân tích chuyên sâu Đầu vào của quá trình là các biến trong cơ
sở dit liệu và đầu ra là các biến ban dau dé tiến hành các quá trình tiếp theo
Xử lý biến là quá trình đánh giá chất lượng các biến, xem xét các vấn đề như
giá trị bị thiếu, giá trị ngoại lai, Nếu giá trị bị thiếu, giá trị ngoại lai có ý nghĩa thì
giữ lại, nếu không cần giải quyết bằng cách xóa biến, xóa quan sát hoặc thay thế giá
trị, tùy thuộc vào ý nghĩa biến Đầu ra của quá trình này là các biến đã được xử lý
Biến đổi biến là quá trình đôi giá trị các biến từ giá trị ban đầu thành giá trịWOE Quá trình này bao gồm các công việc phân nhóm, chia lại nhóm sao cho các
giá trị WOE tuyến tính (hoặc nếu không tuyến tính phải giải thích được xu hướng)
Đầu ra của quá trình là các biến đã được biến đổi
Lựa chọn biến là quá trình đánh giá chất lượng và mỗi quan hệ các biến Cácbiến được chọn phải có IV lớn hơn 0.02 và không có tương quan cao với các biến
khác, tức hệ số tương quan phải nhỏ hơn 0.5
Kết thúc công đoạn này, thu được các biến sẵn sàng đưa vào mô hình hồi quy
- Hồi quy mô hình
Hồi quy Logistic là một kỹ thuật phé biến được xử dụng dé phát triển thẻ điểm
Thông thường, có 3 phương pháp đưa biến vào mô hình Logistic:
Phương pháp 1: Lựa chọn lần lượt (forward selection) Theo phương phápnày, đầu tiên chọn một mô hình đặc trưng tốt nhất dựa trên khả năng dự đoán riêng
của từng biến, sau đó thêm lần lượt các biến khác vào mô hình, việc lựa chọn dựa vàocác thống kê Chi — square hoặc giá trị p-value
Phương pháp 2: Loại bỏ ngược (backward elimination) Phương pháp nay trái
ngược với phương pháp trên Theo loại bỏ ngược, tất cả các biến đều được đưa vào
Sinh viên thực hiện: Nguyễn Thị Thu Hà 29
Trang 40CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)
mô hình, sau đó loại các biến không thỏa mãn thống kê Chi — square hoặc p — valuenhỏ hơn mức ý nghĩa định trước (thường là 5%) Như vậy, các biến dự báo mạnhđược giữ lại trong mô hình và các biến dự báo yếu bị loại bỏ
Phương pháp 3: Stepwise Đây là sự kết hợp của phương pháp 1 và phương
pháp 2 thêm và xóa tự động các biến vào / ra khỏi mô hình cho đến khi đạt được sựkết hợp tốt nhất Người ta thường dùng giá trị p — value dé làm điều kiện các biến
được đưa vào mô hình và sau đó bi loại ra khỏi mô hình.
- Lựa chọn mô hình tốt nhấtTrong quá trình lựa chọn biến, chăng hạn như hai biến có tương quan cao, có
thể dựa vào ý nghĩa biến hoặc so sánh giá trị IV để loại một biến Tuy nhiên, theo
những người xây dựng mô hình có kinh nghiệm, họ không ngay lập tức loại bỏ biến,
mà thay vào đó, họ xây dựng nhiều hơn một mô hình, sau đó đánh giá các mô hìnhvới nhau Có nhiều thước đo thống kê dé đánh giá các mô hình, như p — value, chỉ số
Gini, giá tri Chi — square, R — square,
Bên cạnh các thước đo thống kê đó, cần quan tâm đến mục tiêu phát triển thẻđiểm Ví dụ, với mục đích phát triển thẻ điểm dé đưa ra quyết định cho vay, mục tiêuquan trọng nhất là lựa chọn được một tập hợp các biến tốt nhất, dé từ đó xây dựngmột hồ sơ đánh giá rủi ro toàn diện nhất Các biến lý tưởng dé xây dựng mô hình này
nên gồm các biến liên quan đến nhân khẩu học và đữ liệu tài chính
- Kiểm định mô hìnhKhi mô hình cuối cùng được lựa chọn (final model), cần kiểm định lại kết quả
mô hình Thông thường, người ta chia tập dữ liệu ban đầu thành hai phan, với 70%
dé xây dựng mô hình và 30% dé kiểm định mô hình Tuy nhiên, ngân hàng nên thựchiện thêm kiểm định trên mẫu “out of time” được thu thập sau thời điểm xây dựng
mô hình dé có đánh giá thực tế hơn với tập dữ liệu mà mô hình sẽ áp dụng
2.1.2.5 Hậu kiểm mô hìnhSau khi mô hình cuối cùng được lựa chọn và sản xuất thẻ điểm áp dụng thực
tế, cũng như hoàn thành các báo cáo đầy đủ về quản lý thẻ điểm, ngân hàng cần đánh
Sinh viên thực hiện: Nguyễn Thị Thu Hà 30