Chuyên đề thực tập chuyên ngành Toán tài chínhLỜI CẢM ƠN Lời đầu tiên em gửi lời cảm ơn chân thành và sự tri ân sâu sắc đối với TS Hoàng Đức Mạnh - người đã trực tiếp hướng dẫn em, người
Trang 1_ TRƯỜNG ĐẠI HỌC KINH TE QUOC DAN“
KHOA TOÁN KINH TE
DE TAI
UNG DUNG PHUONG PHAP BAYESIAN NETWORK
DE PHAN LOAI KHA NANG DO VAO TRUONG DAI HOC
KINH TE QUOC DAN
Sinh viên thực hiện : Trần Thị Thanh Hương
MSV : 11142031
Lớp : Toán tài chính K56
Giáo viên hướng dẫn : TS Hoàng Đức Mạnh
Hà Nội, Thang 5 Năm 2018
Trang 2Chuyên đề thực tập chuyên ngành Toán tài chính
MỤC LỤC
DANH MỤC HÌNH
DANH MỤC TỪ VIET TAT
LỜI CẢM ƠN
PHAN MỞ ĐẦUU 2 s<°e2.EE2.4E97334 07944072430 E70941 9914 nEkdeeore 1
CHƯƠNG 1: CƠ SỞ LÝ THUYET -css°°©vvesse++trrvxsssee 3
1.1 MẠNG BAYESIAN SG c1 HH 0000009000086 3
DDD KAD 01 3
1.1.2 Thuật toán Bay€s Án HH TH HH ng HH HH 4
1.1.3 Ứng dụng Bayes Theorem trong phân lớp dữ liệu (Naive Bayes
Ø0 45 4 5
1.2 GIÁ TRỊ THÔNG TIN IV (INFORMATION VALUE) VÀ TRỌNG
LỰC BANG CHUNG WOE (WEIGHT OF EVIDENCE') 7
1.2.1 Giá trị thông tin TV INFORMATION VALUE) - 7
1.2.1.1 Nội dung của giá trị thông tin IV - s5 Sscvessseexss 7 1.2.1.2 Công thức áp dụng tính giá trị thông tin ÏV -« -««+ 7
1.2.1.3 Ý nghĩa của giá trị thông tin ÏV - 2c c+cs+c+cs+ezxreees 71.2.1.4 Một số phương pháp thống kê khác vecsecssesssesssessesssssssesssesssesseee 8
1.2.2 Trọng lực chứng cứ WoE (WEIGHT OF EVIDENCE) 11
1.2.2.1 Nội dung cua trọng lực chứng cứ WoE ««-«««+<+ Il
1.2.2.2 Ung dung của trong lực chứng cứ WoE -s se- Il
1.2.2.3 Mã hóa tối ưu của dự đoán hay trend của WoE 12
1.2.2.4 Công thức áp dung tính trọng lượng chứng cứ WoE 15
1.2.3 Ví dụ minh họa về bài toán Giá trị thông tin IV và Trọng lượng của
chứng CU WOEE kh HH9 TH TH TH TH HH HH HH 16
1.3 sun 0 ,Ô 19
CHƯƠNG 2: THIET KE KHAO SAT ÁP DỤNG PHƯƠNG PHÁP MẠNG
BAYESIAN NETWORK DE ĐÁNH GIÁ CÁC MUC DIEM DO ĐẠI HỌC
KINH TE QUOC DAN wiecsscsssssssssssssssssssesssssssssssssssssssssssssssssssssssssssssessssssssseesseees 20
2.1 KHÁI QUAT BANG HOT DIEU TIRA -° 5° 5° se <s<sess 20
Tran Thị Thanh Hương - 11142031
Trang 3Chuyên đề thực tập chuyên ngành Toán tài chính
2.1.1 Mục đích thiết lap Khao Sat 0 20
2.1.1.1 Nội dung thiết kế khảo SAE eecccccccescescescessesssssssessesseesesseesessesseees 20
2.1.1.2 Các bước khảo sát bảng hỏi cằSsccSSSs+seesseeesses 20
2.1.2 Cấu trúc mẫu điỀUu tra - ¿+ ©5£++£+E++EEtEEtEEEEEEEEEerkrrkrrkerrees 22
2.1.3 Câu trúc bảng hỏi -2-©22-55¿22xt22E2EEEE2E 2221121121221 EE.crkrrrei 22
2.2 PHAN TÍCH CÁC CÂU HOI TRONG KHAO SÁT 232.3 KET nn 0 25
CHUONG 3: PHAN TÍCH KET QUA KHẢO SÁT VOI TINH HUONG
PHAN LOAI MUC DIEM SINH VIEN THI DO VAO TRUONG DAI HOC
KINH TE QUOC DAN wesccsssssssssssscsnscsssecsnsssssecsnscsnscsssecenscssscsssecenscensccssecenecesses 26
3.1 QUA TRINH THUC HIEN PHAN TICH KET QUẢ 26
3.1.1 Mã hóa các biến -:- 2 ©2222xt2EE2EEEEEE2EEEEEEEEEEEEErrrrrrerkrrrei 26
3.1.2 Tại sao phải mã hóa các biến 2-2-5 2 £+EE+£EeEEE+Ezrxerxeee 27
3.1.3 Các bước thực hiện phân tích kết quả - 2-2 2 s2 s2 s+£z+s++‡ 27
3.1.4 Các bước thực hiện phân tích trên phần mềm SAS 28
3.2 TẠI SAO NÊN SỬ DỤNG MÔ HÌNH BAYESIAN NETWORK? 28
3.2.1.Uu điểm của phương pháp Bayesian Network -s 28
3.2.2 Ap dụng phương pháp Bayesian Network . ¿ cs+ccs¿ 28
3.2.3 Thế nào là hiện tượng Overfitting7 ¿©-s©s++cx2zxezxeerxesred 29
3.2.3.1 Chưa khớp (Unde€rƒfi[ÏH) -ccsccccccsskserteeeeerseerssrseersee 29
3.2.3.2 Quá khớp (OVETFPItING) eecccccscceesccesseeeneceeecesseceseeeseeesaeeeneeeeaes 29 3.2.3.3 Vừa khớp (GOOd FLfẨÏHĐ) c cành hi re 30
3.3 SỰ TƯƠNG QUAN CUA CÁC BIEN -s°-5c-sccsecsscse 30
3.3.1 Kiểm tra tính tương quan giữa các biến -¿©5¿©5zcs+cce2 30
3.3.2 Phân lodi ccecsessesssessessesssessecsessssssessessusssecsessessusssessessessustsessessesseesseesess 30
3.4 KET QUA PHAN TÍCH s2 ssss++seerxseerxseersseesrseee 31
3.4.1 Xét biến V1- [V=O0.035 voccececceccssessesseessessessesssessessessessessessessessseeseesess 31
3.4.2 Phân tích biến ¥2-[V=0.019 w ccccccccccssesssesssesssessessecssecsesseessecsseeseeess 32
3.4.3 Phân tích biến X3-[V=0.026 cccccccscsssesssesssesseessesssesssessssseessesssesseeens 33
Tran Thị Thanh Hương - 11142031
Trang 4Chuyên đề thực tập chuyên ngành Toán tài chính
3.4.4 Phân tích Y4-IV=0.021 2¿- 2:22 ESEE2EECEEEEEEEEECEEkerkrrrkrrrei 34
3.4.5 Phân tích Ý6-TV=0.039 -/¿- 2c 21 21221 22212110711211 1111 crk 35
3.4.6 Phân tích X77-TV =0 124 -¿-©2¿26c22E EEE21271211711211 211211 crk 35
3.4.7 Phân tích V8-IV=0.063 -22- 52c 222 2122212211271 crk 38
3.4.8 Phân tích V10 -IV=0.027 -2-©22- 52+ 2x22 EEEEEEECErkrrrrrrkrrred 39
3.5 KET LUẬN -s °<csSssEesevserseEeertsrrssrssrssrrsrrssrssrssrrsrrssrssrse 40
DANH MỤC TÀI LIEU THAM KHẢO .2- 2-2 ©ss©ssecssessse 42
31080009255 43
Tran Thị Thanh Hương - 11142031
Trang 5Chuyên đề thực tập chuyên ngành Toán tài chính
DANH MỤC HÌNH ẢNH
Hình 1.1: Một mang Bayes đơn giản với các bảng xác suất có điều kiện 4
Hình 1.2: Hình ảnh biểu thị cho giá tr] QUÏI€T- - c5 S5 ++kEsseersseeeeeeres 8
Hình 1.3: Đường biểu thị xu thé của WoE với biến “trường học” là X1 19
Hình 3.1: Mô hình y = sin2mx Underfit: degree 1 (bên trái); Goodfit: degree 3
(giữa); Overfit: degree 15 (bên phải) - - - 5 2S 1321319 1111111 11 gv rry 29
Hình 3.2: Bảng tương quan giữa các biến -©22-©522cx2zxccxeerxesrxrrrrees 30
Hình 3.3: Đường WoE của biến Ÿ 1 -2- 5c ©52+E<£EEEE2E2EEEEEEEECEEEErrkerkree 31
Hình 3.4: Đường WoE của biến Ÿ2 -s- 5c 252+2<‡EkEEE2E22122171211211 21x 32
Hình 3.5: Đường WoE của biến X3 2-22-2222 2 221221211211 2212E1ctree 33
Hình 3.6: Đường WoE của biến Ÿ 4 - ¿5© SE 2121121121211 21111 34
Hình 3.7: Đường WoE của biến Ÿ 6 -¿- c5 St 2112112112121 21 21112 35
Hình 3.8: Đường WoE của biến Ä7 -:- 2c ©5++E<‡EEEEEE2 12121212 crkerkree 35
Hình 3.9: Đường WoE của biến Y8 2 ¿+ t2 EEEEEEEE21122171211 211 EEcrxe 38
Hình 3.10: Đường WoE của biến Ÿ'10 ¿- 5¿+2++2x+2EE2EE2EEEEEErkrrrkrrrrees 39
Tran Thị Thanh Hương - 11142031
Trang 6Chuyên đề thực tập chuyên ngành Toán tài chính
DANH MỤC TU VIET TAT
Data training |Khai phá dữ liệu
NBC Naive Bayes Classifier
IV Hệ số giá trị thông tin Information ValueWoE Trọng số chứng cứ Weight of EvidenceOut of time |Dữ liệu kiểm định khác thời gian với dữ liệu
Trang 7Chuyên đề thực tập chuyên ngành Toán tài chính
LỜI CẢM ƠN
Lời đầu tiên em gửi lời cảm ơn chân thành và sự tri ân sâu sắc đối với
TS Hoàng Đức Mạnh - người đã trực tiếp hướng dẫn em, người giúp em cóđịnh hướng đúng dan trong quá trình hướng dẫn viết chuyên đề thực tập của em.Em xin cảm ơn các thầy cô khoa Toán Kinh tế trong suốt những năm học đạihọc đã tận tình dạy dỗ, chỉ bảo, truyền cảm hứng cho em không chỉ về nhữngkiến thức trên lớp mà còn những kinh nghiệm cuộc sống để giúp em có hànhtrang tốt trước khi ra trường
Trong quá trình viết chuyên đề, dù em đã rất cố gắng dé viết chuyên démột cách tốt nhất Tuy nhiên, do kiến thức, thời gian còn hạn hẹp, kinh nghiệmthực tế còn thiếu sót nên chuyên đề của em còn nhiều thiếu sót Em rất mong
nhận được sự góp ý của các thầy cô đề có thê hoàn thiện được tốt hơn
Em xin chân thành cảm ơn!
Trần Thị Thanh Hương
Tran Thị Thanh Hương - 11142031
Trang 8Chuyên đề thực tập chuyên ngành Toán tài chính
PHAN MỞ DAU
1 Ly do chon dé tai
Truong Dai hoc Kinh tế Quốc dân (tiếng Anh: National Economics
University, viết tắt là NEU) là một trong những trường Đại hoc đứng đầu về đào
tạo khối ngành kinh tế và quản lý tại Việt Nam Đồng thời trường còn là trungtâm nghiên cứu kinh tế chuyên sâu, tư vấn các chính sách vĩ mô cho nhà nướcViệt Nam, chuyền giao và tư van công nghệ quản lý và quan trị
Thành lập năm 1956, trường Đại học Kinh tế Quốc dân là trường đầungành trong khối các trường đào tạo về kinh tế, quản lý và quản trị kinh doanh ở
Việt Nam Với sứ mệnh cung cấp cho nên kinh tế đất nước nguồn nhân lực cóchất lượng cao, Đại học Kinh tế Quốc dân luôn là trường đại học tiên phong của
Việt Nam trong lĩnh vực phát triển giáo dục và nghiên cứu khoa học.
Dựa trên Website: www.neu.edu.vn, sau hơn 20 năm đôi mới, Đại họcKinh tế Quốc dân đã xây dựng được một đội ngũ giảng viên có trình độ, giàu
kinh nghiệm, và từng bước hướng đến chuan khu vực và quốc tế Với đội ngũ
hon 1.200 cán bộ, giáo viên, Nhà trường có 50 chuyên ngành dao tạo ở bậc đại
học và hơn 20 chuyên ngành đào tạo ở bậc thạc sỹ và tiến sỹ, với quy mô đào tạo
khoảng 50.000 sinh viên.
Hiện nay, Đại học Kinh tế Quốc dân đang thực hiện chiến lược xây dựngNhà trường theo hướng đa ngành, đa lĩnh vực, mở rộng hợp tác quốc tế, trở thànhtrường đại học đăng cấp trong khu vực Thực hiện chiến lược đó, Nhà trường chúý mở rộng hợp tác quốc tế, hội nhập với nền giáo dục khu vực và thế giới Tínhđến nay, Đại học Kinh tế Quốc dân có các chương trình hợp tác đào tạo vànghiên cứu với trên 100 trường đại học và tô chức giáo dục danh tiếng của hơn
50 quốc gia trên thé giới
Có thể nói, tất cả các bậc cha mẹ hay các em học sinh khi còn ngồi trênghế học đường đều ao ước được học tập và hoạt động tại ngôi trường Đại họcvinh danh này Đề tài được viết dựa trên các số liệu thực tế để đánh giả khả năngđỗ vào Đại học Kinh tế Quốc dân Dé từ đó nêu ra những điểm mạnh và điểmhạn chế giúp phụ huynh tham khảo các biện giải phải cũng như tâm lý phù hợp
giúp học sinh định hướng và đầu tư đúng cách nhất Đây sẽ là một trong nhữngthông tin tham khảo dé phụ huynh có thé định hướng cho con em mình với nhiềumục đích khác nhau Do các bộ số liệu quá ít quan sát đến mức các điều kiện của
nhiều mô hình bị vi phạm, nên đề tài cũng sẽ chỉ ra một cách có thể xử lý các bộ
sô liệu này.
Tran Thị Thanh Hương - 11142031 1
Trang 9Chuyên đề thực tập chuyên ngành Toán tài chính
2 Mục tiêu nghiên cứu:
Nghiên cứu các vấn đề cơ bản của phương pháp Bayes và trọng lượng
bang chứng WoE, dé áp dụng vào thực tế xử lý những bộ dữ liệu khó mà cần ít
những ràng buộc dé mô hình hiệu quả-như các mô hình có số lượng quan sát ít
hoặc số lượng các phân loại của biến mục tiêu quá chênh lệch Từ đó áp dụng
vào việc phân loại khả năng đỗ vào đại học của các sinh viên trường Đại học
Kinh tế Quốc dân.3 Đối tượng và phạm vi nghiên cứu:
Dựa vào lý thuyết và thuật toán của phương pháp Bayes, thiết kế bảng
khảo sát cho các sinh viên của trường Đại học Kinh tế Quốc dân
4 Tiến trình nghiên cứu:
+ Nghiên cứu lý thuyết về phương pháp Bayes.+ Nghiên cứu lý thuyết trọng lượng bang chứng WoE.+ Thiết kế bảng hỏi khảo sát
+ Thu thập số liệu.+ Xử lý, phân tích số liệu.+ Viết báo cáo kết quả và kết luận.5 Kết cau của chuyên đề
Chuyên đề có kết cầu gồm 3 phần:Chương 1: Cơ sở lý thuyết
Chương 2: Thiết kế khảo sát áp dụng phương pháp Bayesian Network dé
đánh giá việc đỗ Đại học Kinh tế Quốc dân
Chương 3: Phân tích kết quả khảo sát tình huống phân loại mức điểm sinh
viên thi đỗ vào trường Đại học Kinh tế Quốc dân
Tran Thị Thanh Hương - 11142031 2
Trang 10Chuyên đề thực tập chuyên ngành Toán tài chính
CHUONG 1:
CO SO LY THUYET
Trong chương 1, người viết giới thiệu đến người doc các ly thuyết được
áp dụng để phân tích số liệu từ bảng hỏi Để hiểu rõ hơn các khái niệm, phương phương, ứng dụng và sự cần thiết của việc áp dụng phương pháp
mang Bayesian.
1.1 MANG BAYESIAN 1.1.1.Khai niém
Mang Bayes (tiếng Anh: Bayesian network hoặc Bayesian belief networkhoặc belief network) là một mô hình xác suất dạng đồ thị
Một mạng Bayes được biểu diễn bởi một đồ thị, trong đó các nút đại diệncho các biến, còn các cung đại diện cho các phụ thuộc có điều kiện Phân phối
xác suất có điều kiện phụ thuộc (joint probability distribution) của các biến đượcxác định bởi cau trúc dé thị của mạng Cấu trúc đồ thị của một mạng Bayes dẫn
tới các mô hình dễ giải thích, và tới các thuật toán học và suy luận hiệu quả Các
nút có thé đại diễn cho đủ loại biến, một tham số đo được, một biến ấn (latent
variable) hay một giả thuyết, chứ không nhất thiết phải đại diện cho các biến
ngẫu nhiên.
Một mạng Bayes là một đồ thị có hướng phi chu trình mà trong đó:
« _ Các nút biểu diễn các biến;« _ Các cung biéu diễn các quan hệ phụ thuộc thống kê giữa các biến và phân
phối xác suất địa phương cho mỗi giá trị nếu cho trước giá trị của các cha
Tran Thi Thanh Huong - 11142031 3
Trang 11Chuyên đề thực tập chuyên ngành Toán tài chính
Hình 1.1: Một mạng Bayes đơn giản với các bảng xác suất có điều kiện
1.1.2 Thuật toán Bayes
Thuật toán hiệu quả ton tại mà thực hiện suy luận và học tập trong mạngBayesian Mang Bayesian mô hình chuỗi các biến (ví dụ như tín hiệu thoại hoặc
chuỗi protein) được gọi là mạng Bayesian động Việc khái quát hóa các mạng
Bayes có thé đại diện và giải quyết các van đề quyết định dưới sự không chắcchắn được gọi là sơ đồ ảnh hưởng
Trong lĩnh vực Data Mining, Bayes Theorem (hay Bayes’ Rule) là kỹ
thuật phân lớp dựa vào việc tinh xác suất có điều kiện Bayes’Rule được ứng
dụng rất rộng rãi bởi tính dễ hiểu và dễ triển khai.
Bayes' Rule (CT1)
P(DIh) P(hlD) = P(h) PID)
Trong do:
D: Data
h: Hypothesis (gia thuyét)P(h): Xác suất giả thuyết hP(DIh): Xác suất có điều kiện D khi biết giả thuyết hP(D): xác suất của dit liệu quan sát D không quan tâm đến bat kỳ giảthuyết h nào
, „P(DỊh)
Tỷ sô P(D) : Chi số liên quan (irrelevance index) dùng dé do lường sự
liên quan giữa 2 biến Nếu irrelevance index =1, có nghĩa hai biến không liên
quan nhau.
P(hID) :Xác suất có điều kiện h khi biết DTrong rất nhiều ứng dụng, các giả thuyết hj có thé loại trừ nhau và vi ditliệu quan sát D là tập con của tập giả thuyết cho nên chúng ta có thé phân rã P(D)
Trang 12Chuyên đề thực tập chuyên ngành Toán tài chính
(CT4) gọi là Bayes’s Theorem.
1.1.3 Ứng dụng Bayes Theorem trong phân lớp dữ liệu (Naive Bayes
Biểu thức này, nếu tính được, sẽ giúp chúng ta xác định được xác suất déđiểm di liệu rơi vào mỗi class Từ đó có thé giúp xác định class của điểm dữ liệuđó bằng cách chọn ra class có xác suất cao nhất:
Từ (3) sang (4) là vì quy tắc Bayes Từ (4) sang (5) là vì mẫu
số p(x) không phụ thuộc vào c
Tiếp tục xét biéu thức (5), p(x) có thé được hiểu là xác suất dé một điểm
rơi vào class cc Giá tri này có thé được tính bang MLE, tức ti lệ số điểm dữ liệutrong tập training rơi vào class này chia cho tổng số lượng dữ liệu trong tậptraing; hoặc cũng có thê được đánh giá bằng MAP estimation Trường hợp thứnhất thường được sử dụng nhiều hơn
Thành phan còn lại p(x), tức phân phối của các điểm dữ liệu trong class ¢,
thường rất khó tính toán vì x là một biến ngẫu nhiên nhiều chiều, cần rất rất
nhiều di liệu training để có thể xây dựng được phân phối đó Dé giúp cho việc
tính toán được đơn giản, người ta thường giả sử một cách đơn giản nhất rằng các
thành phan của biến ngẫu nhiên x là độc lập với nhau, nêu biết ¢ Tức là:
p(xle) =p(x;,x;, xzÌe) =k pl; le) (6)
Tran Thi Thanh Huong - 11142031 5
Trang 13Chuyên đề thực tập chuyên ngành Toán tài chính
Giả thiệt các chiêu của dữ liệu độc lập với nhau, nêu biệt c, là quá chặt va
ít khi tìm được dữ liệu mà các thành phần hoàn toàn độc lập với nhau Tuy nhiên,giả thiết ngây ngô này lại mang lại những kết quả tốt bat ngờ Giả thiết về sự độclập của các chiều dữ liệu này được gọi là Naive Bayes Cách xác định class của
dữ liệu dựa trên giả thiết này có tên là Naive Bayes Classifier (NBC)
NBC, nhờ vào tính đơn giản một cách ngdy tho, có tốc độ training và test
rất nhanh Việc này giúp nó mang lại hiệu quả cao trong các bài toán large-scale
Ở bước training, các phân phối p(c) và p(x;Ìc), i=1,2, d sẽ được xác
định dựa vào training data Việc xác định các giá trị này có thé dựa
vào Maximum Likelihood Estimation hoặc Maximum A Posteriori.
Ở bước test, với một điểm dữ liệu mới x, class của nó sẽ được xác đinh
bởi:
C = arg IH3AXee{1,.c} p(c) TI¡ pGŒ;le) (7)
Khi d lớn và các xác suất nhỏ, biéu thức ở về phải của (7) sẽ là một số rấtnhỏ, khi tính toán có thé gặp sai số Dé giải quyết việc này, (7) thường được viếtlại dưới dạng tương đương bằng cách lấy log của về phải:
arg maxcers,c)P(C) [H&:p(xle) = log(p(©)) + XŠ-,log(px,lc))
Cả việc training và test cua NBC là cực kỳ nhanh khi so với các phương
pháp classification phức tạp khác Việc giả sử các thành phan trong dữ liệu là độc
lập với nhau, nêu biết class, khiến cho việc tính toán mỗi phân phối (%;Ì£) trở
nên cực kỳ nhanh.
Mỗi giá trị p(c), c=1,2, ,C có thé được xác định như là tần suất xuất
hiện của class cc trong training data.
Việc tính toán ø(+;Ìc} phụ thuộc vào loại dit liệu Có ba loại được sử
dụng phổ biến là: Gaussian Naive Bayes, Multinomial Naive Bayes va Bernoulli
Naive.
Tran Thi Thanh Huong - 11142031 6
Trang 14Chuyên đề thực tập chuyên ngành Toán tài chính
1.2 GIA TRI THONG TIN IV (INFORMATION VALUE) VÀ TRỌNG
LUC BANG CHUNG WOE (WEIGHT OF EVIDENCE)
1.2.1 Giá trị thông tin IV INFORMATION VALUE) 1.2.1.1 Nội dung của giá tri thông tin IV
Thông thường khi xây dựng một mô hình hồi quy, việc lựa chọn các biếnđộc lập không hề đơn giản Biến phụ thuộc (biến mục tiêu) chịu tác động của
nhiều yếu tố khác Bước đầu, khi lựa chọn các biến độc lập ta không thé tránh
khỏi việc lựa chọn các biến có cường độ dự báo quá yếu so với biến phụ thuộc.Với các biến độc lập mang giá trị thông tin quá yếu thì việc phát triển mô hình
hồi quy là vô nghĩa.
Các giá trị thông tin (IV) của một yếu tô dự báo có liên quan đến tổng cácgiá trị (tuyệt đối) cho WOE trên tất cả các nhóm Do đó, nó thé hiện số lượngthông tin chân đoán của một biến dự báo đề tách Good khỏi Bad
1.2.1.2 Công thức áp dung tinh giá tri thông tin IV
Các giá trị thông tin (IV) cho dự đoán rằng có thé được tính như sau:
IV
mỉ [(ran số của quan sat Good — Tan số của quan sat Bad) *
Tần sẽ của quan sắt Good
BC |
Tần sẽ của quan sắt Bad
Trong đó: (Tần số quan sát Good/Tần số quan sát Bad) được sử dụng
trong công thức này ở định dạng thập phân.
1.2.1.3 Ý nghĩa của giá trị thông tin IV
Theo Siddiqi (2006), theo quy ước, các giá trị của thống kê IV có thé đượchiểu như sau Nếu số liệu thống kê 7V là:
Giá trị thông tin IV Ý nghĩa của giá trị thông tin IV
Nhỏ hơn 0.02 Biến có sức mạnh dự đoán rất yếu so với biến mục tiêu
hay nói cách khác khả năng dự báo của biến là vô nghĩa0.02 đến 0.1 Biến có sức mạnh dự đoán yếu so với biến mục tiêu
0.1 đến 0.3 Biến có sức mạnh dự đoán trung bình so với biến mục tiêu0.3 đến 0.5 Biến có sức mạnh dự đoán tốt so với biến mục tiêu
Lớn hơn 0.5 Biến đáng ngờ và cần phải kiểm tra
Giá tri thông tin IV càng cao càng thể hiện dự đoán so với mục tiêu là tốt
tuy nhiên các biến có đặc tính với IV lớn hơn 0,5 nên được kiểm tra và lưu ý đến,
Tran Thị Thanh Hương - 11142031 7
Trang 15Chuyên đề thực tập chuyên ngành Toán tài chính
chúng phải được loại bỏ, xem xét nên đưa vào mô hình hay không hoặc sử dụng
một cách có kiểm soát Cũng như các giá trị bất thường-outlier; nếu tất cả cácbiến có giá trị như nhau và chỉ có 1 vài biến có sức mạnh cao vượt thì ta vẫn có
thể xem xét cho đưa vào mô hình Tuy nhiên nếu các biến đều có giá trị IV caobất thường cũng sẽ kéo lệch mô hình theo từng nhóm của nó, khiến các bién khác
không còn nhiều ý nghĩa, mô hình có thé chỉ phụ thuộc một biến
Equation yoath*x » ¥
Adj R-Square 0.90163 Linear Fit of ¥
Value Standard Error
những cấu thành đặc điểm khác nhau (bao gồm điểm yếu hoặc mạnh)
Tác giả giới thiệu một số thước đo được sử dụng rỗng rãi trong thống kê,chúng ta có thé tham khảo một vài thước đo dưới đây Chúng được coi là một cácsự thay thế cho IV Tuy nhiên, không thể phủ nhận IV là một biện pháp hữu íchvà được áp dụng phô biến trong các ngành Những ưu điểm nổi trội của IV demlại đáng được ghi nhận IV là một trong đó các quy tắc rất thuận lợi cho việc biếncác sự lựa chọn kết hợp với IV Dưới đây là các thước đo khác nhau chúng ta cóthể tham khảo cho việc thay thế IV; các thống kê thường được sử dụng trongngành nay bao gồm Gini va chi-square
© Chi-square: là thước do môi liên hệ giữa hai biến định tính
Tran Thị Thanh Hương - 11142031 8
Trang 16Chuyên đề thực tập chuyên ngành Toán tài chính
v? » (Quan sắt thứ ï— Dự kiến thứ ñÊ
~ Loni Dự kiến thứ ï
Với giá trị giới hạn nhỏ nhất là 0.5Thống kê này được phân phối theo phân phối chi bình phương với mức độtự do tương đương với số lượng tham số theo giả thuyết thay thế và số lượng
tham số theo giả thuyết không
© Cramers V: là thước do do lường lực mạnh tương quan giữa hai biến
SỐ định tính, môi biên số có thể có nhiêu định loại.
X°/
in
mim ¢i—3)(j-4)
Trong đó: X°: Thống kê chi bình phương
N: Tổng số quan sátmin ¢;-1)¢j-1): Tối thiểu kích thước hàng trừ cột 1 và thứ nguyên cột trừ
hang |
i: SO cột
j: Số hang
e F-test là loại kiểm định độ phù hop của mô hình với R Square là chỉ
số dùng dé đánh giá độ phù hợp cua mô hình hồi quy
m;: Số quan sát trong nhóm thứ i
Ÿ: Trung bình tông thé của dữ liệu
K: Số lượng nhóm
¥,;: Quan sát thứ 7 trong nhóm thứ ¡ của nhóm K
N: Kích thước mẫu tông thể
se Gini
Tran Thị Thanh Hương - 11142031 9
Trang 17Chuyên đề thực tập chuyên ngành Toán tài chính
đoán của Bad.
và các mô hình cham diém tín dung
Tran Thị Thanh Hương - 11142031 10
Trang 18Chuyên đề thực tập chuyên ngành Toán tài chính
t: Tổng số cặp với các phản ứng khác nhau của Good/Bad
n„: Số cặp trường hợp trong đó trường hợp có giá trị phản hồi có thứ tự
thấp hơn có điểm số trung bình được dự đoán thấp hơn so với trường hợp có giátrị phản hồi có thứ tự cao hơn
ng: Số lượng các cặp trong trường hợp giá trị phản hồi có thứ tự thấp hơn
có diém số trung bình được dự đoán cao hơn so với trường hợp có giá trị phảnhồi có thứ tự cao hơn
1.2.2 Trọng lực chứng cứ WoE (WEIGHT OF EVIDENCE) 1.2.2.1 Nội dụng của trọng lực chứng cứ WoE
Mục đích của WoE là cung cấp các giá trị linh hoạt cho các giá trị trongcác biến dự báo liên tục và phân loại thành các danh mục rời rạc một cách tựđộng và gán cho mỗi loại một giá trị WoE duy nhất Việc ghi lại này được thực
hiện theo cách sẽ tạo ra sự khác biệt lớn nhất giữa các nhóm được mã hóa lại vàcác giá trị WoE Ngoài ra, khác các ràng buộc được quan sát thấy trong khi
chương trình xác định các giải pháp cho "binning" tối ưu của dự đoán
Với sự phát triển và thực hiện chấm điểm tín dụng thông minh thì việc môtả chi tiết sự phát triển của phiếu ghi điểm là nguồn dit liệu tuyệt vời và vai trò
của mã hóa WoE trong ghi điểm tin dung là Siddiqi (2006) đáng được ghi nhận
Ý nghĩa của WoE là phân tích các quan sát vào các nhóm có badrate thíchhợp, dé đảm bảo các nhóm của biến hoạt đọng đúng như trong thực tế từ đó đảmbảo mô hình có tính chính xác và ồn định
1.2.2.2 Ứng dụng của trọng lực chứng cứ WoE
Các phương pháp được mô tả ở đây đã được phát triển chủ yếu cho cácngành công nghiệp tín dụng và tài chính dé hỗ trợ xây dựng mô hình dé dự đoánrủi ro mặc định cho vay Một khi lịch sử dữ liệu tồn tại mô tả hiệu suất của cáckhoản vay, các mô hình dự báo có ý nghĩa có thê được xây dựng đề dự đoán xác
suât nợ mặc định dựa trên các đặc điêm khác nhau (dau vào hoặc dự đoán) mô tả
Tran Thị Thanh Hương - 11142031 11
Trang 19Chuyên đề thực tập chuyên ngành Toán tài chính
người nộp đơn và hoặc đơn đăng ký Một ví dụ điển hình về kết quả của các môhình như vậy là "Scorecard” nơi các đặc điểm của người nộp đơn như tudi củamột cá nhân hoặc doanh nghiệp, lịch sử tín dụng trước đó, được biểu thị dưới
giao diện người dùng này được mô tả trong các phần tương ứng mô tả các hộp
thoại mã hóa WoE tự động.
1.2.2.3 Mã hóa tối ưu của dự đoán hay trend của WoE
e Trend cua WoE là chỉ xu hướng, tại sao phải dam bảo WoE của các nhóm có tính xu hướng ?
e Xu hướng thường có hình dạng gì thì hợp lý: di lên, đi xuống, dang
hình chữ V hoặc chữ U.
Mục tiêu của thuật toán được thực hiện trong WoE tự động là xác định các
nhóm tốt nhất cho các biến dự đoán sẽ dẫn đến sự khác biệt lớn nhất trong WoEgiữa các nhóm Đối với các biến liên tục, WoE tự động xác định sự giải mã tốtnhất cho các giá trị cân bằng Đối với các yếu tố dự đoán hoặc tương tác theodanh mục giữa các dự báo được mã hóa, người dùng có thể kết hợp các nhóm vớiWoE được quan sát tương tự dé tạo các yếu tố dự báo được mã hóa mới với giátrị trọng số bằng chứng liên tục
> Biến liên tục
Đối với các tiên đoán liên tục, đầu tiên một mã hóa mặc định được bắtnguôn bằng thuật toán Phân loại và hồi quy cây (C & RT) Đối với các danh mục
mặc định có ít hơn 20 nhóm STATISTICA sẽ tìm kiếm một cách rõ ràng tất cả
các kết hợp có thể có của các nhóm mặc định đạt được số lượng nhóm ít nhất có
Giá trị thông tin lớn nhất (IV) Khi số lượng nhóm lớn hơn 20, STATISTICA sửdụng phương pháp CHAID CHAID phương pháp tiếp cận là một sửa đổi đối với
thuật toán CHAID thay vì thông lệ tiêu chí, thay đôi trong WoE được sử dụng
làm tiêu chí.
Có ba loại giải pháp mã hóa WoE bị hạn chế:* Các giải pháp đơn điệu, trong đó các giá trị WoE của tat cả các nhóm
được mã hóa liền kề (khoảng thời gian) hoặc sẽ tăng (mối quan hệ đơn điệu
Tran Thị Thanh Hương - 11142031 12
Trang 20Chuyên đề thực tập chuyên ngành Toán tài chính
dương của khoảng thời gian dự đoán đến WoE), hoặc giá trị WoE của tất cả các
nhóm được mã hóa liền kề sẽ luôn giảm (mối quan hệ đơn âm tiêu cực của
khoảng thời gian dự đoán đến WoE)
* Các giải pháp bậc hai, trong đó mối quan hệ giữa các phạm vi giá triđược mã hóa (khoảng thời gian) để WoE có thé có một dao ngược duy nhất décác chức năng kết quả là một trong hai Hình chữ U hoặc hình chữ U ngược
* Các giải pháp khối, trong đó mối quan hệ giữa các phạm vi giá trị đượcmã hóa (khoảng thời gian) với các giá trị WoE có thé là hai lần đảo ngược saocho hàm kết quả là hình chữ S
Hai loại giải pháp mã hóa WoE không bị giới hạn được cung cấp:
» Mã hóa tùy chỉnh dựa trên gộp nhóm mặc định với C & RT hoặc 10
nhóm bằng nhau có kích thước bằng nhau
* Mã hóa không hạn chế dựa trên giải pháp tùy chỉnh sau khi chạy timkiếm đầy đủ hoặc thuật toán CHAID
Lưu ý rằng có thê điều chỉnh trước thuật toán dé đảm bảo rang mỗi bin thỏamãn N tối thiểu và tối thiêu các tham số được chỉ định của người dùng Bad N
> Biến phân loạiĐối với các dự báo phân loại (rời rạc), nhóm mặc định (ban đầu) đượctinh chỉnh thêm bằng cách sử dụng phương pháp CHAID đã sửa đôi
Hai loại giải pháp mã hóa WoE không bị giới hạn được cung cấp:
» Tùy chỉnh mã hóa được dựa trên các gộp nhóm mặc định của nhóm.
¢ Mã hóa không hạn chế dựa trên phân loại mặc định được cung cấp bởithuật toán CHAID đã được sửa đổi
Lưu ý rằng các thùng ban đầu có thể được điều chỉnh trước thuật toán déđảm bảo rằng mỗi thùng thỏa mãn các thông số N tối thiểu và N tối thiểu được
tuy nhiên, mé-dun có tính hữu dụng đặc biệt cho các dự đoán liên tục, dé đạt
được mã hóa WoE tốt nhất cho mô hình tiếp theo (ví dụ, sử dụng hồi quy
logistic).
Tran Thi Thanh Huong - 11142031 13
Trang 21Chuyên đề thực tập chuyên ngành Toán tài chính
Cụ thể, mục tiêu của các thuật toán được thực hiện trong mô-đun WoE tựđộng là xác định các nhóm tốt nhất cho các biến dự đoán sẽ dẫn đến sự khác biệtlớn nhất trong WoE (đồng bằng WoE) giữa các nhóm và các nhóm liền kề
(khoảng) cho các dự đoán liên tục.
Thuật toán được thực hiện trong Statistica dé xác định mã hóa tốt nhất của
các dự đoán liên tục để tối đa hóa số tiền thu được từ WoE Delta như sau
Đối với các tiên đoán liên tục, đầu tiên một mã hóa mặc định được bắt nguồnbang thuật toán Phân loại và hồi quy cây (C & RT) Đối với số lượng nhỏ các danhmục mặc định (ít hơn 20 hoặc hơn), Statistica sẽ tìm kiếm một cách rõ ràng tất cảcác phân vùng có thê (kết hợp các nhóm mặc định) dé đạt được số lượng nhóm nhỏnhất có Giá trị thông tin lớn nhất (IV) Khi số lượng nhóm lớn hơn 20, Statistica sử
dụng phương pháp CHAID (được mô tả sau trong tài liệu này).
Đối với các dự báo phân loại (rời rạc), nhóm mặc định (bản sốc) được
tinh chỉnh thêm bằng thuật toán CHAID; Tuy nhiên, thay vì phong tục square giá trị và chức năng mục tiêu đó thường được sử dụng trong CHAID déxác định xem và làm thé nao dé kết hợp nhóm, một sửa đổi CHAID thuật toánđược sử dụng với mục tiêu kết hợp/ nhóm phân chia sử dụng Delta WOE dé kết
Chi-hợp/tách tiêu chí.
Tối ưu hóa so với mã hóa tốt nhất Lưu ý rằng các thuật toán được sửdụng để tìm mã hóa WoE tốt nhất sẽ không tìm kiếm hết sức thông qua tất cả cácphân vùng có thể có của các dự đoán liên tục Do đó, kết quả không được bảođảm là giải pháp tối ưu, nhưng chỉ là giải pháp tốt nhất trong số các giải pháp
được tìm kiếm Đây là một đặc tính mà phương pháp này chia sẻ với nhiều thuật
toán mô hình tiên đoán, chăng hạn như Cây, Lưới thần kinh, v.v., cũng không
được dam bảo dé đạt được các giải pháp tối ưu toàn cầu, nhưng sẽ trả về các giải
pháp "tốt" thay thế và thông qua nhiều ứng dụng và thử nghiệm trong thế giới
thực, các thuật toán được thực hiện trong mã hóa WoE tự động đã được chứng
minh để trả về các giải pháp tuyệt vời trong thực tế tất cả các trường hợp
> Các ràng buộc cho dự đoán liên tục
Các thuật toán cho việc tạo ra mã hóa mặc định cho các yếu tố dự báo liên
tục cho phép chúng tạo ra các giải pháp "hạn chế", ngoài việc nhóm các giá trị
không bị giới hạn tốt nhất mối quan hệ với tỷ số chênh trước đây thảo luận Ví dụ,
trong các ứng dụng điểm tín dụng nó thường quan trọng dé có thé biện minh cho
mô hình dựa trên cảm giác chung lập luận vì giám sát quản lý điều này có nghĩa,
ví dụ, rắng tuyên tính đơn giản hay đơn điệu môi quan hệ của các giá trị dự báo
Tran Thị Thanh Hương - 11142031 14
Trang 22Chuyên đề thực tập chuyên ngành Toán tài chính
(giá tri dự báo WoE đã được mã hóa lại) với tỷ lệ chênh lệch (mặc định) thích
hợp hơn cho các mối quan hệ phức tạp hơn
Ví dụ: Hãy xem xét biến Độ tuổi và mối quan hệ của nó với rủi ro tín dung
mặc định Nó sẽ là điều mong muốn, và phù hợp với lý lẽ thông thường rằng
những người đăng ký tín dụng cũ hơn (với lịch sử tín dụng dai hon, tai sản lớn
hơn, vv) sẽ đặt ra rủi ro mặc định thấp hơn người đăng ký trẻ Do đó, mối quanhệ đơn điệu giữa các giá trị mã hóa cho Tuổi đến WoE sẽ là mong muốn và thích
hợp hơn các mối quan hệ phi tuyến phức tạp
Trong Statistica tự động hóa mã hóa WoE, có ba loại giải pháp mã hóa
WoE bị ràng buộc mà chương trình sẽ tính toán tùy thuộc vào sự tỒn tại của
chúng:
e Các giải pháp đơn điệu, trong đó các giá trị WoE của tất cả các nhómđược mã hóa liên kề (khoảng) sẽ tăng (mối quan hệ đơn điệu dương của khoảngthời gian dự đoán tới WoE), hoặc giá tri WoE của tất cả các nhóm được mã hóaliền kề sẽ luôn giảm (mối quan hệ đơn âm âm của khoảng dự đoán dé WoE)
e Các giải pháp bậc hai, trong đó mối quan hệ giữa các khoảng giá trịđược mã hóa (khoảng thời gian) với WoE có thê có một đảo ngược đơn sao chohàm kết quả là hình chữ U hoặc hình chữ U ngược
e Các giải pháp Cubic, trong đó mối quan hệ giữa các giá trị được mã hóa(khoảng) với các giá trị WoE có thé có hai lần đảo ngược sao cho hàm kết quả làhình chữ S.
Tóm lại, mô-đun mã hóa WoE tự động sẽ xử lý số lượng lớn các ứng cửviên dự đoán dé lay được mã hóa WoE ràng buộc (đơn giản) và các giải pháp mã
hóa WoE không bi ràng buộc 1.2.2.4 Công thức áp dụng tính trọng lượng chứng cứ WoE
Đo lường sức mạnh của từng thuộc tính hoặc các thuộc tính được nhóm,
trong việc tách biệt các tài khoản Good và Bad Đó là thước đo sự khác biệt về tỷ
lệ Good và Bad trong mỗi thuộc tính (nghĩa là tỷ lệ cược của một người có thuộc
tính đó là tốt hay xấu) WOE dựa trên tính toán tỷ lệ cược
(Tần số quan sát Good/Tần số quan sát Bad)
WoE= [in eee số quan sắt —Ì #100
Tần số quan sắt Bad
Phép nhân bằng 100 dựa trên sở thích cá nhân và được thực hiện dé làm
cho các sô dé làm việc hơn.
Tran Thị Thanh Hương - 11142031 15
Trang 23Chuyên đề thực tập chuyên ngành Toán tài chính
0 nếu tỷ lệ giữa tần số quan sắt Good bằng tần số quan sắt Bad WoE =4 < 0 nếu tần số quan sắt Good "nhỏ hơn" tần số quan sắt Bad
> 0 nếu tần số quan sắt Good "lớn hon" tần số quan sat Bad
1.2.3 Ví dụ minh họa về bài toán Giá trị thông tin IV và Trọng lượng của
chứng cứ WoE
Đề người đọc hiểu rõ hơn về cách tính các giá trị của Giá trị thông tin IVvà giá trị của Trọng lượng bằng chứng WoE ta xét bài toán với chính Bảng hỏi
được tạo ra với biến “trường học” là X;, với 3 nhóm trường học bao gồm: Nhóm
1: Trường công lập và bán công; Nhóm 2: Trường chuyên; Nhóm 3: Trường dân
lập Với quy ước: Bad là mức điểm sàn của trường Đại học Kinh tế Quốc dân 21đến 23 điểm; Good là mức điểm từ 24 điểm trở lên Dưới đây là các giả thiết
được đặt ra:
Trong đó:
Số quan sat Bad;
9 'o i/_% Bad; = răng số quam sắt; “100
mn oe Số quan sat Bad;
Tan số quan sat Bad ; = đăng số quan sắt Bad
se Số quan sat Good,Tan số quan sat Good ; = ' rồng số quan sắt Good
te ge 8 Tan số quan sat Good;
Giá trị của WoE , = |ln | ——.—— } |* 100
Tan s6 quan sat Bad;
IV=
mỉ [trần số của quan sắt Good — Tần số của quan sắt Bad) *
In(Tần sẽ của quan sắt —]
Tần sẽ của quan sắt Bad
Với nhóm 1 là nhóm bào gồm trường công lập và trường bán công, ta có:
Tran Thị Thanh Hương - 11142031 16
Trang 24Chuyên đề thực tập chuyên ngành Toán tài chính
_ | Tổng số quan sat Bad,
% Bad, = ring số quan sắt; 100
= (“2w )em = 63.3%
mw : $6 quan sat Bad
Tan số quan sat Bad , = Tring s6 quan sat Bad
_ 131 =
= 191/555 = 0.582
nm : Số quan sat Good
Tan số quan sat Good ¡ = Tring số quan sắt Good
= 7/59 = 0.422
Tan số quan sắt Good, ?)Ì = [in c= 422
Giá trị của WoE , = [in (een Cees nsaa | = - 0.321
Tần số quan sat Bad,
Tần số quan sat Good ¡ - Tần số quan sat Bad , = 0.422 —0.582 = - 0.16
(Tan số quan sắt Good ¡ - Tần số quan sat Bad ;)* WoE ,= (-0.16)*(-0.321)
= 0.0514
Tương tu ta tinh được giá trị trơng đương cho nhóm 2 va nhóm 3 Gia tri
thông tin mà biến “trường học” mang lại là:
IV = 0.0514 + 0.0958 + 0.2499 = 0.3972
Như vậy sau các bước tính trên ta tinh được Giá tri thông tin của biến đem
Tran Thị Thanh Hương - 11142031 17
Trang 25Chuyên đề thực tập chuyên ngành Toán tài chính
1 207 |131 |76 |6ó3.3% 0.582 J0.422 -0.321 |-0.160 |0.0514
2 112 J7§ |34 |69.6% 0.347 |0.189 -0.607 |-0.158 |0.0958
3 86 |69 17 |80.2% 0.307 J0.094 -1.178 |-0.212 |0.2499
Total |405 |225 |180 Information Value|0.3972
Trang 26Chuyên đề thực tập chuyên ngành Toán tài chính
chúng ta sẽ cùng xem xét kỹ hơn quá trình thiết lập bảng hỏi, các ý nghĩa củabiến được chọn lọc trong bảng hỏi
Tran Thị Thanh Hương - 11142031 19