Chuyên đề thực tập: Ứng dụng phương pháp BAYE SIAN NETWORK để phân loại khả năng đỗ vào trường đại học Kinh tế quốc dân

Chuyên đề thực tập chuyên ngành Toán tài chínhLỜI CẢM ƠN Lời đầu tiên em gửi lời cảm ơn chân thành và sự tri ân sâu sắc đối với TS Hoàng Đức Mạnh - người đã trực tiếp hướng dẫn em, người

Trang 1

_ TRƯỜNG ĐẠI HỌC KINH TE QUOC DAN“

KHOA TOÁN KINH TE

DE TAI

UNG DUNG PHUONG PHAP BAYESIAN NETWORK

DE PHAN LOAI KHA NANG DO VAO TRUONG DAI HOC

KINH TE QUOC DAN

Sinh viên thực hiện : Trần Thị Thanh Hương

MSV : 11142031

Lớp : Toán tài chính K56

Giáo viên hướng dẫn : TS Hoàng Đức Mạnh

Hà Nội, Thang 5 Năm 2018

Trang 2

Chuyên đề thực tập chuyên ngành Toán tài chính

MỤC LỤC

DANH MỤC HÌNH

DANH MỤC TỪ VIET TAT

LỜI CẢM ƠN

PHAN MỞ ĐẦUU 2 s<°e2.EE2.4E97334 07944072430 E70941 9914 nEkdeeore 1

CHƯƠNG 1: CƠ SỞ LÝ THUYET -css°°©vvesse++trrvxsssee 3

1.1 MẠNG BAYESIAN SG c1 HH 0000009000086 3

DDD KAD 01 3

1.1.2 Thuật toán Bay€s Án HH TH HH ng HH HH 4

1.1.3 Ứng dụng Bayes Theorem trong phân lớp dữ liệu (Naive Bayes

Ø0 45 4 5

1.2 GIÁ TRỊ THÔNG TIN IV (INFORMATION VALUE) VÀ TRỌNG

LỰC BANG CHUNG WOE (WEIGHT OF EVIDENCE') 7

1.2.1 Giá trị thông tin TV INFORMATION VALUE) - 7

1.2.1.1 Nội dung của giá trị thông tin IV - s5 Sscvessseexss 7 1.2.1.2 Công thức áp dụng tính giá trị thông tin ÏV -« -««+ 7

1.2.1.3 Ý nghĩa của giá trị thông tin ÏV - 2c c+cs+c+cs+ezxreees 71.2.1.4 Một số phương pháp thống kê khác vecsecssesssesssessesssssssesssesssesseee 8

1.2.2 Trọng lực chứng cứ WoE (WEIGHT OF EVIDENCE) 11

1.2.2.1 Nội dung cua trọng lực chứng cứ WoE ««-«««+<+ Il

1.2.2.2 Ung dung của trong lực chứng cứ WoE -s se- Il

1.2.2.3 Mã hóa tối ưu của dự đoán hay trend của WoE 12

1.2.2.4 Công thức áp dung tính trọng lượng chứng cứ WoE 15

1.2.3 Ví dụ minh họa về bài toán Giá trị thông tin IV và Trọng lượng của

chứng CU WOEE kh HH9 TH TH TH TH HH HH HH 16

1.3 sun 0 ,Ô 19

CHƯƠNG 2: THIET KE KHAO SAT ÁP DỤNG PHƯƠNG PHÁP MẠNG

BAYESIAN NETWORK DE ĐÁNH GIÁ CÁC MUC DIEM DO ĐẠI HỌC

KINH TE QUOC DAN wiecsscsssssssssssssssssssesssssssssssssssssssssssssssssssssssssssssessssssssseesseees 20

2.1 KHÁI QUAT BANG HOT DIEU TIRA -° 5° 5° se <s<sess 20

Tran Thị Thanh Hương - 11142031

Trang 3

2.1.1 Mục đích thiết lap Khao Sat 0 20

2.1.1.1 Nội dung thiết kế khảo SAE eecccccccescescescessesssssssessesseesesseesessesseees 20

2.1.1.2 Các bước khảo sát bảng hỏi cằSsccSSSs+seesseeesses 20

2.1.2 Cấu trúc mẫu điỀUu tra - ¿+ ©5£++£+E++EEtEEtEEEEEEEEEerkrrkrrkerrees 22

2.1.3 Câu trúc bảng hỏi -2-©22-55¿22xt22E2EEEE2E 2221121121221 EE.crkrrrei 22

2.2 PHAN TÍCH CÁC CÂU HOI TRONG KHAO SÁT 232.3 KET nn 0 25

CHUONG 3: PHAN TÍCH KET QUA KHẢO SÁT VOI TINH HUONG

PHAN LOAI MUC DIEM SINH VIEN THI DO VAO TRUONG DAI HOC

KINH TE QUOC DAN wesccsssssssssssscsnscsssecsnsssssecsnscsnscsssecenscssscsssecenscensccssecenecesses 26

3.1 QUA TRINH THUC HIEN PHAN TICH KET QUẢ 26

3.1.1 Mã hóa các biến -:- 2 ©2222xt2EE2EEEEEE2EEEEEEEEEEEEErrrrrrerkrrrei 26

3.1.2 Tại sao phải mã hóa các biến 2-2-5 2 £+EE+£EeEEE+Ezrxerxeee 27

3.1.3 Các bước thực hiện phân tích kết quả - 2-2 2 s2 s2 s+£z+s++‡ 27

3.1.4 Các bước thực hiện phân tích trên phần mềm SAS 28

3.2 TẠI SAO NÊN SỬ DỤNG MÔ HÌNH BAYESIAN NETWORK? 28

3.2.1.Uu điểm của phương pháp Bayesian Network -s 28

3.2.2 Ap dụng phương pháp Bayesian Network . ¿ cs+ccs¿ 28

3.2.3 Thế nào là hiện tượng Overfitting7 ¿©-s©s++cx2zxezxeerxesred 29

3.2.3.1 Chưa khớp (Unde€rƒfi[ÏH) -ccsccccccsskserteeeeerseerssrseersee 29

3.2.3.2 Quá khớp (OVETFPItING) eecccccscceesccesseeeneceeecesseceseeeseeesaeeeneeeeaes 29 3.2.3.3 Vừa khớp (GOOd FLfẨÏHĐ) c cành hi re 30

3.3 SỰ TƯƠNG QUAN CUA CÁC BIEN -s°-5c-sccsecsscse 30

3.3.1 Kiểm tra tính tương quan giữa các biến -¿©5¿©5zcs+cce2 30

3.3.2 Phân lodi ccecsessesssessessesssessecsessssssessessusssecsessessusssessessessustsessessesseesseesess 30

3.4 KET QUA PHAN TÍCH s2 ssss++seerxseerxseersseesrseee 31

3.4.1 Xét biến V1- [V=O0.035 voccececceccssessesseessessessesssessessessessessessessessseeseesess 31

3.4.2 Phân tích biến ¥2-[V=0.019 w ccccccccccssesssesssesssessessecssecsesseessecsseeseeess 32

3.4.3 Phân tích biến X3-[V=0.026 cccccccscsssesssesssesseessesssesssessssseessesssesseeens 33

Trang 4

3.4.4 Phân tích Y4-IV=0.021 2¿- 2:22 ESEE2EECEEEEEEEEECEEkerkrrrkrrrei 34

3.4.5 Phân tích Ý6-TV=0.039 -/¿- 2c 21 21221 22212110711211 1111 crk 35

3.4.6 Phân tích X77-TV =0 124 -¿-©2¿26c22E EEE21271211711211 211211 crk 35

3.4.7 Phân tích V8-IV=0.063 -22- 52c 222 2122212211271 crk 38

3.4.8 Phân tích V10 -IV=0.027 -2-©22- 52+ 2x22 EEEEEEECErkrrrrrrkrrred 39

3.5 KET LUẬN -s °<csSssEesevserseEeertsrrssrssrssrrsrrssrssrssrrsrrssrssrse 40

DANH MỤC TÀI LIEU THAM KHẢO .2- 2-2 ©ss©ssecssessse 42

31080009255 43

Trang 5

DANH MỤC HÌNH ẢNH

Hình 1.1: Một mang Bayes đơn giản với các bảng xác suất có điều kiện 4

Hình 1.2: Hình ảnh biểu thị cho giá tr] QUÏI€T- - c5 S5 ++kEsseersseeeeeeres 8

Hình 1.3: Đường biểu thị xu thé của WoE với biến “trường học” là X1 19

Hình 3.1: Mô hình y = sin2mx Underfit: degree 1 (bên trái); Goodfit: degree 3

(giữa); Overfit: degree 15 (bên phải) - - - 5 2S 1321319 1111111 11 gv rry 29

Hình 3.2: Bảng tương quan giữa các biến -©22-©522cx2zxccxeerxesrxrrrrees 30

Hình 3.3: Đường WoE của biến Ÿ 1 -2- 5c ©52+E<£EEEE2E2EEEEEEEECEEEErrkerkree 31

Hình 3.4: Đường WoE của biến Ÿ2 -s- 5c 252+2<‡EkEEE2E22122171211211 21x 32

Hình 3.5: Đường WoE của biến X3 2-22-2222 2 221221211211 2212E1ctree 33

Hình 3.6: Đường WoE của biến Ÿ 4 - ¿5© SE 2121121121211 21111 34

Hình 3.7: Đường WoE của biến Ÿ 6 -¿- c5 St 2112112112121 21 21112 35

Hình 3.8: Đường WoE của biến Ä7 -:- 2c ©5++E<‡EEEEEE2 12121212 crkerkree 35

Hình 3.9: Đường WoE của biến Y8 2 ¿+ t2 EEEEEEEE21122171211 211 EEcrxe 38

Hình 3.10: Đường WoE của biến Ÿ'10 ¿- 5¿+2++2x+2EE2EE2EEEEEErkrrrkrrrrees 39

Trang 6

DANH MỤC TU VIET TAT

Data training |Khai phá dữ liệu

NBC Naive Bayes Classifier

IV Hệ số giá trị thông tin Information ValueWoE Trọng số chứng cứ Weight of EvidenceOut of time |Dữ liệu kiểm định khác thời gian với dữ liệu

Trang 7

LỜI CẢM ƠN

Lời đầu tiên em gửi lời cảm ơn chân thành và sự tri ân sâu sắc đối với

TS Hoàng Đức Mạnh - người đã trực tiếp hướng dẫn em, người giúp em cóđịnh hướng đúng dan trong quá trình hướng dẫn viết chuyên đề thực tập của em.Em xin cảm ơn các thầy cô khoa Toán Kinh tế trong suốt những năm học đạihọc đã tận tình dạy dỗ, chỉ bảo, truyền cảm hứng cho em không chỉ về nhữngkiến thức trên lớp mà còn những kinh nghiệm cuộc sống để giúp em có hànhtrang tốt trước khi ra trường

Trong quá trình viết chuyên đề, dù em đã rất cố gắng dé viết chuyên démột cách tốt nhất Tuy nhiên, do kiến thức, thời gian còn hạn hẹp, kinh nghiệmthực tế còn thiếu sót nên chuyên đề của em còn nhiều thiếu sót Em rất mong

nhận được sự góp ý của các thầy cô đề có thê hoàn thiện được tốt hơn

Em xin chân thành cảm ơn!

Trần Thị Thanh Hương

Trang 8

PHAN MỞ DAU

1 Ly do chon dé tai

Truong Dai hoc Kinh tế Quốc dân (tiếng Anh: National Economics

University, viết tắt là NEU) là một trong những trường Đại hoc đứng đầu về đào

tạo khối ngành kinh tế và quản lý tại Việt Nam Đồng thời trường còn là trungtâm nghiên cứu kinh tế chuyên sâu, tư vấn các chính sách vĩ mô cho nhà nướcViệt Nam, chuyền giao và tư van công nghệ quản lý và quan trị

Thành lập năm 1956, trường Đại học Kinh tế Quốc dân là trường đầungành trong khối các trường đào tạo về kinh tế, quản lý và quản trị kinh doanh ở

Việt Nam Với sứ mệnh cung cấp cho nên kinh tế đất nước nguồn nhân lực cóchất lượng cao, Đại học Kinh tế Quốc dân luôn là trường đại học tiên phong của

Việt Nam trong lĩnh vực phát triển giáo dục và nghiên cứu khoa học.

Dựa trên Website: www.neu.edu.vn, sau hơn 20 năm đôi mới, Đại họcKinh tế Quốc dân đã xây dựng được một đội ngũ giảng viên có trình độ, giàu

kinh nghiệm, và từng bước hướng đến chuan khu vực và quốc tế Với đội ngũ

hon 1.200 cán bộ, giáo viên, Nhà trường có 50 chuyên ngành dao tạo ở bậc đại

học và hơn 20 chuyên ngành đào tạo ở bậc thạc sỹ và tiến sỹ, với quy mô đào tạo

khoảng 50.000 sinh viên.

Hiện nay, Đại học Kinh tế Quốc dân đang thực hiện chiến lược xây dựngNhà trường theo hướng đa ngành, đa lĩnh vực, mở rộng hợp tác quốc tế, trở thànhtrường đại học đăng cấp trong khu vực Thực hiện chiến lược đó, Nhà trường chúý mở rộng hợp tác quốc tế, hội nhập với nền giáo dục khu vực và thế giới Tínhđến nay, Đại học Kinh tế Quốc dân có các chương trình hợp tác đào tạo vànghiên cứu với trên 100 trường đại học và tô chức giáo dục danh tiếng của hơn

50 quốc gia trên thé giới

Có thể nói, tất cả các bậc cha mẹ hay các em học sinh khi còn ngồi trênghế học đường đều ao ước được học tập và hoạt động tại ngôi trường Đại họcvinh danh này Đề tài được viết dựa trên các số liệu thực tế để đánh giả khả năngđỗ vào Đại học Kinh tế Quốc dân Dé từ đó nêu ra những điểm mạnh và điểmhạn chế giúp phụ huynh tham khảo các biện giải phải cũng như tâm lý phù hợp

giúp học sinh định hướng và đầu tư đúng cách nhất Đây sẽ là một trong nhữngthông tin tham khảo dé phụ huynh có thé định hướng cho con em mình với nhiềumục đích khác nhau Do các bộ số liệu quá ít quan sát đến mức các điều kiện của

nhiều mô hình bị vi phạm, nên đề tài cũng sẽ chỉ ra một cách có thể xử lý các bộ

sô liệu này.

Tran Thị Thanh Hương - 11142031 1

Trang 9

2 Mục tiêu nghiên cứu:

Nghiên cứu các vấn đề cơ bản của phương pháp Bayes và trọng lượng

bang chứng WoE, dé áp dụng vào thực tế xử lý những bộ dữ liệu khó mà cần ít

những ràng buộc dé mô hình hiệu quả-như các mô hình có số lượng quan sát ít

hoặc số lượng các phân loại của biến mục tiêu quá chênh lệch Từ đó áp dụng

vào việc phân loại khả năng đỗ vào đại học của các sinh viên trường Đại học

Kinh tế Quốc dân.3 Đối tượng và phạm vi nghiên cứu:

Dựa vào lý thuyết và thuật toán của phương pháp Bayes, thiết kế bảng

khảo sát cho các sinh viên của trường Đại học Kinh tế Quốc dân

4 Tiến trình nghiên cứu:

+ Nghiên cứu lý thuyết về phương pháp Bayes.+ Nghiên cứu lý thuyết trọng lượng bang chứng WoE.+ Thiết kế bảng hỏi khảo sát

+ Thu thập số liệu.+ Xử lý, phân tích số liệu.+ Viết báo cáo kết quả và kết luận.5 Kết cau của chuyên đề

Chuyên đề có kết cầu gồm 3 phần:Chương 1: Cơ sở lý thuyết

Chương 2: Thiết kế khảo sát áp dụng phương pháp Bayesian Network dé

đánh giá việc đỗ Đại học Kinh tế Quốc dân

Chương 3: Phân tích kết quả khảo sát tình huống phân loại mức điểm sinh

viên thi đỗ vào trường Đại học Kinh tế Quốc dân

Trang 10

CHUONG 1:

CO SO LY THUYET

Trong chương 1, người viết giới thiệu đến người doc các ly thuyết được

áp dụng để phân tích số liệu từ bảng hỏi Để hiểu rõ hơn các khái niệm, phương phương, ứng dụng và sự cần thiết của việc áp dụng phương pháp

mang Bayesian.

1.1 MANG BAYESIAN 1.1.1.Khai niém

Mang Bayes (tiếng Anh: Bayesian network hoặc Bayesian belief networkhoặc belief network) là một mô hình xác suất dạng đồ thị

Một mạng Bayes được biểu diễn bởi một đồ thị, trong đó các nút đại diệncho các biến, còn các cung đại diện cho các phụ thuộc có điều kiện Phân phối

xác suất có điều kiện phụ thuộc (joint probability distribution) của các biến đượcxác định bởi cau trúc dé thị của mạng Cấu trúc đồ thị của một mạng Bayes dẫn

tới các mô hình dễ giải thích, và tới các thuật toán học và suy luận hiệu quả Các

nút có thé đại diễn cho đủ loại biến, một tham số đo được, một biến ấn (latent

variable) hay một giả thuyết, chứ không nhất thiết phải đại diện cho các biến

ngẫu nhiên.

Một mạng Bayes là một đồ thị có hướng phi chu trình mà trong đó:

« _ Các nút biểu diễn các biến;« _ Các cung biéu diễn các quan hệ phụ thuộc thống kê giữa các biến và phân

phối xác suất địa phương cho mỗi giá trị nếu cho trước giá trị của các cha

Tran Thi Thanh Huong - 11142031 3

Trang 11

Hình 1.1: Một mạng Bayes đơn giản với các bảng xác suất có điều kiện

1.1.2 Thuật toán Bayes

Thuật toán hiệu quả ton tại mà thực hiện suy luận và học tập trong mạngBayesian Mang Bayesian mô hình chuỗi các biến (ví dụ như tín hiệu thoại hoặc

chuỗi protein) được gọi là mạng Bayesian động Việc khái quát hóa các mạng

Bayes có thé đại diện và giải quyết các van đề quyết định dưới sự không chắcchắn được gọi là sơ đồ ảnh hưởng

Trong lĩnh vực Data Mining, Bayes Theorem (hay Bayes’ Rule) là kỹ

thuật phân lớp dựa vào việc tinh xác suất có điều kiện Bayes’Rule được ứng

dụng rất rộng rãi bởi tính dễ hiểu và dễ triển khai.

Bayes' Rule (CT1)

P(DIh) P(hlD) = P(h) PID)

Trong do:

D: Data

h: Hypothesis (gia thuyét)P(h): Xác suất giả thuyết hP(DIh): Xác suất có điều kiện D khi biết giả thuyết hP(D): xác suất của dit liệu quan sát D không quan tâm đến bat kỳ giảthuyết h nào

, „P(DỊh)

Tỷ sô P(D) : Chi số liên quan (irrelevance index) dùng dé do lường sự

liên quan giữa 2 biến Nếu irrelevance index =1, có nghĩa hai biến không liên

quan nhau.

P(hID) :Xác suất có điều kiện h khi biết DTrong rất nhiều ứng dụng, các giả thuyết hj có thé loại trừ nhau và vi ditliệu quan sát D là tập con của tập giả thuyết cho nên chúng ta có thé phân rã P(D)

Trang 12

(CT4) gọi là Bayes’s Theorem.

1.1.3 Ứng dụng Bayes Theorem trong phân lớp dữ liệu (Naive Bayes

Biểu thức này, nếu tính được, sẽ giúp chúng ta xác định được xác suất déđiểm di liệu rơi vào mỗi class Từ đó có thé giúp xác định class của điểm dữ liệuđó bằng cách chọn ra class có xác suất cao nhất:

Từ (3) sang (4) là vì quy tắc Bayes Từ (4) sang (5) là vì mẫu

số p(x) không phụ thuộc vào c

Tiếp tục xét biéu thức (5), p(x) có thé được hiểu là xác suất dé một điểm

rơi vào class cc Giá tri này có thé được tính bang MLE, tức ti lệ số điểm dữ liệutrong tập training rơi vào class này chia cho tổng số lượng dữ liệu trong tậptraing; hoặc cũng có thê được đánh giá bằng MAP estimation Trường hợp thứnhất thường được sử dụng nhiều hơn

Thành phan còn lại p(x), tức phân phối của các điểm dữ liệu trong class ¢,

thường rất khó tính toán vì x là một biến ngẫu nhiên nhiều chiều, cần rất rất

nhiều di liệu training để có thể xây dựng được phân phối đó Dé giúp cho việc

tính toán được đơn giản, người ta thường giả sử một cách đơn giản nhất rằng các

thành phan của biến ngẫu nhiên x là độc lập với nhau, nêu biết ¢ Tức là:

p(xle) =p(x;,x;, xzÌe) =k pl; le) (6)

Trang 13

Giả thiệt các chiêu của dữ liệu độc lập với nhau, nêu biệt c, là quá chặt va

ít khi tìm được dữ liệu mà các thành phần hoàn toàn độc lập với nhau Tuy nhiên,giả thiết ngây ngô này lại mang lại những kết quả tốt bat ngờ Giả thiết về sự độclập của các chiều dữ liệu này được gọi là Naive Bayes Cách xác định class của

dữ liệu dựa trên giả thiết này có tên là Naive Bayes Classifier (NBC)

NBC, nhờ vào tính đơn giản một cách ngdy tho, có tốc độ training và test

rất nhanh Việc này giúp nó mang lại hiệu quả cao trong các bài toán large-scale

Ở bước training, các phân phối p(c) và p(x;Ìc), i=1,2, d sẽ được xác

định dựa vào training data Việc xác định các giá trị này có thé dựa

vào Maximum Likelihood Estimation hoặc Maximum A Posteriori.

Ở bước test, với một điểm dữ liệu mới x, class của nó sẽ được xác đinh

bởi:

C = arg IH3AXee{1,.c} p(c) TI¡ pGŒ;le) (7)

Khi d lớn và các xác suất nhỏ, biéu thức ở về phải của (7) sẽ là một số rấtnhỏ, khi tính toán có thé gặp sai số Dé giải quyết việc này, (7) thường được viếtlại dưới dạng tương đương bằng cách lấy log của về phải:

arg maxcers,c)P(C) [H&:p(xle) = log(p(©)) + XŠ-,log(px,lc))

Cả việc training và test cua NBC là cực kỳ nhanh khi so với các phương

pháp classification phức tạp khác Việc giả sử các thành phan trong dữ liệu là độc

lập với nhau, nêu biết class, khiến cho việc tính toán mỗi phân phối (%;Ì£) trở

nên cực kỳ nhanh.

Mỗi giá trị p(c), c=1,2, ,C có thé được xác định như là tần suất xuất

hiện của class cc trong training data.

Việc tính toán ø(+;Ìc} phụ thuộc vào loại dit liệu Có ba loại được sử

dụng phổ biến là: Gaussian Naive Bayes, Multinomial Naive Bayes va Bernoulli

Naive.

Trang 14

1.2 GIA TRI THONG TIN IV (INFORMATION VALUE) VÀ TRỌNG

LUC BANG CHUNG WOE (WEIGHT OF EVIDENCE)

1.2.1 Giá trị thông tin IV INFORMATION VALUE) 1.2.1.1 Nội dung của giá tri thông tin IV

Thông thường khi xây dựng một mô hình hồi quy, việc lựa chọn các biếnđộc lập không hề đơn giản Biến phụ thuộc (biến mục tiêu) chịu tác động của

nhiều yếu tố khác Bước đầu, khi lựa chọn các biến độc lập ta không thé tránh

khỏi việc lựa chọn các biến có cường độ dự báo quá yếu so với biến phụ thuộc.Với các biến độc lập mang giá trị thông tin quá yếu thì việc phát triển mô hình

hồi quy là vô nghĩa.

Các giá trị thông tin (IV) của một yếu tô dự báo có liên quan đến tổng cácgiá trị (tuyệt đối) cho WOE trên tất cả các nhóm Do đó, nó thé hiện số lượngthông tin chân đoán của một biến dự báo đề tách Good khỏi Bad

1.2.1.2 Công thức áp dung tinh giá tri thông tin IV

Các giá trị thông tin (IV) cho dự đoán rằng có thé được tính như sau:

IV

mỉ [(ran số của quan sat Good — Tan số của quan sat Bad) *

Tần sẽ của quan sắt Good

BC |

Tần sẽ của quan sắt Bad

Trong đó: (Tần số quan sát Good/Tần số quan sát Bad) được sử dụng

trong công thức này ở định dạng thập phân.

1.2.1.3 Ý nghĩa của giá trị thông tin IV

Theo Siddiqi (2006), theo quy ước, các giá trị của thống kê IV có thé đượchiểu như sau Nếu số liệu thống kê 7V là:

Giá trị thông tin IV Ý nghĩa của giá trị thông tin IV

Nhỏ hơn 0.02 Biến có sức mạnh dự đoán rất yếu so với biến mục tiêu

hay nói cách khác khả năng dự báo của biến là vô nghĩa0.02 đến 0.1 Biến có sức mạnh dự đoán yếu so với biến mục tiêu

0.1 đến 0.3 Biến có sức mạnh dự đoán trung bình so với biến mục tiêu0.3 đến 0.5 Biến có sức mạnh dự đoán tốt so với biến mục tiêu

Lớn hơn 0.5 Biến đáng ngờ và cần phải kiểm tra

Giá tri thông tin IV càng cao càng thể hiện dự đoán so với mục tiêu là tốt

tuy nhiên các biến có đặc tính với IV lớn hơn 0,5 nên được kiểm tra và lưu ý đến,

Trang 15

chúng phải được loại bỏ, xem xét nên đưa vào mô hình hay không hoặc sử dụng

một cách có kiểm soát Cũng như các giá trị bất thường-outlier; nếu tất cả cácbiến có giá trị như nhau và chỉ có 1 vài biến có sức mạnh cao vượt thì ta vẫn có

thể xem xét cho đưa vào mô hình Tuy nhiên nếu các biến đều có giá trị IV caobất thường cũng sẽ kéo lệch mô hình theo từng nhóm của nó, khiến các bién khác

không còn nhiều ý nghĩa, mô hình có thé chỉ phụ thuộc một biến

Equation yoath*x » ¥

Adj R-Square 0.90163 Linear Fit of ¥

Value Standard Error

những cấu thành đặc điểm khác nhau (bao gồm điểm yếu hoặc mạnh)

Tác giả giới thiệu một số thước đo được sử dụng rỗng rãi trong thống kê,chúng ta có thé tham khảo một vài thước đo dưới đây Chúng được coi là một cácsự thay thế cho IV Tuy nhiên, không thể phủ nhận IV là một biện pháp hữu íchvà được áp dụng phô biến trong các ngành Những ưu điểm nổi trội của IV demlại đáng được ghi nhận IV là một trong đó các quy tắc rất thuận lợi cho việc biếncác sự lựa chọn kết hợp với IV Dưới đây là các thước đo khác nhau chúng ta cóthể tham khảo cho việc thay thế IV; các thống kê thường được sử dụng trongngành nay bao gồm Gini va chi-square

Trang 16

v? » (Quan sắt thứ ï— Dự kiến thứ ñÊ

~ Loni Dự kiến thứ ï

Với giá trị giới hạn nhỏ nhất là 0.5Thống kê này được phân phối theo phân phối chi bình phương với mức độtự do tương đương với số lượng tham số theo giả thuyết thay thế và số lượng

tham số theo giả thuyết không

SỐ định tính, môi biên số có thể có nhiêu định loại.

X°/

in

mim ¢i—3)(j-4)

Trong đó: X°: Thống kê chi bình phương

N: Tổng số quan sátmin ¢;-1)¢j-1): Tối thiểu kích thước hàng trừ cột 1 và thứ nguyên cột trừ

hang |

i: SO cột

j: Số hang

e F-test là loại kiểm định độ phù hop của mô hình với R Square là chỉ

số dùng dé đánh giá độ phù hợp cua mô hình hồi quy

m;: Số quan sát trong nhóm thứ i

Ÿ: Trung bình tông thé của dữ liệu

K: Số lượng nhóm

¥,;: Quan sát thứ 7 trong nhóm thứ ¡ của nhóm K

N: Kích thước mẫu tông thể

se Gini

Trang 17

đoán của Bad.

và các mô hình cham diém tín dung

Trang 18

t: Tổng số cặp với các phản ứng khác nhau của Good/Bad

n„: Số cặp trường hợp trong đó trường hợp có giá trị phản hồi có thứ tự

thấp hơn có điểm số trung bình được dự đoán thấp hơn so với trường hợp có giátrị phản hồi có thứ tự cao hơn

ng: Số lượng các cặp trong trường hợp giá trị phản hồi có thứ tự thấp hơn

có diém số trung bình được dự đoán cao hơn so với trường hợp có giá trị phảnhồi có thứ tự cao hơn

1.2.2 Trọng lực chứng cứ WoE (WEIGHT OF EVIDENCE) 1.2.2.1 Nội dụng của trọng lực chứng cứ WoE

Mục đích của WoE là cung cấp các giá trị linh hoạt cho các giá trị trongcác biến dự báo liên tục và phân loại thành các danh mục rời rạc một cách tựđộng và gán cho mỗi loại một giá trị WoE duy nhất Việc ghi lại này được thực

hiện theo cách sẽ tạo ra sự khác biệt lớn nhất giữa các nhóm được mã hóa lại vàcác giá trị WoE Ngoài ra, khác các ràng buộc được quan sát thấy trong khi

chương trình xác định các giải pháp cho "binning" tối ưu của dự đoán

Với sự phát triển và thực hiện chấm điểm tín dụng thông minh thì việc môtả chi tiết sự phát triển của phiếu ghi điểm là nguồn dit liệu tuyệt vời và vai trò

của mã hóa WoE trong ghi điểm tin dung là Siddiqi (2006) đáng được ghi nhận

Ý nghĩa của WoE là phân tích các quan sát vào các nhóm có badrate thíchhợp, dé đảm bảo các nhóm của biến hoạt đọng đúng như trong thực tế từ đó đảmbảo mô hình có tính chính xác và ồn định

1.2.2.2 Ứng dụng của trọng lực chứng cứ WoE

Các phương pháp được mô tả ở đây đã được phát triển chủ yếu cho cácngành công nghiệp tín dụng và tài chính dé hỗ trợ xây dựng mô hình dé dự đoánrủi ro mặc định cho vay Một khi lịch sử dữ liệu tồn tại mô tả hiệu suất của cáckhoản vay, các mô hình dự báo có ý nghĩa có thê được xây dựng đề dự đoán xác

suât nợ mặc định dựa trên các đặc điêm khác nhau (dau vào hoặc dự đoán) mô tả

Trang 19

người nộp đơn và hoặc đơn đăng ký Một ví dụ điển hình về kết quả của các môhình như vậy là "Scorecard” nơi các đặc điểm của người nộp đơn như tudi củamột cá nhân hoặc doanh nghiệp, lịch sử tín dụng trước đó, được biểu thị dưới

giao diện người dùng này được mô tả trong các phần tương ứng mô tả các hộp

thoại mã hóa WoE tự động.

1.2.2.3 Mã hóa tối ưu của dự đoán hay trend của WoE

e Trend cua WoE là chỉ xu hướng, tại sao phải dam bảo WoE của các nhóm có tính xu hướng ?

e Xu hướng thường có hình dạng gì thì hợp lý: di lên, đi xuống, dang

hình chữ V hoặc chữ U.

Mục tiêu của thuật toán được thực hiện trong WoE tự động là xác định các

nhóm tốt nhất cho các biến dự đoán sẽ dẫn đến sự khác biệt lớn nhất trong WoEgiữa các nhóm Đối với các biến liên tục, WoE tự động xác định sự giải mã tốtnhất cho các giá trị cân bằng Đối với các yếu tố dự đoán hoặc tương tác theodanh mục giữa các dự báo được mã hóa, người dùng có thể kết hợp các nhóm vớiWoE được quan sát tương tự dé tạo các yếu tố dự báo được mã hóa mới với giátrị trọng số bằng chứng liên tục

> Biến liên tục

Đối với các tiên đoán liên tục, đầu tiên một mã hóa mặc định được bắtnguôn bằng thuật toán Phân loại và hồi quy cây (C & RT) Đối với các danh mục

mặc định có ít hơn 20 nhóm STATISTICA sẽ tìm kiếm một cách rõ ràng tất cả

các kết hợp có thể có của các nhóm mặc định đạt được số lượng nhóm ít nhất có

Giá trị thông tin lớn nhất (IV) Khi số lượng nhóm lớn hơn 20, STATISTICA sửdụng phương pháp CHAID CHAID phương pháp tiếp cận là một sửa đổi đối với

thuật toán CHAID thay vì thông lệ tiêu chí, thay đôi trong WoE được sử dụng

làm tiêu chí.

Có ba loại giải pháp mã hóa WoE bị hạn chế:* Các giải pháp đơn điệu, trong đó các giá trị WoE của tat cả các nhóm

được mã hóa liền kề (khoảng thời gian) hoặc sẽ tăng (mối quan hệ đơn điệu

Trang 20

dương của khoảng thời gian dự đoán đến WoE), hoặc giá trị WoE của tất cả các

nhóm được mã hóa liền kề sẽ luôn giảm (mối quan hệ đơn âm tiêu cực của

khoảng thời gian dự đoán đến WoE)

* Các giải pháp bậc hai, trong đó mối quan hệ giữa các phạm vi giá triđược mã hóa (khoảng thời gian) để WoE có thé có một dao ngược duy nhất décác chức năng kết quả là một trong hai Hình chữ U hoặc hình chữ U ngược

* Các giải pháp khối, trong đó mối quan hệ giữa các phạm vi giá trị đượcmã hóa (khoảng thời gian) với các giá trị WoE có thé là hai lần đảo ngược saocho hàm kết quả là hình chữ S

Hai loại giải pháp mã hóa WoE không bị giới hạn được cung cấp:

» Mã hóa tùy chỉnh dựa trên gộp nhóm mặc định với C & RT hoặc 10

nhóm bằng nhau có kích thước bằng nhau

* Mã hóa không hạn chế dựa trên giải pháp tùy chỉnh sau khi chạy timkiếm đầy đủ hoặc thuật toán CHAID

Lưu ý rằng có thê điều chỉnh trước thuật toán dé đảm bảo rang mỗi bin thỏamãn N tối thiểu và tối thiêu các tham số được chỉ định của người dùng Bad N

> Biến phân loạiĐối với các dự báo phân loại (rời rạc), nhóm mặc định (ban đầu) đượctinh chỉnh thêm bằng cách sử dụng phương pháp CHAID đã sửa đôi

Hai loại giải pháp mã hóa WoE không bị giới hạn được cung cấp:

» Tùy chỉnh mã hóa được dựa trên các gộp nhóm mặc định của nhóm.

¢ Mã hóa không hạn chế dựa trên phân loại mặc định được cung cấp bởithuật toán CHAID đã được sửa đổi

Lưu ý rằng các thùng ban đầu có thể được điều chỉnh trước thuật toán déđảm bảo rằng mỗi thùng thỏa mãn các thông số N tối thiểu và N tối thiểu được

tuy nhiên, mé-dun có tính hữu dụng đặc biệt cho các dự đoán liên tục, dé đạt

được mã hóa WoE tốt nhất cho mô hình tiếp theo (ví dụ, sử dụng hồi quy

logistic).

Trang 21

Cụ thể, mục tiêu của các thuật toán được thực hiện trong mô-đun WoE tựđộng là xác định các nhóm tốt nhất cho các biến dự đoán sẽ dẫn đến sự khác biệtlớn nhất trong WoE (đồng bằng WoE) giữa các nhóm và các nhóm liền kề

(khoảng) cho các dự đoán liên tục.

Thuật toán được thực hiện trong Statistica dé xác định mã hóa tốt nhất của

các dự đoán liên tục để tối đa hóa số tiền thu được từ WoE Delta như sau

Đối với các tiên đoán liên tục, đầu tiên một mã hóa mặc định được bắt nguồnbang thuật toán Phân loại và hồi quy cây (C & RT) Đối với số lượng nhỏ các danhmục mặc định (ít hơn 20 hoặc hơn), Statistica sẽ tìm kiếm một cách rõ ràng tất cảcác phân vùng có thê (kết hợp các nhóm mặc định) dé đạt được số lượng nhóm nhỏnhất có Giá trị thông tin lớn nhất (IV) Khi số lượng nhóm lớn hơn 20, Statistica sử

dụng phương pháp CHAID (được mô tả sau trong tài liệu này).

Đối với các dự báo phân loại (rời rạc), nhóm mặc định (bản sốc) được

tinh chỉnh thêm bằng thuật toán CHAID; Tuy nhiên, thay vì phong tục square giá trị và chức năng mục tiêu đó thường được sử dụng trong CHAID déxác định xem và làm thé nao dé kết hợp nhóm, một sửa đổi CHAID thuật toánđược sử dụng với mục tiêu kết hợp/ nhóm phân chia sử dụng Delta WOE dé kết

Chi-hợp/tách tiêu chí.

Tối ưu hóa so với mã hóa tốt nhất Lưu ý rằng các thuật toán được sửdụng để tìm mã hóa WoE tốt nhất sẽ không tìm kiếm hết sức thông qua tất cả cácphân vùng có thể có của các dự đoán liên tục Do đó, kết quả không được bảođảm là giải pháp tối ưu, nhưng chỉ là giải pháp tốt nhất trong số các giải pháp

được tìm kiếm Đây là một đặc tính mà phương pháp này chia sẻ với nhiều thuật

toán mô hình tiên đoán, chăng hạn như Cây, Lưới thần kinh, v.v., cũng không

được dam bảo dé đạt được các giải pháp tối ưu toàn cầu, nhưng sẽ trả về các giải

pháp "tốt" thay thế và thông qua nhiều ứng dụng và thử nghiệm trong thế giới

thực, các thuật toán được thực hiện trong mã hóa WoE tự động đã được chứng

minh để trả về các giải pháp tuyệt vời trong thực tế tất cả các trường hợp

> Các ràng buộc cho dự đoán liên tục

Các thuật toán cho việc tạo ra mã hóa mặc định cho các yếu tố dự báo liên

tục cho phép chúng tạo ra các giải pháp "hạn chế", ngoài việc nhóm các giá trị

không bị giới hạn tốt nhất mối quan hệ với tỷ số chênh trước đây thảo luận Ví dụ,

trong các ứng dụng điểm tín dụng nó thường quan trọng dé có thé biện minh cho

mô hình dựa trên cảm giác chung lập luận vì giám sát quản lý điều này có nghĩa,

ví dụ, rắng tuyên tính đơn giản hay đơn điệu môi quan hệ của các giá trị dự báo

Trang 22

(giá tri dự báo WoE đã được mã hóa lại) với tỷ lệ chênh lệch (mặc định) thích

hợp hơn cho các mối quan hệ phức tạp hơn

Ví dụ: Hãy xem xét biến Độ tuổi và mối quan hệ của nó với rủi ro tín dung

mặc định Nó sẽ là điều mong muốn, và phù hợp với lý lẽ thông thường rằng

những người đăng ký tín dụng cũ hơn (với lịch sử tín dụng dai hon, tai sản lớn

hơn, vv) sẽ đặt ra rủi ro mặc định thấp hơn người đăng ký trẻ Do đó, mối quanhệ đơn điệu giữa các giá trị mã hóa cho Tuổi đến WoE sẽ là mong muốn và thích

hợp hơn các mối quan hệ phi tuyến phức tạp

Trong Statistica tự động hóa mã hóa WoE, có ba loại giải pháp mã hóa

WoE bị ràng buộc mà chương trình sẽ tính toán tùy thuộc vào sự tỒn tại của

chúng:

e Các giải pháp đơn điệu, trong đó các giá trị WoE của tất cả các nhómđược mã hóa liên kề (khoảng) sẽ tăng (mối quan hệ đơn điệu dương của khoảngthời gian dự đoán tới WoE), hoặc giá tri WoE của tất cả các nhóm được mã hóaliền kề sẽ luôn giảm (mối quan hệ đơn âm âm của khoảng dự đoán dé WoE)

e Các giải pháp bậc hai, trong đó mối quan hệ giữa các khoảng giá trịđược mã hóa (khoảng thời gian) với WoE có thê có một đảo ngược đơn sao chohàm kết quả là hình chữ U hoặc hình chữ U ngược

e Các giải pháp Cubic, trong đó mối quan hệ giữa các giá trị được mã hóa(khoảng) với các giá trị WoE có thé có hai lần đảo ngược sao cho hàm kết quả làhình chữ S.

Tóm lại, mô-đun mã hóa WoE tự động sẽ xử lý số lượng lớn các ứng cửviên dự đoán dé lay được mã hóa WoE ràng buộc (đơn giản) và các giải pháp mã

hóa WoE không bi ràng buộc 1.2.2.4 Công thức áp dụng tính trọng lượng chứng cứ WoE

Đo lường sức mạnh của từng thuộc tính hoặc các thuộc tính được nhóm,

trong việc tách biệt các tài khoản Good và Bad Đó là thước đo sự khác biệt về tỷ

lệ Good và Bad trong mỗi thuộc tính (nghĩa là tỷ lệ cược của một người có thuộc

tính đó là tốt hay xấu) WOE dựa trên tính toán tỷ lệ cược

(Tần số quan sát Good/Tần số quan sát Bad)

WoE= [in eee số quan sắt —Ì #100

Tần số quan sắt Bad

Phép nhân bằng 100 dựa trên sở thích cá nhân và được thực hiện dé làm

cho các sô dé làm việc hơn.

Trang 23

0 nếu tỷ lệ giữa tần số quan sắt Good bằng tần số quan sắt Bad WoE =4 < 0 nếu tần số quan sắt Good "nhỏ hơn" tần số quan sắt Bad

> 0 nếu tần số quan sắt Good "lớn hon" tần số quan sat Bad

1.2.3 Ví dụ minh họa về bài toán Giá trị thông tin IV và Trọng lượng của

chứng cứ WoE

Đề người đọc hiểu rõ hơn về cách tính các giá trị của Giá trị thông tin IVvà giá trị của Trọng lượng bằng chứng WoE ta xét bài toán với chính Bảng hỏi

được tạo ra với biến “trường học” là X;, với 3 nhóm trường học bao gồm: Nhóm

1: Trường công lập và bán công; Nhóm 2: Trường chuyên; Nhóm 3: Trường dân

lập Với quy ước: Bad là mức điểm sàn của trường Đại học Kinh tế Quốc dân 21đến 23 điểm; Good là mức điểm từ 24 điểm trở lên Dưới đây là các giả thiết

được đặt ra:

Trong đó:

Số quan sat Bad;

9 'o i/_% Bad; = răng số quam sắt; “100

mn oe Số quan sat Bad;

Tan số quan sat Bad ; = đăng số quan sắt Bad

se Số quan sat Good,Tan số quan sat Good ; = ' rồng số quan sắt Good

te ge 8 Tan số quan sat Good;

Giá trị của WoE , = |ln | ——.—— } |* 100

Tan s6 quan sat Bad;

IV=

mỉ [trần số của quan sắt Good — Tần số của quan sắt Bad) *

In(Tần sẽ của quan sắt —]

Tần sẽ của quan sắt Bad

Với nhóm 1 là nhóm bào gồm trường công lập và trường bán công, ta có:

Trang 24

_ | Tổng số quan sat Bad,

% Bad, = ring số quan sắt; 100

= (“2w )em = 63.3%

mw : $6 quan sat Bad

Tan số quan sat Bad , = Tring s6 quan sat Bad

_ 131 =

= 191/555 = 0.582

nm : Số quan sat Good

Tan số quan sat Good ¡ = Tring số quan sắt Good

= 7/59 = 0.422

Tan số quan sắt Good, ?)Ì = [in c= 422

Giá trị của WoE , = [in (een Cees nsaa | = - 0.321

Tần số quan sat Bad,

Tần số quan sat Good ¡ - Tần số quan sat Bad , = 0.422 —0.582 = - 0.16

(Tan số quan sắt Good ¡ - Tần số quan sat Bad ;)* WoE ,= (-0.16)*(-0.321)

= 0.0514

Tương tu ta tinh được giá trị trơng đương cho nhóm 2 va nhóm 3 Gia tri

thông tin mà biến “trường học” mang lại là:

IV = 0.0514 + 0.0958 + 0.2499 = 0.3972

Như vậy sau các bước tính trên ta tinh được Giá tri thông tin của biến đem

Trang 25

1 207 |131 |76 |6ó3.3% 0.582 J0.422 -0.321 |-0.160 |0.0514

2 112 J7§ |34 |69.6% 0.347 |0.189 -0.607 |-0.158 |0.0958

3 86 |69 17 |80.2% 0.307 J0.094 -1.178 |-0.212 |0.2499

Total |405 |225 |180 Information Value|0.3972

Trang 26

chúng ta sẽ cùng xem xét kỹ hơn quá trình thiết lập bảng hỏi, các ý nghĩa củabiến được chọn lọc trong bảng hỏi

Tiêu đề	Ứng dụng Phương Pháp BAYESIAN NETWORK để Phân Loại Khả Năng Đỗ Vào Trường Đại Học Kinh Tế Quốc Dân
Tác giả	Trần Thị Thanh Hương
Người hướng dẫn	TS. Hoàng Đức Mạnh
Trường học	Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành	Toán Kinh Tế
Thể loại	Chuyên đề thực tập chuyên ngành
Năm xuất bản	2018
Thành phố	Hà Nội

Định dạng
Số trang	53
Dung lượng	15,57 MB