1. Trang chủ
  2. » Luận Văn - Báo Cáo

Chuyên đề thực tập: Hiệu quả của kỹ thuật phân nhóm dữ liệu theo WOE (Weight of Evidence) trong bài toán phân loại sử dụng mô hình Logistic và thuật toán học máy

101 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TE QUOC DAN KHOA TOÁN KINH TẾ

CHUYÊN ĐÈ THỰC TẬP

CHUYEN NGÀNH TOÁN TÀI CHÍNH

Dé tai:

HIEU QUA CUA KY THUAT PHAN NHOM DU

LIEU THEO WOE (Weight of Evidence) TRONG BAI TOÁN PHAN LOẠI SỬ DUNG MÔ HÌNH LOGISTIC

VÀ THUẬT TOÁN HỌC MÁY

Giảng viên hướng dẫn : Ths Nguyễn Thị Liên

Hà Nội, 2022

Trang 2

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến Thạc sĩ Nguyễn Thị Liên — Giang viên bộ môn Toán Tài chính, khoa Toán Kinh tẾ, trường Đại học Kinh tế

Quốc dân đã đồng hành và hướng dẫn em hoàn thành chuyên đề thực tập này.

Em xin gửi lời biết ơn sâu sắc đến các thầy cô khoa Toán Kinh tế đã luôn tận

tình truyền dạy kiến thức và định hướng cho sinh viên chúng em Đó là những kiến thức cần thiết, là hành trang quý báu dé chúng em từng ngày hoàn thiện và tự tin cống hiến hết mình cho sự nghiệp sau này.

Bên cạnh đó, em cũng chân thành cảm ơn người thân trong gia đình, bạn bẻ

đã lăng nghe, chia sẻ và tạo điều kiện, nhiệt tình hỗ trợ, luôn là điểm tựa giúp em yên tâm bước chân vững chắc trên cả chặng đường của quá trình học Đại học.

Tuy nhiên, do trình độ của bản thân còn nhiều mặt hạn chế, đề tài có thể còn nhiều mặt chưa được hoàn chỉnh Vì vậy, em rất mong nhận được những lời góp ý từ thầy cô và bạn học dé bài đề tài trở nên hoàn thiện hơn Thêm vào đó, em hy vọng đề tài này sẽ mang tính ứng dung cao, có thé áp dụng kết quả nghiên cứu dé cải thiện về

mô hình của các ngân hàng, doanh nghiệp, trong các bai toán phân loại.

Cuối cùng, em xin kính chúc các thầy cô đồi dao sức khỏe và thành công trong

cuộc song.

Em xin chan thanh cam on!

Sinh vién thuc hién,

Nguyễn Thi Thu Ha

Trang 3

MỤC LỤC

LỜI MỞ DAU oiceescsssessesssesssesssesssessecssecssessusssecssessusssusssecssessssssessssssessusssesssesssessessseeases 1

1 Lý do lựa chọn để taiccecceccecccccccsssssssscsscsscsscssessesscsucssssessessessesscsuessesscsssessessesseeseanees 1

2 Mục tiêu nghiÊn CỨU G1 1919931991119 11H nh HH nh 33 Phương pháp nghiÊn CỨU - . - «+ 1t 1 931931 1 ng HH ng nh nh nàn 3

5 Dự kiến kết quả -:- + 2 + £+S£+E£EE£EEEEEEEE2E1211215217171111111211 1111111111 c0.5

6 Ket cau 0ýn) 0 Nga ˆOỪ Ầ 5 CHƯƠNG 1: CƠ SỞ LÝ THUYET VA TONG QUAN NGHIÊN CỨU 6

1.1 Cơ sở lý thuyết về bài toán phân loại - - +: + 2+ ++££+E£+E££EerEerxerxerxrrezes 6

1.2 Các phương pháp sử dụng trong bài toán phân loại ¿++-+++s<++s+ss 8

1.2.1 Phương pháp mô hình LOB1SfIC - 5 5 + 1x1 rkeeeekrrrrkrrke 81.2.1.1 Phương pháp Goldberger ((196⁄‡) - sư 81.2.1.2 Phương pháp Berkson ((1953) c c 1x 1x 1 1 1191 11 8 rệt 9

1.2.1.3 Ưu nhược điểm của mô hình LOgistiC 2 2 2522 x£s+zszss2 10

1.2.2 Phương pháp học mấy - 5 +2 2331193115113 11111 1111 ng ng rưy 10

1.2.2.1 Học máy là gì -¿- ¿- + 2212 kEEEE21211211717112112111111 21121 11x 10

1.2.2.2 Một số thuật toán học MAY - 2 ¿+ s+++£++E++E£EezEerkerxersrreee 11

1.3 Kỹ thuật phan nhóm theo WOIE - + kg Hư, 15

1.3.1 Giới thiệu về kỹ thuật WOE ¿- ¿5c St E2 121121121121 11 11111 xe 15

1.3.2 Phương pháp phân nhóm theo kỹ thuật WOE - - 525cc sssssssseres 15

1.3.3 Ưu nhược điểm của kỹ thuật WOE 2-55 ©522c2+EEvEEeEEEEerxerkerree 17

1.4 Mô hình Logistic kết hợp kỹ thuật WOE 2- 52c ©5£222EE‡EEtZEzEerxerrree 17 1.4.1 Dang tổng quát mô hình 2 ¿¿++++E+++Ex++E++E+++zx++zxezxxerxeerxee 17 1.4.2 Đặc điểm mô hình 2- 2-52 %+Sk£SE£E2EEEEEEEEEEEEEEEE2171 71121121 EErxe 17

1.4.3 Đánh giá mô hình 2-2 ©5£+2++2x£SE2E+2EEEEEEEEEEEEEEEEEEEEEEErrrrrrrkrrvee 18

1.4.3.1 Mục đích của việc đánh giá mô hình - 55+ ++s+++c+sxsesserss 181.4.3.2 Các chỉ tiêu đánh giá mô hình 2-5 ©5¿+£+x+£x+x+x+zzerxrseee 18

1.4.4 Công thức tinh điểm từ kết quả mô hình - 2 2 22 s2 £x+zs+zs+s+2 22 CHƯƠNG 2: THUC TRANG MỘT SO LĨNH VUC KINH TẾ XÃ HỘI 24

Trang 4

2.1 Tổng quan quy trình xây dựng thẻ điểm ngân hàng -. : 24 2.1.1 Sự cần thiết của thẻ điểm ngân hàng ¿ 2 525x+2zx+cxevrxesrxee 24 2.1.2 Quy trình xây dựng thẻ điểm cơ bản của Ngân hàng - 25

2.1.2.1 Lập kết hoạch xây dựng mô hình ¿2 2 s+x+££+£z+£x+rxrsez 25 2.1.2.2 Xem xét dữ liệu và thông sé dự AN ecccceccccccsessececeeseessseeeeeeeessaeees 26

2.1.2.3 Tạo lập cơ sở dit LGU o.ceecccescessesssesssesssessssssesssecssessssssecssecsuscsesssecssecseeenes 28

2.1.2.4 Phát triển mô hình - 2-2 + ©+£+S£+EE+EE+EE+EEE£EE+EEtEEezEerrerrxerxerree 28 2.1.2.5 Hậu kiểm mô hình - 2-2 ¿+ +£++£++£+EE£+EE+EEE£EE++EE++Exrrxerrxerrxee 30

2.2 Sự cần thiết của bài toán dự báo trong y học ¿- 2 x+cxczezresrxerxcres 31

2.3 Sự cần thiết của bài toán dự báo kha năng rời bỏ của khách hàng 32 CHƯƠNG 3: XÂY DUNG MÔ HINH LOGISTIC GIẢI QUYET MỘT SO BÀI

¡9 98:790097.1007 sa 34

3.1 Xây dựng mô hình Logistic với bài toán châm điểm khách hàng 34

3.1.2 Xây dung mô hình Logistic với dữ liệu phân nhóm WOE 36

3.1.2.1 Phân tích thống kê mô tả và kết quả nhóm dữ liệu WOE 36

3.1.2.2 i0 án 42

3.1.2.3 Phân tích kết quả hồi quy - + ¿+ E©E+EE+E++EE+EzEerEerxerxerxrree 42 E6 no nnn 43 3.1.2.5 Kiểm định mô hình 2-2 + ¿+ £+EE+EE£EE£EEESEEEEEtEErEerEkrrxerkerree 44

3.1.3 Xây dựng mô hình Logistic với dit liệu gốc - 2z scx+cs+cs+ce2 45

3.2 Xây dựng mô hình Logistic với bài toán dự báo ung thư 46

3.2.1 Mô tả dữ liệu -¿- ¿2+ ©++22E22EE2E12211271127121127112112211211 11121121 cre.463.2.2 Xây dựng mô hình Logistic với dữ liệu phan nhóm WOE 48

3.2.2.1 Phân tích thống kê mô tả và kết quả nhóm dit liệu WOE 48

3.2.2.2 Phân tích tương Quan - - c3 3221323135111 111111111 50

3.2.2.3 Phân tích kết quả hồi quy - 2-2 + +E2E++EE+£E+£EzEzEsrkerxerree 50 3.2.2.4 Bảng điỂm -:- 6S EEEEE1211211211211 1111111111111 11 1111 11k 51 3.2.2.5 Kiểm định mô hình ¿2-2 5¿+S£2E++EE+EEtEEEEEEEEEerErEerrrerxerkerree 52

3.2.3 Xây dựng mô hình Logistic với tập dữ liệu gốc "— 53

Trang 5

3.3 Xây dựng mô hình Logistic với bài toán dự báo khả năng rời bỏ của khách hàng¬ 543.3.1 MG ta dit 543.3.2 Xây dung mô hình Logistic với tập dữ liệu phân nhóm WOE 57

3.3.2.1 Phân tích thống kê mô tả và kết quả nhóm dữ liệu WOE 57

3.3.2.2 Phân tích tương Quañ - c 132113123111 1113 11 1111 11 E111 ng rry 58

3.3.2.3 Phan tích kết quả hồi quy - 2 2 + +E2E++EE+EE+EEzEzEzrxerxerxee 59

k8: cu ynn ,ÔỎ 59 3.3.2.5 Kiểm định mô hình - 2-2 £+S£+EE+EE+EEtEEE+EEEEEtEErEerrkrrkrrkerree 60 3.3.3 Xây dựng mô hình Logistic với tập dit liệu gỐc - ¿5 5 + +2 61

3.4 So sánh kết quả dự báo từ mô hình Logistic dé giải quyết ba bài toán phân loại

¬— 62

CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN HOC MAY GIẢI QUYẾT MỘT SO BÀI

TOÁN PHAN LOẠI 2: 2£ ©5£+S<EEE9EEEEEE2E1E21211211211717112111171211 111110 64

4.1 Kết quả dự báo từ thuật toán học máy với dữ liệu phân nhóm WOE 64 4.2 Kết quả dự báo từ thuật toán học máy với dit liệu gốc -::-s 64 4.3 So sánh kết quả dự báo giữa phương pháp mô hình Logistic và phương pháp

a0 65

CHƯƠNG 5: KET LUẬN VÀ KHUYEN NGHHỊ - 2-2 22s +x+£x+zvzsse2 67 5.1 Kết luận chung về đề tai .cececcecccscessessessecsessessessessessessessecssessessessesseesseeseeseees 67

5.2 Những hạn chế của dé tài - ¿- 2 2 x+SE2E2EE£EEEEEEEEEEEEEEEEEEEEExErkrrkrrei 68 5.3 Chính sách khuyến nghị 2-22 ++2++E+++EE+2EEtEEEEEEESEESEEerEkerkesrkrrrrees 68 DANH MỤC TÀI LIEU THAM KHẢO - 2-2 +2+2££+EEt£xezxzreerxerxrree 70

Isi000695 71

Trang 6

DANH MỤC TỪ VIET TAT

WOE Weight of Evidence

MAPE Mean Absolute Percentage Error

MLE Maximum Likelihood Estimation

LPM Linear Probability Model

OLS Ordinary Least Square

G GoodB Bad

Trang 7

DANH MỤC BANG

Bảng 1: Thông tin dit liệu trong đề tài -¿- 2 ¿+ +Sx+SE+EE+E£EeEEEEESEEEErEerkerkerkrreee 4 Bảng 2: Thang đánh giá chỉ số Gini -2 252 2SE‡EEEEEEE2EEEEEEEEEEErEkrrkerkrred 20 Bảng 3: Dạng ma trận nhầm lẫn 2-2 ¿5£ SE+SE£EE£EE£EE£EE+EEvEEtEEzEerrkrrrrred 21 Bảng 4: Thông tin các biến độc lập tap đữ liệu ngân hàng -.2- 52552 35 Bang 5: Thống kê mô tả và thông tin lựa chọn biến sau khi phân nhóm với tập dữ liệu

0118001115200 -4a- 37

Bảng 6: Thông tin liên quan biến “interest” sau khi chia thành 20 nhóm 38

Bảng 7: Thông tin liên quan biến “interest” sau khi chia lại nhóm - 39

Bảng 8: Thông tin liên quan biến “total_loan” sau khi chia thành 20 nhóm 40

Bảng 9: Ma trận tương quan các biến đã được chuyển đổi WOE tập dữ liệu ngân 9 43

Bảng 11: Bảng điểm cuối cùng với tập dữ liệu ngân hang phân nhóm WOE 44

Bang 12: Chỉ số Gini của mô hình từ tap dit liệu ngân hang phân nhóm WOE 44

Bang 13: Ma trận nhằm lẫn với tập dữ liệu ngân hàng phân nhóm WOE 45

Bảng 14: Chỉ số đo độ chính xác mô hình từ tập dữ liệu ngân hàng phân nhóm "9 45

Bảng 15: Ma trận nhằm lẫn mô hình Logistic với tập dữ liệu ngân hàng gốc 46

Bang 16: Thông tin các biến độc lập tập dữ liệu y sinh 2-2 2 z+sezxsxs 47 Bang 17: Phân biệt khối u lành tính và khối u ác tính -2- ¿22 s2£+zxz+se2 48 Bảng 18: Thông tin thống kê mô tả và lựa chọn biến sau khi phân nhóm theo kỹ thuật WOE v6i tap dit LGU y Sime 49

Bang 19: Ma trận tương quan các biến đã được chuyên đổi WOE tap dit liệu y

Trang 8

Bang 21: Thẻ điểm cuối cùng với tập dit liệu y sinh phân nhóm WOE 52 Bảng 22: Chỉ số Gini của mô hình xây dựng từ tập dữ liệu y sinh phân nhóm WOE

Bảng 23: Ma trận nhằm lẫn tập dit liệu y sinh phân nhóm WOE . 53 Bang 24: Chi số do độ chính xác mô hình từ tập dữ liệu y sinh phân nhóm

WOE 33

Bảng 25: Ma trận nhằm lẫn mô hình Logistic với tập dữ liệu y sinh gốc 54 Bang 26: Thông tin các biến độc lập tập dữ liệu viễn thông 2: 55 Bảng 27: Thống kê mô tả và thông tin lựa chọn biến sau khi phân nhóm với tập dữ

i0 2758/07 17777-““‹“‹1 57 Bảng 28: Ma trận tương quan các biến đã được chuyển đôi WOE tập dữ liệu viễn Bang 29: Ma trận tương quan các biến đã được chuyển đôi WOE tập dữ liệu viễn

thông có hệ số tương quan nhỏ hơn (.5 2-2 2+2 ESE£EE2E£+E££E+EE+EE+EEzEzEerszrs 5 Bảng 30: Kết quả hồi quy mô hình với tập dữ liệu viễn thông phân nhóm WOE

Bang 33: Ma trận nhằm lẫn tập dữ liệu viễn thông phân nhóm WOE 61 Bảng 34: Chỉ số đo độ chính xác mô hình từ tập dữ liệu viễn thông phân nhóm WOE

Bang 35: Ma trận nhằm lẫn mô hình Logistic với tap dit liệu viễn thông gốc 62

Bảng 36: So sánh kết quả dự báo từ mô hình Logistic với đữ liệu gốc và dữ liệu phân nhóm

Trang 9

Bảng 37: Ma trận nhằm lẫn kết quả từ thuật toán học máy trên tập kiểm định dữ liệu

Bảng 38: Ma trận nhằm lẫn kết quả từ thuật toán học máy trên tập kiểm định dữ liệu

phân nhóm WOE - c2 1222011201201 1 SH cm nh nh nh hy 65

Bảng 39: Chỉ số đo độ chính xác của các thuật toán trên từng tap dữ liệu, với G là dt liệu gốc và W là dữ liệu đã phân nhóm WOE -¿ ¿+-+++++++++++ -Ó5

Trang 10

DANH MỤC HÌNH VẼ

Hình 1: Đồ thi dang hàm Sigmoid -2- 2-52 2E E£SE£EE£EE+E£EEEESEEEEEEEErEerkerkerkee 8

Hình 2: Mô tả thuật toán Random FOreSf << 3333232222 EE£EEeeseeess 13

Hình 3: Mô tả thuật toán Gradient BOOSfITE - 5 G119 He, 14

Hình 4: Sơ đồ phương pháp xác định thời gian lay dữ liệu -5¿ 27 Hình 5: Biểu đồ số lượng good, bad và giá trị WOE từng nhóm của biến “interest”

[400810 210)00200:1105i 001157 39

Hình 6: Biểu đồ số lượng good, bad và giá tri WOE từng nhóm của biến “interest”

khi Chia lạI 2 22 1122231813231 1123311 12531 1110311 cư 40

Hình 7: Biéu đồ số lượng good, bad và giá tri WOE từng nhóm của biến “total loan”

khi chia thành 20 nhóm - + ¿2 E121 91 211 11 11 1 1123 1 H1 TH ngư 41

Hình 8: Hình anh so sánh tế bào thường và tế bào ung thư 2 555248

Trang 11

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

LOI MO DAU 1 Ly do lựa chọn đề tai

Trong các mô hình Kinh tế Lượng, có hai bài toán chính, đó là là bài toán dự

báo (đối với biến mục tiêu liên tục) và bài toán phân loại (đối với biến mục tiêu là rời

rac) Bài toán phân loại là lớp bài toán được ứng dụng phô biến trong nhiều lĩnh vực có thé kề đến như:

Phân loại khách hàng trong ngân hàng: Sự khác biệt về sức khoẻ tín dụng giữa các ngân hàng được đánh giá trên khả năng kiểm soát nợ xấu Các khoản cho vay của ngân hàng luôn tiềm an những nguy cơ vỡ nợ, do đó các ngân hàng cần phải đánh giá rủi ro đối với khách hàng của mình thông qua các mô hình phân loại nợ xấu để ra quyết định có cho vay hay không và vay với hạn mức, kỳ hạn, lãi suất là bao nhiêu Bên cạnh những biện pháp về phòng ngừa và tuân thủ, dé tạo ra một hệ thống quan

trị rủi ro hiệu quả, ngân hàng cần sử dụng các công cụ mô hình dé lượng hoá rủi ro

khách hàng.

Phân loại bệnh trong y sinh: Đây là một trong những lĩnh vực có nhiều tiềm năng phát triển và giúp giải quyết các vấn đề liên quan đến sức khoẻ con người Trong y sinh, một số mô hình phân loại giúp cho chúng ta đưa ra các chuẩn đoán bệnh dựa trên các chỉ số xét nghiệm đầu vào sơ bộ như huyết áp, đường huyết, hồng cầu, bạch cầu, tiểu cầu, Bên cạnh đó xử lý ảnh trong y sinh cũng là một lĩnh vực có tính ứng dụng cao Các mô hình thị giác máy tính có thé đưa ra những khuyến nghị cho bác sĩ về vị trí, kích thước và loại khối u,

Bên trên là một số ứng dụng nhỏ về tính hữu ích và sự phô biến của các bài toán phân loại Có thé thay rang, bài toán phân loại hiện tại đang giải quyết rất nhiều van dé mà con người đang phải đối mặt Đồng thời với vai trò to lớn của mình, nó đã và đang mang lại nhiều thay đổi cho nhân loại.

Dé giải quyết các bài toán trên, mô hình tốt nhất được dé xuất là mô hình Logistic Tuy nhiên, mô hình Logistic cần một dữ liệu đủ nhiều quan sát dé đảm bảo

tính chính xác của mô hình, đông thời gặp vân đê với các biên thiêu giá trị, các giá trị

Sinh viên thực hiện: Nguyễn Thị Thu Hà 1

Trang 12

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

ngoại lai và không thé đưa biến rời rac vào mô hình nếu không sử dung biến giả, nhưng, việc dùng biến giả cho các biến định tính có nhiều đặc tính hơn hai sẽ mat

nhiều bậc tự do, đặc biệt nếu mẫu quan sát nhỏ, ước lượng thu được không chính xác.

Đối với người xây dựng mô hình, việc tận dụng được tất cả các dữ liệu đang có thể hiện khả năng xây dựng tốt của họ Ví dụ như một bộ dữ liệu ngân hàng, với các biến như giới tinh, ta dé dang mã hóa 0 là nữ va 1 là nam Tuy nhiên, các biến như nghề nghiệp, loại sản pham vay dùng, rõ rang có tác động đến khả năng thanh

toán đúng hạn, vậy làm sao có thé đưa nó vào mô hình Logistic dé đưa ra quyết định

cho khách hàng vay hay không?

Câu trả lời, đó là có thé dùng kỹ thuật WOE (weight of evidence) dé rời rac

hóa một biến bằng cách chia nhóm mà các quan sát trong nhóm có đặc tính giống

nhau, mỗi nhóm được gắn một giá tri đại diện Day cũng là cách đơn giản để giải

quyết các van đề như thiếu quan sát, giá trị ngoại lai, bién rời rac, làm tăng tính chính

xác trong dự báo Một số nghiên cứu đã chỉ ra tính ưu việt của phương pháp này, cụ thé:

Regmi, Netra R., John R Giardino và John D Vitek (2010) đã nghiên cứu kha

năng sac lở đất bởi 17 yếu tố thông qua phương pháp WOE Băng cách kết hợp các yếu tô đại diện cho địa hình, thủy văn, địa chất, lớp phủ đất và ảnh hưởng của con người, sáu mô hình đã được phát triển Bản đồ kết quả của các khu vực dễ bị sạt lở

với phương pháp WOE có độ chính xác dự đoán là 78%.

Fang, Jintao (2019) đã xây dựng mô hình điểm tín dụng để phân tích nhiều tham số được thu thập thông qua các kênh khác nhau và dé xác định ai đủ điều kiện vay, ở mức lãi suất nào và giới hạn tín dụng Dự án này đã chỉ ra rằng, WOE là một phương pháp tiềm năng để cải thiện hiệu suất của mô hình điểm tín dụng.

Với sự cần thiết và nhu cầu thực tiễn của các lĩnh vực ngân hàng, y tế, điện tử

viễn thông, em quyết định lựa chọn đề tài “Hiệu quả của kỹ thuật phân nhóm dữ

liệu theo WOE (Weight of Evidence) trong bài toán phân loại sử dụng mô hình

Logistic và thuật toán học máy” Em hy vọng răng đây là một đề tài mang tính ứng

Sinh viên thực hiện: Nguyễn Thị Thu Hà 2

Trang 13

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

dụng cao, có thé áp dụng kết qua nghiên cứu nay dé cải thiện về mô hình của các

ngân hàng, doanh nghiệp, trong các bai toán phân loại.2 Mục tiêu nghiên cứu

Đề tài này trước tiên nghiên cứu về ưu nhược điểm của kỹ thuật WOE, từ đó

đưa ra những điều kiện, phương pháp dé sử dụng kỹ thuật WOE dé xử lý biến Bên

cạnh đó, đề tài đánh giá tính ứng dụng của kỹ thuật WOE trong các ngành: ngân hàng,

y học, viễn thông dé đưa ra dự báo, và từ dit liệu phân nhóm WOE sẽ được ứng dụng

vào mô hình Logistic và học máy Cụ thé:

- Phân tích ưu nhược điểm, điều kiện sử dụng và phương pháp áp dụng kỹ thuật WOE dé xử lý dữ liệu.

- So sánh hiệu quả dự báo khi sử dụng phương pháp mô hình Logistic và thuật

toán học máy giữa dữ liệu gốc và dữ liệu phân nhóm WOE, kỳ vọng kết quả sử dụng

dữ liệu phân nhóm WOE đưa ra dự báo chính xác hơn.

- So sánh hiệu quả dự báo giữa phương pháp mô hình Logistic và phương pháp

học máy, kỳ vọng phương pháp học máy đưa ra dự báo chính xác hơn.

3 Phương pháp nghiên cứu

Đề tài sử dụng kỹ thuật WOE dé rời rac hóa và phân nhóm dữ liệu, phân tích

tương quan dé lựa chọn biến và sử dụng hồi quy Logistic với dữ liệu gốc và dữ liệu

phân nhóm WOE dé đưa ra kết quả Quá trình này sử dụng ngôn ngữ SAS.

Bên cạnh đó, đề tài sử dụng một số thuật toán như Random Forest, Light GBM và XGBoost dé xây dựng mô hình hoc máy với dữ liệu gốc và dit liệu đã phân nhóm WOE để dua ra dự báo Quá trình này được thực hiện băng R.

4 Phạm vi và dữ liệu

Đề tài thực hiện nghiên cứu hiệu quả của kỹ thuật WOE khi áp dụng vào mô

hình bài toán phân loại trên 3 lĩnh vực: ngân hàng, y sinh và viễn thông Với tap dit

liệu ngân hàng, phạm vi nghiên cứu là những người nộp hồ sơ yêu cầu vay tiền của

ngân hàng, với tập dữ liệu y sinh là những bệnh nhân có khối u và với tập dữ liệu

viễn thông là những khách hàng đang sử dụng dịch vụ của công ty.

Sinh viên thực hiện: Nguyễn Thị Thu Hà 3

Trang 14

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Đề tài lựa chọn nhiều lĩnh vực nhằm mục dich kiểm tra tính ứng dụng đa dạng của kỹ thuật WOE với nhiễu loại dit liệu, kiêm tra sự phù hợp của kỹ thuật WOE với

từng bài toán thực tế Cả ba tập dit liệu này đều có biến phụ thuộc chuyên đôi được về hai giá trị 0 và 1, các biến độc lập có biến rời rạc, có giá trị ngoại lai nên thích hợp

dé đánh giá được tính ưu việt của kỹ thuật WOE khi xử lý biến Chi tiết các dữ liệu

sử dụng trong đề tài được tóm tắt tại bảng sau:

Bang 1: Thông tin dữ liệu trong dé tài

Loại Định nghĩa Mục tiêu Nguồn dữ liệu biến phụ thuộc mô hình dữ liệu

Khách hàng đã từng quá | Đánh giá khách hang có | https://www.datafo

hạn trong 90 ngày gần | khả năng quá hạn trong | untain.cn/datasets/

nhất, với quy ước: 90 ngày, từ đó đưa ra | 6274.

Ngân A, a: ⁄ ⁄om" | 1; Khách hàng đã quá hạn | quyết định có cho khách

hàng ` A

trong 90 ngay hàng vay hay không.

0: Khách hàng chưa quá

hạn trong 90 ngày.

Bệnh nhân có khối u, với | Đánh giá xem bệnh | https://www.kaggl quy ước: nhân có khối u lành tính | e.com/code/buddhi

Ysinh „ Ậ z :

B (1): Khối u lành tính có thê chuyên sang ác | niw/breast-cancer-M (0): Khối u ác tính tính hay không prediction/data

Sự gắn bó của khách hàng | Đánh giá khả năng | https://www.kaggl

với dịch vụ của công ty | khách hàng rời bỏ dich | e.com/datasets/bla

- viễn thông, với quy ước: | vụ của công ty

Trang 15

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

5 Du kién két qua

Xây dựng mô hình Logistic trên dit liệu đã được phân nhóm WOE cho kết qua dự báo ưu việt hơn khi xây dựng mô hình trên dữ liệu gốc, đồng thời phương pháp thuật toán học máy cho kết quả chính xác hơn phương pháp mô hình Logistic.

6 Kết cau chuyên đề

Đề tài gồm chương, cụ thể:

Chương 1: Cơ sở lý thuyết và tong quan nghiên cứu

Chương 2: Thực trạng một số lĩnh vực kinh tế xã hội cần thiết

Chương 3: Xây dựng mô hình Logistic giải quyết một số bài toán phân loại

Chương 4: Sử dụng thuật toán học máy giải quyết một số bài toán phân loại

Chương 5: Kết luận và khuyến nghị

Sinh viên thực hiện: Nguyễn Thị Thu Hà 5

Trang 16

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

CHUONG 1: CO SO LY THUYET VA TONG QUAN NGHIEN CUU

Trong chương này trình bày về co sở lý thuyết của bài toán phân loại, một số phương pháp giải quyết bài toán phân loại (cụ thể là phương pháp mô hình Logistic

và phương pháp thuật toán học máy).

Bên cạnh đó, chương này cung cấp lý thuyết tong quan về đặc điểm, điều kiện áp dụng, công thức, ưu nhược điểm của một kỹ thuật tiền xử lý dữ liệu trước khi tiễn hành xây dựng mô hình hay huấn luyện thuật toán, đó là kỹ thuật phân nhóm dữ liệu WOE (Weight of Evidence — trọng số băng chứng), đồng thời đưa ra phương pháp áp

dụng kỹ thuật này vào mô hình.

1.1 Cơ sở lý thuyết về bài toán phân loại

Mặc dù đến nay vẫn chưa có một khái niệm cụ thé được mọi người cùng chấp

thuận, tuy nhiên, kinh tế lượng đã và đang được ứng dụng cho rất nhiều lĩnh vực, và trong mỗi lĩnh vực đó, người ta có một quan niệm khác nhau Thuật ngữ tiếng Anh

“Econometrics” được ghép từ hai gốc từ: “Econo” nghĩa là “kinh tế” va “Metrics” nghĩa là “đo lường” Hiểu nôm na, kinh tế lượng là đo lường kinh tế Đó là sự kết hợp

giữa kinh tế học, toán học và thống kê toán nhằm lượng hóa, kiểm định và dự báo các quan hệ kinh tế Thông qua mô hình kinh tế lượng, các con số trở nên “biết nói” hơn, các nhà kinh tế có một “con mắt mới” dé nghiên cứu các vấn đề kinh tẾ, và từ đó có

một cơ sở thực nghiệm để con người áp dụng và đưa ra quyết định trong mọi lĩnh

vực: sản xuất kinh doanh, hoạch định chính sách, xây dựng chiến lược kinh tế - xã

“Giá cổ phiếu ngày mai có thé là bao nhiêu?”, “GDP của quốc gia năm tới có

khả năng tăng trưởng như thế nào?”, “Ước tính thu nhập của người lao động trong năm nay?”, đó là một số bài toán mà kinh tế lượng có thé giải quyết Một đặc điểm

chung của những bài toán này, đó là biến phụ thuộc (biến mục tiêu) cần ước lượng đều là biến liên tục.

Tuy nhiên, có nhiều hiện tượng, nhiều quá trình mà khi mô tả bằng mô hình kinh tế lượng, biến phụ thuộc là biến định tính, nhận hai giá trị có thể có là 0 và 1.

Sinh viên thực hiện: Nguyễn Thị Thu Hà 6

Trang 17

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Ngoài ra, cũng có nhiều trường hợp biến phụ thuộc có thé nhận giá trị nguyên, hoặc

bị hạn chế trong một khoảng nào đó Nhiều bài toán được đặt ra cần giải quyết liên

quan đến van dé này, ví dụ như: “Trong nông nghiệp, người nông dân quyết định có canh tác hay không?”; “Trong ngân hàng, ngân hàng và tô chức tín dụng quyết định có cho khách hàng vay không?”; “Trong y học, bệnh nhân có khả năng chuyền biến khối u từ lành tính sang ác tính hay không?”; “Trong quan lý kinh tế, một gia đình có

phải hộ nghèo hay không?”;

Như vậy, tóm lại, trong các mô hình kinh tế lượng, có hai bài toán chính, đó là là bài toán dự báo (đối với biến phụ thuộc là biến liên tục) và bài toán phân loại (đối với biến phụ thuộc là biến là rời rạc) Trong các bài toán phân loại, bài toán thường gặp và phô biến nhất là bài toán nhị phân.

Phân loại nhị phân là bài toán có biến phụ thuộc gồm hai giá trị là 0 va 1, trong

đó quy ước | là nhãn tích cực (positive) va 0 là nhãn tiêu cực (negative) Nhãn tích

cực ở đây mang hàm ý xảy ra sự kiện, còn nhãn tiêu cực thé hiện sự vắng mặt của sự kiện Mục tiêu của bài toán phân loại nhị phân là ước lượng ra xác suất xuất hiện hay vắng mặt của sự kiện, lần lượt tương ứng với nhãn tích cực và nhãn tiêu cực Tổng

của hai xác suất này bang 1.

PΠ= 0|X) + P(Y = 1|X) = 1

Nhận thấy giá tri các xác suất đều nam trong đoạn từ 0 đến 1 Do đó, sử dụng hàm Sigmoid dé tiến hành dự báo với bài toán phân loại nhị phân Hàm Sigmoid có

1+e*a(x) =

Ham Sigmoid có dạng đường cong chữ S và tinh đơn điệu tăng Dé dàng chứng

minh được giá trị của hàm Sigmoid nam trong đoạn từ 0 đến 1:

Jim, a(x) = im, 1+e* =1 Jim, a(x) ~ Jim, 1+e* =0

Sinh viên thực hiện: Nguyễn Thị Thu Hà 7

Trang 18

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

=10.0 “75 50 25 00 75 50 75 100

Hình 1: Do thị dang hàm Sigmoid

Do đó, hàm Sigmoid phù hợp để dự báo xác suất ở những bài toán phân loại,

nên còn được gọi là hàm Logistic.

1.2 Các phương pháp sử dụng trong bài toán phân loại

1.2.1 Phương pháp mô hình Logistic

Bài toán phân loại thường sử dung mô hình hồi quy Logistic.

Phương trình nay được gọi là hàm phân bố Logistic.

Nhận xét thấy, p; không phải hàm tuyến tính của các biến độc lập Với mỗi XB €(—œ; +00), thì p; € [0; 1], p; phi tuyến với X và các tham số B, do đó không thê sử dụng ước lượng OLS Người ta sử dụng phương pháp ước lượng hợp lý tối đa (MLE - Maximum Likelihood Estimation) dé ước lượng ổ.

Do chi có Y = 0 hoặc Y = 1, tức Y có phân bồ nhị thức, nên hàm hợp lý với

mẫu kích thước n có dạng như sau:

TT ah

b= | [pha-poTM = ar ry se0D)

Sinh viên thực hiện: Nguyễn Thi Thu Hà 8

Trang 19

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Suy ra:

InL = HỒ XY,) — » In(1 + exp(X;B))

Ước lượng Ø bang cách tìm cực trị của hàm số trên Sau khi ước lượng được B, tính được:

1 + exp (X;P)

Như vậy, thay vì nghiên cứu tính ảnh hưởng trực tiếp của biến độc lập lên biến phụ thuộc, mô hình Logistic xem xét đến ảnh hưởng của các biến độc lập đến xác

suất dé biến phụ thuộc nhận giá trị bằng 1.

Ảnh hưởng của biến phụ thuộc X„ đến p; được tính như sau: Op;

aX, pi(1 — pi) Bx

1.2.1.2 Phuong phap Berkson (1953)

Phương pháp này xác định p; bang cách tuyến tính hóa:

1— pj

Ly = In(P) + uy = Bọ + BiX1 + + BX + ty

Do đó, L không chi tuyến tính với biến số mà còn tuyến tính với tham số.

Phương pháp này phù hợp với dữ liệu phân nhóm Do chưa biết p; nên sẽ sử dụng ước lượng của p; Giả sử rằng mỗi mẫu có Ñ, giá trị X;, trong Ñ; quan sát này

Thực hiện biến đồi biến số và dùng OLS, ước lượng mô hình:

VwiLi = Bo wi + Bry wi Xi + JWiui

Hay: Lj; = Bọ + BX; + vị

Sinh viên thực hiện: Nguyễn Thị Thu Hà 9

Trang 20

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

1.2.1.3 Ưu nhược điểm của mô hình Logistic

Về mặt ưu điểm, mô hình Logistic đã cải thiện được vẫn đề của mô hình LPM

(mô hình xác suất tuyến tính) là giả thiết xác suất là một hàm tuyến tính của biến độc

lập Đây là giả thiết không phù hợp với thực tế, dẫn đến các nhược điểm như phương sai không đồng đều, sai số không phân phối chuẩn, ước lượng của biến phụ thuộc

nằm ngoài đoạn [0, 1], hệ số xác định thấp.

Tuy nhiên, mô hình Logistic cũng tồn tại một số van đề như sau.

Một là, cần một lượng mẫu đủ lớn dé phân bồ logistic là phân phối chuẩn, do đó nếu dữ liệu thu thập có giá trị quan sát thiếu, giá trị ngoại lai, nếu dùng cách

loại bỏ chúng sẽ giảm kích thước mẫu, mô hình không là tốt nhất có thẻ.

Hai là, mô hình Logistic thuần túy chỉ sử dụng được các biến độc lập là các biến liên tục Tuy nhiên, ứng dụng của mô hình Logistic là rộng trong hầu hết các lĩnh vực, việc không tận dụng được các biến rời rac là một tôn thất Khi đó, cần sử

dụng các kỹ thuật khác dé khắc phục nhược điểm này.

1.2.2 Phương pháp học máy1.2.2.1 Học máy là gì?

Những năm trở lại đây, trí tuệ nhân tao (Artificial Intelligance — AT) đã và dang

nhanh chóng phát triển, có khả năng tạo ra nhiều sự hình thành theo những phương

pháp bất ngờ, đưa ra nhiều cơ hội và thách thức mới Thuật ngữ AI được sử dụng lần đầu bởi John McCarthy — một nhà khoa học máy tính của Đại học Stanford (Hoa Kỳ).

Ngoài việc phát triển và cách mạng hóa các lĩnh vực như hàng không, giáo dục, y tế, giao thông vận tải, robot, AI cũng ngày càng được sử dụng nhiều trong các ngành tài chính — ngân hàng dé khai thác dit liệu, phân tích thị trường, quan lý tài sản, xác

định các mô hình và đưa ra dự đoán chính xác cho tương lai, từ đó đạt được mục tiêu

quản lý của con người Không thể phủ định rằng, AI là nhân tố cốt lõi trong các hệ

thống công nghệ cao, được ứng dụng trong hau hết các lĩnh vực đời sống hiện tại.

Theo Simon, khái niệm “học” (learning) được mô tả là quá trình cải thiện hành

vi thông qua việc tìm hiểu, khám phá và tích lũy những kiến thức mới theo thời gian.

Sinh viên thực hiện: Nguyễn Thị Thu Hà 10

Trang 21

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Nhu vậy, việc học được thực hiện băng các thiết bị máy, được gọi là “học máy”, hay chính là Machine Learning — ML Có thé coi hoc máy là một tập con cua trí tuệ nhân

Học máy và các phương pháp tiếp xan dựa trên bộ dir liệu đang dan trở nên

quan trọng trong nhiều lĩnh vực Trong ngân hàng và các tô chức tài chính, ML được sử dụng dé xác định dữ liệu quan trong và ngăn chặn gian lận, ; đối với chính phủ, việc tận dụng ML có thể khai thác nhiều nguồn dữ liệu hơn dé tăng hiệu quả các

phương pháp vi mô, phòng ngừa và ngăn chặn hành vi đánh cắp thông tin, ; trong lĩnh vực giao thông vận tải, ML có thé từ việc phân tích dữ liệu dé đưa ra các tuyến

đường hiệu quả và dự đoán các van đề tiềm ấn trên hành trình của tài xé; Và, mục đích chính của học máy là phát triển các mô hình và cải thiện kết quả dự đoán của

các mô hình nghiên cứu trước đây.

1.2.2.2 Một số thuật toán học máy

Các thuật toán của học máy nhìn chung được mô tả dưới dạng hàm sau đây:

Y= f(x)

Trong đó, f là một ham (target function) dé chuyển đổi các biến độc lập X thành biến phụ thuộc Y Có một số thuật toán cơ bản sau đây:

Một là, thuật toán hôi quy tuyến tính (linear regression) Đây là thuật toán cơ bản nhất, nổi tiếng nhất và được hiểu rõ nhất trong cả thống kê và học may Phuong

pháp dé ước lượng các hệ số thường được sử dụng với thuật toán này là phương pháp

bình phương nhỏ nhất (Ordinary Least Square — OLS).

Hai là, thuật toán hồi quy Logistic (logistic regression) Giỗng như thuật toán

hồi quy tuyến tính, thuật toán này được mượn từ lĩnh vực thống kê vào học máy Logistic là một hàm không tuyến tính, với biến phụ thuộc Y nhận giá trị trong đoạn

từ 0 đến 1 Phương pháp dé ước lượng các hệ số thường được sử dụng với thuật toán

này là phương pháp ước lượng hợp lý cực đại (Maximum Likelihood Estimation —

Sinh viên thực hiện: Nguyễn Thi Thu Hà II

Trang 22

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Ba là, thuật toán phân tích phân loại tuyến tinh (linear discriminant analyst) Biến độc lập là các giá trị trung bình của mỗi lớp và phương sai các lớp Dự đoán

được thực hiện bằng cách tính giá trị phân biệt cho mỗi lớp và dự đoán cho lớp có giá

trị lớn nhất.

Bon là, thuật toán cây quyết định (decisiom tree) Đây là một thuật toán quan trọng Với thuật toán này, mỗi “node” được hiểu là đại diện cho một biến độc lập X và một điểm phân chia trên biến đó Các dự đoán được thực hiện bằng cách đi trên

các nhánh của cây cho đến khi đến một “node” và đưa ra giá trị tại “node” đó.

Và còn rất nhiều thuật toán khác.

Tuy nhiên, trong học máy có một định lý gọi là “No Free Lunch” Đây là một

định lý xuất phát từ tóa học dân gian, lần đầu xuất hiện vào năm 1997 trong bài báo “No Free Lunch Theorems forr Optimization”, dịch nghĩa là “Tối ưu các định lý không có bữa trưa miễn phí” được viết bởi David Wolpert và William G Macready.

Và chính Wolpert đã áp dụng các định lý này dành cho học máy trước đó (năm 1996,

tuy nhiên khi ay “No Free Lunch” chưa được công bồ là một định lý) Hiểu một cách ngắn gọn, “No Free Lunch” cho rằng, không có thuật toán nào là tốt nhất trong mọi vấn đề.

Do đó, thay vì cố gắng xây dựng một mô hình tốt nhất, có thể xây dựng một nhóm các mô hình yếu hơn nhưng khi kết hợp lại thu được mô hình vượt trội Một số

thuật toán có thé đáp ứng điều này:

Mot là, thuật toán Bagging Mục tiêu của Bagging là giảm phương sai, áp

dụng cho các mô hình đã có sẵn độ lệch thấp nhưng đang bị phương sai cao Theo

thuật toán này sẽ xây dựng một lượng lớn các mô hình thường là cùng loại trên các

mẫu phát triển khác nhau từ mẫu ban đầu Những mô hình này được xây dựng độc

lập và song song nhau nhưng dự đoán biến phụ thuộc sẽ được tinh băng cách lay trung bình cộng “Random forest” (rừng ngẫu nhiên) là một thuật toán con tiêu biểu

cho thuật toán này Các bước thực hiện của “Random forest”:

Sinh viên thực hiện: Nguyễn Thị Thu Hà 12

Trang 23

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Bước 1: Tao tập dữ liệu đầu vào cho các mô hình cây quyết định Nếu bộ dữ

liệu gốc có M biến, chọn m thuộc tính ngẫu nghiên được sử dụng đưa vào xây dựng cây quyết định (m < M) Chọn ngẫu nhiên n quan sát từ bộ dit liệu (1 quan sát bat kỳ có thê được lấy lặp lại) tạo ra bộ dữ liệu mới.

Bước 2: Xây dựng cây quyết định dựa trên bộ số liệu vừa được tạo.

Bước 3: Chọn số lượng cây quyết định muốn xây dựng là N.

Bước 4: Lặp lại bước 1 và 2 cho đến khi đủ cây quyết định.

Bước 5: Đưa ra kết quả dự đoán cho các điểm dữ liệu mới của các cây quyết

định và gán nhãn cho danh mục dành được đa số phiếu bầu.

majority voting / averaging the predictions

Hình 2: Mô tả thuật toán Random Forest

Hai là, thuật toán Boosting Mục tiêu của Boosting là giảm độ lệch, áp dụng

cho các mô hình có phương sai thấp nhưng đang bị độ lệch cao Theo thuật toán này

cũng xây dựng một lượng lớn các mô hình cùng loại, mỗi mô hình sau sẽ học cách

sửa lỗi của mô hình trước, tức sửa với những quan sát mà mô hình trước dự đoán sai,

từ đó tạo thành một chuỗi các mô hình mà mô hình sau sẽ tốt hơn mô hình trước, và lây kết quả của mô hình cuối cùng làm kết quả dự đoán biến phụ thuộc Light GBM

và XGBoost là hai thuật toán nồi tiếng và được ưa chuộng nhất Cả hai đều được cải

tiền từ thuật toán Gradient Boosting.

Gradient Boosting xây dựng để giải quyết bài toán tối ưu sau:

Sinh viên thực hiện: Nguyễn Thị Thu Hà 13

Trang 24

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

min L » CnụM,

Cu=1:N,wn=1:N Ớ, nWn)

Các bước của thuật toán Gradient Boosting:

Bước 1: Khởi tạo giá trị pseudo-residuals là bang nhau cho từng điểm dữ liệu:

; 0

pseudo residuals = —n 2w Wav)

Bước 2: Tại vòng lặp thứ i, tiến hành xây dựng mô hình mới được thêm vào

dé điền vào giá tri của pseudo-residuals đã có, tính toán giá trị confidence score của

mô hình vừa xây dựng, cập nhật mô hình chính W = W + c,w;, rồi tính toán giá tri pseudo-residuals để làm nhãn cho các mô hình tiếp theo.

Bước 3: Lap lai với vòng lặp i + 1.

train a weak model update the pseudo-residuals

+ 33- and aggregate it to œ< considering predictions of @ predictions of the current ensemble model

bón ung the current ensemble model TM@ pseudo-residuals (targets of the weak learner)

Hình 3: Mô tả thuật toán Gradient Boosting

Sinh viên thực hiện: Nguyễn Thị Thu Hà 14

Trang 25

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

1.3 Kỹ thuật phân nhóm theo WOE

1.3.1 Giới thiệu về kỹ thuật WOE

Như đã trình bày ở trên, không thể ước lượng trực tiếp các biến rời rạc là nhược điểm của mô hình Logistic Sử dụng biến giả là một phương pháp Tuy nhiên, việc

dùng biến giả cho các biến định tính có đặc tính nhiều hơn hai sẽ mat nhiều bậc tự

do Thêm vào đó, mỗi bộ dữ liệu đều có thé gặp các vấn đề giá trị bị thiếu, giá trị

ngoại lai, Kỹ thuật WOE sẽ giải quyết được vấn đề này.

Giá trị bị thiếu là một thuật ngữ chỉ các giá trị không có thông tin Nguyên nhân của giá trị bị thiếu đến từ các lý do như: lỗi trong quá trình thu thập dữ liệu, bản

thân quan sát không có giá trị, hay cách ghi nhận của hệ thống Do mô hình hồi quy

chỉ chạy trên các quan sát không có giá trị bị thiếu, do đó không thể ước lượng giá trị biến phụ thuộc với các quan sát có giá trị bị thiếu Thông thường, người ta xóa các quan sát có giá trị bị thiếu trong trường hợp tỷ lệ giá trị bị thiếu nhỏ; xóa biến có giá trị bị thiếu trong trường hợp tỷ lệ giá trị bị thiếu lớn; thay thế giá trị bị thiếu bởi các

giá trị đại diện chung của mẫu khác như trung bình, trung vị, mode, Một cách khác

nữa là tiền hành phân nhóm dữ liệu (binning).

Giá trị ngoại lai là một thuật ngữ chỉ các giá trị lớn hoặc nhỏ bat thuong.

Nguyên nhân có thé do lỗi trong quá trình thu nhập dữ liệu hoặc bản thân quan sát Giá trị ngoại lai ảnh hưởng đến các chi số thống kê như trung bình, phương sai,

đồng thời ảnh hưởng đến ước lượng tham số mô hình Có thể xử lý giá trị ngoại lai bằng cách xóa các quan sát chứa giá trị giá trị ngoại lai, chuyển đổi bằng ham log

hoặc tiễn hành phân nhóm dữ liệu (binning).

Như vậy, kỹ thuật WOE là việc rời rạc hóa một biến bằng cách chia biến thành các nhóm mà các quan sát trong nhóm có đặc tính giống nhau, mỗi nhóm được gán

một giá tri đại diện cho cả nhóm.

1.3.2 Phương pháp phân nhóm theo kỹ thuật WOE

Việc sử dụng kỹ thuật WOE đề đưa các biến liên tục vào mô hình Logistic bao

gôm các bước sau:

Sinh viên thực hiện: Nguyễn Thị Thu Hà 15

Trang 26

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Bước 1: Chia biến thành 20 nhóm, tùy thuộc vào số lượng quan sát có thé lay

nhỏ hon 20 nhóm, đảm bảo không có nhóm nào 0 “good” hoặc 0 “bad”.

Bước 2: Tính toán WOE và vẽ đường WOE của mỗi nhóm.

Bước 3: Nhóm các nhóm nhỏ thành các nhóm lớn theo các tiêu chí:

- Các nhóm có WOE tương tự.

- Mỗi nhóm tối thiểu 5% quan sát - Giải thích được xu hướng biến.

Bước 4: Lặp lại bước 3 nếu kết quả nhận được chưa vừa ý.

Với các biến rời rạc, thực hiện chia nhóm bằng cách gộp các quan sát có giá trị giống nhau thành một nhóm, tiến hành đánh giá sự tác động của từng nhóm tới biến phụ thuộc, dựa vào các tiêu chí như độ rủi ro, để xem xét biến có xu hướng

phù hợp hay không Có thể nhóm các nhóm rời rạc có ý nghĩa tương đồng.

Giá trị đại diện cho mỗi nhóm (WOE) được tính bằng công thức:

Thang đánh giá chi số IV:

IV < 0.02 : Biến không có tính dự báo

0.02 < IV < 0.1 : Biến dự báo yếu

0.1<IV<0.3 : Biến dự báo trung bìnhIV>0.3 : Biến dự báo mạnh

Sinh viên thực hiện: Nguyễn Thị Thu Hà 16

Trang 27

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Trong do:

Good: Số lượng quan sát mà biến phụ thuộc nhận gid trị là tốt trong

mỗi nhóm (vi dụ với 0 là khách hàng chưa từng quá hạn, I là khách hang đã từng quá

hạn, thi “good” là sỐ lượng quan sát mà biến phụ thuộc nhận giá tri băng 0).

Bad: Sé lượng quan sát mà biến phụ thuộc nhận giá trị là xấu trong mỗi

nhóm (như ví dụ trên, “bad” là số lượng quan sát mà biến phụ thuộc nhận giá trị bằng

Total: Tống số lượng quan sát trong mỗi nhóm 1.3.3 Ưu nhược điểm của kỹ thuật WOE

Kỹ thuật WOE có các ưu điểm như sau: - Chuẩn hóa giá trị của các biến.

- Giảm thiểu lỗi khi tính toán với số mũ.

- Quan sát trực quan và rõ ràng mối liên hệ giữa biến độc lập và biến phụ thuộc

thông qua đường xu hướng của WOE từng nhóm.

- Tăng tính chính xác khi dự đoán.

- Có thể điều chỉnh kết quả dựa trên hiéu biết về dữ liệu Điều này thể hiện kỹ

năng và trình độ của người xây dựng mô hình.

Tuy nhiên, việc chuẩn hóa giá tri các biến có thể dẫn đến hiện tượng

“overfitting”, đó là nhược điểm của kỹ thuật này.

1.4 Mô hình Logistic kết hợp kỹ thuật WOE 1.4.1 Dạng tổng quát mô hình

Hàm hồi quy có cấu trúc một Neural Network, các biến được chuyên đổi thành

dạng WOE trước khi đưa vào mô hình hôi quy:

In ( ; P 5) = In (odds) = By + B; WOEx, + By WOE, + : + B,WOEx,

1.4.2 Đặc điểm mô hình

Mô hình Logistic kết hợp kỹ thuật WOE có những ưu điểm nổi bật sau đây:

Sinh viên thực hiện: Nguyễn Thị Thu Hà 17

Trang 28

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

- Cau tric mé hinh don gian.

- M6 hinh manh.

- Dé giai thich.

- Không gặp các vấn đề với giá tri bi thiéu, giá tri ngoại lai, biến rời rạc.

- Dễ dàng sử dụng.

Khi sử dụng mô hình WOE — Logistic, cần lưu ý dau của các hệ số ước lượng

đều phải dương, bởi WOE được tinh bang logarit tự nhiên của ty lệ “good” chia tỷ lệ

“bad”, do đó các biến độc lập trong mô hình có quan hệ đồng biến với biến phụ thuộc Nếu kết quả ước lượng mang dấu âm, bắt buộc phải loại bién ra khỏi mô hình.

1.4.3 Đánh giá mô hình

1.4.3.1 Mục đích của việc đánh giá mô hình

Mỗi một mô hình được xây dựng luôn phục vụ cho một ứng dụng thực tế Người xây dựng mô hình không nhằm mục đích chỉ đưa ra kết quả hồi quy, mà từ kết quả đó có thê đưa ra hỗ trợ quyết định cho bài toán ban đầu Do đó, chất lượng mô hình tốt là mục tiêu hướng đến của mọi người xây dựng.

Do đó, mục đích của việc đánh giá mô hình:

- Là các đánh giá định lượng về chất lượng của mô hình.

- Có sự so sánh tương quan giữa các mô hình với nhau.

- Quyết định sử dụng hay từ chối mô hình dựa trên các tiêu chí đánh giá.

- Đánh giá lợi ích thu được từ việc sử dụng mô hình.

1.4.3.2 Các chỉ tiêu đánh giá mô hình

Chia tập dữ liệu thành hai phan “Xây dựng mô hình” dé xây dựng mô hình va

kiêm định mô hình dé kiêm nghiệm Sau khi xây dựng mô hình trên tập “train”, cần tính toán các chỉ số để đánh giá mô hình Các tính toán này cũng đồng thời được thực hiện trên tập kiểm định mô hình.

Sinh viên thực hiện: Nguyễn Thị Thu Hà 18

Trang 29

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

- Đánh giá độ 6n định

Do tập quan sát mẫu có thé thay đôi theo thời gian, do thay đối chính sách hoặc lỗi hệ thống mà mô hình có thé bị mat 6n định.

Đánh giá độ ôn định toàn mẫu của mô hình nhằm mục đích đảm bảo giả thuyết

tương lai giống với quá khứ, đảm bảo các chỉ số cut — off vẫn giữ nguyên ý nghĩa với

mau Bên cạnh đó, đánh giá độ ôn định từng biến nhằm tìm ra nguyên nhân mat ôn định của mô hình, đánh giá biến động của mỗi biến qua thời gian và tìm ra các sai sót trong hệ thống Đánh giá độ 6n định từng biến qua thời gian dài bằng cách quan sát đồ thị phân phối biến, dé từ đó thấy được xu hướng dịch chuyền giữa các nhóm biết

và phát hiện các sai sót trong dữ liệu.

Đề đánh giá độ ôn định của mô hình, sử dụng chi số PSI.

%Rec;: Tỷ lệ quan sát ở hạng thứ i so với toàn mẫu ở tập kiểm định mô hình %Dev;: Tỷ lệ quan sát ở hạng thứ i so với toàn mẫu ở tập xây dựng mô hình

Thang đánh giá chỉ số PSI:

PSI < 10 : Mô hình ổn định

10 < PSI < 20 : Mô hình tương đối ổn định

PSI > 20 : Mô hình không ổn định

- Đánh giá độ phân biệt

Độ phân biệt trong mô hình là độ phân biệt về mục tiêu giữa các nhóm Một độ phân biệt tốt mang đến nhiều lợi ích, chăng hạn như với bài toán chấm điểm khách hàng để quyết định có cho khách hàng vay hay không, khi xác định điểm cắt sẽ lọc được nhiều khách hàng xấu và tránh lọc nhằm các khách hàng tốt Nói chung, độ

phân biệt tốt giúp có thé lọc ra các quan sát tốt hay xấu đúng với yêu cầu xây dựng

mô hình Có hai cách cơ bản dé đánh giá độ phân biệt.

Sinh viên thực hiện: Nguyễn Thị Thu Hà 19

Trang 30

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Một là, kiểm tra thứ tu “bad rate” — ty lệ xấu Sau khi chia mẫu ra thành từng nhóm, tính “bad rate” thực tế trong mỗi nhóm Một mô hình tốt cần đảm bảo “bad rate” giảm dần theo dự báo từ xấu đến tốt.

Hai là, sử dụng đường cong Gini và chỉ số Gini.

Về mặt ý tưởng, cách đánh giá độ phân biệt trong mô hình WOE — Logistic lay từ hệ số Gini dùng dé biéu thị độ bat bình đăng trong thu nhập trên nhiều vùng

miền, tầng lớp của một đất nước Nó có giá trị từ 0 (mọi người đều có mức thu nhập

bình đăng) đến 1 (bất bình đăng) và băng tỷ số giữa phần diện tích nằm giữa đường cong Lorenz và đường bình dang tuyệt đối với phần diện tích năm dưới đường bình đăng tuyệt đối Hệ số này được phát triển bởi nhà thống kê học người Ý Corrado Gini

và được chính thức công bồ trong bài viết năm 1912 của ông mang tên “Variabilità e mutabilità” Chỉ số Gini là hệ số Gini được thé hiện dưới dạng tỷ lệ phan trăm, được

tính bằng hệ số Gini nhân với 100 Công thức tính chỉ số Gini:

Gini = 2AUROC — 1

Thang đánh giá chỉ số Gini:

Bảng 2: Thang đánh giá chỉ số Gini

Application Model Behavior Model Danh gia phan biét

Gini < 30% Gini < 50% Yéu

30% < Gini < 40% 50% < Gini < 60% Trung binh

Gini = 40% Gini = 60% Manh

- Đánh gia độ chính xác

Sai số dự báo là thước đo đánh giá giá trị dự báo so với giá trị thực tế Có nhiều

tiêu chí để đánh giá độ chính xác của mô hình, như MSE, RMSE, MAE, MAPPE, Tuy nhiên, khi đánh giá các mô hình được xây dựng trên cùng tập đữ liệu, các biến đưa vào trong mô hình có thê khác nhau, dạng mô hình khác nhau, do đó thường dùng MAPE để đánh giá, vì đây là thước đo tương đối.

Sinh viên thực hiện: Nguyễn Thị Thu Hà 20

Trang 31

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

A, là giá trị thực tế trong nhóm điểm k P, là giá trị dự đoán trong nhóm điểm k Thang đánh giá chỉ số MAPE:

MAPE < 25% : Dự đoán gần thực tế

25% < MAPE < 50% : Dự đoán tương đối gần thực tế

MAPE > 50% : Dự đoán khác thực tế

Tuy nhiên, với dạng mô hình Logistic, người ta thường dùng ma trận nhằm lẫn (confusion matrix) dé đánh giá độ chính xác của mô hình.

Ma trận nhằm lẫn có dạng như sau:

Bảng 3: Ma trận nhằm lẫn tổng quát

Giá trị dự báo

Good Bad

„ Good True Positive False NegativeGiá tri thực tê

Bad False Positive True Negative

Một sô chỉ sô được xét từ ma trận:

“Accuracy” hay độ chính xác được hiểu là độ chính xác tổng quát của mô hình

đang xây dựng, được tính bằng tỷ lệ giữa các quan sát dự báo đúng và tổng số quan sát Đây cũng là chỉ số quan trọng nhất được tính ra từ ma trận.

Trang 32

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Bên cạnh đó, ta còn xét đến “Precision” là tỷ lệ dự báo đúng các quan sát tốt trong tổng số các quan sát dự báo là tốt.

Nếu mô hình có “Precision” thấp va “Sensitivity” cao hoặc ngược lại, có thé

sử dụng F — score dé đánh giá mô hình F — score nhận giá tri trong khoảng (0; 1], giá trị này càng cao thì độ phân loại mô hình càng tốt.

2 * Sensitivity + Precision

F — score = —————_

Sensitivity + Precision

1.4.4 Công thức tinh điểm từ kết qua mô hình

Do công thức của Logistic đôi khi không thể thực hiện trên các hệ thống, do đó cần đưa ra kết quả đơn giản hơn, đồng thời so sánh được trọng số của từng nhóm

trong từng biến dé các đơn vị kinh doanh có thé hiểu được.

Ta có:

f(t) =

© 1+ert

Với: t = In(odds) = By + B; WOE,, + B2WOE,, + :

Theo lý thuyết, ham f(t) là hàm đồng biến, do đó:

f(t,) > f(t.) et, >t,

Sinh viên thực hiện: Nguyễn Thi Thu Hà 22

Trang 33

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Công thức biến đối:

Score = Offset + Factor + In(odds)

Offset = BaseScore — Factor * In (odds)

Và: pdo là điểm dé nhân đôi hệ số odds.

Sinh viên thực hiện: Nguyễn Thị Thu Hà 23

Trang 34

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

CHUONG 2: THUC TRANG MOT SO LĨNH VUC KINH TE XÃ HOI Kinh tế xã hội ngày càng phát triển, một phần nguyên nhân đó là con người đã, đang và luôn luôn sử dụng trí tuệ của mình dé giải quyết những bài toán thực tế đặt ra trong quá trình nền kinh tế vận hành Sự xuất hiện của những cuộc khủng hoảng

trong ngành ngân hàng tài chính, những công ty viễn thông bị khách hàng rời bỏ,

đã chỉ ra rằng hệ thống quản lý đang có sự yếu kém Hay cùng với sự phát triển kinh tế và các cuộc cách mạng công nghiệp, nhiều căn bệnh mới cũng xuất hiện và ảnh

hưởng trực tiếp đến sức khỏe con người Lam sao dé quản lý hoạt động kinh doanh

hiệu quả, và làm sao để phòng ngừa và chữa trị những căn bệnh mới? Chương này trình bày về thực trạng một số lĩnh vực kinh tế xã hội, cụ thể đó là sự cần thiết của việc xây dựng thẻ điểm ngân hàng, sự cần thiết của dự báo ung thư trong y học và sự cần thiết của việc đánh giá khả năng khách hàng rời bỏ của công ty dịch vụ viễn

2.1 Tổng quan quy trình xây dựng thẻ điểm ngân hàng

2.1.1 Sự cần thiết của thẻ điểm ngân hàng

Việc phát triển thẻ điểm tin dụng này nay trở nên pho biến ở nhiều quốc gia và nhiều ngân hàng Có nhiều yêu tố thúc day việc sử dụng thẻ điểm, trong đó, yếu tố lớn nhất là do Hiệp định Basel II.

Cụ thể, các ngân hàng đã chọn (hoặc được yêu cầu) tuân thủ phương pháp tiếp

cận dựa trên đánh giá nội bộ cơ sở, ước tính được xác suất vỡ nợ (PD — Probability of Default), cũng như tỷ trong tốn thất ước tinh (LGD — Loss Given Default) và tổng du ng khach hang tai thoi diém không trả được nợ (EAD — Exposure at Default).

Nhiều tổ chức, chang hạn như các công ty tin dụng bán lẻ, hoặc các công ty cho vay ô tô, không bắt buộc phải tuân thủ Basel I, nhưng ho đã chọn tuân thủ như một cách dé chứng minh năng lực của họ với thị trường, cũng như một dấu chứng nhận mạnh mẽ trong quy trình nội bộ của họ Và lợi ích lớn nhất của việc tuân thủ Basel II, đó không phải là một hoạt động quản lý bắt buộc, mà còn có thé phát triển

Sinh viên thực hiện: Nguyễn Thị Thu Hà 24

Trang 35

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

các phương pháp dẫn đến cơ hội cai thiện các quy trình nội bộ mỗi ngân hàng, công

ty, doanh nghiép,

Vào thời điểm đó, các ngân hàng lớn đã mở rộng việc phát triển thẻ điểm tín dụng và buộc phải chứng minh năng lực của họ trong việc chấm điểm, và tại nhiều

quốc gia, đặc biệt là Châu Âu, các ngân hàng nhỏ bị áp lực cạnh tranh khi vẫn sử

dụng các phương pháp thủ công và phán đoán, nên họ cũng quyết định áp dụng những cách tiếp cận mới này, do đó, lần đầu tiên các ngân hàng phải bắt đầu xây dựng mô hình Điều này dẫn đến một số thách thức, khi ngân hàng chưa bao giờ xây dựng thẻ điểm, họ sẽ bắt đầu từ đâu?

Câu trả lời là, các ngân hàng có thể có hai lựa chon Một là, họ có thé đi mua

thẻ điểm từ các tổ chức có kha năng xây dựng và phát hành Hai là, họ phải tự đầu tư

nhân lực, vật lực dé tự xây dựng thẻ điểm Quyết định này tùy thuộc vào tình huống

riêng của từng ngân hàng: số lượng và loại dữ liệu có san, trình độ kiến thức, đội ngũ

nhân viên, các giới hạn về thời gian chờ đợi, Với việc thuê ngoài, chi phí sẽ rẻ hơn với các danh mục đầu tư nhỏ, không cần quản lý tài nguyên và công nghệ dé duy trì thẻ điểm Tuy nhiên, nếu tự phát triển thẻ điểm, ngân hàng có thể linh hoạt hơn khi

có sự thay đổi trong các quy định giám sát, không cần chờ đợi nhà cung cấp, có thé

phân tích phân khúc khách hàng toàn diện với ngân hàng mình, đồng thời tăng hiểu biết của ngân hàng về khách hàng họ đang có.

Và trong mục đích phát triển dài hạn, với những quy định và lợi ích mà thẻ điểm mang lại, việc tự phát triển nó là một xu hướng tất yếu của các ngân hàng, trong

đó có Ngân hang Thương mại Cổ phan Việt Nam Thịnh Vuong (VP Bank).

2.1.2 Quy trình xây dựng thẻ điểm cơ bản của Ngân hàng

2.1.2.1 Lập kết hoạch xây dựng mô hình

Bước đầu tiên trong bat kỳ dự án phát triển thẻ điểm nào đều là xác định mục

tiêu của ngân hàng cũng như vai trò của thẻ điểm Về mục tiêu của ngân hàng, có thể bao gồm:

- Giảm nợ xâu / phá sản / khiêu nại / gian lận.

Sinh viên thực hiện: Nguyễn Thị Thu Hà 25

Trang 36

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

- Tăng ty lệ phê duyệt, vi dụ như trong các lĩnh vực khoản vay có tài sản thé chấp.

- Tăng hiệu quả hoạt động hoặc tiết kiệm chi phí Ví dụ nhiều ngân hàng còn đang sử dụng phương pháp chuyên gia (phương pháp thủ công), bây giờ mong muốn xử lý hồ sơ nhanh hơn qua phương pháp mô hình.

- Cải thiện, tăng khả năng dự đoán của thẻ điểm hiện tại.

2.1.2.2 Xem xét dữ liệu và thông số dự án

Sau khi lập kế hoạch xây dựng mô hình, cần xem xét việc phát triển thẻ điểm có khả thi hay không và nếu có, cần thiết lập các thông số dự án Giai đoạn này đặt

ra van dé cần giải quyết, đó là: “Dữ liệu có đủ tốt dé bắt đầu dự án không?”, tức quan tâm, đánh giá đến số lượng và chat lượng dữ liệu.

Số lượng đữ liệu cần thiết cho mỗi dự án có thể khác nhau, nhưng nói chung phải đáp ứng đầy đủ các yêu cầu về độ tin cậy, ý nghĩa thống kê, tính đại diện và tính ngẫu nhiên Việc tìm kiếm và xác định mẫu tối ưu là công việc cần thiết, và theo

Crone và Finlay, những người đã nghiên cứu xem xét ảnh hưởng của kích thước mau

và tỷ lệ “good” và “bad”, đưa ra khuyến nghị với các mô hình hồi quy Logistic, một mẫu tối thiểu 5000 quan sát là “bad” với thẻ điểm tín dụng (application score) và 12000 quan sát là “bad” với thẻ điểm hành vi (behavioral score) có thé dat duoc hé số Gini tối đa.

Tuy nhiên, chất lượng dữ liệu có thể bù đắp cho việc thiếu đữ liệu Trong thời

đại của “Big data”, nơi các ngân hang có thé thực hiện xây dựng mô hình với hang ty quan sát, thì một bộ dữ liệu sạch va đáng tin cậy sẽ là tốt nhất đề xây dựng thẻ điểm.

Sau khi đánh giá số lượng và chất lượng dữ liệu nội bộ, ngân hàng có thé quyết

định xây dựng thẻ điểm chỉ dựa trên dit liệu nội bộ hoặc lựa chọn đữ liệu bổ sung từ các nguồn bên ngoài như văn phòng tín dụng, kho lưu trữ trung tâm, nhà cung cấp dữ

Sinh viên thực hiện: Nguyễn Thị Thu Hà 26

Trang 37

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Vào cuối giai đoạn nay, khi xác định rằng có dữ liệu đủ tốt dé xây dựng thẻ điểm, thì công việc tiếp theo là thu thập dữ liệu ban đầu dé xác định thông số dự án.

Các thông số dự án cần xác định bao gồm:

- Target: La giá tri mà mô hình cần dự báo, ví dụ: dự đoán khách hàng có bị

quá han 90 ngày trong | năm tới hay không, dự đoán khách hàng có đóng thẻ trongmột tháng tới hay không, dự đoán lợi nhuận từ thẻ tín dụng của khách hàng trong 6

tháng tiếp theo, Target được đặc trưng bởi hai yếu té là outcome và denfinition.

+ Outcome: Là khoảng thời gian trong tương lai mà mô hình sé dự đoán Cách

xác định outcome phụ thuộc vào mục tiêu của mô hình hoặc từ phân tích của người

xây dựng Đối với các mô hình phục vụ Basel, IFRS hoặc mô hình hành vi thông

thường thì outcome là 1 năm sau ngày quan sát, còn đối với mô hình phục vụ collection thì thời gian outcome có thể ngắn hơn Ví dụ với mô hình tín dụng, việc xác định outcome chính xác giúp các khách hàng xấu thật sự có đủ thời gian dé trở

thành xấu Đề xác định outcome, lấy tích lũy tỷ lệ quá hạn 30+ trong các khoảng thời gian, vẽ đồ thi và quan sát khoảng thời gian mà tỷ lệ 30+ không tăng đáng kẻ.

+ Denfinition: Là định nghĩa cua target, phụ thuộc vào mục tiêu của mô hình

hoặc từ phân tích của người xây dựng Các định nghĩa có thê là các sự kiện đơn giản như “đóng thẻ”, “tất toán sớm”, hay phức tạp như “khách hàng quá hạn 90 ngày”,

“lợi nhuận”,

- Observation date: Là thời gian lây các quan sát, được xác định như công

thức và hình vẽ minh họa sau đây:

Earliest day + behavior period < obs date < recent day — outcome

Hình 4: So đô phương pháp xác định thời gian lấy dữ liệu

Sinh viên thực hiện: Nguyễn Thị Thu Hà 27

Trang 38

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Lưu ý, đữ liệu xây dựng mô hình được quan sát trong quá khứ, nên cần lui về quá khứ dé xác định biến phụ thuộc và biến độc lập Mô hình được xây dựng sẽ áp dụng cham điểm trên dữ liệu hiện tại nên cần dam bảo thời gian quan sát không quá

xa với thời điểm hiện tại Và trong trường hơp dữ liệu từ thời điểm sớm nhất đến hiện

tại nhỏ, cần cân nhắc về outcome và số lượng quan sát là “bad” trong mô hình.

2.1.2.3 Tạo lập cơ sở dữ liệu

Việc lựa chọn các biến để xây dựng mô hình là một phần quan trọng của việc phát triển thẻ điểm Thông thường, các biến độc lập của một thẻ điểm bao gồm:

- Nhân khẩu học: Là những thông tin liên quan đến cá nhân người đi vay, như giới tính, tuổi tác, nghề nghiệp, tình trạng hôn nhân, tình trạng nhà ở, thu nhập,

- Lịch sử tín dụng: Là những thông tin được quản lý tập trung bởi cục tín dụng

và các ngân hàng có thê kiểm tra chéo thông tin tín dụng của khách hàng từ các ngân

Sau khi xác định được mẫu hoàn chỉnh, chia dữ liệu làm hai phan 70 — 80%

dữ liệu được sử dung để xây dựng mô hình, 20 — 30% dir liệu còn lại để thực hiện

kiểm định và đánh giá mô hình, từ đó đưa ra được thẻ điểm tối ưu 2.1.2.4 Phát triển mô hình

Phát triển mô hình là giai đoạn trọng tâm của quá trình phát triển thẻ điểm Giai đoạn này bao gồm các công đoạn: lựa chọn biến, xây dựng các mô hình trên các biến đã chọn và đánh giá mô hình, lựa chọn mô hình tốt nhất.

- Xử lý và lựa chọn biến đưa vào hồi quy

Sơ đồ tông quan các bước trong công đoạn xử lý và lựa chọn biến:

Sinh viên thực hiện: Nguyễn Thị Thu Hà 28

Trang 39

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

x Khai pha đữ liệu Xửlý biến

Dữ liệu gốc —————> Các biến ban đầu —— Các biến đã được xử lý

Biến đổi biến „ Lựa chọn biến

———>Các biến đã được biến đổi ———— Danh sách biến rút gọn.

Khai phá di liệu là quá trình phân tích tổng quan ý nghĩa các biến trong cơ sở dữ liệu đã tạo lập trong giai đoạn 3, phân tích lý thuyết xu hướng biến và lựa chọn

các biến dé đưa vào phân tích chuyên sâu Đầu vào của quá trình là các biến trong cơ sở dit liệu và đầu ra là các biến ban dau dé tiến hành các quá trình tiếp theo.

Xử lý biến là quá trình đánh giá chất lượng các biến, xem xét các vấn đề như

giá trị bị thiếu, giá trị ngoại lai, Nếu giá trị bị thiếu, giá trị ngoại lai có ý nghĩa thì

giữ lại, nếu không cần giải quyết bằng cách xóa biến, xóa quan sát hoặc thay thế giá

trị, tùy thuộc vào ý nghĩa biến Đầu ra của quá trình này là các biến đã được xử lý.

Biến đổi biến là quá trình đôi giá trị các biến từ giá trị ban đầu thành giá trị WOE Quá trình này bao gồm các công việc phân nhóm, chia lại nhóm sao cho các

giá trị WOE tuyến tính (hoặc nếu không tuyến tính phải giải thích được xu hướng).

Đầu ra của quá trình là các biến đã được biến đổi.

Lựa chọn biến là quá trình đánh giá chất lượng và mỗi quan hệ các biến Các biến được chọn phải có IV lớn hơn 0.02 và không có tương quan cao với các biến

khác, tức hệ số tương quan phải nhỏ hơn 0.5.

Kết thúc công đoạn này, thu được các biến sẵn sàng đưa vào mô hình hồi quy.

- Hồi quy mô hình

Hồi quy Logistic là một kỹ thuật phé biến được xử dụng dé phát triển thẻ điểm.

Thông thường, có 3 phương pháp đưa biến vào mô hình Logistic:

Phương pháp 1: Lựa chọn lần lượt (forward selection) Theo phương pháp này, đầu tiên chọn một mô hình đặc trưng tốt nhất dựa trên khả năng dự đoán riêng

của từng biến, sau đó thêm lần lượt các biến khác vào mô hình, việc lựa chọn dựa vào các thống kê Chi — square hoặc giá trị p-value.

Phương pháp 2: Loại bỏ ngược (backward elimination) Phương pháp nay trái

ngược với phương pháp trên Theo loại bỏ ngược, tất cả các biến đều được đưa vào

Sinh viên thực hiện: Nguyễn Thị Thu Hà 29

Trang 40

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

mô hình, sau đó loại các biến không thỏa mãn thống kê Chi — square hoặc p — value nhỏ hơn mức ý nghĩa định trước (thường là 5%) Như vậy, các biến dự báo mạnh được giữ lại trong mô hình và các biến dự báo yếu bị loại bỏ.

Phương pháp 3: Stepwise Đây là sự kết hợp của phương pháp 1 và phương

pháp 2 thêm và xóa tự động các biến vào / ra khỏi mô hình cho đến khi đạt được sự kết hợp tốt nhất Người ta thường dùng giá trị p — value dé làm điều kiện các biến

được đưa vào mô hình và sau đó bi loại ra khỏi mô hình.

- Lựa chọn mô hình tốt nhất

Trong quá trình lựa chọn biến, chăng hạn như hai biến có tương quan cao, có

thể dựa vào ý nghĩa biến hoặc so sánh giá trị IV để loại một biến Tuy nhiên, theo

những người xây dựng mô hình có kinh nghiệm, họ không ngay lập tức loại bỏ biến, mà thay vào đó, họ xây dựng nhiều hơn một mô hình, sau đó đánh giá các mô hình với nhau Có nhiều thước đo thống kê dé đánh giá các mô hình, như p — value, chỉ số

Gini, giá tri Chi — square, R — square,

Bên cạnh các thước đo thống kê đó, cần quan tâm đến mục tiêu phát triển thẻ điểm Ví dụ, với mục đích phát triển thẻ điểm dé đưa ra quyết định cho vay, mục tiêu quan trọng nhất là lựa chọn được một tập hợp các biến tốt nhất, dé từ đó xây dựng một hồ sơ đánh giá rủi ro toàn diện nhất Các biến lý tưởng dé xây dựng mô hình này

nên gồm các biến liên quan đến nhân khẩu học và đữ liệu tài chính.

- Kiểm định mô hình

Khi mô hình cuối cùng được lựa chọn (final model), cần kiểm định lại kết quả mô hình Thông thường, người ta chia tập dữ liệu ban đầu thành hai phan, với 70% dé xây dựng mô hình và 30% dé kiểm định mô hình Tuy nhiên, ngân hàng nên thực hiện thêm kiểm định trên mẫu “out of time” được thu thập sau thời điểm xây dựng mô hình dé có đánh giá thực tế hơn với tập dữ liệu mà mô hình sẽ áp dụng.

2.1.2.5 Hậu kiểm mô hình

Sau khi mô hình cuối cùng được lựa chọn và sản xuất thẻ điểm áp dụng thực tế, cũng như hoàn thành các báo cáo đầy đủ về quản lý thẻ điểm, ngân hàng cần đánh

Sinh viên thực hiện: Nguyễn Thị Thu Hà 30

Ngày đăng: 11/04/2024, 20:35

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w