Đối tượng và phạm vi nghiên cứu° Đối tượng nghiên cứu là loại gian lận thẻ tín dụng - đây là loại gianlận được phát sinh từ các thẻ đạt đủ và không đạt đủ tiêu chuẩn bảo mật 3D securevà
Trang 1h TRƯỜNG ĐẠI HỌC KINH TẾ QUOC DAN oF
KHOA TOAN KINH TE
Lop : Toán Tài chính 56
Giảng viên hướng dẫn : ThS Nguyễn Thị Liên
Hà Nội, tháng 5 năm 2018
Trang 2Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
LỜI CẢM ƠNLời dau tiên em xin gửi lời cảm ơn chân thành và sự tri ân sâu sắc đối với Th.SNguyễn Thị Liên — người đã trực tiếp hướng dẫn em và giúp em có định hướng đúngdan trong quá trình hướng dẫn viết chuyên đề thực tập của em Em xin cảm ơn cácthay cô khoa Toán Kinh tế trong suốt những năm học đại học đã tận tình dạy dỗ, chỉbảo em không chỉ về những kiến thức trên lớp mà còn những kinh nghiệm cuộc sốngđể giúp em có hành trang tot trước khi ra trường
Trong quá trình viết chuyên dé, dù em đã rất có gang dé viết chuyên dé một cách
tot nhất Tuy nhiên, do kiến thức, thời gian còn hạn hẹp, kinh nghiệm thực tẾ còn chưa nhiều nên chuyên dé cua em còn nhiều thiếu sót Em rat mong nhận được sự
gop ý cua các thay cô để có thể hoàn thiện được tốt hơn
Em xin chân thành cảm ơn!
Nguyễn Chiến Thắng
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 3Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
"¬ MỤC LỤC
0009.000075 2
i00 ÔỎ 3
DANH MỤC TU VIET TÁẮTT - 5-2 s<ss©s£©Ss£EsESseEsEvseEseEvseEseerserssersersserssre 5
DANH MỤC CÁC HÌNH, BANG s- <2 s<©csecssExseEssersetsserserssersssssersee 7
®:0019)1e07 11
HOAT DONG QUAN TRI RUI RO TIN DUNG VA THUC TRANG GIAN
LAN TÍN DUNG TRONG NGAN HANG THUONG MẠI TAI VIET NAM 11
1.1 Tống quan về hoạt động quản trị rủi ro tín dụng tại ngân hàng 11
1.2 Gian lận tín dụng trong ngân hàng - << <5 <5 9s 9554 95955968954 12
1.2.1 Khái niệm và đặc điểm ° 2< esssssessesserserserserserssrssrsee 12
1.2.2 Phân loại rủi ro tin dụng d << << < %6 <9 99 9 9999995884999488956668956 12
1.3 Thuc trạng gian lận thẻ tín dụng trong ngân hàng tại Việt Nam 13
1.4 Vai trò của phòng chống gian lận trong hoạt động quản trị rủi ro tín
dụng tại ngân hàng << << 9 9 9 9.9.9.9 0.0 0.0 00.009 0000890804 00 13
0:09) 14
CƠ SỞ XÂY DỰNG CÁC MÔ HINH 2 << se ©eseeseezserseerserserscre 14
PHÁT HIỆN VÀ PHÒNG CHÓNG GIAN LẬN c-s<©css©cssvcssersssrssee 14
2.1 Đặc điểm dữ liệu về gian lận se s<ssssssSssexsesserserserserserserssrssse 14
2.2 Tidtr xi ly ái SN 14
2.2.1 Outlier h6 e 14
2.2.2 MSSỈNE G0 0 9 cọ lọ TH T0 0.0000.004 0009 009 8906 15
2.2.3 Các luồng dữ liệu đặc biệt -. se s-s<©ss©ssevseEseerserseerssrsserssrsserse 15
2.3 Phân chia dữ liệu và các tiêu chí đánh giá mô hìnhh << «5< «s5ss« 16
Trang 4Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
2.3.4 Các phương pháp đánh giá mơ hình phân loaÏ -. -s=s«<«ess<« 19
2.3.4.1 Confusion IIAÍTÏX s55 << s4 00000 1050050040095604080 19
2.3.4.2 Binary Classification Ẩ€SÉS - << HH H000 8gg0 20
2.4 Đề suất mơ hình sử dụng phát hiện gian lận và phương pháp sampling 20
2.4.1 Sampling dif li€u do 5 5G 59 %5 9 9 90 0 00.0004 00 80918566 21
2.4.2 Mơ hình Logistic d G5 S9 9 9 0.0.0.0 01000000 809686 06 21
2.4.3 Decision TF€G o- s55 s5 9 0 0010050500080 90 23
2.4.4 Baysian I€ỀWOTFE d ĩ5 G G5 S5 9 9 99 9 0 1 0 000000040000 80906996 26
2.5 Stacked generalization (stacking) - Ensemble : - s55 << «5< sss< sesss 28
2.6 Phương pháp SIM TTTE -< =5 < << 9 cọ HT c0 00000008 0 08, 29
3.3.2 Cac tiêu chí đánh giá mơ Ninh œ- 5< 5< s2 5 96.9 996 95985858556 35
3.4 Kết quả mơ hình Decision Tree, Bayes Network va Ensemble với data ban
ẦU 0G 9.9.1” 9.0.0 0 0.0000.000 00.0.0000 00.00.0009 908094000 80080091 804 39
3.5 Kết quả mơ hình Logistic, Decision Tree, Bayes Network và Ensemble với
phương pháp sampling bình thu Ong - < =5 < «se s9 min n0 40
3.6 Kết quả mơ hình Logistic, Decision Tree, Bayes Network và Ensemble với
phương pháp SMOTE << sọ cọ 0.00000100000100 00 41
3.7 So sánh mơ hình Logistic kết hợp với các phương pháp xử ly dữ liệu 423.8 So sánh mơ hình Decision Tree kết hợp với các phương pháp xử lý dữ liệu 433.8 So sánh mơ hình Bayes Network kết hợp với các phương pháp xử lý dữ liệu 453.9 So sánh phương pháp Ensembel kết hợp với các phương pháp xử lý dữ liệu 45
4
11143892 — Nguyễn Chiến Thắng Lớp: Tốn tài chính 56
Trang 5Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
KET LUẬNN G0 H5000000000004000000404000036030036038006460060060600000000500380808880 48
DANH MỤC TÀI LIỆU THAM KHẢO
DANH MỤC TỪ VIET TAT
Fraud Gian lận
Legal Binh thường
IV Hệ số thông tin information valueWOE Trọng số weight of evidien
ML Hoc May — Machine learning
BAD Quan sát x4u
GOOD Quan sát tốt
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 6Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
DATA Dữ liệu Training Dữ liệu tạo mô hình Deverlop_ | Dữ liệu tạo mô hình
Validate _ | Dữ liệu kiêm tra mô hình
Out of time | Dữ liệu kiểm tra mô hình khác thời gian với dữ liệu ban dauScorecard _| Phương pháp thẻ điểm ứng dụng của mô hình Logistic
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 7Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
DANH MỤC CÁC HÌNH, BANG
Hình 1.1 Cách chia dữ liệu dé phát triển mô hình và kiểm định mô hình 16
Bang 1.2 confusion mafTIX -.c ene ene eee eee nh kh 19
Bang 1.3 Vi du về dữ liệu phân loại - cà se 23Hình 1.4 Ví dụ về cây phân loại Decision Tree - 522cc s22 24Hình 1.6 Đồ thị của entrOpy cc c2 1111112222111 1255511111 x5 ng 25Bang 1.7 Ví dụ về dit liệu cho mô hình Bayes Network -: 27Hình 1.8 Mô ta cách tạo điểm dit liệu mới từ thuật toán KNN 29
Bang 1.9 Badrate của tập dữ liệu c2 nee 2S ens 34
Hình 1.10 Phân tích các biến vào mô hình Logistic qua WOE với data
Hình 1.16 Mô hình dựa trên dữ liệu sampling chạy với phần mềm SAS Miner 40
Bảng 1.17 Kết quả với data sampling - -c ¿c2 111122211122 ee 40Hình 1.18 Mô hình dựa trên dữ liệu đã SMOTE chạy với phần mềm SAS
Miner 4
Bảng 1.19 kết quả với data SMOTTE 2 1S 1122222111111 s2 41
Bang 1.20 So sánh mô hình Logistic với 2 cach xử lý dữ liệu 42
Bảng 1.21 So sánh mô hình Decision Tree với các bộ dữ liệu 42
Hình 1.22 Biến quan sát có tính phân cụm -cc 2552-222-222: 43
Hình 1.23 Mô tả dữ liệu từ phương pháp SMOTE - 43
Bảng 1.24 So sánh mô hình Bayes Network với các bộ dữ liệu 44
7
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 8Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
Bang 1.25 So sánh phương pháp ensemble với các bộ dit liệu 44
Bảng 1.22 Ưu, nhược điểm từng phương pháp ‹ - 55c c s2 45
§
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 9Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
LOI MỞ DAU1 — Lý do chọn đề tài
Trong xã hội hiện nay, gian lận là một hiện tượng không mới nhưng luôn hiện
hữu sẵn có, tiềm an nhiều nguy cơ Gian lận có thể xuất hiện ở mọi ngành nghề, gâythất thoát, tốn kém cho nhiều tổ chức về mặt kinh tế
Do số lượng gian lận rất ít, không xuất hiên liên tục, nên gây khó khăn cho việc
phát hiện và phòng chồng
Với các ngành kinh tế nói chung và ngân hàng nói riêng, hoạt động gian lận càng
tang mạnh trong thời gian gần đây Khi các tài khoản đã được gia tang bảo mật bởi ngân hang thì thẻ tín dụng lại là thứ bị nhắm đến Theo các báo cáo ghi nhận của tổ chức VISA và MASTER từ năm 2015 đến nay, riêng năm 2015 các giao dịch tín
dụng bị gian lận 21 tỷ đô Ở Việt Nam, giao dịch gian lận chỉ bằng 1/3 nước ngoài
do thẻ tín dụng chưa được phô biến rộng rãi Tuy vậy ton thất từ gian lận thẻ tín
dụng vẫn không hề nhỏ.
Không chỉ vậy, những thủ đoạn gian lận ngày càng tỉnh vi hơn, biến đổi hàng
ngày và đem lại hậu quả nghiêm trọng hơn Chính vì vậy chủ động đưa ra các biện pháp và kịch bản để chặn đứng gian lận là điều cần thiết Mô hình là một cách
phòng chống chủ động dem lại hiệu quả cao tốn ít chi phí được sử dụng rộng rãi.
2 Mục tiêu nghiên cứu
Đề tài tìm hiểu về vai trò của việc phòng chống rủi ro chủ động dựa trên các mẫudữ liệu sẵn có từ: công ty, ngân hàng đưa ra các thước đo đánh giá để ngăn chặnsớm những đối tượng có khả năng lừa đảo cao, phát hiện những gian lận đang hoạt
động mà chưa bị phát giác.
Do đặc thù các ngành nghề và mục tiêu khác nhau của riêng từng nhà quản lý, nên đề tài sẽ chỉ đưa ra các giải pháp và lựa chọn, không thể chỉ ra chính xác phương pháp nào là phù hợp với thị trường Việt Nam nói chung và từng công ty nói riêng Sự lựa chọn giải pháp — mô hình nào hoàn toàn phụ thuộc vào người áp dụng
mô hình trên thực tế
3 Đối tượng và phạm vi nghiên cứu° Đối tượng nghiên cứu là loại gian lận thẻ tín dụng - đây là loại gianlận được phát sinh từ các thẻ đạt đủ và không đạt đủ tiêu chuẩn bảo mật 3D securevà chip bảo mật chuẩn EMV
° Dữ liệu bao gồm các thông tin phát sinh từ mỗi thẻ tín dụng-khôngbao gồm các thông tin về cá nhân khách hàng
° Số liệu được lấy từ trang kaggle.com — data credit card fraud Bộ sốliệu được ghi nhận các phát sinh giao dịch tín dụng ở châu âu trong 2 ngày-do vandé về bảo mật thông tin nên sẽ không có chính xác thời điểm ghi nhận cũng như
nhiều tên các biến quan trọng liên quan.
4 Phương pháp nghiên cứu
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 10Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
e _ Đề tài dùng các cách phân tích định lượng đối với dữ liệu phân loại 2
lớp (binary classification) như mô hình Logistic, phương pháp Stacked
generalization và một vài thuật toán machine learning đơn giản nhưng đang được sử
dụng thực tế có hiệu qua cao: Bayesian network , Decision tree Đồng thời cũng sử
dụng phương pháp xử lý dữ liệu sampling va SMOTE dé có thé áp dụng với mô
hình Logistic trên bộ số liệu mat cân bằng
5 Những đóng góp mới của đề tài:
° Chỉ ra việc cách ứng dụng mô hình Logistic mạnh hơn so với mô hình
Logistic truyền thống dé phân loại (sử dụng phân tích nhóm WOE)
° Đưa ra được hướng xử lý với số liệu mat cân bang (imbalance) theo 2hướng: phương pháp xử lý dữ liệu và các mô hình trực tiếp
6 Kết cấu chuyên đề:
Kết cau của dé tài bao gồm bốn chương:
CHUONG 1: Hoạt động quản trị rủi ro tín dụng và thực trạng gian lận tín
dụng tại ngân hàng thương mại Việt Nam
CHƯƠNG 2: Cơ sở xây dựng các mô hình phát hiện và phòng chống gian
Trang 11Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
CHƯƠNG I
HOẠT ĐỘNG QUAN TRI RỦI RO TIN DỤNG VÀ THUC TRẠNG GIAN LAN TÍN DỤNG TRONG NGÂN HANG THƯƠNG
MẠI TẠI VIỆT NAM
1.1 Tổng quan về hoạt động quản trị rủi ro tín dung tại ngân hàng
Trong thời kì phát triển đất nước, với sự bùng nỗ về hàng hóa và dịch vụ, khiếncho nhu cầu sử dụng các sản phẩm của tín dụng của cả cá nhân và doanh nghiệp đều
tang mạnh Cá nhân cần những khoản ứng trước dé đầu tư trước cho nhu cầu của họ,
doanh nghiệp cần ứng những khoản vốn trước dé đáp ứng kịp thời những giao dịchcần thiết Chính vì vậy, các khoản vay tín dụng dưới nhiều hình thức là nguồn lợinhuận chính của nhiều ngân hàng
Do đặc điểm các khoản vay tín dụng là có thê có hoặc không có tài sản đảm bảo,
nên các khoản vay này sẽ có lãi suât lớn hơn bình thường (lãi suât bù rủi ro), đem lại
khoản lợi nhuận không lô cho ngân hàng
Hiện nay, tại Việt Nam, VPbank là ngân hàng đi đầu cho vay tín dụng Trongnăm 2017, VPbank tăng trưởng đến 45%, 51% nhuận thu được từ công ty tài chínhcủa VPbank là FE credit — công ty chuyên cho vay tín chấp Công ty này có tốc độtang trưởng 35%-37%/nam, đồng thời nợ xâu và mức 5% , tăng lên 5,9% vào quý
1/2018, cho thấy nguy cơ tiềm ấn rủi ro của hoạt động cho vay tín dụng là không hề nhỏ.
Rủi ro không chỉ xuất phát từ người cho vay, mà còn xuất phát từ chính bản thânngân hàng Nếu một ngân hàng không đáp ứng đủ lượng tiền mặt tín dụng, ngânhang sẽ mat uy tín ảnh hưởng đến kinh doanh Ngược lại, nếu khách hang phá sảnmà ngân hàng nắm giữ quá nhiều tài sản đảm bảo, nếu không thanh khoản kịp cũngsẽ làm ngân hàng không có vốn dé hoạt động kinh doanh
Do lợi nhuận cao luôn đi cùng với rủi ro lớn Các ngân hàng luôn cố gắng hoàn
thiện quy trình và các biện pháp hạn chế rủi ro, phát hiện nợ xấu sớm, các khoản vay
không có khả năng chi trả Mô hình cảnh báo sớm cũng được sử dụng dé giảm thiểuhóa chi phí liên lạc với các khách hàng yêu cầu trả nợ (nhăn tin với các khách hang
luôn đúng hạn, gọi nhắc nợ sớm với các khách hàng thường xuyên quá hạn hoăc cókhả năng quá hạn cao với kì sắp tới)
Vì vậy quản trị rủi do tín dụng luôn là một công tác quan trọng với bất kì ngân
hang nào — đặc biệt với các ngân hàng thương mại cổ phần — nơi tập trung lớn các
khoản vay không tín chấp Đây là loại rủi ro gây ra hậu quả rất lớn, có thể xảy ra ở
bất kì đâu, bất kì hạn mức tín dụng nào và có tần suất không xác định trước Nếu
11
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 12Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
không kịp thời phát hiện và ngăn chặn sẽ dé lại tốn thất lớn khó giải quyết cho ngân
hàng.
1.2 Gian lận tin dụng trong ngân hàng
1.2.1 Khái niệm và đặc điểmCác gian lận đều xuất phát từ việc không hoàn thành trả vốn và lãi cho ngân hàng
đúng hạn, có thê không trả khiên ngân hàng tôn nhiêu chi phí đê khắc phục tôn that.
Như vậy, gian lận tín dụng trong ngân hàng là rủi ro phát sinh chủ yếu từ cáckhoản vay không lường trước được rủi ro, các nguồn thu dòng của ngân hàng từkhoản vay đó không đáp ứng được về cả thời hạn và giá trị Nguyên nhân có thể từ
khách hàng hoặc khách hàng là người bị lừa đảo.
Gian lận gân như không báo trước, tân suât suât hiện nhỏ lẻ và khó đoán trước
được Tuy vậy van có một sô đặc diém như:
e _ Các khoản chỉ tiêu cao đột biến so với nhu cầu bình thường của chủ thẻ
e - Chi tiêu liên tục các khoản nhỏ lẻ
e C6 gắng hoàn thiện hồ sơ nhiều lần dé có thé vay tín chấp cho doanh
nghiệpe _ Khách hàng có nhiều khoản vay tại các ngân hàng khác
1.2.2 Phân loại rủi ro tín dụng
Rui ro tín dụng luôn tiềm ân nguy cơ dé khai thác trở thành các hành vi gian lận
Phân loại rủi ro tín dụng theo khách hàng có 2 loại: tín dụng cho cá nhân và tín dụng cho doanh nghiệp.
Doanh nghiệp đóng góp đến 45% GDP trong năm 2017, tạo điều kiện làm việccho 5 triệu lao động, do đó, các doanh nghiệp vừa và nhỏ đang được chú ý tới dé tạođiều kiện phát triển hơn nữa, đây mạnh cho vay tín dụng trong năm 2018 vói hình
thức tiền chuyển khoản và rút tiền mặt Hiện tại, có rất nhiều ngân hàng mạnh tay
trong việc cho vay tín chấp, nới lỏng các điều kiện để doanh nghiệp dễ tiếp cận vốn
— đi đầu là VPbank với khoản vay tín chấp tối đa 5 ty đồng
° Khách hàng doanh nghiệp: rủi ro đến từ việc ngân hàng đánh giá sai
sức mạnh và tiềm năng phát triên của doanh nghiệp, tạo điều kiện cho các
doanh nghiệp nhỏ làm giả hồ so, vay tiền sau đó trốn ra nước ngoài không trả nợ hoặc đệ đơn phả sản.
° Khách hàng cá nhân: rủi ro có thê đến từ cả 2 phía Ngân hàng đánhgiá sai tiểm lực của khách hàng, khiến khách hàng vay sau đó bỏ trốn (vìkhông cần tải sản đảm bảo) Rủi ro cũng có thể xuất phát từ việc cá nhân làm
mắt hoặc dé lộ thông tin thẻ tin dụng, khiến kẻ xấu lợi dụng thực hiện các giao dich bat chính.
12
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 13Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
1.3 Thực trạng gian lận thẻ tín dụng trong ngân hàng tại Việt Nam
Gian lận thẻ tín dụng cảng ngày càng gia tang Tuy các số liệu về gian lận ở Việt
Nam đều được bảo mật vì nhiều mục đích Theo những công bố gần nhất của tổ
chức phát hành thẻ tín dụng VISA va MASTERCARD, tỷ lệ gian lận ở Việt Nam
vẫn thấp hơn so với thế gidi
Nam 2015, tỷ lệ số tiền bị mat cap 1a 0.07%, ca thé gidi mat 21 ty dé vi gian lận.
Ở Việt Nam, con số này vẫn khá thấp — 0.023% Tuy vậy, với sự phát triên nhanh
của Việt Nam, các loại thẻ tín dụng chưa đáp ứng 100% vê công nghệ bảo mật 3D
secure và chip điện tử EMV, nên các mối nguy cơ tiềm an về giao dịch tín dụng vẫn
còn rất lớn.
1.4 Vai trò của phòng chống gian lận trong hoạt động quản trị rủi ro tín
dụng tại ngân hàng
Trong ngân hàng, việc phòng chống gian lận và quản trị rủi ro như một hình thức
mua bảo hiém, không thé thấy được lợi ích đem lại cho đến khi rủi ro xảy ra và dem
lại thiệt hại.
Trong bất kì thời điểm nào cũng luôn có những vụ gian lận diễn ra với quy mô
và số lượng không thê biết trước, hậu quả đem đến dù lớn hay nhỏ cũng tiềm an
những nguy cơ không tốt với ngân hàng.
Chính vì vậy, các ngân hàng liên tục cải tiến quy trình quản lý rủi ro và phát hiện
gian lận hiệu quả hơn, có sự kiểm duyệt xen lẫn giữa các chuyên gia và chấm điểm
dựa trên mô hình, đem lại kết quả tốt hơn, giảm thiểu nhiều chi phí.
Việc phòng chống gian lận không chỉ áp dụng với những khách hàng của ngân hàng, mà còn áp dụng với cả các nhân viên trong ngân hàng, giảm thiểu rủi ro từ việc nhân viên cô tình giả mạo hồ sơ hay cho vay quá hạn mức dé đạt được doanh
sé.
13
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 14Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
CHƯƠNG II
CƠ SỞ XÂY DỰNG CÁC MÔ HÌNH
PHÁT HIỆN VÀ PHÒNG CHÓNG GIAN LẬN
2.1 Đặc điểm dữ liệu về gian lận
Các loại dữ liệu thống kê về gian lận là dữ liệu dạng số.
Cũng như các dit liệu dạng phân loại (classification) khác, các biến của dữ liệu
gian lận cũng có các biến định tính hoặc định lượng là biến độc lập, biến phụ thuộc là biến phân loại với mục tiêu gian lận hoặc không gian lận (có thể mã hóa thành
good-bad hoặc 1-0, là dạng phân loại 2 lớp — binary classification).
Không giống với bình thường, các dữ liệu về gian lận bị lệch, thường có trên 99%
quan sát là tốt và dưới 1% quan sát gian lận cần tìm ra (trên thực tế các bộ dữ liệu
được các ngân hàng nước ngoài công bố cho mọi người nghiên cứu thì tỷ lệ quan sát
gian lận còn nhỏ hơn — thường dưới 0,3%) Do tỷ lệ chênh lệch quá cao, mật độ gian
lận quá thấp, các quan sát gian lận phần bố theo tính ngẫu nhiên nên không thé tuân
theo phân phối chuẩn Chính vì vậy khi chạy vào các thuật toán phân loại thông thường sé vi phạm nhiều điều kiện hoặc có thé không chạy được.
Nếu số biến trong dữ liệu quá lớn (khoảng vài chục đến vài trăm biến) việc sử
dụng các phương pháp giảm chiều đữ liệu như PCA (Phân tích thành phần chính)
cũng không khả thi Vì PCA (Phân tích thành phần chính) chỉ phù hợp với dữ liệu có
phân phối chuẩn, gan chuẩn hoặc có quan hệ tuyến tính với nhau Còn với dữ liệu
gian lận do bị lệch nên tiến gần tới phân phối t (t-distribution) hơn.
2.2 Tiền xứ lý dữ liệu
2.2.1 Outlier
Các quan sát bất thường (outlier) là những quan sát có giá trị ở 1 vài trường (hoặctất cả) tách ra xa khỏi xu hướng (phần lớn) các quan sát còn lại Việc này dẫn đếndata có thê có nhiều chỉ số bị sai lệch hoặc bị kéo lệch theo một vài quan sát nào đó,
dẫn đến việc hồi quy bị kém chính xác Các điểm dữ liệu outlier thường được loại
bỏ hoặc thay thế bằng các chỉ số khác (ví dụ trung bình, trung vị của bộ dữ liệu)
trước khi cho vào chạy mô hình Hiện tại chưa có định nghĩa cụ thể toán học thế nào
là một điểm ngoại lai, nhưng người ta có thé phát hiện các điểm ngoại lai bằng nhiềuphương pháp như: ki thuật đô thị (histogram, scatter, Plot box ), kỹ thuật phân cụm
(clustering technique), mật độ (Density-based Approaches).
14
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 15Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
Tuy vậy với dữ liệu gian lận thì hoàn toàn ngược lại, việc bỏ qua các outlier sẽ có
thể bỏ qua những gian lận Dù cho là dang Left outlier (mẫu ngoại lai giá trị cực tiểu), Right outlier (mẫu ngoại lai giá trị cực đại) hay Representative outlier (mẫu giá trị ngoại lai được cho là đại diện của 1 phân lớp nào đó) thì các outlier cũng có thể
đúng (là quan sát gian lận), cũng có thê sai (do việc thu thập dir liệu), nhưng việc bỏqua các outlier này càng tạo điều kiện cho các gian lận có thêm “vùng giá trị” để“gia” thành các quan sát tốt
Chính vì vậy việc sử lý outlier rất nguy hiểm trong dạng mô hình này Phát hiện
outlier có ý nghĩa ứng dụng và quan trọng hon rat nhiêu trong phát hiện gian lận hơn là loại bỏ outlier.
2.2.2 Missing
Missing là các giá trị trống ở một hay nhiều trường dir liệu Missing có thé ngaunhién do chinh quan sat dién thiéu thông tin, người nhập dữ liệu nhập thiếu thông tinhay bản thân quan sát đó không thé có (ví dụ với 1 người mới chưa bao giờ mở tàikhoản nhân hàng thì họ không thể có thông tin trong trường tài khoản ngân hàng
được-đa phần sẽ được dé trống, một phần ít là sẽ điền chưa có)
Tùy vào số lượng, phân bố của missing, có 4 cách thường được sử dụng dé xử lý
missing:
1 Xóa các quan sát bi missing nếu các quan sát này thiếu thông tin ở quánhiều trường
2 _ Xóa các cột biến (trường dữ liệu) bi missing nhiều, dẫn đến biến đó
không đem lại thông tin cho mô hình.
3 Gán các giá tri missing với các chỉ số thống kê của dit liệu như : trungbình, trung vi, tần sỐ,
4 Đánh dấu hoặc gán các giá trị missing trong cùng một biến để tạo ra
một nhóm có thé phân tích (ví dụ như thông qua WOE)Cách một và cách hai rất đơn giản trong việc xử lý dữ liệu, tuy vậy nếu missingthông tin ở một dòng hoặc một cột lớn ( thường là trên 95%), việc xóa đi có thé dẫnđến mat thông tin vốn có của bộ dit liệu ban dau Cách ba chỉ phù hợp với các biếnliên tục, các biến định tính hoặc nhất là định tính có thứ bậc rất khó dé gán một giá
trị nào đó do missing.
Cách bốn được sử dụng nhiều nhất, missing được gộp thành một nhóm dé phan
tích Việc coi missing cũng là một giá tri dé phân tích có thê sé tim được đặc diém
hay xu hướng của dữ liệu, khiên thông tin được bảo toàn.
2.2.3 Các luồng dữ liệu đặc biệt
Các luồng dữ liệu đặc biệt này là những quan sát khi đạt hoặc rơi vào 1 vùng giátrị nào đấy sẽ được nhận diện là gian lận hoặc không gian lận(100% gian lận hoặc
100% không gian lận) Ngân hàng sẽ tách các quan sát này ra dé có chính sách riêng
với mỗi khách hàng Nếu khách hàng bị từ chối có nghĩa là tỷ lệ cao các quan sát
15
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 16Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
này luôn xấu, từ đó ngân hàng sẽ đánh giá ưu tiên thấp hoặc đưa các khách hàng này vào blacklist Ngược lại với những khách hàng luôn luôn tốt, sẽ luôn được chấp
nhận sớm và đánh dấu độ ưu tiên cao hơn
Các tiêu chuẩn để đánh giá này sẽ được các chuyên gia xây dựng có điều kiện,
hoặc được phân tích và tìm ra dựa trên dữ liệu (ví dụ: nếu số tiền vay nhỏ hơn 50%tài sản đảm bảo thì chấp thuận cho vay 100% Hoặc nếu quan sát này đã có tài sản
và thế chấp ở nhiều ngân hàng thì không cho vay 100% do có dấu hiệu lừa đảo).
Trong phân tích, decision tree được dùng dé phân loại ra các luồng này (nếu có
thê), sau đó quan sát các luông dữ liệu trong một thời gian đê xác minh-kĩ thuật cụ thê sẽ được nói ở mục sau.
2.3 Phân chia dữ liệu và các tiêu chí đánh giá mô hình
2.3.1 Chia dữ liệuDữ liệu ban đầu được chia ra làm 2 phần, một phần để xây dựng mô hình, một
phan dé kiểm tra và hiệu chỉnh mô hình (dé đảm bảo mô hình có hiệu quả tốt, không
bị overfitting)
Thông thường, dữ liệu nếu có số lượng quan sát lớn sẽ được chia theo tỷ lệ 70%
sử dụng để làm mô hình (training) , 30% còn lại sẽ được dùng để hậu kiểm và hiệu
chỉnh mô hình sau khi đã hoàn thành (validate) Hoặc với số liệu có lượng quan sát
nhỏ - thường là dưới 2000 quan sát, hay có tỷ lệ chênh lệch giữa 2 phân lớp là lớn,
có thể lấy 100% dữ liệu để tạo mô hình, sau đó lấy nhiều lần 80% dữ liệu để kiểm
định (dé đảm bảo mô hình hoạt động tốt trên cả tập dữ liệu lớn và các phan nhỏ).
Thuật toán chia dữ liệu là random (ngẫu nhiên)-nhưng van đảm bảo tỷ lệ 2 phân
lớp trong mẫu phát triển mô hình, tổng thé và hậu kiểm không lệch với nhau Cáchđơn giản nhất ta có thé xem minh họa như hình (dễ dàng thực hiện bằng excel)
16
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 17Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
Hình 1.1 Cách chia dữ liệu dé phát triển mô hình và kiểm định mô hình
Áp dụng vào dữ liệu quan gian lan , vì số lượng gian lận là rất nhỏ nên việc chia
30% dữ liệu ra hậu kiểm sẽ làm mắt rất nhiều thông tin xây dựng mô hình Còn lấy
100% dữ liệu dé làm mô hình theo cách 2, thì việc lấy ra 80% dit liệu làm hậu kiểm
cũng không hiệu quả lắm (do bình thường với 1 bộ dữ liệu 280.000 quan sát, có 500
quan sát là gian lận cần tìm ra, 80% sẽ có khoảng 400 quan sát là gian lận trong dữ liệu hậu kiêm, không hiệu quả mấy vì không chênh với 500 nhiều).
Đề kiểm tra mô hình được chính xác, dữ liệu validate phải lay một mẫu dữ liệumới hơn dữ liệu phát triển mô hình để kiểm định (dữ liệu out of time hay out ofdata) Kết quả kiểm định mẫu dữ liệu out of time sẽ quyết định mô hình đước đưa
vào sử dụng hay không.
2.3.2 Phân tích biến bằng cách chia nhóm với WOE
WOE (weight of evidence) được sử dụng khá nhiều, nhất là với bài toán phânloại, chấm điểm dựa trên mô hình Logistic Day là một công cụ khá mạnh mẽ dé cải
thiện mô hình.
WOE thể hiện khả năng dự báo của các biến độc lập đối với biến phụ thuộc (biến
phân loại) WOE thường được sử dụng trong các bài toán Scorecard.
WOE được sử dụng:
- Đánh giá các nguy cơ tương đối của các thuộc tính khác nhau cho một đặc tính, để có được một chỉ sô phản ánh tính năng trong bảng điểm
- WOE như một phương tiện chuyền đơn vị của tất cả các biến về không có don vi
- WOE xác định đóng góp tương đối của các thuộc tính lên tông thé.
Ý tưởng của WOE là chia biến trong mẫu thành các nhóm với kích thước ít nhất
là 5% tông sô quan sát (hoặc gân 5% nhưng không quá nhỏ) với biên liên tục hoặc
17
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 18Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
thành các nhóm định danh với biến định tính Với mỗi nhóm sẽ có tỷ lệ %Good,%Bad so với toàn bộ mẫu Dựa trên %Good và %Bad dé tinh ra một trọng số đối với
mỗi nhóm, từ đó tìm ra sự phân phối của chúng trong mẫu và WOE sẽ phát huy tác
dụng trong việc ước lượng mức độ chênh lệch của phân phối Good và Bad Sau đó, thay vì việc dùng các số liệu nguyên gốc để đưa vào mô hình, chúng ta sẽ
thay những giá trị trong 1 nhóm bằng WOE đã tính ra dé sử dụng (ý tưởng này cũng
giống như mạng neural network nhưng chỉ có 1 lớp hidden layer là thay WOE)
Tuy nhiên chi số WOE không phải là yếu tố duy nhất, nhưng đây là 1 yếu tố dự
báo mạnh, các thuộc tính mạnh cũng phải hợp lý và có ý nghĩa hoạt động.
Các biến danh nghĩa được nhóm lại dé đặt thuộc tính tương tự WOE, cũng như
các biến liên tục dé tối đa hóa sự khác biệt từ nhóm nay sang nhóm khác.
Trong đồ thị, xu thế WOE sẽ thê hiện rõ ràng để đảm bảo việc hoạt động của các nhóm thích hợp với thực tế - thường sẽ đi xuống, đi lên, hình chữ U hoặc hình chữ
V,
2.3.3 Hệ số IV , ¬
IV - Việt tắt của Information value — là một chỉ sô đo sức mạnh của một biên đôi
với việc dự báo hay phân loại Chỉ số này được tinh ra từ WOE của mỗi nhóm trong
một biến, mỗi biến sẽ có chỉ số IV thể hiện riêng sức mạnh của mình Công thức tính IV :
IV = > @istr Good -(i) — Distr Bad(i))
Ị Distr Good (i)
"Distr BadQ) )
Chỉ số IV đề ở dạng số thập phân Một số quy tắc cho IV:
- IV <0.02: không có khả năng dự báo
- 0.02 <IV <0.1: khả năng dự báo yếu
- 0.1 <1IV <0.3: khả năng dự báo trung bình
- IV>0.3: khả năng dự báo mạnh
Mặc dù IV càng cao càng tốt nhưng với những biến quá mạnh, IV trên 0.5 thì ta
cần xem xét có nên đưa vào mô hình hay không-phải sử dụng có kiểm soát Nếu tat cả các biến đều có sức mạnh gần như tương đồng nhau, chỉ 1 vài biến đơn lẻ có IV
18
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 19Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
cao han lên thì có thé nếu sử dụng trong mô hình, Kết quả dự đoán sẽ bị chỉ phối
hoàn toản bởi các biến IV cao Các biến IV cao trên 0.5 vẫn được sử dụng nếu so
với các biến còn lại, nếu các biến khác IV cũng cao, không có sự bất thường.
2.3.4 Các phương pháp đánh giá mô hình phân loại
-Khi một mô hình đã được xây dựng xong, cân đánh giá mô hình với các mẫu dữ liệu khác thử nghiệm sức mạnh của mô hình Các chỉ tiêu đánh giá sẽ được đưa ra
để đánh giá sức mạnh mô hình Nếu kết quả đạt được phù hợp với mong muốn củangười sử dụng, mô hình sẽ được áp dụng trong thực tế
Với moi bộ dữ liệu va tình hình thực tê khác nhau, các môc ở mỗi tiêu chí đánh
giá sẽ khác Tuy vậy các mô hình vân có thê so sánh sức mạnh với nhau dựa vào các
chỉ tiêu tuyệt dôi như Confusion matrix hay Binary classification tests.
đạt-e Truđạt-e positivđạt-e (TP): là những trường hợp XAU được phân loại XAU (phân
loại đúng Bad -> Bad)
e False Positive (FP): là những trường hop TOT bị phân loại XAU (phân
loại nhằm Good -> Bad)
True negative (TN): là những trường hop TOT được phân loại TOT (phân
loại ding Good -> Good)
e False negative (FN): là những trường hop XAU bị phân loại TOT (phân loại
nhằm Bad -> Good)
Bang 1.2 confusion matrix
: Giá trị hồi quy (predicted)
Confusion matrix Bad Good
Thuc té | Bad True positive False negative (actual) | Good False Positive True negative
Các chi số này đơn vị là số lượng duoc tính ra bang cách đếm các quan sát theo
những phân lớp như trên.
True positive (TP) và True negative (TN) là 2 chi số đánh giá sự phân loại chính xácnên càng cao càng tốt
False Positive (FP) va False negative (FN) là 2 chi số đánh giá sự phân loại nhằmnên càng thấp càng tốt
19
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 20Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
Tuy mục dich sử dụng của mô hình, người đánh giá sẽ chú ý vào chi số nào hơn, vídụ như: đánh giá khách hàng thì chỉ sô này ít được chú ý, nhưng nếu để tìm kiếm
những đối tượng xâu hoặc gian lận thì True posotive và False negative được đặc biệt
quan tâm (để tối ưu việc phát hiện gian lận và tối thiểu việc nhằm gian lận thành
những quan sát tốt)
2.3.4.2 Binary classification tests
Trong nhiều trường hợp, việc nhìn số quan sat đúng sai ở bang Confusion matrix
gây khó khăn khi số lượng quan sát lớn Vì vậy, một vai chỉ số được tính ra từ bảng
Confusion matrix dé thuận tiện so sánh
Bồn chỉ số hay được sử dụng dé so sánh: Accuracy (độ chính xác phân loại),
Error rate (tỷ lệ lỗi), True positive rate (ty lệ phát hiện quan sát xấu), Trrue negative
rate (tỷ lệ phát hiện quan sát tốt)
Công thức được tính như sau: e Accuracy (ACC)
TP+TN _ SỐ quan sat phan loai DUNG
TP+TN+FP+ FN Tổng số quan sat
ACC =
« Error rate (ER)
FP+FN _ SỐ quan sat phan loai NHAM
—TP +TN+FP+ FN Tổng số quan sat
¢ Sensitivity (true positive rate)
TP Số quan sat xấu phan loại DUNG
TP+FN _ˆ Tổng số quan sat XAU
se Specificity (true negative rate)
-TN Số quan sát tốt phan loại DUNG
TN+FP Tổng số quan sat TOT
TPR =
TNR =
2.4 Đề suất mô hình sử dung phát hiện gian lận và phương pháp sampling
Trên thực tế, các mô hình được sử dung dé phân loại dữ liệu bị mat cân bang làrất nhiều, từ các mô hình có kiểm soát như: Logistic, decision tree, Hidden markovmodel Đến các mô hình dạng hộp kín (black box) không thể can thiệp hay kiểm
soát như: Xgboots, neural network, random forest tuy nhiên không có mô hình
nào có thể hiệu quả 100%
Hành vi gian lận ngày càng tỉnh vi, biến đổi liên tục vì vậy các mô hình phải đáp
ứng được tiêu chí:
20
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 21Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
- Độ chính xác ở mức mong muốn của người sử dụng mô hình.
- Dé kiểm soát các biến só, trong số dé mô hình không chỉ thể hiện kết
quả tốt trên đữ liệu, mà còn phải có kết quả tốt khi dùng trong thực tế.- Phù hợp với nhiều data dit liệu, ít bị ràng buộc bởi các điều kiện (vì trong thực tế dé đáp ứng được điều kiện là cực khó).
- Dé dàng tự động kiểm tra dữ liệu trên toàn hệ thống (ngân hàng, viễn thông ), hoặc tự kiêm tra băng tay khi hệ thống gặp sự cô (semi-auto).
Chính vì vậy các mô hình và phương pháp được đề xuất là:
- M6 hình Logistic có kết hợp phân nhóm sử dụng WOE, kết hợp với
phương pháp sampling dữ liệu.
- Mô hình Decision tree (phù hợp với dữ liệu có tính phân cụm).
- Mô hình Bayesian network (kết hợp với việc phân nhóm băng phương
pháp WOE với những biên liên tục).
2.4.1 Sampling dữ liệu
Như đã giới thiệu ở trên, dữ liệu về gian lận khác với dữ liệu thông thường, với
một tỷ lệ gian lận cực thấp làm cho dữ liệu mat cân bằng , khiến cho việc chia nhóm
dé có thé sử dụng mô hình Logistic cực kì khó khăn, hoặc không thé làm được.
Chính vì vậy sampling được sử dụng để giải quyết vấn đề này.
Điều kiện để có thể phân nhóm WOE đó là nhóm nào cũng phải có tỷ lệ bad rate >0%, và mỗi nhóm phải xấp xỉ 5% quan sát Nhung néu có thé chia ra một nhóm chi
chiếm 1% tổng số quan sát, nhưng lại có đến 70% số quan sát gian lận trong đó thì sao? Lam sao có thé đưa nhóm đó vào mô hình?
Sampling giải quyết van dé này bang cách tăng ty lệ badrate từ rất thấp (như
trong dữ liệu gian lận là 0,2%) lên gấp nhiều lần như thế (lên gấp vài chục đến vài
trăm lần tùy vào thực tế).
Thực hiện việc sampling theo cách như sau :
BI : dữ liệu dé phát triển mô hình sẽ được chia thành 2 phan good — bad riêng biệtB2: Với phan Bad (tỷ lệ cực nhỏ) — ta nhân các quan sat bad lên nhiều lần Đồngthời với phần Good (cực lớn) ta giảm số lượng good đi nhiều lần bằng thuật toán
random (dé đảm bảo tính chat của dữ liệu vẫn ngẫu nhiên)
B3: ghép 2 phần đã xử lý lại với nhau ta được bộ dữ liệu mới có tỷ lệ bad rate cao
hơn ban đâu rât nhiêu
2.4.2 Mô hình LogisticCó rất nhiều phương pháp toán học có thé phân loại dữ liệu có 2 phân lớp (binary
classification), Logistic là một thuật toán được biết đến nhiều nhất
Ham Logistic được sử dụng rộng rãi vì :
21
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56
Trang 22Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên
+ Sử dụng được với nhiều dang dữ liệu (ngoại trừ những dữ liệu có lượng
missing lớn, nhiều biến có tương quan cao với nhau)
+Ít những điều kiện ràng buộc, hiệu quả khi áp dụng vào thực tế
+ Có thể triển khai trên đa nền tang (từ cham điểm tự động dựa trên hệ thống
máy tính hay xét duyệt bằng tay trong nhiều trường hợp)
+ Dễ giải thích kết quả, có khả năng theo dõi, chan đoán và hiệu chỉnh dé kết
quả phù hợp với thực tế (để mô hình có tính én định sử dung trong thời gianđài)
Với bài toán phân loại 2 lớp (tốt và xấu) , khi đữ liệu đã có được định nghĩa phânloại rõ ràng, mô hình Logistic sẽ dùng các biến dé cho ra kết quả dự báo là giá tri
liên tục từ 0 đến 1 Giá trị dự báo càng gần 1 thì xác xuất xảy ra biến cố càng cao
(thấp nhất là 0 — 0% và cao nhất là 1 — 100%).Mô hình hồi quy Logistic như sau :
P = prob(y = 1) =
ePot BiX1+B2X2+-+ BX,
1+ _eBq†B1Xi+2X› ++ BaXn
P: Xác xuất dé quan sát xảy ra sự kiện
Tn: Giá tri của biên thứ n
„: Giá trị tham sô của biên thứ n
Các tham số ổ„ được ước lượng bằng phương pháp hợp lý tối đa (MaximumLikelihood — ML) Thông thường, điều kiện dé mô hình được ap dung đó là các
tham sô „ phải lớn hơn 0, và các tham sô đó không được đông thời băng 0.
Dé mô hình được mạnh hơn, dữ liệu đầu vào thường được chuẩn hóa — có thé
bằng phương pháp phân nhóm và gán WOE như đã dé cập Việc chuân hóa WOE này giúp các nhóm biến định tính được gán trọng số thể hiện chính xác tính chất của nhóm mình hơn là mã hóa biến giả, làm cho mô hình Logistic mạnh hơn.
Dé có thé ra được mô hình có tính hiệu quả cao, thường tất cả các biến sẽ được sử
dụng để tận dụng thông tin tối đa có thể, sau đó loại những biến có tham số không
phù hợp đi Tuy vậy hiện tượng overfit có thê xay ra, khiến cho mô hình hoạt động
rất tốt trên bộ đữ liệu chính, nhưng lại sai lệch rất nhiều khi dùng trên dữ liệu kiêm
chính xác nhất, ta chia 7 biến mỗi biến thành 5 nhóm, như vậy sẽ có 7* = 16.807
trường hợp có thé xảy ra của các quan sát, nhưng chi có tối đa 10.000 trường hợptrong bộ số liệu, nên kết quả hồi quy sẽ thiếu chính xác vì không dự đoán đượcnhững trường hợp ngoài bộ số liệu)
22
11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56