Chuyên đề thực tập: Xây dựng phương pháp xử lý dữ liệu mất cân bằng, ứng dụng phát hiện và phòng chống gian lận tín dụng trong ngân hàng thương mại

Đối tượng và phạm vi nghiên cứu° Đối tượng nghiên cứu là loại gian lận thẻ tín dụng - đây là loại gianlận được phát sinh từ các thẻ đạt đủ và không đạt đủ tiêu chuẩn bảo mật 3D securevà

Trang 1

h TRƯỜNG ĐẠI HỌC KINH TẾ QUOC DAN oF

KHOA TOAN KINH TE

Lop : Toán Tài chính 56

Giảng viên hướng dẫn : ThS Nguyễn Thị Liên

Hà Nội, tháng 5 năm 2018

Trang 2

Chuyên đề thực tập GVHD: ThS Nguyễn Thị Liên

LỜI CẢM ƠNLời dau tiên em xin gửi lời cảm ơn chân thành và sự tri ân sâu sắc đối với Th.SNguyễn Thị Liên — người đã trực tiếp hướng dẫn em và giúp em có định hướng đúngdan trong quá trình hướng dẫn viết chuyên đề thực tập của em Em xin cảm ơn cácthay cô khoa Toán Kinh tế trong suốt những năm học đại học đã tận tình dạy dỗ, chỉbảo em không chỉ về những kiến thức trên lớp mà còn những kinh nghiệm cuộc sốngđể giúp em có hành trang tot trước khi ra trường

Trong quá trình viết chuyên dé, dù em đã rất có gang dé viết chuyên dé một cách

tot nhất Tuy nhiên, do kiến thức, thời gian còn hạn hẹp, kinh nghiệm thực tẾ còn chưa nhiều nên chuyên dé cua em còn nhiều thiếu sót Em rat mong nhận được sự

gop ý cua các thay cô để có thể hoàn thiện được tốt hơn

Em xin chân thành cảm ơn!

Nguyễn Chiến Thắng

11143892 — Nguyễn Chiến Thắng Lớp: Toán tài chính 56

Trang 3

"¬ MỤC LỤC

0009.000075 2

i00 ÔỎ 3

DANH MỤC TU VIET TÁẮTT - 5-2 s<ss©s£©Ss£EsESseEsEvseEseEvseEseerserssersersserssre 5

DANH MỤC CÁC HÌNH, BANG s- <2 s<©csecssExseEssersetsserserssersssssersee 7

®:0019)1e07 11

HOAT DONG QUAN TRI RUI RO TIN DUNG VA THUC TRANG GIAN

LAN TÍN DUNG TRONG NGAN HANG THUONG MẠI TAI VIET NAM 11

1.1 Tống quan về hoạt động quản trị rủi ro tín dụng tại ngân hàng 11

1.2 Gian lận tín dụng trong ngân hàng - << <5 <5 9s 9554 95955968954 12

1.2.1 Khái niệm và đặc điểm ° 2< esssssessesserserserserserssrssrsee 12

1.2.2 Phân loại rủi ro tin dụng d << << < %6 <9 99 9 9999995884999488956668956 12

1.3 Thuc trạng gian lận thẻ tín dụng trong ngân hàng tại Việt Nam 13

1.4 Vai trò của phòng chống gian lận trong hoạt động quản trị rủi ro tín

dụng tại ngân hàng << << 9 9 9 9.9.9.9 0.0 0.0 00.009 0000890804 00 13

0:09) 14

CƠ SỞ XÂY DỰNG CÁC MÔ HINH 2 << se ©eseeseezserseerserserscre 14

PHÁT HIỆN VÀ PHÒNG CHÓNG GIAN LẬN c-s<©css©cssvcssersssrssee 14

2.1 Đặc điểm dữ liệu về gian lận se s<ssssssSssexsesserserserserserserssrssse 14

2.2 Tidtr xi ly ái SN 14

2.2.1 Outlier h6 e 14

2.2.2 MSSỈNE G0 0 9 cọ lọ TH T0 0.0000.004 0009 009 8906 15

2.2.3 Các luồng dữ liệu đặc biệt -. se s-s<©ss©ssevseEseerserseerssrsserssrsserse 15

2.3 Phân chia dữ liệu và các tiêu chí đánh giá mô hìnhh << «5< «s5ss« 16

Trang 4

2.3.4 Các phương pháp đánh giá mơ hình phân loaÏ -. -s=s«<«ess<« 19

2.3.4.1 Confusion IIAÍTÏX s55 << s4 00000 1050050040095604080 19

2.3.4.2 Binary Classification Ẩ€SÉS - << HH H000 8gg0 20

2.4 Đề suất mơ hình sử dụng phát hiện gian lận và phương pháp sampling 20

2.4.1 Sampling dif li€u do 5 5G 59 %5 9 9 90 0 00.0004 00 80918566 21

2.4.2 Mơ hình Logistic d G5 S9 9 9 0.0.0.0 01000000 809686 06 21

2.4.3 Decision TF€G o- s55 s5 9 0 0010050500080 90 23

2.4.4 Baysian I€ỀWOTFE d ĩ5 G G5 S5 9 9 99 9 0 1 0 000000040000 80906996 26

2.5 Stacked generalization (stacking) - Ensemble : - s55 << «5< sss< sesss 28

2.6 Phương pháp SIM TTTE -< =5 < << 9 cọ HT c0 00000008 0 08, 29

3.3.2 Cac tiêu chí đánh giá mơ Ninh œ- 5< 5< s2 5 96.9 996 95985858556 35

3.4 Kết quả mơ hình Decision Tree, Bayes Network va Ensemble với data ban

ẦU 0G 9.9.1” 9.0.0 0 0.0000.000 00.0.0000 00.00.0009 908094000 80080091 804 39

3.5 Kết quả mơ hình Logistic, Decision Tree, Bayes Network và Ensemble với

phương pháp sampling bình thu Ong - < =5 < «se s9 min n0 40

3.6 Kết quả mơ hình Logistic, Decision Tree, Bayes Network và Ensemble với

phương pháp SMOTE << sọ cọ 0.00000100000100 00 41

3.7 So sánh mơ hình Logistic kết hợp với các phương pháp xử ly dữ liệu 423.8 So sánh mơ hình Decision Tree kết hợp với các phương pháp xử lý dữ liệu 433.8 So sánh mơ hình Bayes Network kết hợp với các phương pháp xử lý dữ liệu 453.9 So sánh phương pháp Ensembel kết hợp với các phương pháp xử lý dữ liệu 45

4

11143892 — Nguyễn Chiến Thắng Lớp: Tốn tài chính 56

Trang 5

KET LUẬNN G0 H5000000000004000000404000036030036038006460060060600000000500380808880 48

DANH MỤC TÀI LIỆU THAM KHẢO

DANH MỤC TỪ VIET TAT

Fraud Gian lận

Legal Binh thường

IV Hệ số thông tin information valueWOE Trọng số weight of evidien

ML Hoc May — Machine learning

BAD Quan sát x4u

GOOD Quan sát tốt

Trang 6

DATA Dữ liệu Training Dữ liệu tạo mô hình Deverlop_ | Dữ liệu tạo mô hình

Validate _ | Dữ liệu kiêm tra mô hình

Out of time | Dữ liệu kiểm tra mô hình khác thời gian với dữ liệu ban dauScorecard _| Phương pháp thẻ điểm ứng dụng của mô hình Logistic

Trang 7

DANH MỤC CÁC HÌNH, BANG

Hình 1.1 Cách chia dữ liệu dé phát triển mô hình và kiểm định mô hình 16

Bang 1.2 confusion mafTIX -.c ene ene eee eee nh kh 19

Bang 1.3 Vi du về dữ liệu phân loại - cà se 23Hình 1.4 Ví dụ về cây phân loại Decision Tree - 522cc s22 24Hình 1.6 Đồ thị của entrOpy cc c2 1111112222111 1255511111 x5 ng 25Bang 1.7 Ví dụ về dit liệu cho mô hình Bayes Network -: 27Hình 1.8 Mô ta cách tạo điểm dit liệu mới từ thuật toán KNN 29

Bang 1.9 Badrate của tập dữ liệu c2 nee 2S ens 34

Hình 1.10 Phân tích các biến vào mô hình Logistic qua WOE với data

Hình 1.16 Mô hình dựa trên dữ liệu sampling chạy với phần mềm SAS Miner 40

Bảng 1.17 Kết quả với data sampling - -c ¿c2 111122211122 ee 40Hình 1.18 Mô hình dựa trên dữ liệu đã SMOTE chạy với phần mềm SAS

Miner 4

Bảng 1.19 kết quả với data SMOTTE 2 1S 1122222111111 s2 41

Bang 1.20 So sánh mô hình Logistic với 2 cach xử lý dữ liệu 42

Bảng 1.21 So sánh mô hình Decision Tree với các bộ dữ liệu 42

Hình 1.22 Biến quan sát có tính phân cụm -cc 2552-222-222: 43

Hình 1.23 Mô tả dữ liệu từ phương pháp SMOTE - 43

Bảng 1.24 So sánh mô hình Bayes Network với các bộ dữ liệu 44

7

Trang 8

Bang 1.25 So sánh phương pháp ensemble với các bộ dit liệu 44

Bảng 1.22 Ưu, nhược điểm từng phương pháp ‹ - 55c c s2 45

§

Trang 9

LOI MỞ DAU1 — Lý do chọn đề tài

Trong xã hội hiện nay, gian lận là một hiện tượng không mới nhưng luôn hiện

hữu sẵn có, tiềm an nhiều nguy cơ Gian lận có thể xuất hiện ở mọi ngành nghề, gâythất thoát, tốn kém cho nhiều tổ chức về mặt kinh tế

Do số lượng gian lận rất ít, không xuất hiên liên tục, nên gây khó khăn cho việc

phát hiện và phòng chồng

Với các ngành kinh tế nói chung và ngân hàng nói riêng, hoạt động gian lận càng

tang mạnh trong thời gian gần đây Khi các tài khoản đã được gia tang bảo mật bởi ngân hang thì thẻ tín dụng lại là thứ bị nhắm đến Theo các báo cáo ghi nhận của tổ chức VISA và MASTER từ năm 2015 đến nay, riêng năm 2015 các giao dịch tín

dụng bị gian lận 21 tỷ đô Ở Việt Nam, giao dịch gian lận chỉ bằng 1/3 nước ngoài

do thẻ tín dụng chưa được phô biến rộng rãi Tuy vậy ton thất từ gian lận thẻ tín

dụng vẫn không hề nhỏ.

Không chỉ vậy, những thủ đoạn gian lận ngày càng tỉnh vi hơn, biến đổi hàng

ngày và đem lại hậu quả nghiêm trọng hơn Chính vì vậy chủ động đưa ra các biện pháp và kịch bản để chặn đứng gian lận là điều cần thiết Mô hình là một cách

phòng chống chủ động dem lại hiệu quả cao tốn ít chi phí được sử dụng rộng rãi.

2 Mục tiêu nghiên cứu

Đề tài tìm hiểu về vai trò của việc phòng chống rủi ro chủ động dựa trên các mẫudữ liệu sẵn có từ: công ty, ngân hàng đưa ra các thước đo đánh giá để ngăn chặnsớm những đối tượng có khả năng lừa đảo cao, phát hiện những gian lận đang hoạt

động mà chưa bị phát giác.

Do đặc thù các ngành nghề và mục tiêu khác nhau của riêng từng nhà quản lý, nên đề tài sẽ chỉ đưa ra các giải pháp và lựa chọn, không thể chỉ ra chính xác phương pháp nào là phù hợp với thị trường Việt Nam nói chung và từng công ty nói riêng Sự lựa chọn giải pháp — mô hình nào hoàn toàn phụ thuộc vào người áp dụng

mô hình trên thực tế

3 Đối tượng và phạm vi nghiên cứu° Đối tượng nghiên cứu là loại gian lận thẻ tín dụng - đây là loại gianlận được phát sinh từ các thẻ đạt đủ và không đạt đủ tiêu chuẩn bảo mật 3D securevà chip bảo mật chuẩn EMV

° Dữ liệu bao gồm các thông tin phát sinh từ mỗi thẻ tín dụng-khôngbao gồm các thông tin về cá nhân khách hàng

° Số liệu được lấy từ trang kaggle.com — data credit card fraud Bộ sốliệu được ghi nhận các phát sinh giao dịch tín dụng ở châu âu trong 2 ngày-do vandé về bảo mật thông tin nên sẽ không có chính xác thời điểm ghi nhận cũng như

nhiều tên các biến quan trọng liên quan.

4 Phương pháp nghiên cứu

Trang 10

e _ Đề tài dùng các cách phân tích định lượng đối với dữ liệu phân loại 2

lớp (binary classification) như mô hình Logistic, phương pháp Stacked

generalization và một vài thuật toán machine learning đơn giản nhưng đang được sử

dụng thực tế có hiệu qua cao: Bayesian network , Decision tree Đồng thời cũng sử

dụng phương pháp xử lý dữ liệu sampling va SMOTE dé có thé áp dụng với mô

hình Logistic trên bộ số liệu mat cân bằng

5 Những đóng góp mới của đề tài:

° Chỉ ra việc cách ứng dụng mô hình Logistic mạnh hơn so với mô hình

Logistic truyền thống dé phân loại (sử dụng phân tích nhóm WOE)

° Đưa ra được hướng xử lý với số liệu mat cân bang (imbalance) theo 2hướng: phương pháp xử lý dữ liệu và các mô hình trực tiếp

6 Kết cấu chuyên đề:

Kết cau của dé tài bao gồm bốn chương:

CHUONG 1: Hoạt động quản trị rủi ro tín dụng và thực trạng gian lận tín

dụng tại ngân hàng thương mại Việt Nam

CHƯƠNG 2: Cơ sở xây dựng các mô hình phát hiện và phòng chống gian

Trang 11

CHƯƠNG I

HOẠT ĐỘNG QUAN TRI RỦI RO TIN DỤNG VÀ THUC TRẠNG GIAN LAN TÍN DỤNG TRONG NGÂN HANG THƯƠNG

MẠI TẠI VIỆT NAM

1.1 Tổng quan về hoạt động quản trị rủi ro tín dung tại ngân hàng

Trong thời kì phát triển đất nước, với sự bùng nỗ về hàng hóa và dịch vụ, khiếncho nhu cầu sử dụng các sản phẩm của tín dụng của cả cá nhân và doanh nghiệp đều

tang mạnh Cá nhân cần những khoản ứng trước dé đầu tư trước cho nhu cầu của họ,

doanh nghiệp cần ứng những khoản vốn trước dé đáp ứng kịp thời những giao dịchcần thiết Chính vì vậy, các khoản vay tín dụng dưới nhiều hình thức là nguồn lợinhuận chính của nhiều ngân hàng

Do đặc điểm các khoản vay tín dụng là có thê có hoặc không có tài sản đảm bảo,

nên các khoản vay này sẽ có lãi suât lớn hơn bình thường (lãi suât bù rủi ro), đem lại

khoản lợi nhuận không lô cho ngân hàng

Hiện nay, tại Việt Nam, VPbank là ngân hàng đi đầu cho vay tín dụng Trongnăm 2017, VPbank tăng trưởng đến 45%, 51% nhuận thu được từ công ty tài chínhcủa VPbank là FE credit — công ty chuyên cho vay tín chấp Công ty này có tốc độtang trưởng 35%-37%/nam, đồng thời nợ xâu và mức 5% , tăng lên 5,9% vào quý

1/2018, cho thấy nguy cơ tiềm ấn rủi ro của hoạt động cho vay tín dụng là không hề nhỏ.

Rủi ro không chỉ xuất phát từ người cho vay, mà còn xuất phát từ chính bản thânngân hàng Nếu một ngân hàng không đáp ứng đủ lượng tiền mặt tín dụng, ngânhang sẽ mat uy tín ảnh hưởng đến kinh doanh Ngược lại, nếu khách hang phá sảnmà ngân hàng nắm giữ quá nhiều tài sản đảm bảo, nếu không thanh khoản kịp cũngsẽ làm ngân hàng không có vốn dé hoạt động kinh doanh

Do lợi nhuận cao luôn đi cùng với rủi ro lớn Các ngân hàng luôn cố gắng hoàn

thiện quy trình và các biện pháp hạn chế rủi ro, phát hiện nợ xấu sớm, các khoản vay

không có khả năng chi trả Mô hình cảnh báo sớm cũng được sử dụng dé giảm thiểuhóa chi phí liên lạc với các khách hàng yêu cầu trả nợ (nhăn tin với các khách hang

luôn đúng hạn, gọi nhắc nợ sớm với các khách hàng thường xuyên quá hạn hoăc cókhả năng quá hạn cao với kì sắp tới)

Vì vậy quản trị rủi do tín dụng luôn là một công tác quan trọng với bất kì ngân

hang nào — đặc biệt với các ngân hàng thương mại cổ phần — nơi tập trung lớn các

khoản vay không tín chấp Đây là loại rủi ro gây ra hậu quả rất lớn, có thể xảy ra ở

bất kì đâu, bất kì hạn mức tín dụng nào và có tần suất không xác định trước Nếu

11

Trang 12

không kịp thời phát hiện và ngăn chặn sẽ dé lại tốn thất lớn khó giải quyết cho ngân

hàng.

1.2 Gian lận tin dụng trong ngân hàng

1.2.1 Khái niệm và đặc điểmCác gian lận đều xuất phát từ việc không hoàn thành trả vốn và lãi cho ngân hàng

đúng hạn, có thê không trả khiên ngân hàng tôn nhiêu chi phí đê khắc phục tôn that.

Như vậy, gian lận tín dụng trong ngân hàng là rủi ro phát sinh chủ yếu từ cáckhoản vay không lường trước được rủi ro, các nguồn thu dòng của ngân hàng từkhoản vay đó không đáp ứng được về cả thời hạn và giá trị Nguyên nhân có thể từ

khách hàng hoặc khách hàng là người bị lừa đảo.

Gian lận gân như không báo trước, tân suât suât hiện nhỏ lẻ và khó đoán trước

được Tuy vậy van có một sô đặc diém như:

e _ Các khoản chỉ tiêu cao đột biến so với nhu cầu bình thường của chủ thẻ

e - Chi tiêu liên tục các khoản nhỏ lẻ

e C6 gắng hoàn thiện hồ sơ nhiều lần dé có thé vay tín chấp cho doanh

nghiệpe _ Khách hàng có nhiều khoản vay tại các ngân hàng khác

1.2.2 Phân loại rủi ro tín dụng

Rui ro tín dụng luôn tiềm ân nguy cơ dé khai thác trở thành các hành vi gian lận

Phân loại rủi ro tín dụng theo khách hàng có 2 loại: tín dụng cho cá nhân và tín dụng cho doanh nghiệp.

Doanh nghiệp đóng góp đến 45% GDP trong năm 2017, tạo điều kiện làm việccho 5 triệu lao động, do đó, các doanh nghiệp vừa và nhỏ đang được chú ý tới dé tạođiều kiện phát triển hơn nữa, đây mạnh cho vay tín dụng trong năm 2018 vói hình

thức tiền chuyển khoản và rút tiền mặt Hiện tại, có rất nhiều ngân hàng mạnh tay

trong việc cho vay tín chấp, nới lỏng các điều kiện để doanh nghiệp dễ tiếp cận vốn

— đi đầu là VPbank với khoản vay tín chấp tối đa 5 ty đồng

° Khách hàng doanh nghiệp: rủi ro đến từ việc ngân hàng đánh giá sai

sức mạnh và tiềm năng phát triên của doanh nghiệp, tạo điều kiện cho các

doanh nghiệp nhỏ làm giả hồ so, vay tiền sau đó trốn ra nước ngoài không trả nợ hoặc đệ đơn phả sản.

° Khách hàng cá nhân: rủi ro có thê đến từ cả 2 phía Ngân hàng đánhgiá sai tiểm lực của khách hàng, khiến khách hàng vay sau đó bỏ trốn (vìkhông cần tải sản đảm bảo) Rủi ro cũng có thể xuất phát từ việc cá nhân làm

mắt hoặc dé lộ thông tin thẻ tin dụng, khiến kẻ xấu lợi dụng thực hiện các giao dich bat chính.

12

Trang 13

1.3 Thực trạng gian lận thẻ tín dụng trong ngân hàng tại Việt Nam

Gian lận thẻ tín dụng cảng ngày càng gia tang Tuy các số liệu về gian lận ở Việt

Nam đều được bảo mật vì nhiều mục đích Theo những công bố gần nhất của tổ

chức phát hành thẻ tín dụng VISA va MASTERCARD, tỷ lệ gian lận ở Việt Nam

vẫn thấp hơn so với thế gidi

Nam 2015, tỷ lệ số tiền bị mat cap 1a 0.07%, ca thé gidi mat 21 ty dé vi gian lận.

Ở Việt Nam, con số này vẫn khá thấp — 0.023% Tuy vậy, với sự phát triên nhanh

của Việt Nam, các loại thẻ tín dụng chưa đáp ứng 100% vê công nghệ bảo mật 3D

secure và chip điện tử EMV, nên các mối nguy cơ tiềm an về giao dịch tín dụng vẫn

còn rất lớn.

1.4 Vai trò của phòng chống gian lận trong hoạt động quản trị rủi ro tín

dụng tại ngân hàng

Trong ngân hàng, việc phòng chống gian lận và quản trị rủi ro như một hình thức

mua bảo hiém, không thé thấy được lợi ích đem lại cho đến khi rủi ro xảy ra và dem

lại thiệt hại.

Trong bất kì thời điểm nào cũng luôn có những vụ gian lận diễn ra với quy mô

và số lượng không thê biết trước, hậu quả đem đến dù lớn hay nhỏ cũng tiềm an

những nguy cơ không tốt với ngân hàng.

Chính vì vậy, các ngân hàng liên tục cải tiến quy trình quản lý rủi ro và phát hiện

gian lận hiệu quả hơn, có sự kiểm duyệt xen lẫn giữa các chuyên gia và chấm điểm

dựa trên mô hình, đem lại kết quả tốt hơn, giảm thiểu nhiều chi phí.

Việc phòng chống gian lận không chỉ áp dụng với những khách hàng của ngân hàng, mà còn áp dụng với cả các nhân viên trong ngân hàng, giảm thiểu rủi ro từ việc nhân viên cô tình giả mạo hồ sơ hay cho vay quá hạn mức dé đạt được doanh

sé.

13

Trang 14

CHƯƠNG II

CƠ SỞ XÂY DỰNG CÁC MÔ HÌNH

PHÁT HIỆN VÀ PHÒNG CHÓNG GIAN LẬN

2.1 Đặc điểm dữ liệu về gian lận

Các loại dữ liệu thống kê về gian lận là dữ liệu dạng số.

Cũng như các dit liệu dạng phân loại (classification) khác, các biến của dữ liệu

gian lận cũng có các biến định tính hoặc định lượng là biến độc lập, biến phụ thuộc là biến phân loại với mục tiêu gian lận hoặc không gian lận (có thể mã hóa thành

good-bad hoặc 1-0, là dạng phân loại 2 lớp — binary classification).

Không giống với bình thường, các dữ liệu về gian lận bị lệch, thường có trên 99%

quan sát là tốt và dưới 1% quan sát gian lận cần tìm ra (trên thực tế các bộ dữ liệu

được các ngân hàng nước ngoài công bố cho mọi người nghiên cứu thì tỷ lệ quan sát

gian lận còn nhỏ hơn — thường dưới 0,3%) Do tỷ lệ chênh lệch quá cao, mật độ gian

lận quá thấp, các quan sát gian lận phần bố theo tính ngẫu nhiên nên không thé tuân

theo phân phối chuẩn Chính vì vậy khi chạy vào các thuật toán phân loại thông thường sé vi phạm nhiều điều kiện hoặc có thé không chạy được.

Nếu số biến trong dữ liệu quá lớn (khoảng vài chục đến vài trăm biến) việc sử

dụng các phương pháp giảm chiều đữ liệu như PCA (Phân tích thành phần chính)

cũng không khả thi Vì PCA (Phân tích thành phần chính) chỉ phù hợp với dữ liệu có

phân phối chuẩn, gan chuẩn hoặc có quan hệ tuyến tính với nhau Còn với dữ liệu

gian lận do bị lệch nên tiến gần tới phân phối t (t-distribution) hơn.

2.2 Tiền xứ lý dữ liệu

2.2.1 Outlier

Các quan sát bất thường (outlier) là những quan sát có giá trị ở 1 vài trường (hoặctất cả) tách ra xa khỏi xu hướng (phần lớn) các quan sát còn lại Việc này dẫn đếndata có thê có nhiều chỉ số bị sai lệch hoặc bị kéo lệch theo một vài quan sát nào đó,

dẫn đến việc hồi quy bị kém chính xác Các điểm dữ liệu outlier thường được loại

bỏ hoặc thay thế bằng các chỉ số khác (ví dụ trung bình, trung vị của bộ dữ liệu)

trước khi cho vào chạy mô hình Hiện tại chưa có định nghĩa cụ thể toán học thế nào

là một điểm ngoại lai, nhưng người ta có thé phát hiện các điểm ngoại lai bằng nhiềuphương pháp như: ki thuật đô thị (histogram, scatter, Plot box ), kỹ thuật phân cụm

(clustering technique), mật độ (Density-based Approaches).

14

Trang 15

Tuy vậy với dữ liệu gian lận thì hoàn toàn ngược lại, việc bỏ qua các outlier sẽ có

thể bỏ qua những gian lận Dù cho là dang Left outlier (mẫu ngoại lai giá trị cực tiểu), Right outlier (mẫu ngoại lai giá trị cực đại) hay Representative outlier (mẫu giá trị ngoại lai được cho là đại diện của 1 phân lớp nào đó) thì các outlier cũng có thể

đúng (là quan sát gian lận), cũng có thê sai (do việc thu thập dir liệu), nhưng việc bỏqua các outlier này càng tạo điều kiện cho các gian lận có thêm “vùng giá trị” để“gia” thành các quan sát tốt

Chính vì vậy việc sử lý outlier rất nguy hiểm trong dạng mô hình này Phát hiện

outlier có ý nghĩa ứng dụng và quan trọng hon rat nhiêu trong phát hiện gian lận hơn là loại bỏ outlier.

2.2.2 Missing

Missing là các giá trị trống ở một hay nhiều trường dir liệu Missing có thé ngaunhién do chinh quan sat dién thiéu thông tin, người nhập dữ liệu nhập thiếu thông tinhay bản thân quan sát đó không thé có (ví dụ với 1 người mới chưa bao giờ mở tàikhoản nhân hàng thì họ không thể có thông tin trong trường tài khoản ngân hàng

được-đa phần sẽ được dé trống, một phần ít là sẽ điền chưa có)

Tùy vào số lượng, phân bố của missing, có 4 cách thường được sử dụng dé xử lý

missing:

1 Xóa các quan sát bi missing nếu các quan sát này thiếu thông tin ở quánhiều trường

2 _ Xóa các cột biến (trường dữ liệu) bi missing nhiều, dẫn đến biến đó

không đem lại thông tin cho mô hình.

3 Gán các giá tri missing với các chỉ số thống kê của dit liệu như : trungbình, trung vi, tần sỐ,

4 Đánh dấu hoặc gán các giá trị missing trong cùng một biến để tạo ra

một nhóm có thé phân tích (ví dụ như thông qua WOE)Cách một và cách hai rất đơn giản trong việc xử lý dữ liệu, tuy vậy nếu missingthông tin ở một dòng hoặc một cột lớn ( thường là trên 95%), việc xóa đi có thé dẫnđến mat thông tin vốn có của bộ dit liệu ban dau Cách ba chỉ phù hợp với các biếnliên tục, các biến định tính hoặc nhất là định tính có thứ bậc rất khó dé gán một giá

trị nào đó do missing.

Cách bốn được sử dụng nhiều nhất, missing được gộp thành một nhóm dé phan

tích Việc coi missing cũng là một giá tri dé phân tích có thê sé tim được đặc diém

hay xu hướng của dữ liệu, khiên thông tin được bảo toàn.

2.2.3 Các luồng dữ liệu đặc biệt

Các luồng dữ liệu đặc biệt này là những quan sát khi đạt hoặc rơi vào 1 vùng giátrị nào đấy sẽ được nhận diện là gian lận hoặc không gian lận(100% gian lận hoặc

100% không gian lận) Ngân hàng sẽ tách các quan sát này ra dé có chính sách riêng

với mỗi khách hàng Nếu khách hàng bị từ chối có nghĩa là tỷ lệ cao các quan sát

15

Trang 16

này luôn xấu, từ đó ngân hàng sẽ đánh giá ưu tiên thấp hoặc đưa các khách hàng này vào blacklist Ngược lại với những khách hàng luôn luôn tốt, sẽ luôn được chấp

nhận sớm và đánh dấu độ ưu tiên cao hơn

Các tiêu chuẩn để đánh giá này sẽ được các chuyên gia xây dựng có điều kiện,

hoặc được phân tích và tìm ra dựa trên dữ liệu (ví dụ: nếu số tiền vay nhỏ hơn 50%tài sản đảm bảo thì chấp thuận cho vay 100% Hoặc nếu quan sát này đã có tài sản

và thế chấp ở nhiều ngân hàng thì không cho vay 100% do có dấu hiệu lừa đảo).

Trong phân tích, decision tree được dùng dé phân loại ra các luồng này (nếu có

thê), sau đó quan sát các luông dữ liệu trong một thời gian đê xác minh-kĩ thuật cụ thê sẽ được nói ở mục sau.

2.3 Phân chia dữ liệu và các tiêu chí đánh giá mô hình

2.3.1 Chia dữ liệuDữ liệu ban đầu được chia ra làm 2 phần, một phần để xây dựng mô hình, một

phan dé kiểm tra và hiệu chỉnh mô hình (dé đảm bảo mô hình có hiệu quả tốt, không

bị overfitting)

Thông thường, dữ liệu nếu có số lượng quan sát lớn sẽ được chia theo tỷ lệ 70%

sử dụng để làm mô hình (training) , 30% còn lại sẽ được dùng để hậu kiểm và hiệu

chỉnh mô hình sau khi đã hoàn thành (validate) Hoặc với số liệu có lượng quan sát

nhỏ - thường là dưới 2000 quan sát, hay có tỷ lệ chênh lệch giữa 2 phân lớp là lớn,

có thể lấy 100% dữ liệu để tạo mô hình, sau đó lấy nhiều lần 80% dữ liệu để kiểm

định (dé đảm bảo mô hình hoạt động tốt trên cả tập dữ liệu lớn và các phan nhỏ).

Thuật toán chia dữ liệu là random (ngẫu nhiên)-nhưng van đảm bảo tỷ lệ 2 phân

lớp trong mẫu phát triển mô hình, tổng thé và hậu kiểm không lệch với nhau Cáchđơn giản nhất ta có thé xem minh họa như hình (dễ dàng thực hiện bằng excel)

16

Trang 17

Hình 1.1 Cách chia dữ liệu dé phát triển mô hình và kiểm định mô hình

Áp dụng vào dữ liệu quan gian lan , vì số lượng gian lận là rất nhỏ nên việc chia

30% dữ liệu ra hậu kiểm sẽ làm mắt rất nhiều thông tin xây dựng mô hình Còn lấy

100% dữ liệu dé làm mô hình theo cách 2, thì việc lấy ra 80% dit liệu làm hậu kiểm

cũng không hiệu quả lắm (do bình thường với 1 bộ dữ liệu 280.000 quan sát, có 500

quan sát là gian lận cần tìm ra, 80% sẽ có khoảng 400 quan sát là gian lận trong dữ liệu hậu kiêm, không hiệu quả mấy vì không chênh với 500 nhiều).

Đề kiểm tra mô hình được chính xác, dữ liệu validate phải lay một mẫu dữ liệumới hơn dữ liệu phát triển mô hình để kiểm định (dữ liệu out of time hay out ofdata) Kết quả kiểm định mẫu dữ liệu out of time sẽ quyết định mô hình đước đưa

vào sử dụng hay không.

2.3.2 Phân tích biến bằng cách chia nhóm với WOE

WOE (weight of evidence) được sử dụng khá nhiều, nhất là với bài toán phânloại, chấm điểm dựa trên mô hình Logistic Day là một công cụ khá mạnh mẽ dé cải

thiện mô hình.

WOE thể hiện khả năng dự báo của các biến độc lập đối với biến phụ thuộc (biến

phân loại) WOE thường được sử dụng trong các bài toán Scorecard.

WOE được sử dụng:

- Đánh giá các nguy cơ tương đối của các thuộc tính khác nhau cho một đặc tính, để có được một chỉ sô phản ánh tính năng trong bảng điểm

- WOE như một phương tiện chuyền đơn vị của tất cả các biến về không có don vi

- WOE xác định đóng góp tương đối của các thuộc tính lên tông thé.

Ý tưởng của WOE là chia biến trong mẫu thành các nhóm với kích thước ít nhất

là 5% tông sô quan sát (hoặc gân 5% nhưng không quá nhỏ) với biên liên tục hoặc

17

Trang 18

thành các nhóm định danh với biến định tính Với mỗi nhóm sẽ có tỷ lệ %Good,%Bad so với toàn bộ mẫu Dựa trên %Good và %Bad dé tinh ra một trọng số đối với

mỗi nhóm, từ đó tìm ra sự phân phối của chúng trong mẫu và WOE sẽ phát huy tác

dụng trong việc ước lượng mức độ chênh lệch của phân phối Good và Bad Sau đó, thay vì việc dùng các số liệu nguyên gốc để đưa vào mô hình, chúng ta sẽ

thay những giá trị trong 1 nhóm bằng WOE đã tính ra dé sử dụng (ý tưởng này cũng

giống như mạng neural network nhưng chỉ có 1 lớp hidden layer là thay WOE)

Tuy nhiên chi số WOE không phải là yếu tố duy nhất, nhưng đây là 1 yếu tố dự

báo mạnh, các thuộc tính mạnh cũng phải hợp lý và có ý nghĩa hoạt động.

Các biến danh nghĩa được nhóm lại dé đặt thuộc tính tương tự WOE, cũng như

các biến liên tục dé tối đa hóa sự khác biệt từ nhóm nay sang nhóm khác.

Trong đồ thị, xu thế WOE sẽ thê hiện rõ ràng để đảm bảo việc hoạt động của các nhóm thích hợp với thực tế - thường sẽ đi xuống, đi lên, hình chữ U hoặc hình chữ

V,

2.3.3 Hệ số IV , ¬

IV - Việt tắt của Information value — là một chỉ sô đo sức mạnh của một biên đôi

với việc dự báo hay phân loại Chỉ số này được tinh ra từ WOE của mỗi nhóm trong

một biến, mỗi biến sẽ có chỉ số IV thể hiện riêng sức mạnh của mình Công thức tính IV :

IV = > @istr Good -(i) — Distr Bad(i))

Ị Distr Good (i)

"Distr BadQ) )

Chỉ số IV đề ở dạng số thập phân Một số quy tắc cho IV:

- IV <0.02: không có khả năng dự báo

- 0.02 <IV <0.1: khả năng dự báo yếu

- 0.1 <1IV <0.3: khả năng dự báo trung bình

- IV>0.3: khả năng dự báo mạnh

Mặc dù IV càng cao càng tốt nhưng với những biến quá mạnh, IV trên 0.5 thì ta

cần xem xét có nên đưa vào mô hình hay không-phải sử dụng có kiểm soát Nếu tat cả các biến đều có sức mạnh gần như tương đồng nhau, chỉ 1 vài biến đơn lẻ có IV

18

Trang 19

cao han lên thì có thé nếu sử dụng trong mô hình, Kết quả dự đoán sẽ bị chỉ phối

hoàn toản bởi các biến IV cao Các biến IV cao trên 0.5 vẫn được sử dụng nếu so

với các biến còn lại, nếu các biến khác IV cũng cao, không có sự bất thường.

2.3.4 Các phương pháp đánh giá mô hình phân loại

-Khi một mô hình đã được xây dựng xong, cân đánh giá mô hình với các mẫu dữ liệu khác thử nghiệm sức mạnh của mô hình Các chỉ tiêu đánh giá sẽ được đưa ra

để đánh giá sức mạnh mô hình Nếu kết quả đạt được phù hợp với mong muốn củangười sử dụng, mô hình sẽ được áp dụng trong thực tế

Với moi bộ dữ liệu va tình hình thực tê khác nhau, các môc ở mỗi tiêu chí đánh

giá sẽ khác Tuy vậy các mô hình vân có thê so sánh sức mạnh với nhau dựa vào các

chỉ tiêu tuyệt dôi như Confusion matrix hay Binary classification tests.

đạt-e Truđạt-e positivđạt-e (TP): là những trường hợp XAU được phân loại XAU (phân

loại đúng Bad -> Bad)

e False Positive (FP): là những trường hop TOT bị phân loại XAU (phân

loại nhằm Good -> Bad)

True negative (TN): là những trường hop TOT được phân loại TOT (phân

loại ding Good -> Good)

e False negative (FN): là những trường hop XAU bị phân loại TOT (phân loại

nhằm Bad -> Good)

Bang 1.2 confusion matrix

: Giá trị hồi quy (predicted)

Confusion matrix Bad Good

Thuc té | Bad True positive False negative (actual) | Good False Positive True negative

Các chi số này đơn vị là số lượng duoc tính ra bang cách đếm các quan sát theo

những phân lớp như trên.

True positive (TP) và True negative (TN) là 2 chi số đánh giá sự phân loại chính xácnên càng cao càng tốt

False Positive (FP) va False negative (FN) là 2 chi số đánh giá sự phân loại nhằmnên càng thấp càng tốt

19

Trang 20

Tuy mục dich sử dụng của mô hình, người đánh giá sẽ chú ý vào chi số nào hơn, vídụ như: đánh giá khách hàng thì chỉ sô này ít được chú ý, nhưng nếu để tìm kiếm

những đối tượng xâu hoặc gian lận thì True posotive và False negative được đặc biệt

quan tâm (để tối ưu việc phát hiện gian lận và tối thiểu việc nhằm gian lận thành

những quan sát tốt)

2.3.4.2 Binary classification tests

Trong nhiều trường hợp, việc nhìn số quan sat đúng sai ở bang Confusion matrix

gây khó khăn khi số lượng quan sát lớn Vì vậy, một vai chỉ số được tính ra từ bảng

Confusion matrix dé thuận tiện so sánh

Bồn chỉ số hay được sử dụng dé so sánh: Accuracy (độ chính xác phân loại),

Error rate (tỷ lệ lỗi), True positive rate (ty lệ phát hiện quan sát xấu), Trrue negative

rate (tỷ lệ phát hiện quan sát tốt)

Công thức được tính như sau: e Accuracy (ACC)

TP+TN _ SỐ quan sat phan loai DUNG

TP+TN+FP+ FN Tổng số quan sat

ACC =

« Error rate (ER)

FP+FN _ SỐ quan sat phan loai NHAM

—TP +TN+FP+ FN Tổng số quan sat

¢ Sensitivity (true positive rate)

TP Số quan sat xấu phan loại DUNG

TP+FN _ˆ Tổng số quan sat XAU

se Specificity (true negative rate)

-TN Số quan sát tốt phan loại DUNG

TN+FP Tổng số quan sat TOT

TPR =

TNR =

2.4 Đề suất mô hình sử dung phát hiện gian lận và phương pháp sampling

Trên thực tế, các mô hình được sử dung dé phân loại dữ liệu bị mat cân bang làrất nhiều, từ các mô hình có kiểm soát như: Logistic, decision tree, Hidden markovmodel Đến các mô hình dạng hộp kín (black box) không thể can thiệp hay kiểm

soát như: Xgboots, neural network, random forest tuy nhiên không có mô hình

nào có thể hiệu quả 100%

Hành vi gian lận ngày càng tỉnh vi, biến đổi liên tục vì vậy các mô hình phải đáp

ứng được tiêu chí:

20

Trang 21

- Độ chính xác ở mức mong muốn của người sử dụng mô hình.

- Dé kiểm soát các biến só, trong số dé mô hình không chỉ thể hiện kết

quả tốt trên đữ liệu, mà còn phải có kết quả tốt khi dùng trong thực tế.- Phù hợp với nhiều data dit liệu, ít bị ràng buộc bởi các điều kiện (vì trong thực tế dé đáp ứng được điều kiện là cực khó).

- Dé dàng tự động kiểm tra dữ liệu trên toàn hệ thống (ngân hàng, viễn thông ), hoặc tự kiêm tra băng tay khi hệ thống gặp sự cô (semi-auto).

Chính vì vậy các mô hình và phương pháp được đề xuất là:

- M6 hình Logistic có kết hợp phân nhóm sử dụng WOE, kết hợp với

phương pháp sampling dữ liệu.

- Mô hình Decision tree (phù hợp với dữ liệu có tính phân cụm).

- Mô hình Bayesian network (kết hợp với việc phân nhóm băng phương

pháp WOE với những biên liên tục).

2.4.1 Sampling dữ liệu

Như đã giới thiệu ở trên, dữ liệu về gian lận khác với dữ liệu thông thường, với

một tỷ lệ gian lận cực thấp làm cho dữ liệu mat cân bằng , khiến cho việc chia nhóm

dé có thé sử dụng mô hình Logistic cực kì khó khăn, hoặc không thé làm được.

Chính vì vậy sampling được sử dụng để giải quyết vấn đề này.

Điều kiện để có thể phân nhóm WOE đó là nhóm nào cũng phải có tỷ lệ bad rate >0%, và mỗi nhóm phải xấp xỉ 5% quan sát Nhung néu có thé chia ra một nhóm chi

chiếm 1% tổng số quan sát, nhưng lại có đến 70% số quan sát gian lận trong đó thì sao? Lam sao có thé đưa nhóm đó vào mô hình?

Sampling giải quyết van dé này bang cách tăng ty lệ badrate từ rất thấp (như

trong dữ liệu gian lận là 0,2%) lên gấp nhiều lần như thế (lên gấp vài chục đến vài

trăm lần tùy vào thực tế).

Thực hiện việc sampling theo cách như sau :

BI : dữ liệu dé phát triển mô hình sẽ được chia thành 2 phan good — bad riêng biệtB2: Với phan Bad (tỷ lệ cực nhỏ) — ta nhân các quan sat bad lên nhiều lần Đồngthời với phần Good (cực lớn) ta giảm số lượng good đi nhiều lần bằng thuật toán

random (dé đảm bảo tính chat của dữ liệu vẫn ngẫu nhiên)

B3: ghép 2 phần đã xử lý lại với nhau ta được bộ dữ liệu mới có tỷ lệ bad rate cao

hơn ban đâu rât nhiêu

2.4.2 Mô hình LogisticCó rất nhiều phương pháp toán học có thé phân loại dữ liệu có 2 phân lớp (binary

classification), Logistic là một thuật toán được biết đến nhiều nhất

Ham Logistic được sử dụng rộng rãi vì :

21

Trang 22

+ Sử dụng được với nhiều dang dữ liệu (ngoại trừ những dữ liệu có lượng

missing lớn, nhiều biến có tương quan cao với nhau)

+Ít những điều kiện ràng buộc, hiệu quả khi áp dụng vào thực tế

+ Có thể triển khai trên đa nền tang (từ cham điểm tự động dựa trên hệ thống

máy tính hay xét duyệt bằng tay trong nhiều trường hợp)

+ Dễ giải thích kết quả, có khả năng theo dõi, chan đoán và hiệu chỉnh dé kết

quả phù hợp với thực tế (để mô hình có tính én định sử dung trong thời gianđài)

Với bài toán phân loại 2 lớp (tốt và xấu) , khi đữ liệu đã có được định nghĩa phânloại rõ ràng, mô hình Logistic sẽ dùng các biến dé cho ra kết quả dự báo là giá tri

liên tục từ 0 đến 1 Giá trị dự báo càng gần 1 thì xác xuất xảy ra biến cố càng cao

(thấp nhất là 0 — 0% và cao nhất là 1 — 100%).Mô hình hồi quy Logistic như sau :

P = prob(y = 1) =

ePot BiX1+B2X2+-+ BX,

1+ _eBq†B1Xi+2X› ++ BaXn

P: Xác xuất dé quan sát xảy ra sự kiện

Tn: Giá tri của biên thứ n

„: Giá trị tham sô của biên thứ n

Các tham số ổ„ được ước lượng bằng phương pháp hợp lý tối đa (MaximumLikelihood — ML) Thông thường, điều kiện dé mô hình được ap dung đó là các

tham sô „ phải lớn hơn 0, và các tham sô đó không được đông thời băng 0.

Dé mô hình được mạnh hơn, dữ liệu đầu vào thường được chuẩn hóa — có thé

bằng phương pháp phân nhóm và gán WOE như đã dé cập Việc chuân hóa WOE này giúp các nhóm biến định tính được gán trọng số thể hiện chính xác tính chất của nhóm mình hơn là mã hóa biến giả, làm cho mô hình Logistic mạnh hơn.

Dé có thé ra được mô hình có tính hiệu quả cao, thường tất cả các biến sẽ được sử

dụng để tận dụng thông tin tối đa có thể, sau đó loại những biến có tham số không

phù hợp đi Tuy vậy hiện tượng overfit có thê xay ra, khiến cho mô hình hoạt động

rất tốt trên bộ đữ liệu chính, nhưng lại sai lệch rất nhiều khi dùng trên dữ liệu kiêm

chính xác nhất, ta chia 7 biến mỗi biến thành 5 nhóm, như vậy sẽ có 7* = 16.807

trường hợp có thé xảy ra của các quan sát, nhưng chi có tối đa 10.000 trường hợptrong bộ số liệu, nên kết quả hồi quy sẽ thiếu chính xác vì không dự đoán đượcnhững trường hợp ngoài bộ số liệu)

22

Tiêu đề	Xây dựng phương pháp xử lý dữ liệu mất cân bằng, ứng dụng phát hiện và phòng chống gian lận tín dụng trong ngân hàng thương mại
Tác giả	Nguyễn Chiến Thắng
Người hướng dẫn	ThS. Nguyễn Thị Liờn
Trường học	TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
Chuyên ngành	Tài Chính
Thể loại	Chuyên đề thực tập
Năm xuất bản	2018
Thành phố	Hà Nội

Định dạng
Số trang	45
Dung lượng	12,85 MB