Đặc biệt trong thời đại mới ngày nay học máy càng thê hiện được vai trog quan trọng của mình trong sự phát triển của công nghệ.Nhận thấy khả năng ứng dụng Machine Learning trong dự báo c
Trang 1TRUONG ĐẠI HỌC KINH TE QUOC DAN
KHOA TOAN KINH TE
Trang 2Chuyên dé thực tập chuyên ngành Toán Kinh Tế
LỜI CAM ĐOAN
Tôi xin cam đoan dé tài “Ứng dụng phối hợp Kinh tế lượng và Học máy dựbáo khả năng rời bỏ dịch vụ thẻ tín dụng của khách hàng” là kết quả nghiên cứuvà học tập của riêng tôi Dựa vào những kiến thức được học tại trường trong ba
năm qua cùng với sự hướng dẫn tận tình, tâm huyết và khoa học cua THS.
Nguyễn Thị Thu Trang và quá trình tìm hiểu thêm các tài liệu tham khảo trong,
ngoài nước liên quan đến vấn đề rời bỏ dịch vụ thẻ tín dụng của khách hàng tôiđã hoàn thành luận văn tốt nghiệp Tắt cả thông tin và kết quả trong bài nghiêncứu đều hoàn toàn trung thực Trường hợp sử dụng thông tin ở nguồn khác đềuđược ghi nguồn trích dẫn đầy đủ, rõ ràng
Sinh viên thực hiện chuyên
đề
Bích Phạm Thị Ngọc Bích
11180659 — Pham Thi Ngọc Bich ||
Trang 3Chuyên dé thực tập chuyên ngành Toán Kinh Tế
LOI CẢM ON
Dé hoàn thành chuyên đề thực tập nay trước hết em xin gửi lời cảm ơnchân thành đến Ban giám hiệu trường Đại học Kinh tế Quốc dân; quý thầy giáo,cô giáo trong khoa Toán Kinh tế trường Đại học Kinh tế Quốc dân đã tận tâm chỉdạy và truyền đạt kiến thức, kinh nghiệm quý báu trong suốt thời gian em học tập
tại trường.
Đặc biệt, em xin bày tỏ lời cảm ơn đến THS Nguyễn Thi Thu Trang, côđã rất tận tình, quan tâm và dành nhiều tâm huyết hướng dẫn và định hướng emnghiên cứu và hoàn thành chuyên đề này
Tuy nhiên do trình độ bản thân còn nhiều hạn chế nghiên cứu trong thờigian ngắn nên bài chuyên đề còn rất nhiều điểm chưa hoàn chỉnh Chính vì thế,em rất mong nhận được những lời góp ý từ cô cũng như quý thầy cô Bên cạnhđó em cũng mong đề tài này có thé đem lại giá trị thực tế cao đối với những ngânhàng đang cung cấp dịch vụ thẻ tín dụng nhằm giúp những nhà quản lý có thểxây dựng chiến lược phù hợp với mục tiêu phát triển lâu dài
Em xin chân thành cảm ơn!
Sinh viên thực hiện chuyên đề
Bích Phạm Thị Ngọc Bích
11180659 — Pham Thi Ngọc Bich ||
Trang 4Chuyên dé thực tập chuyên ngành Toán Kinh Tế
MỤC LỤC
0900/9699 10009/9100 ).) 2
h/1/96002255 3
DANH MỤC BANG BIEU, HÌNH ẢNH 5< -s©csscssecssessees 5DANH MỤC CÁC TU VIET TẮTT 2 5< se©ss£ssssevssesseesserssessers 7I7 — 1
LY do Chom Vi N"" 1
Mục tiêu mghién CỨU d 0 G5 G5 2< S9 9 9 9.99 99.9.9990 9009000 906006 3
Đối tượng và phạm Vi nghiên €ứu e s-ss<ssssessessesseessezsscse 3
Phương pháp nghiÊn CỨU d œ2 9 %9 9 9 9 9.99099909695899 50 4
Kết cấu chuyên đề - -s-s<s©ss©ss©sserse©xserstrsersstrserkserserrsersssrserse 4Chương 1 CƠ SỞ LÝ LUẬN VA TONG QUAN NGHIÊN CỨU 5
1.1 KHÁI NIỆM -ss<©csecsserseteeersetrserseerserssersersseree 5
1.1.1 Dịch vụ thẻ tín dụng - -c 5c 2222.121121 911111 11111 Ekkrrke 5
1.1.2 Đặc điểm chung của thẻ tin dụng - 2 2 s+xeExe£EetEzErrxerxet 5
1.1.3 Những rủi ro khi sử dụng thẻ tín dụng - - + + s+xs+cxserseesses 7
1.1.4 Sự rời bỏ của khách hàng - - c2 c1 1121121111111 1E re 9
1.2 CÁC YEU TO ANH HUONG DEN KHẢ NĂNG ROI BO DỊCH 10VỤ THE TÍN DUNG 2-2 5° ©Ss©cseSsEEssEEseEssErsetsserseerserssersersseree 101.3 TONG QUAN NGHIÊN CỨU 2- <2 s£ss£ssssesses 12Chương 2 ` PHƯƠNG PHÁP NGHIÊN CỨU s s©-se©ss2 17
2.1 PHƯƠNG PHAP MACHINE LEARNING -s-c-ssccss 17
2.1.1 Kỹ thuật Smote 22 222222 E22E1227112711271127112211211 211 xe 17
2.1.2 Random ÍOF€S[ - - 2 22 3 2111221112231 1 2311128111181 11g vn ng cư 19
2.1.3 SVM 2225 2122122212222 re 22 J“ÄU 0 9 24
2.1.5 Hồi quy LogisfiC 2-5252 22212 EE12E12711271711271 21111211 crk 252.2 DU BAO KET HỢPP - 2-2-2 ©s£©Ss£©ss©xsEssEvsetsserstrserssersee 282.3 ĐÁNH GIÁ HIỆU SUẤTT 2- 2 s2 ©sss+ssssevssessersexsersee 30Chương 3 KET QUÁ NGHIÊN CỨU VÀ THẢO LUẬN 32
11180659 — Pham Thi Ngọc Bich ||
Trang 5Chuyên dé thực tập chuyên ngành Toán Kinh Tế
3.1 DU LIEU VÀ TRUC QUAN HOÁ DU LIỆU 32
3.1.1 Dit QU occ eeccccccecsesssessesssessesssesssesssssessesssetsssssesssessesssesssssessesssessseeaes 32
3.1.2 Thống kê mô ta dit LGU ceccecscessesssessesssessessesssessesssessesssessesseens 34
3.2, SMOTTE ee«ccsccecreresrreerrstreerrssrsesrssrrsrrssre 40
3.3 KET QUA BAI TOAN DU BAO KHACH HANG ROI BO DICH
VỤ THE TIN DỤNG -. -°s<©ssvss+vserseersereetrserrserserrssrssrrssrsssree 40
3.3.1 Mô hình Random Forest ccccccccessscccesssceceessseeceesseeecesssseeesessseeesenaes 40
31000055 .— 53
11180659 — Pham Thi Ngọc Bich ||
Trang 6Chuyên dé thực tập chuyên ngành Toán Kinh Tế
DANH MỤC BANG BIEU, HÌNH ANH
Bang 3.1 Bang thống kê mô tả dit liệu 2-2 2 sSEeEE£EEEE2EE2EEEEEeExerxers 32
Bang 3.2 Mô tả các biến định danh được sử dụng trong dữ liệu - 34
Bảng 3.3 Mô tả các biến định lượng được sử dụng trong đữ liệu 36
Bảng 3.4 Tóm tắt kết quả mô hình rừng ngẫu nhiên trên tập đào tạo SMOTE 40
Bảng 3.5 Đánh giá mô hình rừng ngẫu nhiên - 2 ¿5 2 2+££+E+£++£+z£zzsz 42Bang 3.6 Tóm tắt kết quả mô hình SVM trên tập đào tạo SMOTE 42
Bang 3.7 Đánh giá mô hình SVM - LH TH HH ngư 44 Bang 3.8 Đánh giá mô hình Naive Baye€s - HH rưep 44Bang 3.9 10 thuộc tính quan trọng nhất trong mô hình hồi quy Logistic tập daota0 SMOTE 115 45
Bang 3.10 Đánh giá mô hình hồi quy Logistic - ¿2z s+cs+£s+rxered 46Bang 3.11 Đánh giá mô hình dự báo kết hợp - 52 s2 2 z+c++zxerxerxez 47Bang 3.12 Bảng đánh giá tổng hợp các phương pháp dự báo - 48
Hình 2.1 Mô hình xử lý dit liệu không cân bằng 52 2+sz+£z+£xccxd 17Hình 2.2 Kỹ thuật SMOTTTE St 2k2 S2 1H 1 1111112111112 21111111 tre 18Hình 2.3 Mô tả thuật toán cây quyết định -2¿©2¿+2+z+2x++2zxrzrxesrxcee 20Hình 2.4 Mô tả thuật toán rừng ngẫu nhiên ¿22©2222++c++zx+zxerxzxezsz 21 Hình 2.5 Mô tả thuật toán SVM ue ececeeeceseeseeseeeceeeeeeseeseeeeeeeaeeaeeseeeeeesaeeaeeees 23 Hình 2.6 Minh hoạ hàm sIgmOI - - (22223223323 E+3+*EE+EE+eEeeeeseereeeresrses 28Hình 2.7 Ma trận nhằm lẫn (Confusion matriX) 2 2 2 2 s+£xe£xe£xezse2 31Hình 3.1.Trang thái khách hang thẻ tin dụng - 55255 +55 *+*cs+vseeeses 34Hình 3.2 Đồ thị tuổi của khách hàng 2-2 2+2E£2EE+£EE2EE£EEeEErrserrerred 34Hình 3.3 Mối quan hệ giữ mức thu nhập và khách hàng rời bỏ 36
Hình 3.4 Mối quan hệ giữa Attrition Flag và Gender -z- s5 36Hình 3.5 Tổng số lượng giao dịch của hai nhóm khách hàng - 37
Hình 3.6 Tổng mức chi tiêu thẻ tin dung hai nhóm khách hàng - 38
Hình 3.7 Ty lệ chi tiêu thẻ trung bình hai nhóm khách hàng - 38
Hình 3.8 Số tháng không hoạt động thé trong 12 tháng hai nhóm khách hang 39
Hình 3.9 Ma trận tương quan giữa các biến định lượng - 55+: 39Hình 3.10 Mức quan trọng của các biến dự báo rừng ngẫu nhiên trên tập đào tạoA0001 41
Hình A.1 Kết qua kiểm tra mô hình rừng ngẫu nhiên dữ liệu gốc 53
Hình A.2 Kết quả kiểm tra mô hình rừng ngẫu nhiên dữ liệu SMOTE 53
Hình A.3 Kết quả kiểm tra mô hình SVM dữ liệu gốc -:-:+: 53
Hình A.4 Kết quả kiểm tra mô hình SVM dữ liệu SMOTE - - 54
Hình A.5 Kết quả kiểm tra mô hình Naive Bayes dit liệu gốc - 54
Hình A.6 Kết quả kiểm tra mô hình Naive Bayes dit liệu SMOTE 54
Hình A.7 Kết quả kiểm tra mô hình hồi quy Logistic dit liệu gốc 55
11180659 — Pham Thi Ngọc Bich ||
Trang 7Chuyên dé thực tập chuyên ngành Toán Kinh TếHình A.8 Kết quả kiểm tra mô hình hồi quy Logistic dit liệu SMOTE 55Hình A.9 Kết quả kiểm tra phương pháp dự báo kết hợp bỏ phiếu đa số đữ liệu
Hình A.10 Kết quả kiểm tra phương pháp dự báo kết hợp bỏ phiếu có trọng số
ð0011910)/190021127"1 56
11180659 — Phạm Thi Ngọc Bich ||
Trang 8Chuyên dé thực tập chuyên ngành Toán Kinh Tế
DANH MỤC CAC TU VIET TAT
Viết tat Y nghia
SMOTE | Synthetic Minority Over-sampling Technique
RF Random Forest
SVM Support Vector Machine
NB Naive Bayes LR Logistic Regression
11180659 — Pham Thi Ngọc Bich ||
Trang 9Chuyên dé thực tập chuyên ngành Toán Kinh Tế
MỞ ĐẦU
Lý do chọn đề tài
Giữ chân khách hàng hiện nay là bài toán quan trọng đối với tất cả các doanhnghiệp dé có thé phát triển bền vững Frederick F Reichheld & David W Kennyđã thê hiện kết quả nghiên cứu trên Journal of Retail Banking trong đo lường tácđộng của việc giữ chân khách hàng đối với hơn hai mươi doanh nghiệp kinhdoanh dịch vụ và kết luận rằng “Cải thiện 5 điểm trong việc giữ chân khách hàngcó thể dẫn đến biến động lợi nhuận từ 25% đến 80% Tỷ lệ giữ chân khách hàngtăng 5% thì lợi nhuận doanh nghiệp sẽ tăng từ 25% đến 95%” Trong khi đó mộtbài báo cáo khác khang định rang “20% khách hàng hiện có của công ty có thể
tạo ra 80% lợi nhuận của một doanh nghiệp ” đồng thời cũng nhận định việc gitchân khách hàng cũ đối với doanh nghiệp quan trọng hơn là tìm kiếm khách hàngmới (viện Gartner Group, Mỹ) Một kết quả khác cho thấy những khách hang lâu
năm trung bình chi tiêu hơn 67% so với những khách hàng mới, “chỉ phí thu hút
một khách hàng mới cao gap 5 lan so với nuôi dưỡng một khách hàng cũ” Khicàng có nhiều khách hàng trung thành, chi phí dé thu hút khách hàng phải bỏ racàng ít Tuy nhiên, điều này không có nghĩa là các khách hàng mới không giúpcho doanh nghiệp tạo ra giá trị mới, tuy nhiên phần lớn các nghiên cứu đều chỉ rarằng dành thời gian tập trung vào giữ chân khách hàng sẽ đem lại cho doanh
nghiệp lợi nhuận cao hơn Vì vậy, mỗi doanh nghiệp khi xác định mục tiêu phát
triển lâu dài đều cần có một chiến lược giữ chân khách hàng phù hợp
Hiện nay trong kinh doanh, các ngân hàng hay các tổ chức tài chính đều cólượng khách hàng rất lớn Các doanh nghiệp này cung cấp dịch vụ thông quanhiều kênh khác nhau như thẻ ghi nợ, ATM, thẻ tín dụng, internet banking, Sốlượng khách hàng ngày càng tăng lên đồng thời khách hàng ngày càng có ý thứcvề chất lượng dịch vụ, điều này thúc đây sự cạnh tranh giữa các ngân hàng khác
nhau, dẫn đến sự gia tăng nhanh chóng về độ tin cậy và chất lượng dịch vụ củacác ngân hang Ngoài ra, khách hang lựa chon rời bỏ từ ngân hàng này sang ngân
hàng khác vì nhiều lý do khác nhau, chang hạn như công nghệ tiên tiến của ngân
hàng, thái độ của nhân viên ngân hàng với khách hàng, lãi suất thấp, vị trí địa lý
gần, hay các dịch vụ khác của ngân hàng được cung cap, Do đó, vấn đề cần
thiết đặt ra là phát triển một mô hình giúp dự đoán khách hàng nào có khả năngrời đi dựa trên dữ liệu nhân khẩu học, tâm lý học và giao dịch của khách hàng
Bolton (1998) chỉ ra rằng các tô chức dich vụ nên chủ động tìm hiểu mức độhài lòng hiện tại của khách hàng trước khi họ rời bỏ Ông kết luận rang những
11180659 — Pham Thị Ngọc Bích || 1
Trang 10Chuyên dé thực tập chuyên ngành Toán Kinh Tếkhách hàng có mối quan hệ lâu hơn với doanh nghiệp có xếp hạng mức độ hài
lòng tích lũy trước đó cao hơn Khách hàng của ngân hàng trực tuyến ít quan tâmđến chi phí hơn so với khách hang của ngân hàng truyền thống nên xác suất rời
bỏ là nhỏ hơn (Mols, 1998).
Bolton và cộng sự (2000) cho rang xác định phân khúc và khách hàng mụctiêu dựa trên hành vi tiêu dùng tín dụng (thay đổi) và trải nghiệm dịch vụ của họsẽ có hiệu quả hơn là dựa trên đặc điểm nhân khẩu học (ồn định) của họ “Trungbình hàng năm, chỉ phí bán hàng và marketing chiếm từ 15%-35% tổng chỉ phícủa công ty Vì vậy, nỗ lực thay đổi theo hướng tự động hoá dé có hiệu qua banhàng nhiều hơn là hoàn toàn cần thiết Doanh số của các doanh nghiệp áp dụng
CRM thành công tăng từ 10% đến hơn 30%” (báo cáo của Harvard Business)
CRM - “Customer Relationship Management” nghĩa là Quản lý Quan hệ
Khách hàng Các doanh nghiệp hiện nay đều tích cực quản lý tương tác giữa họvới khách hàng giúp hình hành một mối quan hệ trong kinh doanh, từ đó tăng khảnăng giữ chân khách hàng theo một số cách như:
e Hỗ trợ mô hình dự đoán dé giúp các ngân hàng xác định khách hàng có
khả năng rời bỏ, lý do và biện pháp ứng phó thu hút lại khách hàng.
e Cho phép doanh nghiệp hoạt động nhằm mục tiêu kiểm tra, giám sát một
khách hàng cụ thê nhằm cung cấp dịch vụ và các phương pháp tiếp thị phù
hợp giúp nuôi dưỡng sự trung thành của khách hàng
e@ Mang lại sự phong phú hơn trong sự tương tác với khách hang, do đó tăng
sự hài lòng của khách hàng.
Ngoài ra, việc dự báo được khách hàng có khả năng và tìm hiểu được lý dongừng sử dụng dịch vụ của khách hàng sẽ giúp doanh nghiệp thiết lập kế hoạchphát triển phù hợp với tình hình của doanh nghiệp
Hiện tượng khách hàng rời bỏ không chỉ giới hạn ở các ngành ngân hàng và
tài chính mà còn phổ biến trong các ngành dich vụ khác như viễn thông di động,lượng người xem truyền hinh, Lejeune (2001) nhận thấy rang quản lý rời bỏbao gồm phát triển các kỹ thuật cho phép các công ty duy trì lợi nhuận của họ, lợi
ích của khách hàng và nhằm mục đích tăng lòng trung thành của khách hàng
Machine Learning (hay học máy) là từ thông dụng mới nhất bao trùm các lĩnhvực kinh doanh toàn cầu, là công nghệ được phát triển từ lĩnh vực trí tuệ nhân tạo
Trong các ngành công nghiệp khác nhau, học máy đã mở đường cho những thành
tựu công nghệ và công cụ mà cách đây vài năm không thê thực hiện được Thayvì tao ra một phần mềm với những lập trình chỉ tiết cụ thé được đóng khuôn déthực hiện một nhiệm vụ thì khả năng cơ bản nhất của học máy là sử dụng thuật
11180659 — Phạm Thị Ngọc Bich || 2
Trang 11Chuyên dé thực tập chuyên ngành Toán Kinh Tếtoán, phương pháp, giải thuật để phân tích những thông tin có sẵn, học hỏi và
“huấn luyện” máy tính rồi đưa ra quyết định hoặc dự đoán về điều có liên quan Hiện nay, học máy ngày càng được áp dụng mở rộng trong các lĩnh vực khác nhau cùng với lượng đữ liệu có sẵn tăng lên theo thời gian đã cải thiện độ chính
xác của những mô hình dự đoán tương lai Học máy đang được ứng dụng nhiềuvới mục đích dự báo như chuẩn đoán nguy cơ mac bệnh và chăm sóc theo dõisức khoẻ trong y tế; cảnh báo giao thông thông qua dự đoán lưu lượng của tuyếnđường sắp tới và điều chỉnh tuyến đường theo cách tối ưu nhất; học máy cũngcung cấp tính năng giúp lọc email rác hay phân loại email thành các nhóm và gắnnhãn email, Ngoài ra một trong những tính năng quan trọng nhất của học máyđược ứng dụng trong ngân hàng và tài chính cá nhân giúp phòng chống gian lậntrong các giao dịch, hỗ trợ đưa ra các quyết định tín dụng, hay dự báo các khách
hàng tín dụng Đặc biệt trong thời đại mới ngày nay học máy càng thê hiện được
vai trog quan trọng của mình trong sự phát triển của công nghệ.Nhận thấy khả năng ứng dụng Machine Learning trong dự báo cùng với tầm
quan trọng của việc dự báo khả năng khách hàng rời bỏ dịch vụ trong CRM thẻ
tín dụng ngân hàng, em đã thực hiện đề tài chuyên đề “Ứng dụng phối hợp Kinhtế lượng và Học máy dự báo khả năng rời bỏ dịch vụ thẻ tín dụng của kháchhàng” dựa trên nguồn dữ liệu thực tế về nhân khẩu học và hoạt động tín dụng của
khách hàng Mục tiêu nghiên cứu
Bài chuyên đề dự báo khả năng rời bỏ sử dụng dịch vụ thẻ tín dụng của kháchhang, tìm hiểu các yếu tô quan trọng trong việc xác định khả năng rời bỏ bằngcách sử dụng các mô hình Kinh tế lượng và Học máy Từ đó so sánh, tìm ra môhình phủ hợp nhất giúp dự báo sớm khả năng rời bỏ dựa trên dữ liệu thực tế từ đó
góp phần tăng khả năng giữ chân khách hàng của các ngân hàng.
Vì thế các câu hỏi nghiên cứu chính của chuyên đề này là:
Câu hỏi nghiên cứu 1: Những nhóm khách hàng nào có khả năng rời bỏ dịch vụ thẻ tín dụng cao?
Câu hỏi nghiên cứu 2: Những dấu hiệu nào giúp phân loại tốt về khả năng rời
e Phạm vi nghiên cứu: dự báo khả năng khách hang rời bỏ dịch vụ thẻ tín
11180659 — Pham Thi Ngọc Bich || 3
Trang 12Chuyên dé thực tập chuyên ngành Toán Kinh Tế
dụng dựa trên dir liệu thực tế.
Phương pháp nghiên cứu
e Phân tích định tính: nghiên cứu tổng quan các lý thuyết, nghiên cứu trước
đó, thống kê mô tả dữ liệu
e Phân tích định lượng: sử dụng thuật toán SMOTE để cân bằng dữ liệu, kết
hợp các phương pháp hồi quy Kinh tế lượng (Logistic) va Machine
Learning (Random Forest, SVM, Naive Bayes).
e Phần mềm sử dụng: Ngôn ngữ lập trình R.
Kết cấu chuyên đềBài chuyên đề gồm 3 chương chính:
Chương 1 CƠ SỞ LÝ LUẬN VA TONG QUAN NGHIÊN CỨUChương 2 PHƯƠNG PHÁP NGHIÊN CỨU
Chương 3 KET QUÁ NGHIÊN CUU VÀ THẢO LUẬN
11180659 — Pham Thi Ngọc Bich || 4
Trang 13Chuyên dé thực tập chuyên ngành Toán Kinh Tế
Chương 1 CƠ SỞ LÝ LUẬN VA TONG QUAN NGHIÊN CỨU
Chương này giải thích một số khái niệm cơ bản về dịch vụ thẻ tín dụng vànhững điều liên quan, sự rời bỏ của khách hàng sử dụng dịch vụ thẻ tín dụng,tóm tắt các nghiên cứu trước đó trong và ngoài nước về đề tài này, chỉ ra nhữngkhoảng trống nghiên cứu, đưa ra cơ sở lý luận về những yếu tố có khả năng tácđộng đến quyết định rời bỏ dịch vụ thẻ tín dụng của khách hàng từ đó đề xuất các
thỏa thuận trước đó sau thời hạn trên.
1.1.2 Đặc điểm chung của thẻ tín dụng
% Thay thé cho tiền mat: Thẻ tin dụng là một giải pháp thay thế tốt hơn cho tiền
mặt Nó xóa tan nỗi lo mang theo nhiều mệnh giá tiền tệ khác nhau đề thanhtoán tại các quay giao dịch Việc sử dụng thẻ tin dụng kha dé dang và nhanhchóng thay vì đợi hoàn tất các giao dịch tiền mặt Nó cũng làm giảm nguy cơbị đánh cắp tiền và mang lại cho người dùng sự an tâm hoàn toàn
% Han mức tín dụng: Hầu hết các thẻ tín dụng đều có hạn mức tín dụng , thé
hiện số dư tối đa có thé có trên thẻ tín dụng tại một thời điểm Số dư tối đacho pháp chủ thẻ sử dụng vào những việc bao gồm mua hàng, chuyên tiền,ứng trước tiền mặt, phí tài chính và lệ phí Chủ thẻ tín dụng được hưởngquyền lợi của một hạn mức tín dụng đặt trên thẻ của mình Hạn mức tín dụngnày được xác định bởi tổ chức phát hành thẻ tin dụng (ngân hàng hoặc NBFC)
chỉ sau khi phân tích mức độ tín dụng của chủ thẻ.
Hạn mức tín dụng có hai loại:
e Hạn mức tin dụng thông thường: do ngân hàng hoặc NBFC cung cấp tại
thời điểm phát hành thẻ tín dụng Một số thẻ tín dụng không quy định giới
11180659 — Pham Thị Ngọc Bich || 5
Trang 14Chuyên dé thực tập chuyên ngành Toán Kinh Tế
hạn chi tiêu trước nhưng thay vào đó cho phép chi tiêu một số tiền ma
công ty phát hành thẻ tín dụng tin rằng chủ thẻ có thể trả hết dựa trên một
số yếu tố như thu nhập, lịch sử tín dụng và các yếu tố chỉ tiêu.e Han mức tin dụng quay vòng: thay đổi tùy theo tình hình khả năng tài
chính của chủ thẻ tín dụng.
4E Thanh toán viện frợ bằng nội tệ và ngoại tệ: Thẻ tín dụng cung cấp cho chủ
sở hữu một phương tiện duy nhất đề thực hiện thanh toán bằng nội tệ (bản địa)hoặc bang ngoai té nếu can khi được yêu cầu Thẻ tín dụng giảm bớt quá trình
chuyên đổi tiền tệ rườm rà, nghĩa là nó loại bỏ những phức tạp về tài chínhthường gặp phải trong việc chuyên đổi một đồng nội tệ sang ngoại tệ Chínhvì tính năng này, chủ thẻ có thé thực hiện thanh toán cho những người bán cómặt ở bất kỳ nơi nào trên thế giới
% Lưu trữ hỗ sơ của tắt cả các giao dich: Các t6 chức phát hành thẻ tin dụng
như ngân hàng hoặc NBFC lưu giữ hồ sơ đầy đủ về tất cả các giao dịch đượcthực hiện bởi chủ thẻ tin dụng của họ Hồ sơ như vậy giúp các tô chức nàynâng cao số tiền thanh toán thích hợp mà chủ thẻ của họ phải trả, hàng thánghoặc một số định kỳ
+ Phi thông thưởng: Phí thông thường là các khoản phí thông thường cơ bản do
tổ chức phát hành thẻ tín dụng tính đối với việc chủ thẻ sử dụng thẻ tíndụng Các khoản phí thông thường chủ yếu được phân thành hai loại:
e Phí hàng năm: được thu hang năm
e Phí bố sung: được thu cho các dich vụ bố sung khác do tổ chức phát hành
thẻ tín dụng cung cấp Các dịch vụ đó bao gồm: thẻ bổ sung (một thẻ tíndụng bé sung), phát hành thẻ tin dụng mới,
% Thời gian gia hạn: Thời gian gia hạn được gọi là số ngày bồ sung tôi thiêu ma
trong đó chủ thẻ tín dụng phải thanh toán hóa đơn thẻ tín dụng của mình mà
không phải chịu bất kỳ khoản lãi suất hoặc phí tài chính nào Nếu có số dưquay vòng từ tháng trước, chủ thẻ có thể không có thời gian gia hạn cho cácgiao dịch mua mới của mình Ngoài ra, chuyên khoản và ứng trước tiền mặtthường không có thời gian gia hạn Khi hết thời gian gia hạn, lãi suất bắt đầuđược cộng dồn ngay lập tức
% Phí rit tiền mặt cao hơn: Công ty phát hành thẻ tín dung tính phí rút tiền mặt
qua thẻ tín dụng tại các điểm rút tiền ATM và các bàn làm việc khác Nóichung phí rút tiền mặt cao hơn khá nhiều phí mà ngân hàng hoặc NBFC tínhcho các giao dịch tín dụng thông thường khác Khi rút tiền mặt qua thẻ tín
11180659 — Phạm Thị Ngọc Bich || 6
Trang 15Chuyên dé thực tập chuyên ngành Toán Kinh Tế
dung, lãi suất sẽ được tính ngay trong ngày Nghia là, tiền lãi được tính kế từngày rút tiền mặt Thông thường, không có thời gian gia hạn được cung cấp
cho các giao dịch tiền mặt.% Các khoản phí bố sung cho sự chậm trễ trong việc thanh toán: Việc thanh
toán khoản chi tiêu thẻ tín dụng phải được thực hiện trước ngày đến hạn đã đềcập trên hóa đơn của thẻ tín dụng Nếu không được thanh toán đúng hạn thìcông ty phát hành thẻ tin dung sẽ tính thêm một số chi phí phát sinh do sựchậm trễ trong việc thanh toán Các khoản phí này được tính dé bù đắp (thuhồi) chi phí lãi vay, chi phí quản lý và bat kỳ chi phí liên quan nào khác do tô
chức phát hành thẻ tín dụng thanh toán.
a Thuế dịch vụ: Tổng số tiền được tính cho chủ thẻ tín dụng đã bao
gồm thuế dịch vụ Thuế dịch vụ bắt buộc này do chính phủ áp đặt cũng làmtăng chi phí cuối cùng mà chủ thẻ tin dụng phải trả Nhiều nhà cung cấp thẻtín dụng (đơn vị phát hành) có chính sách hoàn lại thuế dịch vụ được tính khimua khí đốt, nhiên liệu và các hàng hóa tương tự khác
+ Điểm thưởng: Các nhà cung cấp thẻ tín dụng luôn có sự cạnh tranh rất quyết
liệt Đưa ra các ưu đãi khác nhau thường là một cách phù hợp dé cải thiệnviệc bán các sản phẩm trong quá trình kinh doanh thông thường Theo xuhướng này, các nhà cung cấp thẻ tín dụng cũng tặng điểm thưởng dựa trên giá
trị tài chính của các giao dịch do khách hàng của họ tạo ra.
* Quà tặng và các uu đãi khác: Ở giai đoạn sau (tức là sau khi vượt qua số
điểm thưởng xác định trước) điểm thưởng tích lũy được đổi bằng cách chuyênđối chúng thành qua tặng, ưu đãi hoàn tiền hoặc bat kỳ ưu đãi hap dẫn tươngtự nào khác Đề nhận được nhiều điểm thưởng, chủ thẻ tín dụng phải thựchiện một số lượng lớn giao dịch thông qua thẻ tín dụng của mình
Dựa trên đặc điểm ở trên, có thê kết luận rằng thẻ tín dụng là kết quả của các
chức năng ngân hang toàn diện Thẻ tín dụng là phương tiện cho vay tài chính
ngắn hạn rất tiện lợi, tuy nhiên sự an toàn và bảo mật của thẻ tín dụng cũng làđiều quan trọng hàng đầu Những điều này phụ thuộc vào khả năng bảo vệ vật lýcủa thẻ tín dụng cũng như tính bảo mật (bí mật) của số thẻ tín dụng, số mệnh giáthẻ (CVV), mã số cá nhân (PIN) và các thông tin xác thực nhạy cảm khác của
chủ thẻ tín dụng.
1.1.3 Những rủi ro khi sử dụng thẻ tín dụng
Bat kỳ sản pham dịch vụ tài chính nào cũng đều tiềm ân nhiều nguy cơ ké cảthẻ tín dụng, đặc biệt là đối với những người mới sử dụng thẻ tín dụng, nhữngngười có thể bị mê hoặc bởi sức hấp dẫn của thứ có vẻ như là tiền “miễn phí”
11180659 — Phạm Thị Ngọc Bich || 7
Trang 16Chuyên dé thực tập chuyên ngành Toán Kinh TếNgay cả một số người dùng thẻ tín dụng có kinh nghiệm vẫn rơi vào bẫy thẻ tín
dụng.
% Cám dỗ chỉ tiêu quá mức: Các nghiên cứu cho thấy người tiêu dùng chỉ tiêu
nhiều hơn khi thanh toán băng thẻ tín dụng so với khi thanh toán bằng tiềnmặt Trong một nghiên cứu, những người tham gia sẵn sàng chỉ tiêu gấp đôikhi sử dụng thẻ tín dụng Thật dé dang và thuận tiện để tiêu tiền bằng thẻ tindụng và không cảm thấy "đau đớn" khi tiền mặt rời khỏi ví Nó cũng có thểgiải thích tỷ lệ mắc nợ thẻ tín dụng ngày càng tăng
3È Lãi suất khiến việc thanh toán số dự trở nên khó khăn hơn: Thanh toán đầy
đủ số dư thẻ tín dụng mỗi tháng cho phép khách hàng không phải trả bất kỳkhoản lãi suất nào Tuy nhiên, nếu không thanh toán số dư của mình đầy đủthì một phần của mỗi khoản thanh toán sẽ chuyên sang thanh toán có lãi suất,
làm tăng khoảng thời gian cần thiết đề thanh toán hết số dư
% Rui ro mắc nợ: Bắt kỳ lúc nào vay tiền, khách hàng đang tạo ra nợ Càng vay
nhiều mà không trả thì nợ cảng lún sâu Nợ nan kéo theo vô số van đề khác,và không phải tất cả chúng déu là van đề tài chính Nó có thé dẫn đến căngthang, trầm cam và các van đề sức khỏe khác, tat cả đều có thé gây ảnh hưởng
nghiêm trọng Khi đang mắc nợ, việc đạt được các mục tiêu tài chính khác sẽ
khó hơn nhiều Việc tiêu tiền để trả nợ khiến khách hàng có ít tiền hơn chocác ưu tiên khác như tiết kiệm dé nghỉ hưu hoặc nghỉ hè, có thé phải trì hoãncác mục tiêu giáo dục của mình hoặc cảm thấy bị mắc kẹt trong một côngviệc không thích vì cần phải trả các hóa đơn của mình
% Rui ro làm hỏng điểm tín dụng: Thẻ tín dụng có ảnh hưởng lớn đến điểm tín
dụng Sử dụng thẻ tín dụng một cách hợp lý thì khách hàng có thể có được sốđiểm tin dụng tốt nhưng nếu mắc sai lầm — chang hạn như bỏ lỡ một khoảnthanh toán trong 30 ngày trở lên — điểm tin dụng sẽ bị ảnh hưởng ngày càng
giam.
% Các khoản thanh toán tối thiểu có thé tạo ra cảm giác an toàn sai: Nha phat
hành thẻ tín dụng của chỉ yêu cầu khách hàng thanh toán một khoản nhỏ mỗi
tháng cho các khoản phí trả chậm và giữ cho tài khoản của khách hàng ở
trạng thái tot Thật không may, bên cạnh việc hoàn toàn không thanh toán thiviệc thanh toán các khoản tối thiểu sẽ khiến khách hàng dành nhiều thời gianhơn dé thanh toán số dư của mình và sẽ phải trả nhiều lãi hơn nếu chỉ thựchiện khoản thanh toán tối thiêu
3È Điều khoản thẻ tin dụng khó hiểu: Mặc dù các điều khoản thẻ tin dụng đã trở
11180659 — Phạm Thi Ngọc Bích || 8
Trang 17Chuyên dé thực tập chuyên ngành Toán Kinh Tế
nên rõ ràng hơn rất nhiều nhưng vẫn còn rất nhiều sự nhằm lẫn với các ưu đãithẻ tín dụng Một thẻ tín dụng có thể có nhiều mức lãi suất khác nhau và việcbiết mức lãi suất nào áp dụng có thể gây nhằm lẫn Việc hiểu sai các điềukhoản thẻ tín dụng cũng có thể gây ra những hậu quả nghiêm trọng như tăngphí hoặc lãi suất hoặc gây thiệt hại cho tín dụng cho khách hàng
3È Khó để theo dõi chỉ tiêu trên nhiễu thẻ tín dụng: Theo dõi chỉ tiêu là nền tảng
của một cuộc sông tài chính lành mạnh, nhưng việc thêm thẻ tín dụng vào cácphương thức chi tiêu thông thường có thé khiến khách hàng khó theo kịp mọichỉ tiêu của mình Điều này đặc biệt đúng nếu khách hàng đang sử dụng thẻtín dụng cùng với tiền mặt và thẻ ghi nợ hay khách hàng đang sử dụng cùng
lúc nhiều thẻ tín dụng Đó là một trong những lý do khiến thẻ tín dụng dễ bị chi tiêu quá mức.
4E Thẻ tin dụng đi kèm với rủi ro gian lận thẻ tn dụng: Ở một mức độ nào đó,
tất cả mọi người có thẻ tín dụng đều có nguy cơ trở thành nạn nhân của gianlận thẻ tin dụng Bản thân thẻ tin dụng có thé bị đánh cắp hoặc kẻ trộm có thélấy cắp thông tin thẻ tín dụng của chủ thẻ từ một doanh nghiệp khách hàng đãmua sắm Tuy trách nhiệm pháp lý của chủ thẻ tín dụng đối với các giao dịchmua gian lận bằng thẻ tín dụng là có giới hạn nhưng khách hàng vẫn phải
nhanh chóng báo cáo các khoản phí này 1.1.4 Sự rời bỏ của khách hàng
Khách hàng rời bỏ (hay khách hàng tiêu hao, đào tâu) xảy ra khi khách
hàng mới hay khách hàng trung thành của doanh nghiệp ngừng sử dụng dịch vụ
hoặc mua sản phẩm của doanh nghiệp Các doanh nghiệp khác nhau có nhữngcách khác nhau dé phân loại khách hàng rời bỏ, tuy nhiên tat cả đều giả định đólà khách hàng trong một thời gian nhất định không có bất cứ giao dich hay hoạt
động mua bán đem lại giá tri nào Các doanh nghiệp có doanh thu phụ thuộc trực
tiếp vào mối quan hệ lâu dài với khách hàng vì vậy nên theo dõi sự tiêu hao củakhách hàng thông qua cách nhận biết:
e Đã xoá tải khoản e Đã huỷ đăng ký
e Chấm dứt trước hạn hợp đồng dich vụ dai hạne Quyết định tự nguyện chuyền sang nhà cung cấp dịch vụ khácCác ngân hàng, công ty dịch vụ viễn thông, nhà cung cấp dịch vụ Internet,công ty truyền hình trả phí, công ty bảo hiểm và dịch vụ giám sát báo động
thường sử dụng phân tích mức tiêu hao của khách hàng và tỷ lệ tiêu hao của
11180659 — Phạm Thị Ngọc Bich || 9
Trang 18Chuyên dé thực tập chuyên ngành Toán Kinh Tếkhách hàng làm một trong những chỉ số kinh doanh chính của họ vi chi phi dé
giữ chân một khách hàng hiện tại ít hơn nhiều so với việc thu hút được một khách hàng mới Các doanh nghiệp từ các lĩnh vực này thường có dịch vụ khách
hàng để cố gắng giữ chân những khách hàng muốn rời bỏ bởi vì những kháchhàng lâu dài có thể đem lại giá trị nhiều hơn đối với một công ty so với những
e Tính phan trăm tôn that trong giá trị kinh doanh định kỳ1.2 CÁC YEU TO ANH HUONG DEN KHẢ NĂNG ROI BO DỊCHVỤ THE TÍN DUNG
Khi lòng tin của khách hàng đối với doanh nghiệp giảm, họ sẽ lựa chọn rời bỏ,vì vậy các nhà quản lý doanh nghiệp phải tìm hiểu được nguyên nhân làm giảm
lòng tin của khách hàng và có các biện pháp phù hợp.
3 Yếu tố đặc điểm cá nhân (đặc điểm nhân khâu học)
Đặc điểm nhân khẩu học là các đặc điểm về dân cư bao gồm chủng tộc, độ
tuổi, giới tính, thu nhập, Day chính là yếu tố đầu tiên được xét đến có khả năngảnh hưởng đến khả năng rời bỏ dịch vụ thẻ tín dụng của khách hàng Bài nghiêncứu của Chan (1997) đã khảo sát 536 đối tượng, nhằm mục đích kiểm tra sự khácbiệt cơ bản về nhân khẩu học giữa chủ thẻ tin dụng ngân hàng không hoạt độngvà đang hoạt động ở Hồng Kông Bài viết chi ra rang trong các yêu tô nhân khẩuhọc, thu nhập được coi là biến số quan trọng nhất ảnh hưởng đến tỷ lệ sử dụng
thẻ.
Nghiên cứu của Arpita Khare (2011) đã xem xét lối sống và các giá trị dự
đoán cho quyết định sử dụng thẻ tín dụng ở Ấn Độ Việc dùng thẻ tín dụng vẫn
còn bị giới hạn vì hầu hết người Ấn Độ thích thanh toán băng tiền mặt và tin rằngthẻ tín dung có thé không phải là phương thức giao dịch bảo mật Nghiên cứucho thấy việc sử dụng thẻ tín dụng bị ảnh hưởng bởi độ tuổi của khách hàng.Người trẻ tuổi có nhiều khả năng sử dụng thẻ tín dụng trong khi những người lớntudi cảm thấy thoải mái hơn phương thức thanh toán tiền mặt Các ngân hàng nênhướng đến khách hàng tiềm năng là những người trẻ tuổi vì việc dùng thẻ tíndụng đối với nhóm người này thể hiện một phong cách sống hiện đại hơn so vớithé hệ lớn tuôi Ở An Độ khác biệt giới tính tồn tại liên quan đến việc sử dụng thẻ
11180659— Phạm Thị Ngọc Bích || 10
Trang 19Chuyên dé thực tập chuyên ngành Toán Kinh Tếtín dụng Đàn ông có khả năng sử dụng thẻ tín dụng nhiều hơn phụ nữ Điều này
là do phụ nữ vẫn còn bi xem nhẹ trong xã hội An Độ và họ phụ thuộc về tài chínhvào người chồng Quyền sở hữu thẻ tín dụng là với nam giới và nó được sử dụngđể mua sắm đồ dùng cho gia đình Trong khi trước đó, Abdul-Muhmin và Umar(2007) phát hiện ra rằng tại A Rap tỷ lệ sử dụng thẻ tin dụng trong nước tươngđối thấp, phụ nữ A Rap Xê Ut có xu hướng sở hữu thẻ tín dụng nhiều hơn namgiới, việc sử dụng thẻ có xu hướng chọn lọc, thái độ đối với nợ là yếu tố quyếtđịnh đáng kể đến quyền sở hữu thẻ chứ không phải hành vi sử dụng
3È Hành vi sử dụng, giao dịch thẻ tín dụngCác đặc điểm hành vi giao dịch, sử dụng thẻ tín dụng của khách hàng baogồm: thói quen tần suất sử dụng thẻ, loại thẻ tín dụng, tỷ lệ chỉ tiêu thẻ, là yếutố được xét tiếp theo có khả năng cao ảnh hưởng đến khả năng rời bỏ dịch vụ thẻtín dụng của khách hàng Bài viết của Nie và cộng sự (2009) dự đoán sự rời bỏthẻ tín dụng trong ngành ngân hàng của Trung Quốc đã xây dựng mô hình hồiquy Logistic với các biến lựa chọn gồm 2 biến thông tin cá nhân khách hàng, 4biến thông tin của thẻ tín dụng, 3 biến thông tin rủi ro và 6 biến thông tin giaodịch thẻ Phần các biến được chọn đã chỉ ra rằng thông tin nhân khẩu học đónggóp rất ít vào dự đoán khách hàng rời bỏ, thông tin thẻ và thông tin giao dịch thẻhoạt động rat tốt trong mô hình
Naveen va cộng sự (2009) đã sử dung bộ dữ liệu được lay từ BusinessIntelligence Cup 2004 gồm chi tiêu thẻ tin dụng trong quý, số lượng thẻ tin dungkhách hang nắm giữ, thu nhập và lợi nhuận mà khách hang dem lại trong mộtquý thông qua thuật toán dimARTMAP đem lại kết quả phân loại khách hàng rời
bỏ dịch vụ thẻ tín dụng với độ chính xác cao.
Buckinx và Van den Poel (2005) kết luận so với nhân khâu học của kháchhàng thì các tính năng lần truy cập gần nhất, tần suất sử dụng và lượng giao dịchtốt hơn trong việc phân loại các khách hàng trung thành về hành vi rời bỏ Trướcđó, Bolton và cộng sự (2000) đã chỉ ra rằng phân loại và xác định khách hàng
mục tiêu trên cơ sở hành vi mua hàng và trải nghiệm dịch vụ của họ chứ không
phải dựa trên đặc điểm nhân khẩu học của họ sẽ đem lại hiệu quả hơn
+ Giá tri quan hệ khách hàng và ngân hàngKhách hàng trung thành là một kênh tạo ra lợi nhuận én định cho ngan hang,
chi phí chăm sóc cũng ít hơn so với khách hàng mới Khi khách hang trở nên
thân thiết, các nỗ lực tiếp thị sản phẩm khác tới khách hàng cũng trở nên dé danghơn, ngoài ra khách hàng trung thành sẽ là người quảng cáo truyền miệng hiệuquả đến cho người thân gia đình, bạn bè cùng tham gia Khách hàng trung thành
11180659 — Pham Thị Ngọc Bích || 11
Trang 20Chuyên dé thực tập chuyên ngành Toán Kinh Tếđược công nhận như một tài sản giá trị tạo lợi thế cạnh tranh trên thị trường, sự
thành công của một công ty phụ thuộc vào khả năng duy trì khách hàng hiện tại
và làm cho họ thêm trung thành với công ty (Dekimpe và cộng sự, 1997).
Trong bài nghiên cứu về lòng trung thành của khách hàng với dịch vụ InternetBanking tại Malaysia của Beh Yin Yee và cộng sự (2010) cho biết thói quen củangười tiêu ding anh hưởng đến sự trung thành của khách hàng Một khách hàngsử dụng trang web và quen thuộc với nó sẽ tiếp tục trở thành thói quen, điều nàysẽ làm giảm hành vi chuyên đổi sang các dich vụ của đối thủ Những người cóhợp đồng với nhà cung cấp dịch vụ sẽ ít có khả năng rời mạng hơn khách hàngkhông kí kết hợp đồng
Bài nghiên cứu năm 1998 của Bolton về thời gian quan hệ giữa nhà cung cấpdịch vụ và khách hàng có liên quan, ảnh hưởng trực tiếp tới mức độ hài lòng củahọ, những khách hàng có mối quan hệ lâu dài hơn với nhà cung cấp dịch vụ thì
có mức độ xếp hạng độ hài lòng cao hơn do đó ít khả năng rời bỏ dịch vụ hơn
Lu (2008) áp dụng phân tích sống sót (survival analysis) vào trong việc tínhtoán giá trị lâu đài của khách hàng Ông đã thực hiện nghiên cứu trên bốn nguồndữ liệu chính của khối điều tra dân số bao gồm thông tin tiếp thị và tài chính, dữliệu nhân khâu học của khách hàng, dữ liệu nội bộ của khách hàng và hồ sơ liênhệ của khách hàng Ông kết luận răng giá trị lâu dài của khách hàng là một thướcđo mạnh mẽ tổng hợp lợi nhuận của khách hàng và rủi ro rời bỏ
143 TONG QUAN NGHIÊN CỨU
Các nghiên cứu trước đây đã đưa ra rất nhiều mô hình phân loại hiệu quảdé dự đoán tình hình rời bỏ của khách hàng trong rất nhiều lĩnh vực khác nhau
Năm 2011, Nie và cộng sự từ Trung Quốc đã sử dụng hồi quy Logistic vàDecision Tree để xây dựng mô hình dự đoán thời gian hoạt động bằng cách sửdụng dữ liệu thẻ tín dụng được thu thập từ một ngân hàng thực của Trung Quốcvới sự đóng góp của bốn danh mục thay đổi: thông tin khách hàng, thông tin thẻ,
thông tin rủi ro và thông tin hoạt động giao dịch thẻ tín dụng Bài báo phân tích
một quá trình xử lý các biến khi đữ liệu được lay từ co sở dt liệu thay vì khảo sát.Bài nghiên cứu các tác giả sử dụng tiêu chí PCC và ROC đề đánh giá hiệu suấtmô hình, ngoai ra còn có hai tiêu chí liên quan đến độ chính xác top-decile lift vàhệ số Gini Các thuật toán được sử dụng trong bài đều là những thuật toán phânloại mạnh đã được chứng minh Kết quả kiểm tra cho thấy rằng hồi quy Logistichoạt động tốt hơn so với Decision Tree Tương tự, năm 2016 Dalvi và cộng sự
cũng đã sử dụng hồi quy Logistic va Decision Tree dự báo khách hang rời bỏ
dịch vụ trong ngành viễn thông Sử dụng mô hình này, các công ty viễn thông có
11180659 — Phạm Thị Ngọc Bich || 12
Trang 21Chuyên dé thực tập chuyên ngành Toán Kinh Tếthé dự đoán trước những khách hàng nào có nguy cơ rời bỏ và hững khách hàngđó, do đó tiết kiệm được rất nhiều chi phí dùng dé thu hút khách hàng mới và cảnhững khách hàng chắc chăn sẽ rời bỏ để giữ chân những khách hàng trung thành.Bằng các kết quả thu được khi sử Decision Tree và hồi quy Logistic sẽ dé dang
lên kế hoạch các chính sách và biện pháp duy trì giúp giữ chân khách hàng vì cácphương pháp này chỉ ra những thuộc tính có tương quan cao với quyết định rờibỏ và danh sách khách hàng có dự báo xác suất rời bỏ cao
Kumar và Ravi (2008) đã tiến hành điều tra toàn diện về vấn đề dự đoánrời bỏ dịch vụ thẻ tín dụng trong tín dụng ngân hàng bằng cách sử dụng khai thác
dữ liệu Bộ dữ liệu Business Intelligence Cup của trường đại hoc Chile năm 2004
đã được sử dụng Bốn loại kỹ thuật lay mẫu như undersampling, oversampling,kết hợp giữa under va oversampling, và phương pháp Synthetic MinorityOversampling (SMOTE) dé cân bằng tập dữ liệu khách hang dé xây dựng môhình Họ cũng đã thực hiện Classification and Regression Trees (CART) để lựachọn tính năng biến thích hợp cho mô hình, đề xuất một hệ thống tổng hợp cácmô hình Multi-layer Perceptron, hồi quy Logistic, Decision Tree, Random Forest,mang Radial Basis Function va Support Vector Machine Hệ thống nay cho ra kết
quả tốt nhất khi dữ liệu gốc không cân bằng được SMOTED, cũng như su kếthợp giữa undersampling và oversampling Trong số các phương pháp khác nhauđược thử nghiệm, kết qua cho thấy phương pháp ten-fold cross validation trên dittliệu SMOTED đã cho kết quả xuất sắc với độ nhạy 92,37%, độ đặc hiệu 91,40%và độ chính xác tổng thé 91,90% Do cũng là quan sát cho thay rằng RF mang lạikết quả tốt cho các tập dữ liệu đã chọn đầy đủ đặc trưng Họ cũng đã tạo một tậphợp các quy tắc "if-then" băng cách sử dung Decision Tree Bộ quy tắc này cóthể hoạt động như một hệ thống "cảnh báo sớm" cho mô hình hóa, dự bao va
quản lý sự rời bỏ.
Năm 2009 Farquad và cộng sự đã sử dụng tập đữ liệu là từ một ngân hàng
Mỹ Latinh, nơi có số lượng ngày càng tăng khách hàng thẻ tín dụng và quyếtđịnh cải thiện tỷ lệ giữ chân của họ Tập đữ liệu bao gồm 22 biến với 21 biến dựbáo và 1 biến phân loại, bao gồm 14814 quan sát, trong số trong đó 13812 khách
hàng là không rời bỏ và 1002 khách rời bỏ, có nghĩa là có 93,24% khách hàng
trung thành và 6,76% khách rời bỏ Do đó, tập đữ liệu rất mất cân bằng về tỷ lệ
của 2 lớp phân loại Trong bai nghiên cứu, các tác giả đã trình bay một phương
pháp trích xuất quy tắc từ SVM bằng cách sử dụng NBTree để giải quyết sự cốdự đoán sự rời bỏ của khách hàng liên quan đến thẻ tín dụng ngân hàng Họ đãkhông sử dụng bat kỳ kỹ thuật cân bằng nào dé cân bang dữ liệu mà thay vào đó
11180659 — Phạm Thị Ngọc Bich || 13
Trang 22Chuyên dé thực tập chuyên ngành Toán Kinh Tếđã phân tích dữ liệu sốc ban đầu, việc trích xuất các vectơ hỗ trợ làm cho kíchthước mẫu nhỏ đi rất nhiều, sử dụng các dự báo của các vectơ hỗ trợ sử dụng môhình SVM tức là Case-SP dé tạo ra quy tắc với NBTree Nghiên cứu đã chỉ racách tiếp cận SVM + NBTree sử dụng Case-P và Case-SP hoạt động tốt hơn tấtcả các bộ phân loại khác được thử nghiệm và đạt được độ nhạy trung bình tốtnhất lần lượt là 68,52% và 68,03%.
Cùng năm 2009, Wang và cộng sự cũng đã thực hiện bài nghiên cứu dự
đoán khách hàng rời bỏ dịch vụ thẻ tín dụng bằng cách sử dụng kết hợp các ưuđiểm của Rough Set Theory (RST) và Least Squares Support Vector Machine
(LS-SVM) Bộ số liệu được sử dụng của một tô chức tài chính tại Trung Quốccung cấp từ tháng 10 năm 2007 đến tháng 7 năm 2008 gồm 1500 mẫu quan sát từcơ sở dữ liệu để tạo thành tập dữ liệu thử nghiệm Mỗi mẫu quan sát bao gồm 12thuộc tính Thuật toán dự đoán sử dụng RST để tinh chỉnh dữ liệu ban đầu Sau
khi được tinh luyện, thuộc tính có tương quan mạnh với dự rời bỏ của khách
hàng sẽ ngắn gọn hơn và thuận tiện hơn khi được áp dụng trong mô hình SVM Việc áp dung RST có thể xác định các yếu tô chính dẫn đến giảm longtrung thành của khách hang và ngân hàng có thé chú trọng để cải thiện nhữngđiểm chính yếu này Thông qua việc so sánh với Decision Tree, hồi quy Ridge vàANN, kết quả cho thay mô hình LS-SVM có thé cải thiện việc phân loại và độchính xác của dự báo (89,90%), đặc biệt là trong các tình huống phức tạp, khimỗi quan hệ giữa yêu tố dự báo và biến mục tiêu là phi tuyến
LS-Benlan He và cộng sự (2014) đã nghiên cứu tập dữ liệu của hơn 50.000
khách hàng tại một ngân hàng thương mại Trung Quốc và chỉ ra rằng mô hình
SVM đem lại hiệu quả cao trong dự báo sự rời bỏ của khách hang Tập dữ liệu
được sử dụng mắt cân bằng trầm trọng khi tỷ lệ khách hàng trung thành gấp hơn
109 lần tỷ lệ khách hàng rời bỏ Các thuộc tính được coi là các biến đầu vào của
mô hình bao gồm coi chỉ số thuộc tính cơ bản (tudi, gidi tinh, hoc van, nghé
nghiệp, tỷ lệ nợ phải tra, ) và chỉ số kinh doanh (tài khoản tiền gửi, số dư tiềngửi, số lượng tiền gửi, ) Bài nghiên cứu sử dụng các mô hình SVM (SVMtuyến tính, RBR — SVM), mô hình hồi quy Logistic dé so sánh trong trường hợplay toàn bộ mẫu va lựa chọn lay mau theo tỷ lệ Khi lựa chọn mẫu, nhóm nghiêncứu đã lựa chon 5 loại tỷ lệ giữa rời bỏ và không rời bỏ bao gồm 2:1; 1:1, 1:2,
1:5, I:10 và sử dụng xác nhận chéo 10 lần để ước tính độ chính xác Trongtrường hop lấy toàn bộ mẫu, kết quả cho thấy ca mô hình hồi quy Logistic và môhình SVM tuyến tính đều dự đoán việc khách hàng rời bỏ thành không rời bỏ,mặc dù độ chính xác lớn đến 99,09% nhưng kết quả lại không thể chấp nhận
11180659 — Phạm Thị Ngọc Bich || 14
Trang 23Chuyên dé thực tập chuyên ngành Toán Kinh Tếđược, tuy mô hình RBF SVM có độ chính xác thấp hơn (98,95%) tuy nhiên độ
nhạy khách hàng rời bỏ là 26,84% Xét đến trường hợp lựa chọn mẫu theo tỷ lệ
có thê thấy khi sử dụng tỷ lệ 1:10 (10 khách hàng trung thành thì sẽ có 1 kháchhàng từ bỏ) sẽ có được kết quả chính xác cao nhất nhưng độ nhạy lại là thấp nhấtso với các loại lựa chọn khác Cuối cùng bài nghiên cứu khăng định rằng sự kếthợp của phương pháp lấy mẫu ngẫu nhiên và mô hình SVM có thể cải thiện đángké độ chính xác về khả năng dự báo và dù lựa chọn theo tỷ lệ mẫu là bao nhiêuthì hiệu quả dự báo RBF SVM đều là tối ưu
Afifah và cộng sự (2020) đã thực hiện nghiên cứu cải thiện độ chính xác
của Naive Bayes dé dự báo khách hàng rời bỏ Dữ liệu khách hàng được sử dụng
trong nghiên cứu này là bộ dữ liệu tín dụng của Đức thu được từ UCI Dữ liệu
như vậy có vấn đề mắt cân bằng của lớp vì lượng dữ liệu trong lớp trung thànhnhiều hơn trong lớp rời bỏ Ngoài ra, có một số thuộc tính không liên quan đếnviệc phân loại khách hàng, vì vậy cần lựa chọn thuộc tinh dé có kết quả phân loại
chính xác hon Naive Bayes đã được sử dụng như một phân loại hiệu quả trong
nhiều năm vì nó dễ dàng xây dựng và đưa một thuộc tính độc lập vào cau trúc
của nó Mục đích của nghiên cứu này là cải thiện độ chính xác của Naive Bayes
để phân loại khách hàng Ở giai đoạn cân bằng đữ liệu giữa hai lớp phân loạiđược thực hiện bằng cách áp dụng thuật toán SMOTE Tập dữ liệu ban đầu của
thẻ tín dụng Đức có 1000 mẫu với 700 khách hàng trung thành và 300 khách
hàng rời bỏ Do đó, cần phải cân bằng lớp bằng cách tạo dữ liệu mới trong lớp
rời bỏ Tập dữ liệu mới của thuật toán SMOTE có thêm 300 dữ liệu lớp rời bỏ, vì
vậy có 1300 đữ liệu mẫu Điều này được thực hiện để dữ liệu có thể được phânloại một cách tối ưu Giai đoạn lựa chọn thuộc tính được thực hiện để lựa chọn
các thuộc tính dự báo trong dữ liệu được sử dụng Quá trình lựa chọn các thuộc
tính và khai thác sẽ dừng khi kết quả về độ chính xác đã vượt quá giới hạn tốithiêu được chỉ định Quá trình lựa chọn thuộc tinh được thực hiện bằng cách sửdụng giải thuật di truyền di truyền Sau khi được xử lý, dit liệu sẽ được phân loạibằng thuật toán Naive Bayes Độ chính xác khi sử dụng Naive Bayes là 73%,trong khi kết quả độ chính xác trung bình thu được từ Naive Bayes với việc áp
dụng SMOTE là 74,918% và độ chính xác thu được từ Naive Bayes với việc áp
dụng SMOTE và giải thuật đi truyền là 80,948%
Ca Khoảng trong nghiên cứu
Mặc dù dự báo khách hàng rời bỏ dịch vụ trước đó đã có nhiều nhà nghiêncứu thực hiện với nhiều phương pháp khác nhau tuy nhiên do tập hợp các biến
thuộc tinh còn nhỏ nên đem lại độ chính xác chưa cao Hau hệt các bài nghiên
11180659 — Phạm Thi Ngọc Bich || 15
Trang 24Chuyên dé thực tập chuyên ngành Toán Kinh Tếcứu đều chỉ dùng lại ở việc dự báo khách hàng rời bỏ dịch vụ thẻ tín dụng haykhông và tìm hiểu một số yếu tố ảnh hưởng, chưa đưa ra một số chính sáchkhuyến nghị liên quan giúp cải thiện mô hình dự báo giữ chân khách hàng Hạnchế cuối cùng về các thuật toán được sử dụng để đưa ra dự báo, chưa có sự kếthợp giữa các phương pháp dé thực hiện dự báo Vì vậy bài chuyên dé này sẽ déxuất và so sánh một số phương pháp dự báo khác nhau, đồng thời ứng dụng kết
hợp dự báo giúp đưa ra mô hình có độ chính xác được cải thiện hơn.
11180659— Phạm Thị Ngọc Bích || 16
Trang 25Chuyên dé thực tập chuyên ngành Toán Kinh Tế
Chương 2 PHƯƠNG PHÁP NGHIÊN CỨU
Trong phần đầu chương 2 là những lý thuyết liên quan đến kỹ thuật xử lýdữ liệu, sau đó giới thiệu một số thuật toán dự báo Machine Learning nhưRandom Forest, Support Vector Machine, Naive Bayes và hồi quy Logistic.Ngoài ra còn có phương thức dự báo kết hợp và cuối cùng là các chỉ số đánh giá
hiệu suât mô hình.
2.1 PHƯƠNG PHÁP MACHINE LEARNING
2.1.1 Kỹ thuật Smote
Hiện tượng mat cân bang dữ liệu là một hiện tượng phô biến xảy ra trongcác bài toán dự báo phân loại nhị phân: lọc thư rác, dự báo bệnh lý trong y tế,gian lận trong tài chinh, Hầu hết các bộ dé liệu hiện nay đều khó có thể đạtđược trạng thái cân bằng 50:50 mà luôn có sự khác biệt về tỷ lệ giữa hai lớp Vớinhững trường hop dit liệu có ty lệ mất cân băng nhẹ (60:40) có thé không anhhưởng đến khả năng dự báo, tuy nhiên nếu xảy ra tình trạng mất cân bằngnghiêm trọng (90:10) có thể dẫn tới ngộ nhận chất lượng mô hình Thước đo độ
chính xác thông thường (accuracy) trong trường hợp này không còn phù hợp bởi
dù không cần mô hình nếu dự báo tất cả đều thuộc nhóm đa số vẫn sẽ đem lại độchính xác cao, vì vậy cần lựa chọn ra những tiêu chí đánh giá khác cho ra nhữngkết quả phù hợp hơn Ngoài ra, trong những bộ dự liệu mat cân băng thì giá trị dựbáo quan trọng hơn thường là những giá trị thuộc nhóm thiểu số vì vậy cần cóbiện pháp điều chỉnh thích hợp giúp dự báo tốt hơn cho nhóm này
vào số lượng mẫu và tỷ lệ của mỗi nhóm đã tính toán mà tuỳ theo từng kỹ thuậtta có thể tính toán số lượng mẫu cần tăng (kỹ thuật Oversampling) hoặc giảm(kỹ thuật Undersampling) hoặc lai tạo (kỹ thuật SMOTE) dé dir liệu được cân
11180659 — Pham Thi Ngọc Bich || 17
Trang 26Chuyên dé thực tập chuyên ngành Toán Kinh Tếbăng Nhìn chung, các kỹ thuật lay mau dit liệu được sử dụng dé giải quyết bàitoán mẫu dữ liệu không cân bằng giữa các nhóm có thể được chia thành hai loạichính là tăng mẫu và giảm mẫu Các kỹ thuật gia tăng mẫu (Oversampling) bé
sung thêm các mẫu cho nhóm có ít dữ liệu, trong khi các kỹ thuật giảm mẫu
(Undersampling) loại bỏ bớt số mẫu của các nhóm có số lượng mẫu lớn với mụcđích thu được tap dtr liệu cân bằng hơn
SMOTE là viết tắt của “Synthetic Minority Oversampling Technique”.Phuong pháp này đã được Nitesh V Chawla đề xuất lần đầu vào năm 2002 trong
một bai báo trên “Tạp chí Nghiên cứu Trí tuệ Nhân tạo” SMOTE là một phương
pháp cải tiến của kỹ thuật Oversampling Với mỗi quan sát thuộc nhóm thiểu số,SMOTE sẽ lựa chọn trong k mẫu gần nhất thực hiện tô hợp tuyến tính bang cácđường thăng và tạo ra mẫu giả lập mới năm trên các đường này Tùy thuộc vàolượng gia tăng cần thiết mà k mẫu gần nhất sẽ được chọn ngẫu nhiên Phươngpháp KNN hoặc SVM thường được lựa chọn sử dụng để tạo ra các láng giềng
Bước 3: Với mỗi mau x, € A, (k = 1,2,3, N), công thức sau được sử dung dé
tạo ra một mẫu mới:
Trang 27Chuyên dé thực tập chuyên ngành Toán Kinh TếTrong Hình 2.2(b), SMOTE được áp dụng dé tạo mẫu tông hợp từ x, và 3 lánggiéng gần nhất (x;, x3 và X4) tạo ra mẫu Sj, S; và S3.
2.1.2 Random forest
i Giới thiệu
“Rừng ngẫu nhiên” (random forest) là một thuật toán trong Machine
Learning, thuộc nhóm thuật toán học máy có giám sat Tron thực tẾ, rừng ngẫunhiên được ứng dụng nhiều trong các bài toán dự báo phân loại và cả hồi quy bởitính chất phi uyến của nó có thé dé dang áp dụng linh hoạt và đơn giản nhưngmang lại độ chính xác cao Thuật ngữ “rừng ngẫu nhiên” lần đầu tiên được đềxuất vào năm 1995 bởi Tin Kam Ho Sau đó năm 2006 Leo Breiman và AdeleCutler đã tiếp tục nghiên cứu mở rộng thuật toán và tạo ra rừng ngẫu nhiên nhưhiện nay “Rừng ngẫu nhiên là một bộ phân loại chứa một số cây quyết định trên
các tập con khác nhau của tập dữ liệu đã cho và lấy giá trị trung bình để cải
thiện độ chính xác dự đoán của tập dit liệu do".
Vì mô hình rừng ngẫu nhiên được tạo thành từ nhiều cây quyết định, vìvậy cần hiểu rõ thuật toán cây quyết định trước khi đi tìm hiểu về rừng quyếtđịnh Cây quyết định là mộ phương pháp học máy phi tham số có giám sát đượcứng dụng trong dự báo phân loại và hồi quy Cây quyết định xây dựng nên mộtloại các quy tắc quyết định đơn giản từ những thuộc tính có sẵn trong bộ đữ liệutừ đó dự đoán giá tri cuối cùng của biến mục tiêu Đây là một thuật toán đơn giảnnhưng phô biến theo cách tiếp cận từ trên xuống Gốc cây quyết định (root node)
là thuộc tính mô tả tốt nhất tập dữ liệu đào tạo, được coi là nút quyết định đầutiên Mỗi nút quyết định trong cây (decision node) đại điện cho một thuộc tinh vànút lá (leaf node) biểu thị kết quả đầu ra của các quyết định dựa trên điều kiệncủa nút quyết định Các nhánh (branch) liên kết các nút với các lá là các quyếtđịnh hoặc các quy tắc, điều kiện để dự đoán Do đó, quy trình của toàn bộ quátrình dự báo được sơ đồ hoá thành hình dạng giống như cây
11180659— Phạm Thị Ngọc Bích || 19
Trang 28Chuyên dé thực tập chuyên ngành Toán Kinh Tế
Hình 2.3 Mô tả thuật toán cây quyết địnhCác thuật toán rừng ngẫu nhiên có ba tham số chính cần được thiết lậptrước khi huấn luyện bao gồm kích thước nút, số lượng cây và sỐ lượng thuộctính được lay mau Từ đó, bộ phân loại rừng ngẫu nhiên có thể được sử dụng dé
giải quyết các van đề hồi quy hoặc phân loại
Các cây quyết định trong rừng ngẫu nhiên, thường được huấn luyện bằng
phương pháp “bagging” Phương pháp "bagging" là một loại của thuật toán học
máy được gọi là Bootstrap Aggregation Phương pháp này tổng hợp kết hợp cácdự đoán từ nhiều thuật toán học máy với nhau để đưa ra các dự đoán chính xác
hơn so với một mô hình riêng lẻ Rừng ngẫu nhiên cũng là một phương pháp
tong hợp Bootstrap thực hiện chọn ngẫu nhiên các quan sát và các thuộc tính tậptừ dir liệu gốc dé tạo thành tập dir liệu mới cho mọi mô hình Aggregaion làmgiảm đữ liệu bằng cách xoá bớt, kết hợp một số quan sát Bootstrap Aggregationcó thể được sử dụng để giảm phương sai của các thuật toán có phương sai caonhư cây quyết định Bagging là ứng dụng của phương pháp Bootstrap cho mộtthuật toán học máy có phương sai cao Trong số mẫu huấn luyện một phần batrong số đó không dùng làm dữ liệu đào tạo mà được dành làm dữ liệu thửnghiệm và có thể được sử dụng dé đánh giá hoạt động của nó được gọi là mẫuout-of-bag (oob) Tùy thuộc vào dạng bài toán mà xác định kết quả dự đoán sẽkhác nhau Đối với bài toán hồi quy, các cây quyết định riêng lẻ sẽ được tínhtrung bình và đối với bài toán phân loại sẽ dựa trên bỏ phiếu đa số đưa ra kết quả
cudi cùng.
11180659 — Pham Thị Ngọc Bich || 20
Trang 29Chuyên dé thực tập chuyên ngành Toán Kinh Tế
DECISION TREE-1 DECISION TREE- 2 DECISION TREE-N
| | |
RESULT-1 RESULT-2 RESULT-N
| MAJORITY VOTING / AVERAGING |
FINAL RESULT
Hình 2.4 Mô tả thuật toán rừng ngẫu nhiên
ii Cac bước thực hiện
Bước 1: Tạo tập dữ liệu đầu vào cho các mô hình cây quyết định
= Nếu bộ dữ liệu gốc có M biến, chọn m thuộc tính ngẫu nghiên được
sử dụng đưa vào xây dựng cây quyết định (m < M)= Chọn ngẫu nhiên n quan sát từ bộ dữ liệu (1 quan sát bat kỳ có thé
được lay lặp lại) tao ra bộ dit liệu mới.Bước 2: Xây dựng cây quyết định dựa trên bộ số liệu vừa được tạo.Bước 3: Chọn số lượng cây quyết định muốn xây dựng là N
Bước 4: Lặp lại bước 1 và 2 cho đến khi đủ cây quyết định.Bước 5: Đưa ra kết quả dự đoán cho các điểm dữ liệu mới của các cây quyếtđịnh và gan nhãn cho danh mục dành được da số phiếu bau
ii Ưu điểm, nhược điểm
3 Ưu điểm
= Cung cấp tính linh hoạt: Vì rừng ngẫu nhiên có thé xử lý cả nhiệm vụ hồi
quy và phân loại với mức độ chính xác cao, nên nó là một phương pháp
phố biến của các nhà khoa học dữ liệu Tinh năng bagging cũng làm chobộ phân loại rừng ngẫu nhiên trở thành một công cụ hiệu qua dé ước tinhcác giá trị bị thiếu vì nó duy trì độ chính xác khi một phần đữ liệu bị thiếu.= Dễ dàng xác định tam quan trọng của các thuộc tính: Rừng ngẫu nhiên
giúp dễ dàng đánh giá tầm quan trọng của thuộc tính biến đổi hoặc đónggóp vào mô hình Có một số cách dé đánh giá tam quan trọng của thuộctính Mức độ quan trọng Gini và mức giảm tạp chất trung bình (MDI)thường được sử dụng dé đo lường mức độ chính xác của mô hình giảm đibao nhiêu khi một biến nhất định bị loại trừ
11180659 — Pham Thị Ngọc Bich || 21
Trang 30Chuyên dé thực tập chuyên ngành Toán Kinh Tế
" Rừng ngẫu nhiên có độ chính xác cao, linh hoạt và ít phương sai hơn,
giam nguy cơ overfitting.
* Khuyét diém
= Quá trình tốn thời gian: Vì các thuật toán rừng ngẫu nhiên có thé xử ly các
tập dữ liệu lớn, chúng có thé cung cấp các dự đoán chính xác hơn, nhưngcó thé chậm xử ly dir liệu vì chúng phải tính toán dit liệu cho từng câyquyết định riêng lẻ
= Yêu cầu nhiều tài nguyên hon: Vì các khu rừng ngẫu nhiên xử lý các tập
dữ liệu lớn hơn, chúng sẽ yêu cầu nhiều tài nguyên hơn để lưu trữ đữ liệu
đó.
= Phức tạp hon: Dự đoán của một cây quyết định đơn lẻ dé diễn giải hơn khi
so sánh với một rừng nhiều cây
2.1.3.SVM
i Giới thiệu Support Vector Machine (SVM) là một trong những thuật toán học máy
có giám sát đơn giản nhất được sử dụng cho cả bài toán phân loại và hồi quy.Mục tiêu của thuật toán SVM là tạo đường hoặc ranh giới tốt nhất phân táchkhông gian n chiều thành các lớp để có thé dé dàng đặt điểm di liệu mới vàođúng danh mục Ranh giới quyết định tốt nhất này được gọi là siêu phăng Kíchthước của siêu phang phụ thuộc vào số lượng tính năng Nếu số lượng tính năngđầu vào là hai, thì siêu phăng chỉ là một đường Nếu số lượng tính năng đầu vào
là ba, thì siêu phăng trở thành mặt phẳng 2 chiều
% SVM có thể có hai loại:e SVM tuyến tinh: SVM tuyến tính được sử dụng cho dit liệu có thé phân
tách tuyến tính, có nghĩa là nếu một tập dữ liệu có thể được phân loạithành hai lớp bằng cách sử dụng một đường thang duy nhất, thi dữ liệu đóđược gọi là dữ liệu có thể phân tách tuyến tính và bộ phân loại được sử
dụng gọi là Phân loại SVM tuyến tính.e SVM phi tuyến: SVM phi tuyên được sử dụng cho dữ liệu được phân tach
không theo tuyến tính, có nghĩa là nếu tập đữ liệu không thể được phânloại bằng cách sử dụng một đường thăng, thì đữ liệu đó được gọi là dữliệu phi tuyến tính và bộ phân loại được sử dụng được gọi là Phân loạiSVM phi tuyến
+ Support Vectors: Các diém dữ liệu hoặc vector gần nhất với siêu
phang và ảnh hưởng đến vị trí của siêu phẳng được gọi là Support
Vectors vì các vector này ho trợ siêu phang.
11180659 — Phạm Thị Ngọc Bich || 22
Trang 31Chuyên dé thực tập chuyên ngành Toán Kinh Tế
+ Margin: Khoảng cách giữa các vector và siêu phang được gọi là lề
(margin) Và mục tiêu của SVM là tối đa hoá lề này Siêu phẳng vớikhoảng cách lề tối đa được gọi là siêu phẳng tối ưu
`
` , Š
x Support vector
bao gồm hai loại điểm dir liệu x1 và x2 thuộc tập dữ liệu Thuật toán thực hiện
phân loại cặp tọa độ (x1, x2) theo 2 màu Trong không gian 2 chiều có thé xây
dựng vô số đường thăng ranh giới để phân tách hai lớp này Thuật toán SVMtuyến tính sẽ giúp xác định đường ranh giới tốt nhất, từ đó tìm điểm gần nhất vớisiêu phăng để xác định vector hỗ trợ Mục tiêu cuối cùng của SVM là tìm ra siêuphẳng tối ưu với lề tối đa hoá
ii Uu diém, nhuge diém
% Ưu điểm
« Tinh 6n định cao do phụ thuộc vào các vector hỗ trợ chứ không phải các
điểm dữ liệu.= Không bị ảnh hưởng bởi các yếu tố ngoại lai.= Không có giả định nào được yêu cầu đối với bộ đữ liệu.= Ngay cả khi dữ liệu đầu vào là phi tuyến và không thé tách rời SVM vẫn
đưa ra kết quả phân loại chính xác, có thể xử lý không gian có số chiều
lớn.
" Hàm quyết định sử dụng một tập hợp con các điểm huấn luyện được gọi là
vector hỗ trợ do đó có thể tiết kiệm bộ nhớ." Trong thực tế, các mô hình SVM được tổng quát hóa, ít rủi ro bị
11180659 — Phạm Thị Ngọc Bích || 23
Trang 32Chuyên dé thực tập chuyên ngành Toán Kinh Tế
overfitting.
Ca Nhược điểm
= Bài toán được xây dựng với không gian nhiều chiều dẫn đến chỉ phí cao,
phải mất một thời gian đảo tạo dài khi làm việc với các bộ dữ liệu lớn.= Khó dé diễn tả mô hình cuối cùng va tác động cá nhân, chưa tính được xác
suất của từng điểm dữ liệu
2.1.4 Naive Bayes
i Giới thiệu Bộ phân loại Naive Bayes là tập hợp các thuật toán phân loại dựa trên định lý Bayes Nó không phải là một thuật toán đơn lẻ mà là một họ các thuật toán ma
tất cả chúng đều có chung một nguyên tắc, tức là mọi cặp tính năng được phân
loại là độc lập với nhau.
% Giả định cơ bản của Naive Bayes:
e Không có cặp thuộc tính nào là phụ thuộc, các thuộc tính được gia
định là độc lập.
e© Mỗi thuộc tính có cùng trọng số (hoặc tầm quan trọng), không có
thuộc tính nào là không liên quan và đều đóng góp như nhau vào kết
quả.
Thuật toán Naive Bayes bao gồm hai từ Naive va Bayes, có thé được mô tả
như sau:
e Naive: Được gọi la Naive vì giả định rằng sự xuất hiện của một thuộc
tính nhất định là độc lập với sự xuất hiện của các thuộc tính khác
Chăng hạn như nếu trái cây được xác định dựa trên các cơ sở về màu
sắc, hình dạng và mùi vị, thì trái cây màu đỏ, hình cầu và ngọt đượcnhận biết là một quả táo Do đó, mỗi thuộc tính riêng lẻ góp phần xácđịnh rằng đó là một quả táo mà không phụ thuộc vào nhau
e Bayes: Nó được gọi là Bayes vì nó phụ thuộc vào nguyên lý của
Định lý Bayes Trước khi tìm hiểu về công thức của Naive Bayes phảibiết về định ly Bayes Định ly Bayes tìm xác suất của một biến cỗ xảyra với xác suất của một biến cố khác đã xảy ra trước đó, gọi là xác suấtcó điều kiện Định lý Bayes được phát biểu về mặt toán học dưới dạng
phương trình:
P(AIB) = P(B|A)P(A)
P(B) Trong đó,
11180659 — Phạm Thị Ngọc Bich || 24
Trang 33Chuyên dé thực tập chuyên ngành Toán Kinh Tế
e A và B là các biến cô và P(B) # 0.
e P(A) là xác suất xảy ra biến cô A, không phụ thuộc vào biến cố B xảy
ra hay không, đây được gọi là xác suất biên duyên hay xác suất tiên
nghiệm
e P(P) là xác suất xảy ra biến cố B, không phụ thuộc vào biến có A xảy
ra hay không, đại lượng này còn gọi là hăng số chuẩn hoá vì nó luôngiống nhau, không phụ thuộc vào sự kiến 4 đang muốn biết
e P(P|A) là khả năng xảy ra B khi biết A đã xảy ra
Bernoulli Naive Bayes là một trong ba thuật toán học có giám sát của Naive Bayes Mô hình này được sử dụng cho mục đích phân loại nhị phân, giá trị phị
thuộc là một giá tri binary.
P(xily) = P0|y)x;¡ + (1 — PŒ|y))( — x)Trong mô hình Bernoulli đa biến, các đặc trưng là các boolean độc lập (biếnnhị phân) mô tả đầu vào Giống như mô hình đa thức, mô hình này phổ biến chocác nhiệm vụ phân loại tài liệu, trong đó các tính năng xuất hiện thuật ngữ nhịphân (tức là một từ xuất hiện trong tài liệu hoặc không) được sử dụng thay vì tần
suất (tức là tần suất của một từ xuất hiện trong tài liệu)
Bộ phân loại Navie Bayes nhìn chung có những giả định đơn giản hoá tuy
nhiên nó hoạt động khá tốt trong nhiều tình huống thực tế, nổi tiếng là phân loại
tài liệu và lọc thư rác Chúng chỉ yêu cầu một lượng nhỏ dữ liệu huấn luyện déước tính các thông số cần thiết Ngoài ra nó còn được sử dung dé tinh điểm tín
dụng, phân loại dit liệu y tế,
ii Uu diém, nhuge diém
3% Ưu điểm
= Bernoulli Naive Bayes có hiệu suất tốt hơn trên một số bộ dữ liệu, đặc biệt
là trong trường hợp bộ dữ liệu nhỏ Là một trong những thuật toán ML
nhanh và dễ dàng dé dự đoán một lớp tập dữ liệu." Hoạt động tốt trong dự đoán bài toán nhiều lớp và các quy tắc độc lập.= Bản chất xác suất giúp đưa ra kết quả 6n định
+ Nhược điểm
Đòi hỏi về tính độc lập cao hơn về các thuộc tính trong bộ dữ liệu, hầu hếttrong thực tế các thuộc tính khó có thé đáp ứng, hơn thế nữa không thé tìm hiểuvề mối quan hệ giữa các thuộc tính
2.1.5 Hồi quy Logistic
i Giới thiệu
11180659 — Phạm Thị Ngọc Bích || 25
Trang 34Chuyên dé thực tập chuyên ngành Toán Kinh Tế
Hồi quy logistic còn được gọi là mô hình logit, thường được sử dụng dé
phân tích dự báo và mô hình hóa, mở rộng sang các ứng dụng trong học máy.
Hồi quy logistic là một thuật toán học có giám sát được sử dụng để dự đoán mộtbiến mục tiêu phụ thuộc phân loại Về bản chất, nếu có một bộ đữ liệu lớn vàmuốn phân loại thì hồi quy logistic có thé hữu ích Trong cách tiếp cận phân tíchnày, biến phụ thuộc là hữu hạn hoặc phân loại: A hoặc B (hồi quy nhị phân) hoặcmột loạt các tùy chọn hữu hạn A, B, C hoặc D (hồi quy đa thức) Nó được sửdụng trong phần mềm thống kê dé hiéu mối quan hệ giữa biến phụ thuộc với mộthoặc nhiều biến độc lập bằng cách ước tính xác suất sử dụng phương trình hồi
quy logistic.
Hồi quy logistic được sử dụng với mục tiêu dự đoán biến phân loại biếnphụ thuộc do đó kết quả phải là phân loại hay rời rạc Một bài toán có kết quả
liên tục, chăng hạn như dự đoán điểm của học sinh không thích hợp để sử dụng
hồi quy logistic, các lựa chọn khác như hồi quy tuyến tính có thể sẽ phù hợp hơn
Có ba loại hồi quy logistic chính: nhị phan, đa thức va thứ tự.e_ Nhị phân: Chỉ có hai câu trả lời kết quả của biến phụ thuộc có thé xảy ra,
thường được biểu diễn mã hóa dưới dang 0 hoặc 1 Ví dụ những trườnghợp thường sử dụng bao gồm:
o Cho khách hàng của ngân hàng vay hay không (kết quả có hoặc
không).
o_ Đánh giá nguy cơ ung thư (kết quả cao hay thấp).o_ Một đội có giành chiến thắng trong trận đấu ngày mai (kết quả có hoặc
không).
e Da thức: Hồi quy logistic đa thức là một mô hình trong đó có 3 hoặc
nhiều loại biến phụ thuộc có thể được phân loại và không theo thứ tự Vídụ dự đoán mộ người là “kết hôn”, “ly hôn”, “ly thân” hay “độc thân”
© = Thứ bậc: Hỏi quy logistic thứ bậc cũng là một mô hình trong đó có nhiều
lớp mà một biến mục tiêu có thể được phân loại thành, tuy nhiên trongtrường hợp này các lớp được sắp xếp theo thứ bậc, các lớp không cần phảiđối xứng và khoảng cách giữa các lớp có thé khác nhau Vi dụ điển hình làmộ thang đo khảo sát thái độ để chọn giữa “rất không đồng ý, không đồng
ý, trung lập, đồng ý, rất đồng ý”.
* Thuật toán hồi quy logistic nhị thức
Vì bài chuyên đề có dữ liệu biến phụ thuộc gồm 2 loại là “AttritionCustomer” và “Existing Customer” nên tập trung vào phân tích hồi quy logistic
nhị thức
11180659 — Phạm Thị Ngọc Bich || 26