1. Trang chủ
  2. » Luận Văn - Báo Cáo

Chuyên đề thực tập: Phân tích, dự báo khả năng rời bỏ dịch vụ của khách hàng và gợi ý bán chéo: Tiếp cận phối hợp Kinh tế lượng và Học máy

100 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích, dự báo khả năng rời bỏ dịch vụ của khách hàng và gợi ý bán chéo: Tiếp cận phối hợp Kinh tế lượng và Học máy
Tác giả Ngụ Thị Hải Yến
Người hướng dẫn PGS.TS. Nguyễn Thị Minh
Trường học Trường Đại học Kinh tế Quốc dân
Chuyên ngành Toán Kinh Tế
Thể loại Chuyên đề thực tập
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 100
Dung lượng 36,58 MB

Nội dung

Dựa vào những kiến thức được học tại trườngtrong ba năm qua cùng với sự hướng dẫn tận tình, tâm huyết và khoa học của PGS.TSNguyễn Thị Minh và quá trình tìm hiểu thêm các tài liệu tham k

Trang 1

TRƯỜNG DAI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TE

CHUYÊN ĐÈ THỰC TẬP

Chuyên ngành: Toán Kinh Tế

ĐÈ TÀI

Phân tích, dự báo kha năng roi bo dịch vụ của khách hàng và

Sinh viên thực hiện: NGÔ THỊ HẢI YÊN

Mã sinh viên: 11185691Lớp: Toán kinh tế 60

Giảng viên hướng dẫn: PGS.TS Nguyễn Thị Minh

Hà Nội, 12/2021

Trang 2

a Chuyên đề thực tập chuyên ngành Toán Kinh Tế

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài “Phân tích, dự báo khả năng rời bỏ dịch vụ của kháchhàng và gợi ý bán chéo: Tiếp cận phối hợp Kinh tế lượng và Học máy” là kết quảnghiên cứu và học tập của riêng tôi Dựa vào những kiến thức được học tại trườngtrong ba năm qua cùng với sự hướng dẫn tận tình, tâm huyết và khoa học của PGS.TSNguyễn Thị Minh và quá trình tìm hiểu thêm các tài liệu tham khảo trong, ngoài nướcliên quan đến vấn đề rời mạng của khách hàng tôi đã hoàn thành luận văn tốt nghiệp.Tất cả thông tin và kết quả trong bài nghiên cứu đều hoàn toàn trung thực Trườnghợp sử dụng thông tin ở nguồn khác đều được ghi nguồn trích dẫn đầy đủ, rõ ràng

Sinh viên thực hiện chuyên đề

YếnNgô Thị Hải Yến

11185691 — Ngô Thị Hải Yến | 2

Trang 3

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

LỜI CẢM ƠN

Sau quá trình nghiên cứu và hoàn thành chuyên đề tốt nghiệp, tôi thật sựbiết ơn tất cả thầy cô, bạn bè, người thân, đã luôn giúp đỡ tận tình và tạo mọiđiều kiện cũng như cho tôi rất nhiều lời khuyên, sự khích lệ để tôi có đủ kiếnthức, nghị lực hoàn thành bài luận văn tốt nghiệp trong thời gian ba tháng kì thựctập tốt nghiệp

Trước tiên, tôi xin gửi lời tri ân sâu sắc nhất đến tất cả thầy cô chuyênngành Toán kinh tế, trường Đại học Kinh tế Quốc dân Những thay cô đã dẫn tôi

đi trên con đường đam mê với những con số, phép tính, mô hình; đưa đến rấtnhiều kiến thức bồ ích từ những kiến thức chuyên môn đến những kiến thức thực

tế bên ngoài giảng đường, giúp tôi áp dụng vào cuộc sông của mình và vào bàichuyên đề tốt nghiệp này

Đặc biệt, tôi xin gửi lời cảm ơn chân thành nhất tới PGS.TS Nguyễn ThịMinh Nhờ có sự hỗ trợ, chỉ bảo tận tình; những gợi ý, kiến thức chuyên môn vàthông tin thực tế, các phân tích có giá trị cao với đề tài cũng như những lời nhắc

nhở, động viên vô cùng quý giá của cô giúp tôi hoàn thành chuyên đê này.

Tôi cũng xin gửi lời cảm ơn đến người thân trong gia đình và bạn bè đãlắng nghe, chia sẻ và tạo điều kiện cả về không gian, thời gian; đồng thời độngviên, khích lệ tinh thần để giúp tôi yên tâm hoàn thành đề tài chuyên đề của

mình.

Tuy nhiên do trình độ bản thân còn nhiều hạn chế nghiên cứu trong thờigian ngắn nên bai chuyên dé còn rất nhiều điểm chưa hoàn chỉnh Chính vì thé,tôi rất mong nhận được những lời góp ý từ thầy cô và các bạn học giúp tôi hoànthiện chuyên đề của mình Bên cạnh đó tôi cũng mong đề tài này có thể đem lạigiá trị thực tế cao đối với doanh nghiệp trong ngành dịch vụ viễn thông nhằmgiúp những nhà quản lý có thể xây dựng chiến lược phù hợp với mục tiêu pháttriển lâu dài

Người thực hiện chuyên đề

YếnNgô Thị Hải Yến

11185691 — Ngô Thị Hải Yến | 3

Trang 4

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

MỤC LỤC

LOI CAM 82909007 2LOI CAM 09) 0 4.434 3

0/0/9092 -.Ẽ£ 4

DANH MỤC BANG BIEU, HÌNH VẼ 2- 22-22 2222EEcSEEeSEEeerxerrrerrrxee 7DANH MỤC CAC TỪ VIET TẮTT 2 2<+2+++2E+t2EEt2EECSEEESEEEerkerrkrrrrkee 9098/952710 55 ::‹:: 10

1 _ Tính cấp thiết của đề tài -©-++2ck+2EkSEEEEEeErkrrrkrsrkrerrree 10

2 Mục tiêu nghiÊn CỨU - 6 x13 vn HH ng ng ngư 11

3 Câu hỏi nghiÊn CỨU s5 6 t1 21 vn HH ng ngưng 11

4 Đối tượng và phạm vi nghiên cứu -¿- 2 z©++2z+++zx++zxezrxs 11

5 Phương pháp nghién CỨU - + + 5 v19 9v vn ngư 11

6 Kếtcấu Ă 2L 2H TH HE erre 12CHƯƠNG 1: CƠ SỞ LÝ LUẬN VA TONG QUAN NGHIÊN CỨU 13

1.1 MOT SO KHÁI NIỆM -2¿- 2 ©S22E‡EESEEEEEEEEECEEEEEkrrkrrreerkees 13

1.1.1 Mang viễn thông 2 2+ +E+EE+EE£EEEEEEEEEEErkrrkerkrrs 13 1.1.2 _ Dịch vụ viễn thông - 2-52 £+E+EE+EE£EEEEEEEEEEErrerkerkrrs 13

1.1.3 Giá tri trọn đời của khách hàng -: ¿55+ ++ + s+sssexserssrss 13

1.1.4 Sự rời bỏ của khách hàng -2-5+©cs+cx++zxczxeerxerrerrxee 14

1.2 ĐẶC DIEM CUA THỊ TRƯỜNG VIÊN THÔNG - 14

1.2.1 Các phân khúc chính của ngành viễn thông - 14 1.2.2 _ Các hình thức kinh doanh trong ngành viễn thong 15

1.2.3 Đặc điểm thị trường - 5E +E2E2E2EESEEerkerkerkerkrres 151.3 KHACH HANG ROI BO TRONG THI TRƯỜNG VIÊN THONG 16

1.4 CAC YEU TO ANH HUONG DEN KHA NANG ROI MANG CUAKHACH HANG eccescsssesssessesssessssssecssessecssessssssecssessecsuessecsuessecssecsusssecsssesecsseeses 17

1.4.1 _ Yếu tố cá nhân khách hang c.cccecceccesssesseessesssecsesssessesssecssssseesseeses 171.4.2 Yếu tô bên trong doanh nghiệp : ¿©5¿©c5+2cs++c5czes 19

1.4.3 Mức cạnh tranh trên thi trường - - -++c++xx+ecsseeseeses 22

11185691 — Ngô Thị Hải Yến | 4

Trang 5

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

1.5 TONG QUAN NGHIÊN CỨU -2- 5-55 +S+E+EE+EE£EEEEEEEEeEkerrerreee 23CHƯƠNG 2: PHƯƠNG PHÁP NGHIÊN CỨU -¿- ¿©2222 ©5eze‡ 32

2.1 PHƯƠNG PHÁP PHAN CUM K - MEANS CLUSTERING 32

2.1.1 — Giới Vc) | 32

2.1.2 Thuật toán và các bước thực hiện - 5 55s + << <sc+sssc+ 32

2.1.3 Ưu, nhược điểm của thuật toán - 2 + s+x+xerx+Eerxzxerxzxers 352.2 MỘT SO PHƯƠNG PHAP DU BÁO 2:©2cc2cxcccxesrscees 36

2.2.1 Một số phương pháp Machine Learning . -2- 5552 36

2.2.2 _ Thuật toán Logistic Regression ( Dự bao và phân tích tác động) 50

2.2.3 Đánh giá kết quả dự báo -2¿©2s2E2EEccEtEkerreerkerrkrres 532.3 QUY TAC KET HỢP -2-22¿©2S222EESEEEE2EE22212212212EAecrkrees 55

ssssssasscsucesscsuessscssecsusasscsucasecsusesscsusssucssecsusssessusssecsuecsusssssusssecsueasecsuecsecasecses 64

3.2.1 Bai toán phân cum khách hang - - 55c + << £++c<seese 64

3.2.2 Phuong pháp K Means Cluster - - +5 s+ss+ss+exssxss 64

3.3 BÀI TOÁN DU BAO KHACH HANG ROI BO DỊCH VU VA KETQUA PHAN TICH 2- 2£ 2 E+SE9EE£EEEEEEEEEEEEEEEEEE112112111111 111.1 xe 69

3.3.1 Bài toán dự báo khách hàng rời mạng «+2 69 3.3.2 Phương pháp Decision “ÏT€e - 5 +5 + +*tsseeseeereeerre 71 3.3.3 Phương pháp Random EOT€Sf - - 5 +55 + + + £++s+eeseeexees 72

3.3.4 Phuong pháp K Nearest Neighbor 55c + s+ssssxsssss 74

11185691 — Ngô Thị Hải Yến | 5

Trang 6

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

3.3.5 Phương pháp Support Vector Machine - s55 <<<s+ 76

3.3.6 Phương pháp Logistic RÑesg1SSIOn - 5555 Sssssseerrerreres 76

3.3.7 Kết hợp và tổng kẾt -©:c ck+Ek2EEEEE2E12211211 2111 cre, 793.4 BÀI TOÁN GIU CHAN KHÁCH HÀNG VA KET QUA PHAN TÍCH

¬—— 82 3.4.1 Gợi ý bán chéo với dit liệu toàn bộ khách hàng - 82

3.4.2 Gợi ý bán chéo với khách hàng tiềm năng . - 86

3.4.3 Gợi ý ban chéo với khách hàng mang lại giá tri nho 88 3.4.4 Gợi ý ban chéo với khách hàng không hài lòng 91

CHƯƠNG 4: KET LUẬN -2- 2© <+2E£2EE£EEEEEEEEEEE12E121211 71122121 xe 94

4.1 KET LUẬN VÀ KHUYEN NGHỊ, 2 2- 5¿©cs+2xz+zxczxezrxcee 944.2 ĐỊNH HƯỚNG NGHIÊN CỨU TRONG TƯƠNG LAI 95TÀI LIEU THAM KHẢO 2:- 2 5222 2E£‡EE2EEEEEEEEEEEEEEEEEEEEerkerrrrrrrerkees 97

11185691 — Ngô Thị Hải Yến | 6

Trang 7

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

DANH MỤC BANG BIEU, HÌNH VE

1 Bang thống kê mô tả bộ dit liệu 2- 2© 2 2+£££x£+Ex+zxezrseez 59

2 Đặc điểm cá nhân khách hàng 2-22 £+£++EE++£x+zxzzrxeee 61

3 Phân cụm khách hàng theo giá trị trọn đời và điểm hài lòng 67

4 Thống kê mô tả chi phí hàng tháng nhóm I - +: 68

5 Thống kê mô tả chi phí hàng tháng nhóm 2 - 2+: 68

6 Thống kê mô tả chi phí hàng tháng nhóm 3 - ¿2 25+ 69

7 Đánh giá mô hình Decision Tree cece s5 5+ +ssseeereerevrs 72

8 Đánh gia mô hình Random Forest 5-5 +55 ss+ss>+*s>++s+sss+ 74

9 Đánh giá mô hình KKNN 5 5c 3 c2 11 rirrrrrerrrree 76

10 Đánh giá mô hình SVM - - 25 St 1n + SH gryrrrrret 76

11 Kết quả hồi quy LogistiC -¿- 2 52+5E+2x£+£EczEEerEezrxrrrerrkeee 71

12 Đánh giá mô hình Logistic ÑegressS1on 5555 << c+csxss 79

13 Bảng đánh giá các phương pháp dự báo -+c+cs+ssss+ 80

14 Đánh giá hiệu qua Decision Tree với từng nhóm - 82

15 Kết quả đánh giá luật kết hợp : ¿¿+c+++cs++cx++zxxezzxez 85

16 Kết quả đánh giá luật kết hợp với khách hàng nhóm I 88

17 Kết quả đánh giá luật kết hợp với khách hàng nhóm 2 91

1 Mô ta thuật toán K Means Cusfer1ng - - «+ <+sxsseeseesres 32

2 Mô tả thuật toán Decision 'Ïree -‹ - - c-<c + s22 vssseeeeszeeeeree 38

3 Mô tả thuật toán KNN - Sàn HH HH Hi, 46

4 Mô tả thuật toán Support Vector Machine -++cc+<csss2 49

5 Mô tả ma trận nhầm lẫn - 2-6 St ềEE£EE+EE+EvEEEEEeExererkerxerx 53

1 Khách hang theo trang thái hoạt động ue ceeseeeeseeseeeeeeseeteeseeees 62

2 Mối quan hệ giữa Contract va Tenure - 2 2 sz+zsz+zs+cse2 62

3 Ma trận tương quan giữa chi phí hàng tháng và tổng chi phí 63

4 Ma trận tương quan giữa chi phí phát sinh hàng tháng và tổng chi phí

63

5 Ma trận tương quan giữa trung bình số GB hang tháng và tong số dữ

¬—- 64

6 Đồ thị xác định giá trị k tối ưu theo phương pháp khuỷu tay 65

7 Đồ thị xác định giá trị k tối ưu theo phương pháp hình bóng trung bình

11185691 — Ngô Thị Hải Yến | 7

Trang 8

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

Hình 3 8 Đồ thị xác định giá trị k tối ưu theo phương pháp thống kê khoảng

610i — Ö 66

Hình 3 9 Đồ thị biểu diễn phân cụm khách hàng ¿ - 2z: 67 Hình 3 10 Mối quan hệ giữa Tenure Year va Contract (nhóm 1) eee 68 Hinh 3 11 Méi quan hệ giữa TenureYear va Contract (nhóm 2) 69

Hình 3 12 Mối quan hệ giữa TenureYear va Contract (nhóm 3) 69

Hình 3 13 Đồ thị cây quyết định với dit liệu phân cụm - - 72

Hình 3 14 Mức quan trọng của các biến dự báo với dữ liệu phân cụm 73

Hình 3 15 Lựa chọn K tối ưu với dit liệu 6 biến lựa chọn - 75

Hình 3 16 Lựa chọn K tối ưu với dit liệu phân cụm 2- 2-2-5: 75 Hình 3 17 Cây quyết định dự báo rời mạng nhóm I -: : 81

Hình 3 18 Cây quyết định dự báo rời mạng nhóm 2 ¿- 25+: 81 Hình 3 19 Tần suất các dịch vụ của nhà mạng -2- 2 z+s+z+c+z+e 83 Hình 3 20 Năm quy tắc kết hợp có độ nâng cao nhất -¿ z-: 84 Hình 3 21 Trực qua hóa các giỏ dịch vụ kết hợp -sz©sss+csz+: 85 Hình 3 22 Tần suất sử dụng các dịch vụ của khách hàng nhóm l 86

Hình 3 23 Luật kết hợp dịch vụ đối với nhóm Lo eesesseessesseeseeseeesees 87 Hình 3 24 Trực quan hóa luật kết hợp với nhóm I - 22s: 87 Hình 3 25 Tan suất sử dung các dich vụ của khách hàng nhóm 2 89

Hình 3 26 Kết qua 10 kết hợp dịch vụ đối với nhóm 2 -. 2-2 s+‡ 89 Hình 3 27 Trực quan hóa luật kết hợp với nhóm 2 2-2222 z+‡ 90 Hình 3 28 Tan suất sử dụng các dịch vụ của khách hàng nhóm 3 91

Hình 3 29 Luật kết hợp dich vụ đối với nhóm 3 - 2 ¿s++se+c+z+: 92 Hình 3 30 Ly do khách hàng nhóm 3 lựa chọn từ bỏ -«<+-<<+ss2 92 Hình 3 31 Đánh giá luật kết hợp với khách hàng nhóm 3 - - 93

11185691 — Ngô Thị Hải Yến | 8

Trang 9

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

DANH MỤC CÁC TỪ VIET TAT

Viết tắt Y nghĩa

AUC Area under the ROC Curve

CLTV | Customer Lifetime Value CRM Customer Relationship Management

DT Decision Tree KNN K Nearest Neighbors

ROC Receiver Operating Characteristic Curve

11185691 — Ngô Thị Hai Yến 9

Trang 10

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

LỜI MỞ ĐẦU

1 Tính cấp thiết của đề tài

Đề một doanh nghiệp phát triển bền vững, việc giữ chân khách hàng là bài

toán cực kì quan trọng Theo nghiên cứu của Frederick Reichheld trên Harvard

Business Review về chỉ số đo lường sự hài lòng cho thấy “7ÿ lệ giữ chân kháchhàng tăng 5% thì lợi nhuận doanh nghiệp sẽ tăng từ 25% đến 95%” Việnnghiên cứu Gartner Group của Mỹ khăng định rằng “20% khách hàng hiện cócủa công ty có thể tạo ra 80% lợi nhuận cua một doanh nghiệp ” Bài báo cáocũng khang định tam quan trọng của việc giữ chân khách hang cũ cao hơn việctìm kiếm thêm khách hàng mới đối với doanh nghiệp Giáo sư Sunil Gupta củatrường Kinh doanh Harvard và Phó giáo sư Aurelie Lemmens của trường Kinh tế

và Quản lý Tiburg đã có bài báo mô tả cách các công ty có thể làm tăng gấp đôilợi nhuận từ việc giữ chân khách hàng mà không tốn thêm tiền hoặc công sức.Nhà nghiên cứu Invesp thé hiện quan điểm của mình “ Chi phí thu hút một kháchhang mới cao gấp 5 lan so với nuôi dưỡng một khách hàng cũ” Vì vậy, mỗidoanh nghiệp cần có một chiến lược giữ chân khách hàng phù hợp với mục tiêuphát triển lâu dài

Sự cạnh tranh gay gắt trên thị trường viễn thông sẽ nâng cao giá trị củakhách hang, họ sẽ có ý định chuyên đổi sang các nhà cung cấp khác dé nhậnđược nhiều lợi ích hơn Vậy nên bài toán dự báo sự rời mạng của khách hàng làrất cần đối với nhà mạng Trước tiên, dự báo khả năng và tìm hiểu được lí dongừng sử dụng dịch vụ doanh nghiệp sẽ có thé đưa ra các chính sách dé thu hútlại khách hàng Bên cạnh đó, việc biết được khách hàng có khả năng từ bỏ sẽgiúp nhà cung cấp dịch vụ thiết lập được kế hoạch phát triển phù hợp với điềukiện doanh nghiệp Ngoài ra, các nhà quản lý doanh nghiệp cũng rất quan tâmđến việc phân nhóm khách hàng Sau khi doanh nghiệp tiến hành phân nhómkhách hàng để dự báo biết được nhóm khách hàng nào có khả năng ngừng sửdụng dịch vụ cao sẽ dé dang hơn trong việc xây dựng các chiến lược về cung cấp

dịch vụ, ưu đãi khách hàng, với từng nhóm đối tượng.

Bài toán mới được đặt ra đối với các nhà quản lý “Làm thé nào dé giảm tỷ

lệ khách hàng ngừng sử dụng dịch vụ viễn thông ?” Hầu hết các nhà mạng đềugặp khó khăn trong việc cố gắng làm giảm tỷ lệ khách hàng rời bỏ Ngoài việctìm hiểu lý do tại sao khách hàng quyết định từ bỏ sử dụng dịch vụ để có chínhsách thu hút lại thì các năm gần đây việc bán kèm dịch vụ là một trong những

11185691 — Ngô Thị Hải Yến , 10

Trang 11

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

công cụ quản lý quan hệ khách hàng (CRM) được quan tâm giúp tăng sự gắn bó

đôi với nhà mạng; từ đó sẽ giảm khả năng rời mạng.

Nhận thức được tầm quan trọng của việc dự báo khả năng và giải pháp làm

giảm lượng khách hàng rời mạng trong CRM ngành công nghệ viễn thông , tôi đã

thực hiên đề tài chuyên đề “Phân tích, dự báo khả năng rời bỏ dịch vụ của kháchhàng và gợi ý bán chéo: Tiếp cận phối hợp Kinh tế lượng và Học máy ”

2 Mục tiêu nghiên cứu

Bài chuyên đề sử dụng kiến thức kinh tế lượng và các phương pháp họcmáy dé phân nhóm, dự báo khả năng rời mang của khách hàng; tìm hiểu các yêu

tố tác động đến việc quyết định ngừng sử dụng dịch vụ viễn thông của khách

hàng dựa trên dữ liệu thực tẾ Cuối cùng đưa ra đề xuất, gợi ý các dịch vụ

bán chéo nhằm giảm xác suất rời mạng của khách hàng để doanh nghiệp xâydựng kế hoạch cải thiện và cung ứng dịch vụ trong việc giữ chân khách hàng

3 Câu hỏi nghiên cứu

Bài chuyên đê được thực hiện băng cách trả lời cho các câu hỏi nghiên cứu

chính:

Câu hỏi 1: Nhóm khách hàng nào có khả năng rời mạng cao nhất?

Câu hỏi 2: Những yếu to tác động mạnh đến khả năng rời bỏ của khách

hàng?

Câu hỏi 3: Những dịch vụ được gợi ý bán chéo dé làm giảm khả năng rời

mạng của khách hàng?

4 Đối tượng và phạm vi nghiên cứu

e Đối tượng nghiên cứu: Khách sử dụng dịch vụ viễn thông của công ty viễn

thông tại bang California

e Phạm vi nghiên cứu: Thời gian khách hàng đăng kí sử dụng tính đến quý 3

năm 2019.

5 Phương pháp nghiên cứu

e Phân tích định tính: Nghiên cứu tại bàn các lý thuyết, quan điểm phân tích

trước đó, thống kê mô tả dit liệu

e Phân tích định lượng: Sử dụng phương pháp K — Means Cluster dé phân

nhóm khách hàng sử dụng dịch vụ viễn thông, kết hợp các phương pháp

11185691 — Ngô Thị Hải Yến | 11

Trang 12

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

truyền thống (Hồi quy Logistics) và phương pháp Machine Learning

(Decision Tree, Random Forest, K Nearest Neighbor, Support Vector

Machine) dé dự báo khả năng rời mang cua ho

6 Kết cấu

Bài chuyên dé có kết cầu gồm 4 chương chính:

Chương 1: Cơ sở lý luận và tổng quan nghiên cứu

Chương 2: Phương pháp nghiên cứu

Chương 3: Kết quả nghiên cứu và thảo luậnChương 4: Kết luận

11185691 — Ngô Thị Hải Yến | 12

Trang 13

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

CHƯƠNG 1: CƠ SỞ LÝ LUẬN VÀ TỎNG QUAN NGHIÊN

CỨU

Trong chương nay, tôi đưa ra một số khái niệm liên quan đến sự rời mạngcủa khách hàng trong lĩnh vực viễn thông, đồng thời tóm tắt tình hình nghiên cứutrong và ngoài nước và chỉ ra những khoảng trống nghiên cứu Từ đó đưa ra cơ

sở lý luận các nhân tố ảnh hưởng đến đến kha năng ngừng sử dụng dịch vụ, cácphương pháp dự báo sự rời mạng của khách hàng chính xác nhất

1.1 MỘT SÓ KHÁI NIỆM

1.1.1 Mạng viễn thông

Theo điều 3, Luật Viễn thông được sửa đôi và bổ sung năm 2018: “Mạngviễn thông là tập hợp các thiết bị viễn thông được liên kết với nhau bằng đườngdẫn để cung cấp dịch vụ viễn thông, dịch vụ ứng dụng viễn thông” Trong đócũng chỉ rõ răng “ Thiết bị viễn thông là thiết bị kỹ thuật, bao gồm phần cứng vàphần mềm, được thực hiện viễn thông Đường truyền dẫn là tập hợp thiết bị viễnthông dùng để xác lập một phần hoặc toàn bộ đường truyền thông tin giữa haiđiểm xác định”

1.1.2 Dịch vụ viễn thông

Mỗi mạng viễn thông được thiết lập sẽ cung cấp đến người sử dụng một sốdịch vụ đặc trưng của mạng đó Khi hai mạng viễn thông có sự liên kết, hỗ trợlẫn nhau cũng có thé cung cấp một dịch vụ

Luật Viễn thông năm 2018, thể hiện rõ trong Điều 3 khái niệm: “Dịch vụviễn thông là dịch vụ gửi, truyền, nhận và xử lý thông tin giữa hai hoặ một nhómngười sử dụng dịch vụ viễn thông, bao gồm dịch vụ cơ bản và dich vụ giá tri ratăng” Giáo trình môn Tổng quan về viễn thông được đưa vào giảng dạy tại Học

viện Bưu chính Viễn thông nêu ra khái niệm “Dịch vụ viễn thông là dịch vụ

truyền ký hiệu, tín hiệu, số hiệu, chữ viết, âm thanh, hình ảnh hoặc các dạng khác

của thông tin đến điểm kết cudi cùng qua mạng viễn thông”.

Nói cách khác, địch vụ viễn thông có thể coi là dịch vụ được cung cấp chongười sử dụng dé trao đổi thông tin với nhau qua các mạng viễn thông (mạngđiện thoại di động, mạng Internet, mạng truyền hình cap, ) từ các nhà mạng

1.1.3 Giá trị trọn đời của khách hàng

11185691 — Ngô Thị Hải Yến | 13

Trang 14

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

Trên Harvard Business Review, Amy Gallo (2014) đã định nghĩa: Giá tri

trọn đời của khách hàng (CLTV) là số lợi nhuận mà công ty có thé mong đợi tạo

ra từ khách hàng trong thời gian người đó vẫn là khách hàng (ví dụ: x số năm)

Về cốt lõi, CLTV là giá trị hiện tại của tát cả các dong lợi nhuận trong tương lai

mà một khách hàng cá nhân tạo ra trong suốt thời gian hoạt động kinh doanh của

họ với công ty Theo lý thuyết trong học phần Quản trị quan hệ Khách hàng đượcgiảng dạy tại trường Đại học Kinh tế Quốc dân đưa ra một khái niệm tương tự

“Giá trị trọn đời của khách hàng (LTV) là giá tri hiện tại thuần của dòng đóng

góp tài chính kỳ vọng trong tương lai của khách hàng cho danh nghiệp với giả

định việc kinh doanh không thay đổi”

Như vậy có thé hiểu đơn giản rằng: Giá tri trọn đời của khách hàng là sốtiền mà doanh nghiệp có thể kiếm được từ một khách hàng trước khi khách hàng

ngừn sử dụng dịch vụ.

1.1.4 Sự rời bỏ của khách hàng

Theo Sanket Agrawal và cộng sự (2018), khách hàng từ bỏ có thể được

định nghĩa là một nhóm hoặc cá nhân khách hàng ngừng hoạt động trong một

thời gian cụ thể Ishpreet Kaur và cộng sự cũng đưa ra khái niệm tương tự như

vậy trong bài nghiên cứu của mình năm 2020: Khách hàng từ bỏ còn được gọi là

sự tiêu hao của khách hàng có nghĩa là khách hàng có xu hướng rời bỏ thương

hiệu và ngừng tạo mối quan hệ với công ty hoặc bất kì ngành nào

Từ những khái niệm trên, sự rời bỏ của khách hàng có thể hiểu là việc cánhân hoặc một nhóm khác hàng ngừng sử dụng sản phẩm hoặc dịch vụ củ doanhnghiệp trong một khoảng thời gian nhất định

1.2 ĐẶC DIEM CUA THỊ TRƯỜNG VIỄN THONG

Trong vài thập kỉ gần đây, cuộc Cách mạng công nghiệp 4.0 diễn ra trêntoàn thế giới kéo theo việc dịch vụ viễn thông đã trở thành cầu nối vô hình giữanhiều lĩnh vực kinh tế Không chỉ vậy, con người cũng có nhu cầu sử dụng cácsản phẩm va dich vụ viễn thông dé tiện trao đổi, tiết kiệm thời gian, chi phí

1.2.1 Các phân khúc chính của ngành viễn thông

Lĩnh vực viễn thông bao gồm ba phân ngành cơ bản: Thiết bị viễn thông(Lớn nhất); địch vụ viễn thông và truyền thông không dây

Trong đó được chia ra thành các phân đoạn chính:

11185691 — Ngô Thị Hải Yến | 14

Trang 15

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

e Giao tiếp không dây

e = Thiết bị liên lạc

e - Hệ thống và các sản phẩm viễn thông

e Van chuyên đường dai

e Dich vụ viễn thông trong nước

e Dich vụ viễn thông ngoài nước

e Cac dịch vụ liên lạc khác 1.2.2 Các hình thức kinh doanh trong ngành viễn thông

Doanh nghiệp viễn thông được chia thành hai hình thức chính: kinh doanh

dịch vụ viễn thông và kinh doanh hàng hóa viễn thông

e Kinh doanh dịch vụ viễn thông là hoạt động đầu tư cơ sở hạ tầng viễn

thông công cộng, dịch vụ viễn thông nhằm mục đích sinh lợi

e - Việc doanh nghiệp kinh doanh hàng hóa viễn thông là hoạt động đầu

tư, sản xuất, mua bán hoặc cho thuê các phần mềm và vật tư, trangthiết bị viễn thông

1.2.3 Đặc điểm thị trường

e Sự cạnh tranh gay gắt

Nhu cầu sử dụng các sản phẩm, dịch vụ viễn thông ngày một nhiều dẫn đếnviệc các nhà đầu tư muốn gia nhập vào thị trường Yêu cầu của khách hàng đốivới các sản phâm dịch vụ ngày càng tăng; không chỉ về mặt số lượng, chất lượng

mà họ còn quan tâm đến giá cả, chi phí bỏ ra để được sử dụng và sự chăm sóckhách hàng của phía nhà cung cấp Việc các nhà cung cấp ngày càng nhiều, yêucầu của khách hàng tăng dẫn đến việc nâng cao giá trị của khách hàng, họ sẽđược lựa chọn doanh nghiệp mang đến cho họ nhiều lợi ích nhất Từ đó, khi thamgia vào thị trường viễn thông, các nhà đầu tư phải đối mặt với sự cạnh tranh vôcùng gay gat,

© Cơ hội phát triển lớn

Theo xu thế phát triển của toàn thế giới với mục tiêu xây dựng xã hội 5.0,viễn thông trở thành một ngành công nghiệp cơ bản vô cùng quan trọng, có dấuhiện tốt cho triển vọng trong tương lai và sự tăng trưởng liên tục của nó Cácdoanh nghiệp luôn nghiên cứu cho ra đời những sản phâm công nghệ tân tiếnnhất, các dịch vụ đi động tốc độ cao, tăng cường kết nối Internet, sử dụng thêm

11185691 — Ngô Thị Hải Yến | 15

Trang 16

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

nhiều ứng dụng Tất cả các yếu tố trên đều tạo điều kiện thức day su phat trién

liên tục và thành công của ngành viễn thông.

e Thị trường đáy biên động tạo rào can doi với các doanh nghiệp vừa

và nhỏ

Sự cạnh tranh gay gắt cùng với việc phát triển liên tục và nhanh chóng trênthị trường viễn thông gây lên nhiều khó khăn đối với các doanh nghiệp chưa kịpthích nghi với sự phát triển ấy Các sản phẩm mới ra, các dịch vụ tốt hơn xuấthiện sẽ làm suy yếu nhu cầu của người tiêu dùng về các sản phẩm truyền thống,dịch vụ kém chất lượng Điều này dẫn đến việc khách hàng lựa chọn các sảnphẩm tốt hơn, phù hợp với nhu cầu tiêu dùng

1.3 KHACH HANG ROI BO TRONG THỊ TRƯỜNG VIỄN THONG

Sự rời mang của khách hàng trong ngành viễn thông là việc khách hang

chấm dứt việc sử dụng dịch vụ do nhà mạng cung cấp

Lu (2001) đưa ra ba thuật ngữ về sự rời mạng của khách hàng:

e Nha mạng không tự nguyện ngừng cung cấp dịch vụ

e Khách hàng di chuyên đến khu vực khác

e Khách hàng tự nguyện chuyền đổi sang một nhà cung cấp khác

Theo Saraswat va Tiwari (2018) phân biệt ra hai loại khách hàng từ bỏ: khách hàng tự nguyện và khách hàng không tự nguyện.

Roi mang tu nguyén

Roi mang ngau

nhién

Hình 1.1 Phân loại khách hàng rời mang

(Nguồn: Saraswat và Tiwari, 2018)

Khách hàng roi mạng không tu nguyện

Việc khách hàng từ chối sử dụng các dịch vụ vì một số lí do như gian lận,

không thanh tóa hóa đơn dịch vụ hoặc không sử dụng dịch vụ Nó còn do việc

11185691 — Ngô Thị Hải Yến | 16

Trang 17

.Ạ‡ Chuyên đề thực tập chuyên ngành Toán Kinh Tế

khách hàng phải chuyên đến một khu vực mới, tử vong hay phải đến các cơ sởchăm sóc dài hạn Các nhà mạng sẽ chủ động ngừng cung cấp dịch vụ đối với

những khách hàng này, và họ được gọi là những khách hàng rời bỏ không tự nguyện ( Saraswast và Tiawari, 2018)

Khách hàng roi mang tw nguyện

Khi khách hàng quyết định chấm dứt hợp đồng và ngừng sử dụng dịch vụcủa phía nhà cung cấp chuyên sang một nhà cung cấp khác thì được coi là sự rờimạng tự nguyện Trong đó, có thể phân ra thành hai loại phụ là có chu ý và ngdunhién ( Saraswsat va Tiawari, 2018) Su roi mang ngau nhiên có thé xảy ra khi

có điều gì đó thay đôi bất ngờ anh hưởng đến khách hàng buộc họ phải ngừng sửdụng dịch vụ Còn sự rời mạng có chủ ý là là việc khách hàng chủ động thay đổidịch vụ, ví dụ như việc họ muốn sử dụng công nghệ mới hơn, các loại dịch vụ tốthon hay do các yêu tô xã hội hoặc tâm lý như bạn bè giới thiéu,,,; và lý do thuậntiện với điều kiện khách hàng

Khách hàng trong ngành viễn thông, đặc biệt là khách hàng sử dụng dịch vụ

trả trước không kí kết hợp đồng với doanh nghiệp cung cấp, luôn có nguy cơ rời

bỏ Giáo sư Sunil Gupta và phó giáo sư Aurelie Lemmens (2020) khăng địnhrang: “Khách hàng khuấy động xảy ra ở khắp mọi nơi Khách hang chỉ canngừng sử dụng dich vụ nhưng không can phải nói với công ty” Chính vì thế việcquản lý và xác định khả năng rời bỏ của khách hàng là rất quan trọng, đặc biệttrong một ngành công nghiệp có sự cạnh trạnh mạnh mẽ và đầy biến động như

thị trường viễn thông Việc áp dụng khai phá dữ liệu vào lĩnh vực quản lý khách

hàng có thể giúp ban lãnh đạo công ty dự đoán được khả năng rời bỏ của kháchhàng có cao hay không, dé xây dựng chiến lược kinh doanh dài hạn

1.4 CÁC YEU TO ANH HUONG DEN KHẢ NĂNG ROI MẠNG CUA

KHACH HANG

Dé du doan duoc kha năng từ bỏ của khách hang, trước tiên các nhà quan lyphải tìm hiểu các yếu tố nào ảnh hưởng đến quyết định rời mang của khách hanghay chính là làm ảnh hưởng đến lòng trung thành của khách hàng đối với doanhnghiệp Khi lòng trung thành của khách hàng đối với doanh nghiệp giảm sẽ dẫn

đên việc ngừng sử dụng dịch vụ của nhà cung cap.

1.4.1 Yếu tố cá nhân khách hàng

11185691 — Ngô Thị Hải Yến | 17

Trang 18

.Ạ‡ Chuyên đề thực tập chuyên ngành Toán Kinh Tế

Nhóm yếu tố đầu tiên được xét đến gây tác động đến khả năng rời mạng làcác yếu tố cá nhân khách hàng, bao gồm đặc điểm cá nhân (đặc điển nhân khẩuhoc), đặc điểm hành vi và sự hài lòng của khách hàng

Đặc điểm cá nhân hay còn gọi là đặc điểm nhân khẩu học bao gồm các yếu

tố như tuôi tác, giới tính, tinh trạng hôn nhân, nghé nghiệp, của khách hàng Bàinghiên cứu của Wong (2011) nghiên cứu về van đề giữ chân khách hang của cácdoanh nghiệp cung cấp dịch vụ viễn thông không dây tại Canada Trong bàinghiên cứu này tác giả sử dụng mô hình hồi quy Cox đề đánh giá các yếu tố ảnhhưởng đến việc rời mạng của khách hàng với bộ số liệu về 4896 khách hàng baogồm cả đặc điểm cá nhân khách hang, Kết quả mô hình cho thấy tuổi và vị trí

ở khách hàng có tác động đến ý định rời mạng của khách hàng Năm 2013,Suhartono và cộng sự cũng đưa các biến về nhân khẩu học (tuổi, nghề nghiệp,tình trạng hôn nhân, giới tính, ) vào mô hình đánh giá tác động đến sự rời mạngkhách hang tại thị trường Indonesia Sau khi áp dụng mô hình hồi quy Cox’sProportional Hazard dé dự báo sự rời mạng thì nhóm đưa ra kết quả trình độ họcvan càng cao thì khả năng ở lại sẽ cao hơn khách hàng có trình độ học vấn thấp ởmức Tiểu học hay Trung cấp Nguyễn Thị An Bình (2016) đã đề xuất mô hìnhđưa các biến nhân khẩu học thành biến kiểm soát mô hình nghiên cứu về các yếu

tố tác động đến lòng trung thành của khách hàng trong lĩnh vực bán lẻ của ngânhàng thương mại cô phần ở Việt Nam Tác giả thực hiện phân tích phương saicho các biến nhân khẩu học và đưa ra kết luận nếu khách hàng có thu nhập khácnhau thì sẽ có sự khác biệt về lòng trung thành của khách hàng Bên cạnh đónghé nghiệp khác nhau cũng dẫn đến lòng trung thành của khách hang thay đồi

Yếu t6 thứ hai được xét đến là đặc điểm hành vi sử dụng sản phẩm củakhách hàng bao gồm: hợp đồng dịch vụ, thói quen, loại dịch vụ khách hàng sửdụng, tính phù hợp dịch vụ, Trong bài nghiên cứu về lòng trung thành của

khách hàng với dịch vụ Internet Banking tại Malaysia của Beh Yin Yee và cộng

sự (2010) cho biết thói quen của người tiêu dùng ảnh hưởng đến sự trung thànhcủa khách hàng Một khách hàng sử dụng trang web và quen thuộc với nó sẽ tiếptục trở thành thói quen, điều này sẽ làm giảm hành vi chuyển đổi sang các trangweb của đối thủ Những người có hợp đồng với nhà cung cấp dịch vụ sẽ ít có khảnăng rời mạng hơn khách hàng không kí kết hợp đồng Wong(2011) đánh giáhợp đồng dịch vụ được xem như một rào cản chuyển đối với khách hàng sử dụng

mạng không dây tại Canada Nghiên cứu được Benjamin và công sự (2012) thực

hiện ở Lagos, Nigeria điêu tra các yêu tô chính ảnh hưởng đên việc người đăng ki

11185691 — Ngô Thị Hải Yến | 18

Trang 19

.Ạ‡ Chuyên đề thực tập chuyên ngành Toán Kinh Tế

thay đổi nha cung cấp dịch vụ Nhóm tác giả thực hiện thong kê mô tả va phântích nhân tố trên bộ số liệu 800 khách hàng được lựa chọn ngẫu nhiên Kết quảnghiên cứu đưa ra cho thấy sự phù hợp của dịch vụ là lý do chính gây ra tìnhtrạng khách hàng từ bỏ Các yếu tố khác cũng gây đến ảnh hưởng tới thời gian

hoạt động của người đăng kí như loại hình gói dịch vụ sử dung, cơ sở dịch vụ.

Nghiên cứu tương tự khác tại Karnataka, An Độ cua Bhandari (2013) cho thaykhách hang trả trước sẽ it trung thành hon với nha cung cấp dich vụ di động, do

đó họ sẽ thường xuyên chuyển đổi từ nhà cung cấp này sang các nhà cung cấpkhác và sở hữu nhiều thẻ SIM khác nhau

Sự thỏa mãn là sự phản ứng của người tiêu dùng đối với việc mong muốncủa họ được đáo ứng Từ trước đến nay, nhiều tác giả nghiên cứu tác động của sựhài hòng khách hàng đến khả năng ngừng sử dụng dịch vụ Cuộc điều tra thực

nghiệm tại thị trường dịch vụ Jordan của Muhammad Alshurideh và cộng sự

(2012) thu thập được thông tin từ 364 người dùng Kết quả khăng định sự hàilòng của khách hàng ảnh hưởng trực tiếp đến việc giữ chân khách hàng Theo tácgiả sự hài lòng là động lực chính của việc duy trì và việc cung cấp dịch vụ phùhợp với khách hàng là cốt lõi của duy trì khách hàng, đặc biệt khi các nhà cung

cấp dịch vụ đang cạnh tranh gay gắt dé thêm các dịch vụ và nâng cao chất lượng

dịch vụ giúp tăng mức độ hài lòng Năm 2015, Nguyễn Thị Tuyết Phương đãthực hiện bài nghiên cứu các nhân tô ảnh hưởng đến lòng trung thành của kháchhàng sinh viên trong lĩnh vực dịch vụ di dộng tại Kon Tum Tác giả đã tiến hànhxây dựng các thang đo và đề xuất mô hình nghiên cứu, thực hiện khảo sát đối với

250 sinh viên đã và đang sử dụng dịch vụ di động Nghiên cứu sau khi được sử

dụng phân tích nhân tố cho thay giả thuyết “Sw thỏa mãn của khách hàng có mốiquan hệ cùng chiêu với lòng trung thành của khách hàng doi với thương hiệu”được chấp nhận, kết quả hồi quy tuyến tính với hệ số tương quan của biến “ Sựthỏa mãn của khách hàng” là có giá trị lớn nhất, hay sự thỏa mãn của khách hàng

có mối quan hệ chặt chẽ với lòng trung thành của khách hang hơn các nhân tố

khác.

1.4.2 Yếu tố bên trong doanh nghiệp

Chất lượng dịch vụ là khả năng tập hợp các đặc tính của một sản phẩm, hệthống hay quá trình để đáp ứng yêu cầu của khách hàng và các bên có liên quan(Tổ chức quốc tế về Tiêu chuẩn hóa ISO) Benjamin Oghojafor và cộng sự(2012) đã điều tra các yếu tố dé tìm hiểu lý do người sử dụng lại thay đổi nhàcung cấp dịch vụ tại Lagos, Nigernia Nhóm nghiên cứu tiến hành một cuộc khảo

11185691 — Ngô Thị Hải Yến | 19

Trang 20

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

sát để thu thập thông tin từ 800 khách hang đăng kí được lựa chon ngẫu nhiên.Tác giả thực hiện thống kê mô tả và phân tích đa biến với bộ số liệu trên Kết quảcho thấy gói dịch vụ kém hấp dẫn, cơ sở dịch vụ kém là các yếu tố phân biệtđáng ké giữa khách hàng có sẵn sàng từ bỏ và những người đăng khí có lòng

trung thành Vishal Mahajan và cộng sự (2017) thực hiện nghiên cứu tương tự

cho thấy rất nhiều yếu tố ảnh hưởng đến sự rời mạng của khách hàng Quá trìnhtìm hiểu các tài liệu nghiên cứu, tạp chí liên quan đến khách hàng rời mạng trên

13 quốc gia khác nhau giai đoạn 2000 - 2014 từ 401 trích dẫn có liên quan, nhómtác giả chọn ra 78 nghiên cứu chính ảnh hưởng đến sự rời mạng Sau khi tìm hiểu

và áp dụng vào bối cảnh tai một số khu vực cụ thé của An Độ các nhà nghiên cứutìm ra ba yếu tố hàng đầu ảnh hưởng đến khách hàng: giá cả, tỷ lệ cuộc gọi, chất

lượng dịch vụ Kết quả cho thấy chất lượng dịch vụ cao sẽ tạo sự tin tưởng của

khách hàng Sự trung thành của khách hàng là kết quả của trải nghiệm dịch vụtích cực Bên cạnh đó các dịch vụ người sử dụng nhận được là tốt hơn cũng làmtăng sự hài lòng của khách hàng về độ tin cậy và khả năng đáp ứng Giả thuyết

“Chất lượng dịch vụ có tác động thuận chiều đến lòng trung thành của kháchhàng ” được chấp nhận ( Nguyễn Thị An Bình, 2016) Trong đó tác giả chỉ ra yếu

tố chất lượng dịch vụ cảm nhận về sản pham hữu hình, độ tin câu và mức độ đápứng có tác động đến cả lòng trung thành về thái độ và hành vi của khách hàng

Bên cạnh việc quan tâm đến chất lượng dịch vụ thì khách hàng cũng dé ýđến số tiền mình cần bỏ ra để được sử dụng dịch vụ Subhra Mondal và cộng sư(2017) cho thấy giá cả có ý nghĩa quan trọng trong điều khoản và ảnh hưởng đến

hàng vi sử dụng của khách hàng Nghiên cứu của nhóm sử dụng phân tích nhân

tố khăng định CFA trên R mở rộng sử dụng kết quả nghiên cứu trước dựa trênEFA Với tập dữ liệu gồm 241 khách hàng và 6 yêu tố chia thàng 26 biến phụthuộc sử dụng thang đo Likert, kết quả đánh giá phân tích các biến đều đáng tincậy Hầu hết khách hàng được khảo sát đều có nhạy cảm với giá cả sản phẩm.Theo Khoironi và cộng sư, 2018 giá cả có tác động đáng kê đến lòng trung thành,cần định giá tốt hay nếu nhận thức của khách hàng về giá cả tốt sẽ giúp sự trung

thành của khách hàng tăng lên Bên cạnh đó, Agung Hudaya và cộng sự năm

2021 còn chỉ ra nhận thức về giá cả ảnh hưởng đến sự hài lòng của khách hàng.Các nhà nghiên cứu chỉ ra rằng nêu giá cả được thiết lập tốt sẽ tác động đến việctăng mức độ hài lòng của khách hàng và ngược lại giá xấu sẽ có tác động đếnviệc làm giảm mức độ hài lòng Nghiên cứu dựa vào lý thuyết về lòng trungthành của khách hàng, các nhân tố ảnh hưởng Thái Thị Kim Oanh và cộng sự

11185691 — Ngô Thị Hải Yến | 20

Trang 21

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

(2021) đã xây dựng mô hình thực tiễn nghiên cứu vè lòng trung thành của khách

hàng đối với dịch vụ MyTV tại Nghệ An Hai nhà nghiên cứu tiễn hành phân tích

độ tin cậy thang đo, phân tích nhân tố khám phá, phân tích tương quan và cuốicùng là phân tích hồi quy kết quả Kết quả quá trình nghiên cứu cho thấy giá cả

có ảnh hưởng mạnh nhất đến lòng trung thành của khách hàng

Nhiều bài báo cáo khoa học cho thấy răng khách hàng không chỉ yêu cầu về

mức độ phù hợp của giá cả, chất lượng dịch vụ mà họ còn quan tâm đến thái độ

phục vụ, khả năng đáp ứng và việc giải quyết các vấn đề của nhà cung cấp saukhi bỏ ra một số tiền dé sử dụng dịch vụ Theo PGS.TS Hà Nam Khánh Giao vàcộng sự (2011) nghiên cứu và thực hiện kiểm định thang đo và phân tích nhân tốEFA đối với bộ dữ liệu khảo sát của 289 khách hang phù hợp dé tìm ra yếu tốảnh hưởng đến sự thỏa mãn của khách hàng sử dụng dịch vụ ADSL Kết quảphân tích cho thấy mức độ đáp ứng có quan hệ đến sự hài lòng Ngoài ra nhómtác giả còn đánh giá cao các yêu tố chất lượng trong đó có năng lực phục vụ Từ

đó, họ đề xuất doanh nghiệp quan tâm đến sự đánh giá của khách hàng để cóchính sách phù hợp và đúng đắn cho các bộ phận liên quan Nhân tố “ Thái độphục vụ” của nhân viên và hệ thống giao dịch có ảnh hưởng đến sự trung thànhđến khách hàng (Đào Trung Kiên và cộng sự) Subbra và cộng sự (2017) đưa rakết luận rằng trong mô hình ảnh hưởng đến lòng trung thành có sự tác động của

quy trình thanh toán và sự giúp đỡ của nhân viên bán hàng Bên cạnh đó, việc

giải quyết các vấn đề và khiếu lại từ khách hàng nhanh chóng cũng làm tăng sựhài lòng của khách hàng, có tác động ngược chiều đối với việc khách hàng lựachọn từ bỏ sử dụng Gia tăng mối quan hệ với khách hàng là vấn đề là các nhàmạng nên chú ý Các chương CSKH cần được đa dạng hóa và mở rộng với nhiềuđối tượng khách hàng ở nhiều nhóm khách nhau đề thu hút sự quan tâm và tạo ấn

tượng.

Một trong những công cụ CRM chính để tạo mối quan hệ bền chặt vớikhách hàng là bán chéo, bán kèm sản phẩm dịch vụ (Kamarrakura và cộng sự,

1991) Bán chéo (Cross selling) là hình thức doanh nghiệp giới thiệu thêm sản

phẩm, dịch vụ đến với người tiêu dùng có liên quan dé khíc thích sự mua hàngkhiến khách hang chi tiêu nhiều hơn.Trong khi đó bán kèm (Up selling) là hìnhthức doanh nghiệp thuyết phục người mua lựa chọn sử dụng với sản phẩm dịch

vụ cao cấp hơn với dự định ban đầu Kamakura và cộng sự (2003) nhận địnhrằng khi khách hàng sử dụng thêm một dịch vụ hoặc sản phẩm bồ sung từ nhàcung cấp sẽ giúp tăng kết nối giữa doanh nghiệp và khách hành Bên cạnh đó

11185691 — Ngô Thị Hải Yến | 21

Trang 22

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

việc bán chéo, bán kèm sản phẩm sẽ giúp công ty tìm hiéu thêm về sở thích củakhách hàng và hành vi mua hàng, từ đó giúp tăng khả năng thỏa mãn nhu cầu của

khách hàng Tuy nhiên, nhóm tác giả cũng chỉ ra mặt trái của việc bán chéo sản

phẩm, khi bán chéo không hiệu quả có thé làm giảm mối quan hệ khách hàng, taođộng cơ dé khách hàng chuyền đổi qua đối thủ cạnh tranh Bài nghiên cứu khangđịnh việc bán chéo hiệu quả đúng người, đúng thời điểm sẽ mang lại lợi ích lớn

và có vai trò quan trọng trong việc giữ chân khách hàng Theo Trần Kim Sơn(2018) chỉ ra vai trò của việc phát triển hoạt động bán chéo sản phẩm dịch vụ

khách hàng cá nhân của ngân hàng thương mại Ngoài việc giúp doanh nghiệp

tăng trưởng doanh thu, bán chéo sản phẩm dịch vụ còn giúp giảm thiểu rủi ro đốivới đối tượng khách hàng, khai thác sâu ví tiền của các khách hàng và nâng caonăng lực cạnh tranh của công ty Phát triển bán chéo dịch vụ sẽ giúp khách hàng

sử dụng đa dạng loại hình dịch vụ, tạo sự bền chat, tăng cường quảng bá cho hình

ảnh ngân hàng.

1.4.3 Mức cạnh tranh trên thị trường

Mô hình nghiên cứu cua Phạm Duc Kỳ và Bùi Nguyên Hùng được phát

triển tại thị trường Việt Nam 2006 cho rằng sự hấp dẫn của nhà mạng khác và chiphí chuyên đổi sang nhà mạng mới là những nhân tố trong nhóm yếu tố tạo ràocản chuyển đổi mạng của khách hàng Khi sự hấp dan của mạng khác làm giảmmức độ trung thành của khách hàng đối với nhà cung cấp thì chi phí chuyên đổicũng lại là một yếu t6 có tác động thuận chiều với lòng trung thành TheoNguyễn Thị Thúy Đạt (201 1) đề xuất giả thuyết trong mô hình nghiên cứu tương

tự đối với khách hang của Mobifone: “Sw hấp dẫn của mạng khác càng cao thìlòng trung thành của khách hàng doi với thương hiệu càng thấp ” Nhà nghiêncứu sử dụng phân tích nhân tố khám phá va mô hình hồi quy tuyến tính bội déđánh giá sự ảnh hưởng của các yêu tố đến lòng trung thành Kết quả nghiên cứucho thấy giả thuyết đề xuất được chấp nhận, hay khách hàng có xu hướng lựachọn nhà mạng tốt hơn Thị trường viễn thông rộng mở kèm theo đó là sự gianhập của rất nhiều nhà mạng, các nhà cung cấp cạnh tranh nhau về giá cả, chấtlượng dịch vụ, khả năng đáp ứng khách hàng Chính vì thế, khách hàng được lựachọn sử dụng dịch vụ của nhà mạng đêm lại nhiều lợi ích nhất, chi phí bỏ ra là tốithiêu Bên cạnh đó, rào cản chuyển đổi sang được nhà mạng khác lại là một yếu

tố làm tăng sự trung thành của khách hàng, có tác động đáng kể đến quyết định

từ bỏ của khách hàng Trên thực tế việc chuyên đổi có thể gây gián đoạn quá

trình sử dụng Ngoài ra, khách hàng còn sử dụng theo tâm lý đám đông khi bạn

11185691 — Ngô Thị Hải Yến | 22

Trang 23

.Ạ‡ Chuyên đề thực tập chuyên ngành Toán Kinh Tế

bè, người thân xung quanh sử dụng một mạng viễn thông có ảnh hưởng đếnquyết định của khách hàng

1.5 TONG QUAN NGHIÊN CỨU

Nhận thức được tâm quan trọng của việc rời mạng của khách hàng đôi với

doanh nghiệp nên trước đây đã có rât nhiêu nhà nghiên cứu áp dụng các phương

pháp khai phá dữ liệu để dự báo khả năng rời mạng của khách hàng

Abbas Kermati và Seyed M.S Ardabili (2011) đã sử dụng mô hình hồiquy Logistic nhị thức dé phân tích việc khách hàng rời bỏ của một doanh nghiệp

di động tai Iran Bài nghiên cứu sử dụng số liệu của 3.150 khách hàng được chọnngầu nhiên từ cơ sở dữ liệu của trung tâm nhà điều hành Kết quả nghiên cứu chỉ

ra rằng sự hài lòng của khách hàng, số lượng dịch vụ mà khách hàng sử dụng,đặc điểm nhân khẩu học của khách hàng, chi phí chuyên déi đều tác động đếnquyết định rời bỏ của khách hàng Các yêu tô quyết định đến sự hài long củakhách hàng, số lượng dịch vụ sử dụng hay những lời phản ánh tiêu cực từ kháchhàng đều ảnh hưởng đến sự rời bỏ, trong đó lời phàn nàn từ phía người sử dụng

có ảnh hưởng quan trọng nhất đến việc tăng xuát suất từ bỏ của khách hàng Kếtquả nghiên cứu cũng chứng minh sự đa dạng hóa về dịch vụ, số lượng mà kháchhàng sử dụng có ảnh hưởng tích cực đến việc giữ chân khách hàng, đặc biệt làyếu tố phí hàng tháng anh hưởng nhiều nhất đến xác suất từ bỏ (gấp 2 lần yếu tốtiếp theo) Đồng thời bài nghiên cứu còn cho thấy giới tính và độ tuổi có ảnhhưởng gián tiếp đến hành vi giữ chân khách hàng Cuối cùng, nhóm tác giả chỉ rarằng trạng thái hoạt động của khách hàng có mối quan hệ trực tiếp đối với sự từ

bỏ của khách hàng, sự thay đổi về tình trạng hoạt động là dấu hiệu của sự khônghài lòng của người sử dụng Năm 2019, Hemlata Jain tiếp tục sử dụng phươngpháp truyền thống này để dự báo sự rời mạng của khách hàng của công ty viễnthông Orange tại Mỹ Cơ sở đữ liệu mà tác giả thu thập được bao gồm 3.333

thông tin khách hàng với 20 thuộc tính Trong nghiên cứu này, công cụ Weka

được sử dụng và đưa ra kết quả hai kỹ thuật Hồi quy Logistic va Logit Boost đềuhoạt động rất tot Ngoài ra tác giả còn chỉ ra các thước đo hiệu suất hoạt động củacác kỹ thuật: thống kê Kappa, MAE, RMSE, RAE, RRSE, MRRS, TP, FP, độnhạy và độ thu hồi, điểm F và khu vực dưới đường cong ROC Kết quả của hai

kỹ thuật đưa ra không có sự khác biệt quá lớn tuy nhiên độ chính xác của mô

hình hồi quy Logistic là 85,24% trong khi đó Logit Boost đạt 85,18% Vào

8/2020, Olanrewaju Adeniji ứng dụng Machine Learning vào việc dự đoán khả

năng rời mạng của khách hàng ngành viễn thông Nhà nghiên cứu có giải thích

11185691 — Ngô Thị Hải Yến | 23

Trang 24

.Ạ‡ Chuyên đề thực tập chuyên ngành Toán Kinh Tế

các khái niệm cơ bản về học máy, sự rời mạng của khách hàng và cho thấy sựphát triển cũng như thách thức của ngành viễn thông các năm gần đây Sau khitìm hiểu về các tài liệu liên quan đến vấn đề nghiên cứu, tác giả lựa chọn thựchiện phân tích theo quy trình CRISP-DM bao gồm sáu giai đoạn: hiểu biết kinhdoanh, hiểu dữ liệu, chuẩn bị dữ liệu, mô hình hóa, đánh giá và triển khai dữ liệu

Từ nhận thức về sự ảnh hưởng của khách hàng rời mạng và muốn tìm hiểu lý dotại sao khách hàng quyết định chuyển đổi, nhà nghiên cứu lựa chọn tập dit liệuviễn thông bao gồm 7043 hàng và 21 cột và tiến hành xử lý số liệu Ứng dụngcông cụ Python và RapidMiner để chạy các thuật toán hồi quy Logistic, câyquyết định và Naive Bayes Kết quả nghiên cứu đưa ra cho thấy hồi quy Logistic

có độ chính xác lớn nhất 80,60%, sự thu thập thông tin lớn nhất, thời gian chạythuật toán là nhanh nhất; sau đó là NB với 79,10% và DT tại 73,50%

Bên cạnh việc áp dụng phương pháp hồi quy truyền thống và nghiên cứubài toán khách hàng từ bỏ cũng có rất nhiều các nhà nghiên cứu khác sử dụng cácphương pháp Machine Learing Trước tiên, tìm hiểu về các bài nghiên cứu sửdụng hai phương pháp đơn giản, phố biến nhất trong Machine Learning là câyquyết định (DT) và rừng ngẫu nhiên (RF) Nghiên cứu vào năm 2015 của YongLiu ngoài sử dụng mô hình hồi quy Logistic, tác giả còn sử dụng phương phápcây quyết đinh C5.0 dé dự đoán sự rời mạng của 1.048.575 khác hàng với 25biến quan sát như:chi phí, lưu lượng truy cập, thông tin gói thoại Điểm nỗi bậtcủa bài nghiên cứu là nhóm tác giả tiến hành phân cụm khách hàng theo giá trịtiêu dùng của khách hàng theo ba cấp độ bằng phương pháp K — mean Sau đónhóm thực hiện mô hình hồi quy logistic, cây quyết định dé dự báo churn đối vớitừng nhóm khách hàng Kết quả phương pháp dự báo cho thấy độ chính xác vàmức độ phù hợp của mô hình cây quyết định C5.0 là cao nhất đối với tất cả cácnhóm khách hàng Trong đó độ chính xác cây quyết định khi không có chi phíphân loại sai lớn hơn khi có sự sai sót trong phân loại đối với tất cả nhóm kháchhàng Phương pháp hoạt động tốt với các nhóm khách hàng không có sự sai khiphân nhóm với độ chính xác lần lượt đối với ba nhóm khách hàng giá trị thấp,trung bình và cao là 87,58%; 89,59% và 92,56%; đối với bộ số liệu chung khi

chưa phân khúc khách hàng là 86,58% và khi đã phân khúc là 89,12% Tuy nhiên khi xét sự sai sót trong quá trình phân loại sẽ giúp mức độ phù hợp của mô hình

tăng lên khoảng 5 - 6% đối với từng nhóm khách hàng và từ 52,06% lên 79,03%với toàn bộ số liệu Như vậy, việc phân nhóm khách hàng giúp dự báo hiệu quảhơn và phù hợp với thực tế Eui — Bang Lee (2015) đã áp dụng phương pháp DT

11185691 — Ngô Thị Hải Yến | 24

Trang 25

.Ạ‡ Chuyên đề thực tập chuyên ngành Toán Kinh Tế

và NN vào phân tích dự báo thời gian nghỉ của khách hàng trong ngành công

nghiệp di động tại Hàn Quốc Tác giả tiến hành thu thập dữ liệu và phân tích đưa

ra kết quả tỷ lệ “churn” bị ảnh hưởng bởi giá tùy chọn, điện thoại thông minh,mạng, phí và tần số sử dụng Các quy tắc dé phân loại được xây dựng hình thànhlên một mô hình cây quyết định với độ chính xác là 68,57% cao hơn mô hình hồiquy Logistic Một nghiên cứu tương tự của Abinash Mishra (2017) đưa ra kếtluận trong nghiên cứu phương pháp có độ chính xác cao nhất là Random Forest

Bộ số liệu thu thập được bao gồm 3.333 quan sát với các thuộc tính về ku vực,cuộc gọi dịch vụ, cuộc gọi buổi tối, tính phí budi tối, tinh phí trong ngày, số phút

sử dụng trong ngày, cuộc gọi quốc tế, phí quốc tế, số phút các cuộc gọi quốc tế

và cuối cùng là cuộc gọi ban đêm, số phút sử dụng trong đêm, phí cuộc gọi trongđêm Các phương pháp sử dụng trong bài nghiên cứu bao gồm Bagging,Boosting, RF, DT (C4.5), NB và SVM với các thang đo hiệu suất là độ chínhxác, ty lệ sai sót, độ nhạy và đặc hiệu Kết quả chỉ ra phương pháp RF mang lại

độ chính xác khi dự báo sự rời mạng cao hơn các phương pháp còn lại (91,66%);

tỷ lệ sai số thấp nhất là 8,34% Năm 2019, Qiannan Zhu và cộng sự dự đoán tìnhhình rời mạng của thành viên một công ty máy bay trên tập dữ liệu bao gồm 4964quan sát và 53 biến phụ thuộc ở dạng biến rời rạc nhị phân Nhóm nghiên cứu sửdụng mô hình LASSO dựa trên mô hình hồi quy Logistic để sàng lọc biến, sau đótiến hành xây dựng sơ bộ mô hình rừng ngẫu nhiên và điều chỉnh tham số lựachọn mô hình tối ưu để dự đoán quyết định của khách hàng Hệ số Jaccard trởthành thang do dé đánh giá hiệu suất 3 mô hình LASSO, RF và LASSO - RF.Kết quả cho thấy hệ số của mô hình LASSO thấp hơn so với mô hình rừng ngẫunhiên và mô hình LASSO — RF, do đó hai mô hình sau dự báo tốt hơn Tuy hệ sốJaccard hai mô hình gần ngang nhau, nhưng số lượng biến tác giả đưa vào mô

hình LASSO — RF lại it hơn, độ phức tạp sẽ giảm đi, độ chính xác cao hơn Cũng

trong năm 2019, Emad Hanif của trường Kinh doanh Dublin đã sử dụng bộ dữ

liệu viễn thông gồm 7043 hàng và 21 cột dé tiến hành một nghiên cứu tương tự

Áp dụng hai công cụ khai phá là RapidMiner và R đề thực hiện các phương pháp

từ truyền thống đến phô biến như DT, RF, KNN và NB Kết quả sử dụng công cụRapidMiner cho thay việc su dung RF với bộ dữ liệu được chia thành tap dữ liệudao tạo và thử nghiệm tỷ lệ tương ứng là 80%, 20% đưa ra độ chính xác lớn nhất79,39% NB có mức thu hồi cao nhất là 83,21 + 2,73% và KNN với mức xácnhận khả năng phân tách là hoạt động kém nhất Ngoài ra nhà nghiên cứu còn sửdụng quy tắc kết hợp trên công cụ RapidMiner để tìm ra các loại hình dịch vụhay được người tiêu dùng sử dụng với nhau Cuối cùng tác giả kết luận bốn thuật

11185691 — Ngô Thị Hải Yến | 25

Trang 26

.Ạ‡ Chuyên đề thực tập chuyên ngành Toán Kinh Tế

toán KNN, DT, NB và RF là những thuật toán phân loại tốt nhất và giúp hiểu

được thuộc tính nào trong tập dữ liệu là quan trọng với việc xác định khách hàng

có bỏ cuộc hay không Các thuộc tính được xác định quan trọng nhất với sự rờimạng của khách hàng là Hợp đồng, Thời hạn, Phí hàng tháng và Tổng chỉ phí.Hợp đồng càng dài thì khách hàng ít có khả năng xáo trộn hơn, hay thời gian gắn

bó với doanh nghiệp càng lâu thì khách hàng sẽ càng ít lựa chọn từ bỏ Khách

hàng trung thành hơn đối với doanh nghiệp khi tông số tiền hoặc chi phí hàng

tháng cao hơn các khoản phí khác.

Một phương pháp Machine Learning khác được sử dụng rất nhiều trong các

bài nghiên cứu là K- Nearest Neighbor lonut B Brandusoiu(2013) lập mô hình

nghiên cứu để dự báo về khả năng từ bỏ sử dụng thiết bị di động trong ngànhviễn thông Bài nghiên cứu phân tích dựa trên tập số liệu bao gồm 3.333 ngườiđăng kí với 21 biến lay từ Dai học California Ba mô hình dự báo cho việc rờimạng của khách hàng trong các công ty viễn thông di động bao gồm K - lánggiềng gần nhất, hồi quy Logistic và cuối cùng là Naive Bayes Từ quan điểmthực tế, nhóm nghiên cứu cho rằng cả ba mô hình đều hoạt động với hiệu suất rấttốt trong việc dự đoán sự từ bỏ (khoảng 80%), tuy nhiên từ quan điểm kĩ thuật thì

mô hình sử dụng KNN là thuật toán hoạt động tốt nhất với độ chính xác tông thể

là 85,63% Thuật toán KNN trong bài hoạt động tối ưu với lựa chọn k =14 Tiếptục phát trién nghiên cứu mới áp dụng với bộ số liệu như trên, MA Hassonah vàcộng sự (2019) sử dụng 95% mẫu (3.166 quan sát) chia thành 2 tập huấn luyện

và thử nghiệm với tỷ lệ phần trăm tương ứng là 60% và 40% Hai thuật toán phânloại được lựa chọn trong bài là DT và KNN Kết quả so sánh hai thuật toán chothấy DT có độ chính xác là 93% trong khi độ chính xác của KNN dat 87% Thựchiện đánh giá băng khu vực dưới đường công AUC cho thấy các giá trị AUC củahai thuật toán gần nhau, KNN dat giá trị khoảng 82%, DT tốt hơn một chút gầnnhư đạt 86% Và biện pháp so sánh cuối cùng được áp dụng đo lường mức tăng(Lift Measure) được phát hiện thấp hơn ở thuật toán KNN đạt giá trị 4,277 Năm

2020, Ishpreet Kaur và cộng sự thực hiện một nghiên cứu dé phân tích dự đoán

sự chuyển đổi của khách hàng trang ngành ngân hàng Với nguồn dữ liệu từKaggle bao gồm 28.382 quan sát và 21 thuộc tinh, sau khi tiến hành xử lý số liệunhóm nghiên cứu đưa ra 23.122 quan sát với số liệu hoàn chỉnh chia thành hai bộ

dữ liệu huấn luyện và thử nghiệm tương ứng 70% và 30% để đánh giá hiệu suất

mô hình được đào tạo Các thuật toán áp dụng trong bài bao gồm hồi quyLogistic, DT, RF, KNN Thước đo dé đánh gia hiệu suất các thuật toán được sử

11185691 — Ngô Thị Hải Yến 26

Trang 27

.Ạ‡ Chuyên đề thực tập chuyên ngành Toán Kinh Tế

dụng độ chính xác, Độ nhạy, Thu hồi và khu vực dưới đường cong AUC — ROC.Nhóm nghiên cứu sử dụng ngôn ngữ Python dé triển khai dự báo và so sánh hiệuxuất lay mẫu ngẫu nhiên phân tang, lấy mẫu không phân tang xác nhận chéo 8lần (cross validation) Kết quả đưa ra hầu hết độ chính xác của các thuật toán khichọn mẫu phân tầng đều cao hơn khi chọn mẫu ngẫu nhiên không phân tang.Béncạnh đó các phương pháp đều hoạt động rất hiệu qua, độ chính xác đều trên 81%.Tuy nhiên hiệu suất về giá trị thu hồi, AUC, độ chính xác đều đưa ra kết luận sovới các thuật toán còn lại KNN đưa ra kết quả kém hơn Trong bài nghiên cứu,còn xuất hiện sự kết hợp các kĩ thuật như tính trung bình và bỏ phiếu tối đa được

sử dụng đê cải thiện hiệu suât mô hình.

Ngoài ra, Support Vector Machine là phương pháp được nhiều nhà nghiêncứu áp dụng phổ biến trong bài toán dự báo Theo Benlan He và cộng sự (2014)

mô hình SVM dé dự báo sự rời bỏ của khách hàng là hiệu quả Tập dữ liệu trongbài nghiên cứu bao gồm 50.000 hồ sơ khách hàng của một ngân hang thương mạitại Trung Quốc giai đoạn từ tháng 1/2011 đến 6/2012 được chia ra thành tập dữliệu đào tạo từ 1/2011 đến 12/2011 và dữ liệu kiểm định là vào khoảng thời giancòn lại Sau khi xử lý số liệu loại bỏ các giá trị thiếu và ngoại lệ thì mẫu đượcđưa vào nghiên cứu còn lại 46.406 hồ sơ, tromg đó có 421 khách hang từ bỏ,45.985 khách hàng lựa chọn không từ bỏ, từ đó có thé thấy sự mắt cân đối trong

bộ dit liệu thu thập được khi tỷ lệ không rời bỏ gấp 109,23 lần số lượng ngừng sửdụng Trong đó, các nhà nghiên cứu coi chỉ số thuộc tính cơ bản (tuổi, giới tính,học vấn, nghề nghiệp, ty lệ nợ phải trả ) và chỉ số kinh doanh (tài khoản tiềngửi, số dư tiền gửi, số lượng tiền gửi, ) là các biến đầu vào mô hình Bài nghiên

cứu được xây dựng thuật toán trên MATLAB2010, sử dụng các mô hình SVM

(SVM tuyến tính, RBR — SVM) Trong trường hop lấy toàn bộ mẫu và lựa chonlay mau theo tỷ lệ; mô hình hồi quy Logistic được chọn dé so sánh Trường hợpđược lựa chọn mẫu, nhóm nhiên cứu đề xuất lựa chọ 5 loại tỷ lệ giữa từ bỏ vàkhông từ bỏ bao gồm 2:1; 1:1, 1:2, 1:5, 1:10 và sử dụng xác nhận chéo 10 lần déước tinh độ chính xác Kết quả đưa ra cho thay trường hợp lấy toàn bộ mau, cả

mô hình hồi quy Logistic và mô hình SVM tuyến tính đều dự đoán việc kháchhàng từ bỏ thành không từ bỏ, mặc du độ chính xác lớn đến 99,09% nhưng kếtquả lại không thể chấp nhận được Nhu vậy mô hình RBF SVM có độ chính xácthấp hơn 98,95% tuy nhiên tỷ lệ thu hồi khách hàng từ bỏ là 26,84% Xét đếntrường hợp lựa chọn mau theo tỷ lệ có thé thấy khi sử dụng mẫu cứ 1 khách hàng

từ bỏ thì chọn 10 khách hàng không từ bỏ sẽ cho ra ty lệ chính xác đạt đến mức

11185691 — Ngô Thị Hải Yến | 27

Trang 28

.Ạ‡ Chuyên đề thực tập chuyên ngành Toán Kinh Tế

cao nhất tuy nhiên tỷ lệ thu hồi là thấp nhất so với các loại lựa chọn khác Kếtquả cuối cùng trong bài nghiên cứu khăng định rằng sự kết hợp của phương pháplay mẫu ngẫu nhiên và mô hình SVM có thé cải thiện đáng ké độ chính xác về

khả năng dự báo và dù lựa chọn theo tỷ lệ mẫu là bao nhiêu thì hiệu quả dự báo

RBF SVM đều là tối ưu S.Venkatesh và Jeyakarthic(2020) dự đoán sự chuyểnđổi của khách hang bang thuật toán di truyền tối ưu và mô hình SVM Với bộ sốliệu bao gồm 3.333 mẫu và tổng số 21 tinh năng trong đó có 14,49% trường hợplựa chọn từ bỏ, còn lại thuộc loại không từ bỏ Kết quả ba phương pháp chínhđưa ra có kết quả hiệu suất tốt, được chấp nhận dé dự báo khả năng từ bỏ củakhách hàng bao gồm Naive Bayes, SVM, OGA — SVM Dựa vào thước đo hiệusuất là độ chính xác, phương pháp SVM với độ chính xác 88,30% cao hơn NaiveBayes với 87,64%; tuy nhiên vẫn thấp hơn kết quả của 0GA — SVM (90,30%)

Sử dụng các thước đo khác như điểm F, hệ số thống kê Kappa, độ nhạy, độ đặchiệu đều đưa ra kết luận về độ hiệu quả tốt nhất là OGA — SVM ( độ nhạy94,50%; độ đặc hiệu 66,06%; giá tri Kappa 61,17; điểm F là 94,30%); sau đó là

SVM, Naive Bayes.

Tại Việt Nam, những dé tài liên quan đến phân tích khả năng rời bỏ củakhách hàng vẫn còn hạn chế Trong đó, nổi bật là bài nghiên cứu của Nguyễn

Minh Tân (2014) ứng dụng khai phá dữ liệu dự đoán khách hàng rời mạng viễn

thông tại EVNTelecom Cơ sở dir liệu được xây dựng trên môi trường SQL Sever

2005, sau quá trình thu thập dữ liệu về khách hàng, cước sử dụng dịch vụ, chămsóc khách hàng và khách hàng rời mạng bao gồm 14 biến Nhà nghiên cứu xâydựng hai mô hình gom cụm và cây quết định dé dự đoán trên hai bộ số liệu daohuận luyện và kiểm tra tỉ lệ tương ứng 85% và 15% Kết quả nghiên cứu cho thay

ở mô hình gom cụm tỷ lệ khách hàng cao nhất năm ở nhóm khách hàng ở trạngthái thanh lý, số tháng sử dụng dưới 25,3 tháng Mô hình cây quyết định cũng chỉ

ra trạng thái hoạt động phụ thuộc vào số tháng sử dụng, khu vực khách hàng, giớitính Kết quả đánh gía hai mô hình dự đoán được chấp nhận, phù hợp với kết quảnhận định ban đầu Nguyễn Thị Thủy (2015) phân tích và đưa ra giải pháp nhằmhạn chế ý định chuyên đôi nhà cung cấp dịch vụ điện thoại đi động của kháchhàng Viettel của tỉnh Bến Tre Sau khi xác định mục tiêu rõ ràng của nghiên cứu

và tìm hiểu cơ sở lý thuyết, nhà nhiên cứu tiến hành thảo luận nhóm dé xây dựngthang đo bao gồm 7 yếu tô sử dụng thang do Likert với 5 mức đo lường: Cướcdich vụ (5 biển); Chất lượng của dịch vụ cung cấp (4 biến); Cam kết của nhàCung cấp (5 biến); Kiểm soát xung đột (4 biến); Chi phí chuyển đổi (4 biến); Kiến

11185691 — Ngô Thị Hải Yến | 28

Trang 29

.Ạ‡ Chuyên đề thực tập chuyên ngành Toán Kinh Tế

tức các lựa chọn thay thế (5 biến) và cuối cùng là Nhận thức cua những ngườitham khảo (4 biến) Hướng tới đối tượng khảo sát là khách hang dang sử dụngdịch vụ của Viettel tại Bến Tre với thời gian sử dụng ít nhất 3 tháng trở lên, tácgiả thu thập 250 bản khảo sát trong đó có 207 phiếu hợp lệ Sử dụng phần mềmSPSS 22.0 dé kiểm định độ tin cậy Cronbach “s Alpha cho thấy các biến đều đạt

độ tin cậy cho phép với hệ số CA từ 0,76 trở lên, hệ số tương quan biến tổng thấpnhất từ 0,52 Sau đó, nhà nghiên cứu đưa các biến vào phân tích EFA cho thay cả

7 yếu tố đều có sự ảnh hưởng đến ý định chuyển đổi nhà cung cấp Từ đó bàinghiên cứu phân tích thực trạng các yếu tố ảnh hưởng đến ý định khách hàng vàđưa gia khuyến nghị phù hợp Tuy nhiên, bài nghiên cứu chỉ dừng lại ở việc tìmhiểu các yêu tố ảnh hưởng đến đến ý định chuyền đổi của khách hàng dựa trên số

liệu trong lịch sử và đưa ra khuyến nghị, chưa thể dự đoán được ý định của khách

hàng về việc rời bỏ trong tương lai hay không Theo Nguyễn Ngọc Tuân (2016),việc khai phá dữ liệu trong lĩnh vực viễn thông hiện nay là rất quan trọng Với sốliệu về 1.622.229 thuê bao của Mobifone từ 8/2015 với 86 trường dữ liệu, nhà

nghiên cứu chia ra thành 5 nhóm khách hàng: Thuê bao trả sau, Thuê bao trả

trước có tiêu dùng tài khoản chính nhưng không đạt 3k3d_vir trong tháng

7/2015; Thuê bao trả trước chỉ tiêu dùng tài khoản khuyến mại trong 7/2015,

Thuê bao trả trước không phát sinh cước trong 7/2015 và Thuê bao trả trước có

đạt chuẩn 3k3d_vlr trong tháng 7/2015 Tuy nhiên, để phù hợp với mục tiêunghiên cứu đề ra tập trung vào thuê bao trả trước nên tác giả tách nhóm 2 thànhhai nhóm nhỏ bao gồm người tiêu dùng TKC dưới 3.000đ và người tiêu dùng

trên 3.000đ Trong đó, nhà nghiên cứu lựa chọn ra mẫu chạy 741.003 quan sát

bao gồm 95.003 trong 1.548.952 khách hàng rời mạng và 646.000 khách hàng

không rời mạng Sử dụng bộ dir liệu lựa chọn trước tiên tác giả dự báo dựa theo

đặc trưng trước khi rời mạng cho thay độ chính xác của các nhóm từ 1 đến 4 đều

từ 92.50 %, tuy nhiên có nhóm 5 chỉ đạt 78,04% Nhu vậy dựa trên đặc điểm vốn

có của khách hàng bao gồm cả biến rời mạng là biến đầu vào thì việc dự đoán ditliệu là tốt nhất với nhóm 3 với độ chính xác là 98,70%; tỷ lệ sai số là 1,30%; tỷ lệthu hồi và độ nhạy là 95,1% Áp dụng kĩ thuật khai phá dữ liệu đối bộ số liệuchưa được phân lớp không bao gồm biến khách hàng từ bỏ hay không bằng công

cụ WEKA và thuật toán cây quyết định, tập dữ liệu chia ra thành 2 tập huấnluyện và kiểm định với tỷ lệ 66% và 34% Trước tiên, nhà nghiên cứu sử dụngthuật toán cậy quyết định đối đưa ra kết quả và đánh giá độ chính xác thuật toán

ở các nhóm hau hết đều trên 98,80% Kết quả cho thấy so sánh theo thước đo độchính xác thì nhóm 2 và nhóm 4 đều có kết quả cao nha (99,60%); theo độ thu

11185691 — Ngô Thị Hải Yến | 29

Trang 30

.Ạ‡ Chuyên đề thực tập chuyên ngành Toán Kinh Tế

hồi kết quả áp dụng thuật toán trên số liệu nhóm 3 là cao nhất 99,70% Thời gianxây dựng mô hình theo giải pháp khai phá dữ liệu ngắn nhất đối với số liệu nhóm

2 (16 giây) Từ kết quả trên, nhà nghiên cứu còn đề xuất mô hình cải tiến lựa

chọn thuộc tính phù hợp sau đó mới thực hiện thuật toán khai phá dữ liệu cây

quyết định và đánh giá Nhà nghiên cứu chọn thuộc tính để xử lý số liệu nhanh

và độ chính xác chấp nhận được và chạy kỹ thuật xây dựng mô hình phân lớp.Kết quả mô hình cải tiến đưa ra thì kết quả dự báo đối với từng nhóm thuê baodạt độ chính xác từ 98,80% trở lên tuy nhiên thời gian xây dựng mô hình lại ngắnhơn thấp nhất là 2 giây với nhóm 2 và cao nhất tại nhóm 1 là 16 giây Trinh ThịHong Lam (2018) lựa chon áp dụng phương pháp Kaplan — Meier và mô hìnhnguy cơ tỷ lệ phan trăm của Cox dé phân tích tỷ lệ rời mạng khách hàng dùngmạng Mobifone tại Tp Hồ Chí Minh Phân tích sự rời mạng với toàn bộ mẫungẫu nhiên về 22.927 thuê bao cho thấy xác suất rời mạng giảm dan thừ thángthứ ba và từ khoảng thời gian 10 tháng xác suất dừng lại ở tỷ lệ là 10% Theo

phương pháp Kaplan-Meier phân tích theo giới tính và khu vực mức chênh lệch

rời mạng của khách hàng là không đáng kế; theo các loại thuê bao thì xác suất rờimang của thuê bao FAS va VIE trong 5 tháng đầu tiên là như nhau và tăng dần từtháng thứ 6, từ tháng thứ 5 đến tháng thứ 8 khách hàng sử dụng FAS rời mangnhiều hơn tuy nhiên từ tháng thứ 9 thì xác suất rời mạng của VIE tăng mạnh hơn

sơ với FAS Và cuối cùng khi phân tích theo xác suất rời mạng giữa việc sửdụng hay không sử dụng thoại, SMS và data thì đều nhận thấy các khác hàngkhông sử dụng dịch vụ sẽ có xu hướng rời mạng tăng dần theo các tháng, trong

đó tỷ lệ xác suất khách hàng rời mạng khi sử dụng data là thấp nhất với 3%, sau

đó là SMS và thoại Kết quả mô hình hồi quy Cox Hazard Model ước lượng đưa

ra các yếu tố như tuổi, giới tính, doanh thu đều ảnh hưởng đến Sự rời mạng củakhách hàng và có tác động ngược chiều Bên cạnh đó yêu tô về nguyên quán củakhách hàng cho thay nếu khách hàng có nguyên quán tại thành phố Hồ Chí Minh

và Thanh Hóa thì sẽ có tác động mạnh nhất đến sự rời mạng của khách hàng,trong đó xác suất thấp khi khách hàng ở thành phố Hồ Chí Minh và cao hơn các

khu vực khác khi nguyên quán khách hàng ở Thanh Hóa.

e Khoảng trồng nghiên cứu

Nhìn chung các nghiên cứu về khả năng rời mạng của khách hàng tronglĩnh vực viễn thông còn gặp phải ba hạn chế cơ bản Hạn chế đầu tiên là hầu hếtcác bài nghiên cứu đều thực hiện dự báo với toàn bộ khách hàng, chưa có sựphân nhóm khách hàng cụ thé và xác định giá tri của từng nhóm đối với nhà cung

11185691 — Ngô Thị Hải Yến | 30

Trang 31

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

cấp dịch vụ để việc dự báo sự rời mạng có ý nghĩa hơn Hạn chế thứ hai là cácnhà nghiên cứu còn lựa chọn các thuật toán đơn lẻ; chưa có sự kết hợp giữa các

phương pháp được thực hiện dự báo.

11185691 — Ngô Thị Hải Yến | 31

Trang 32

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

CHƯƠNG 2: PHƯƠNG PHÁP NGHIÊN CỨU

Phan đầu tiên trong chương 2 bai chuyên đề đưa ra các lý thuyết liên quan

về phương pháp phân cụm khách hàng: sau đó tìm hiểu thêm cách xây dựng các

thuật toán dự báo Machine Learning: Decision Tree, Random Forest, K Nearest

Neighbor và Support Vector Machine Bên cạnh đó trình bày phương pháp

Logistic Regression dé dự báo phân loại Churn và đánh giá các yếu tố tác độngđến khả năng rời mạng Cuối cùng, phân tích cách thức hoạt động Quy tắc kếthợp trong Machine Learning dé áp dụng đề xuất dich vụ bán chéo

2.1 PHƯƠNG PHAP PHAN CUM K - MEANS CLUSTERING

2.1.1 Giới thiệu

Thuật toán K means Clustering là một phương pháp Học tập không giám

sát Thuật toán này đưa ra một số giả định cho phép chia tập dữ liệu không đượcgan nhãn thành các cụm khác nhau dé phân tích dữ liệu bên trong đối với từngnhóm đối tượng có những nét tương đồng; phụ thuộc vào đặc điểm từng cum déxây dựng kế hoạch phù hợp đáp ứng nhu cầu

Cluster (cum) được hiểu đơn giản là tập hợp các điểm nằm gần nhau trongmột không gian nào đó, không gian này có thé rất nhiều chiều tùy thuộc vàolượng thông tin của một điểm dit liệu Mỗi cụm có một điểm đại diện (center),xét một điểm dữ liệu gan center nào nhất thì nó thuộc về cùng nhóm điểm đại

Trang 33

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

Bước 1: Xử lý trước dữ liệu

Chúng ta sẽ nhập thư viện và tập dữ liệu mà chúng ta cần sử dụng vào R.Sau đó trích xuất các biến độc lập sử dụng dé xây dựng thuật toán phân cụm đối

tượng.

Bước 2: Tìm số lượng cụm tối ưu (K tối ưu)

+ Phương pháp khuỷu tay (Elbow method)

Ý tưởng cơ bản dang sau các phương pháp phân vùng như phân cụm Kmeans là việc xác định các cụm sao cho tổng bình phương khoảng cách trongcụm (WSS) được giảm tối thiểu Tổng WSS đo lường mức độ chặt chẽ của phâncụm và được tính bang công thức:

e x; là một điểm đữ liệu của cụm C k

e u„ là giá trị đại diện hay chính là giá tri trung bình các điểm được

gan nhãn trong cụm (Phương pháp khuyu tay xem xét tổng WSS như một hàm của số lượng cụm K

Số cụm tối ưu được xác định bằng cách:

1 Xây dựng thuật toán phân cụm cho các giá trị k khác nhau Ví dụ thay đổi

giá trị của K € [1,10].

2 Đối với mỗi giá trị K, thực hiện tính tổng bình phương trong cum (WSS)

3 Vẽ đồ thị đường cong biéu diễn WSS theo số cụm K

4 Xác định vi trí khúc cua (knee) trên đồ thị được coi là chỉ số về lượng cụm

toi ưu.

A\ Lưu ý : Phương pháp khuyu tay đôi khi không rõ ràng.

11185691 — Ngô Thị Hải Yến | 33

Trang 34

.Ạ‡ Chuyên đề thực tập chuyên ngành Toán Kinh Tế

+ Phuong pháp hình bóng trung bình ( Average Silhouette Method)

Phương pháp tính hình bóng trung bình của các quan sát với các giá tri k

khác nhau Số lượng K tối ưu là cụm tối đa hóa hình bóng trung bình trên mộtloạt các giá tri có thé có của K (Kaufman và Rousseeuw, 1990)

Số lượng cụm tối ưu được thuật toán xác định bằng cách:

1 Xây dựng thuật toán phân cụm cho các giá trị k khác nhau Ví dụ thay

đổi giá trị của K € [1,10]

2 Đối với mỗi giá trị K, thực hiện tính hình bóng trung bình của các

điểm dit liệu (avg.Sil)

3 Vẽ đồ thị đường cong biểu diễn avg.Sil theo số cụm K

4 Xác định vị trí cực đại trên đồ thị được coi là chỉ số về lượng cụm tối

ưu.

Phương pháp được coi là phương pháp thay thế của phương pháp

khuỷu tay và có thê áp dụng với bất kì phương pháp phân cụm nào

+ Phương pháp thống kê khoảng cách ( Gap statistic method)

Phương pháp được xây dựng bởi R Tibshirani, G Walther, T Hastie của Dai

học Standford vào năm 2001 Thống kê khoảng cách so sánh tông biến thé trongcụm với các giá trị khác nhai của k và các giá trị dự kiến của chúng trong phânphối tham chiếu rỗng của tập dữ liệu Ước tính giá trị cụm tối ưu là gia tri tối dahóa về thống kê khoảng cách

Thuật toán xác định giá trị k tối ưu bằng cách:

1 Nhóm dữ liệu quan sát, thay đôi số lượng cụm K = 1, , Kmay và tính

tông biến thé trong từng cụm W,

2 Tạo tập dữ liệu tham chiếu B với phân phối thống nhất ngẫu nhiên Nhóm

từng bộ dữ liệu tham chiếu này với số lượng cụm k khác nhau và tính tôngbiến thé trong từng cụm W;,,

3 Tính thống kê hoảng cách là độ lệch giá trị W, quan sát so với giá trị kì

vọng W„ trong giả thuyết rỗng

b

1

Gap() = 5 > (Wie) — log (Wi)

b=1

4 Chon giá tri K tối ưu là giá trị nhỏ nhất sao cho thống kê khoảng cách nằm

trong độ lệch chuẩn khoảng trống tại k+1: Gap(k) > Gap(k + 1) — Spa1

11185691 — Ngô Thị Hải Yến | 34

Trang 35

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

 Việc sử dụng B = 500 cho kết quả chính xác dé biểu đồ khoảng cách

về cơ bản không thay đôi sau mỗi lần chạy khác

Bước 3: Xây dựng mô hình với giá trị k tối ưu

Việc xây dựng mô hình được thực hiện qua các bước nhỏ:

3.1 Chon ngẫu nhiên K đối tượng từ cum dữ liệu làm trung tâm đại diện cum

ban đầu

3.2 Gan mỗi điểm dữ liệu theo cụm sao cho khoảng cách Euclide giữa từng

điểm dữ liệu đến tâm cụm là nhỏ nhất

3.3 Xác định lại giá tri trung tâm của các cụm băng cách tính trung bình mới

của tất cả các điểm dữ liệu nam trong một cụm

3.4 Lặp lại bước 2 dé gán nhãn cho tất cả các điểm trong tập dữ liệu theo giá

trị trung tâm mới của mỗi cụm.

3.5 _ Lap lại bước 3 sau khi không còn sự phân tích lai dữ liệu, đến khi trọng

tâm mới của các cụm không thay đôi hoặc đạt đến số lần lặp là tối đa

- Don giản, dễ thực hiện, tương đối hiệu quả

Phương pháp chỉ đơn giản thực hiện dựa trên việc xác định K cụm tôi ưu va các điểm đại diện trung tâm của cụm từ đó gan các giá tri cho các diém dữ liệu

theo điểm trung tâm gần nhất

- _ Có thê xử lý một số lượng lớn dit liệu Với dữ liệu lớn nó hoạt động nhanh

hơn phân cụm phân cấp ( khi K nhỏ)

Phương pháp giúp gán nhãn dữ liệu dựa trên phép tính khoảng cách đến cáctrung tâm vì vậy nó không giới hạn về số lượng điểm dữ liệu có thể xử lý một số

lượng dữ liệu vô cùng lớn.

- Dé liệu ban đầu không bắt buộc phải gắn nhãn nên thường được sử dụng

trong nhiều bài thực tế

11185691 — Ngô Thị Hải Yến | 35

Trang 36

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

Trên thực tế không phải tất cả các dữ liệu đầu vào đều đã được gắn nhãn sẵn nhưkhông biết việc một khách hay mua hàng có là khách hàng tiềm năng hay chỉ làngười tiêu dùng tạm thời; chính vì vậy K means giúp giải quyết vấn đề về nhãn

dữ liệu.

2.1.3.2 Nhược điểm

- _ Cần phải xác định giá trị k ban đầu

Thuật toán xây dựng dưa trên giá trị tham sô K cụm đưa vào đê phân cụm cho nên két quả cuôi cùng phụ thuộc rat lớn vào việc chon giá trị của K sao cho tôi ưu được khả năng phân cụm

- Su tôn tại của các yêu tô ngoại lai sẽ gây tác động tiêu cực đên việc thực

hiện phân nhóm.

Ngoài ra, việc phân cụm chỉ dựa trên dữ liệu liên quan đến đối tượng cầnchia nhóm; tuy nhiên chưa kê đến các tác nhân bên ngoài dữ liệu chăng hạn việcphân cụm khách hàng theo mức chi tiêu còn bi ảnh hưởng bởi các yếu tổ xảy rabat ngờ như tháng đó họ được thưởng hay bị xảy ra một vấn dé gây mat đi một

khoản chi tiêu.

- Moi diém dữ liệu chỉ thuộc về một cụm tại một thời điêm, các cụm không

bắt chéo nhau dân đên việc gan sai nhãn cho một sô diém nhât định.

Dữ liệu được gan nhãn dựa trên việc tôi ưu hóa khoảng cách đên điêm trung tâm,

mỗi điêm chi năm ở một cụm tại một thời điêm tuy nhiên đôi với các diém dữ

liệu gần nhau có thê bị gắn nhãn sai sang các cụm khác lận cận

2.2 MỘT SÓ PHƯƠNG PHAP DỰ BAO

Tiếp cận bài toán dự báo khả năng rời mạng của khách hàng theo hướngHọc máy, bài chuyên đề đưa ra 5 phương pháp phân loại bao gồm: Decision

Tree, Random Forest, K Nearest Neighbor, Support Vector Machine và thuật

toán Logistic Regression Từ đó, xác định các yếu tố tac động đến sự rời mạng vàkết hợp dự báo giữa các phương pháp, đánh giá hiệu quả dựa trên các thước đo,

ma trận nhằm lẫn

2.2.1 Một số phương pháp Machine Learning

2.2.1.1 Thuật toán Decision Tree

i Giới thiệu

11185691 — Ngô Thị Hải Yến | 36

Trang 37

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

Được biết đến là một trong những kỹ thuật Học máy có giám sát, cây quyếtđịnh là phương pháp mạnh và phô biến có thé thực hiện cả hai nhiệm vụ phânloại và hồi quy, nhưng chủ yếu nó được sử dụng trong việc giải quyết các bào

toán phân loại.

Cây quyết định còn có hai tên gọi khác là cây hồi quy và cây phân loại Cây

hồi quy (Regression tree) sử dụng để ước lượng các hàm có giá trị là số thực, ví

dụ như là khoảng thời gian bệnh nhân nằm viện hay ước tinh giá cả của một côphiếu Cây phân loại (Classification tree) được thực hiện nếu biến phụ thuộc y làbiến phân loại như giới tính (Nam hay Nữ), dự báo rời mạng (Có hay Không)

Cây quyết định được lựa chon dé phân loại do khả năng bắt chước tư duycon người trong quyết định và có thé dé dàng hiểu được ý nghĩa khi nhìn vào kết

quả thuật toán.

ii Thuật toán và các bước thực hiện

+ Phân tích toán học

Dữ liệu được cho trước ở dạng

(x,y) = (Xq,#¿, ,Xn, V)

Trong đó:

- _ Biến phụ thuộc y là biến cần tìm hiểu (phân loại hoặc dự báo)

- _ Các biến x1, xp, X, là các bién giúp xây dựng thuật toán

% Cấu trúc cây quyết định

Nó là một bộ phân loại có cấu trúc cây, trong đó

o_ Đỉnh trên cùng của cây được gọi là gốc cây quyết định (root node)

o Mỗi mit quyết định (decision node) biéu diễn một thuộc tinh và có thé

phân tách thành nhiều nhánh

o Nhánh (branch) biéu diễn các giá trị có thé có của mỗi thuộc tính

o_ Mỗi nứt lá (leaf node) biéu diễn đầu ra của các quyết định không chứa các

nhánh con.

11185691 — Ngô Thị Hải Yến | 37

Trang 38

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

Leaf Node Leaf Node

Hình 2 2 Mô tả thuật toán Decision Tree

+ Phuong pháp xây dựng thuật toán

Việc tạo cây quyết định bao gồm 2 giai đoạn: tạo cây và tỉa cây

- Tao cây quyết định là quá trình phân tích, chia (đệ quy) tập dữ liệu thành

các tập dữ liệu con dựa trên các thuộc tính được chọn.

- Sau khi tạo cây cần tỉa cây quyết định bằng cách xác định và xóa các

nhánh có phan tử hỗn loạn hoặc những phan tử năm ngoài không thê phân

vào lớp vào

+ Các bước thực hiện

Bước 1: Xử lý dữ liệu trước

Chia bộ dữ liệu ban đầu thành tập huấn luyện và tập thử nghiệm

Bước 2: Xây dựng thuật toán với tập huắn luyệnViệc xây dựng thuật toán trên tập huấn luận thực hiện dựa trên các bước nhỏ:

> Bắt đầu cây quyết định với nút gốc chứa toàn bộ tập dữ liệu huấn luyện

> Chọn thuộc tính phân tách

Cây quyết định được xây dựng bằng phép phân tách dữ liệu tại mỗi nút dựatrên thuộc tính của biến đầu vào dé dua ra sự phân tách tốt nhất Dựa trên các loạibiến đầu vào của tập dit liệu có thé chia ra ba phép phân tách cơ bản:

Phép phân tách dựa trên các biên đâu vào kiêu sô

- _ Phép phân tách có dạng X >N.

11185691 — Ngô Thị Hải Yến | 38

Trang 39

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

- Thuong chỉ kiểm tra trên một mau giá trị của biến do không thể kiểm tra

hệt toàn bộ giá tri của biên đâu vào.

Phép phân tách dựa trên biến đầu vào định tính

- _ Thuật toán đơn giản nhất là ứng với mỗi giá trị của biến ta sẽ tách thành

một nhánh tương ứng với một lớp phân loại.

- Phuong pháp được sử dụng phổ biến hơn là nhóm các lớp dự đoán có

cùng kết quả; có thê gộp hai lớp phân phối nếu chỉ khác nhau 1 giới hạn

Phép phân tách với sự có mắt của giá trị bị thiếu

- Thuật toán có khả năng xử lý các giá trị bị thiếu trong tập dữ liệu băng

cách gán cho nó giá trị NULL và phân chia thành một nhánh riêng.

- Phuong pháp này được lựa chọn sử dụng nhiều hơn việc loại bỏ các giá trị

rỗng hay cố gang gán một giá trị khác vào vì nhiều giá trị bị thiếu mang ý

nghĩa riêng biệt.

> Tìm thuộc tính tốt nhất bằng cách sử dụng phép đo lựa chọn thuộc tính

Thu thập thông tin (Information gain)

Information gain dựa vào sự giảm Entropy khi tập dữ liệu được phân chia

dự vào một thuộc tính được chọn Thuộc tính tốt nhất được lựa chọn khi nó đưa

ra chỉ sô Information gain cao nhat.

Hệ số Entropy của biến mục tiêu S được tính bang cách

Cc

Entropy (=) -_yt x log, (3)

i=1

Trong đó:

o n, là số giá trị quan sát từng trang thái

o Wlà tông giá trị quan sát của tập dữ liệu

o c là số trạng thái trong tập dữ liệu

Hệ số Entropy tại mỗi thuộc tính: ở mỗi thuộc tính x được lựa chọn các điêm dữ liệu của biên mục tiêu S sẽ được chia thành k nút nhỏ Sj, S;, ,.S„ VỚI SÔ

lượng điểm dữ liệu trong từng nút là m1, my, , Mz

Trang 40

sa 4 (uyên dé thực tập chuyên ngành Toán Kinh Té

Chỉ số Information gain

nN;

Gain(x, S) = Entropy (;,) — Entropy(x)

A\ Kiểm tra thuộc tính

- Gia tri Entropy càng cao độ hỗn loạn hệ thống cảng cao và ngược lại hệ

thống càng trật tự khi Entropy nhận giá tri thấp.

- Giá trị hệ số Gain(x, S) càng lớn thì phép phân loại càng tốt

Chỉ số Gini Impurity

Gini Impurity là chỉ số đánh giá mức độ phân loại khi chọn một phần tử ngẫunhiên từ điểm dữ liệu Đó là chỉ số đo lường mức độ đồng nhất hay nhiễu loanthông tin, hoặc khác biệt về các giá trị của mỗi điểm dữ liệu trong tập con

Hệ số Gini Impurity của tập dữ liệu

k

Go =) (1-5) =Y nc P) =1- yn

i=1 i=

Trong đó:

o n¡ là số quan sát trong nút được phân chia

o N là tổng số quan sát trong tập dữ liệu ban đầu

© p= 7 là xác suất lay điểm dữ liệu trong nút được phân chia

o k là số nút được chiaXác định tương tự đối với chỉ số Gini Impurity theo từng thuộc tính lựa chọn

Hệ sô Gini Gain

k

Thị

i=

A\ Kiểm tra thuộc tính

- Giá trị Gini Gain là lớn nhất thì thuộc tính là tốt nhất

- _ Công thức Gini có thể dùng cho cả dữ liệu rời rac và liên tục

- Hệ số Gini Impurity được ưu tiên hơn Information gain vì không chưa

logarit.

Gia tri Chi- square

11185691 — Ngô Thị Hải Yến | 40

Ngày đăng: 18/10/2024, 00:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w