Cùng với sự phát triển của khoa học đữ liệu, các mô hình dự báo dựa trên phươngpháp định lượng đang dan trở thành những công cụ tối ưu thay thé cho con người trong việc đánh giá không ch
Trang 1TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TE
CHUYEN NGANH: TOAN KINH TE
Giảng viên hướng dẫn : ThS Trần Chung Thủy
HÀ NỘI - 2023
Trang 2TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TE
KHOA LUAN TOT NGHIEP
CHUYEN NGANH: TOAN KINH TE
DE TAI:
ĐỌC HIẾU MOT SO MO HÌNH HOC MAY VÀ THU NGHIEM XU LY DU
LIEU VE TRANG THAI KHACH HANG ROI BO DICH VU VIEN THONG
Sinh vién thuc hién : Phạm Phương Linh
Mã sinh viên : 11193012
Lớp : Toán Kinh Tế 61
Giảng viên hướng dẫn : ThS Trần Chung Thủy
HÀ NỘI - 2023
Trang 3LỜI CẢM ƠN
Đề hoàn thành khóa luận tốt nghiệp này, đầu tiên, em xin chân thành cảm ơn ThS.Trần Chung Thuỷ đã là người định hướng, giúp đỡ em trong việc lựa chọn đề tài nghiên
cứu và giúp em chỉnh sửa những sai sót trong quá trình hoàn thiện bài làm.
Em cũng xin gửi lời cảm ơn và sự tri ân sâu sắc đối với các thầy cô của trường Daihọc Kinh tế Quốc dân, đặc biệt là các thầy cô khoa Toán kinh tế đã giúp đỡ em trongsuốt quá trình học tập đề em có đầy đủ nền tảng kiến thức hoàn thành bài chuyên đề của
mình.
Trong quá trình thực hiện chuyên đề tốt nghiệp, em nhận thấy mình vẫn còn rấtnhiều thiếu sót, rat mong nhận được những ý kiến đóng góp từ phía các thay, cô dé em
có thêm nhiều kinh nghiệm cho con đường học tập và sự nghiệp mai sau
Em xin chân thành cảm ơn!
Trang 4MỤC LỤC
LOL CẢM ƠN, - 55-222 21 212 1E211211211211211 211211111101 111 1E ke 8 i92 |
1 Lý do chọn dé tài 2- 2-5222 12 1E XE EEEE1211211211211 1111211 tre 1
2 Mục tiêu nghiên cỨu - - S231 33113 111 E11 EEkrrrrrrsee 2
3 Đối tượng và phương pháp nghiên cứu 2 2 5 sex: 2
4 Phạm vi nghiên CỨU - - E2 E2 E19 111v ng vn ng ng rệt 2
CHƯƠNG I: CƠ SỞ LÝ THUYÊTT - 2 2 25 E+£E££E££E£E££EE£EE+Exerxerxered 3
1.1 Tổng quan về Học Máy ¿ £+S<++E+EE£EEEEEEEEEEEEEEEEEkerkerkrree 3
1.1.1 Định nghĩa và PNan ÏOQÌ co << 5c s s 9 5991 968.0 895 8098658 3
1.1.2 Bài toán tONG qHÁI -e-csescc<ce<cecseesEseEsetestsEtstsetsetsstsrsesesrssrsrssse 4
1.1.3 Mô hình HỒi quy LogiSfÏ€ ee-esesccsecsecsecsetssesseeseeseetssrsersersssse 4
T.1.4 (6N .1090 56 9
1.2 Vấn đề rời bỏ của khách hàng 2-2-5 5c +c2Eczczxerxrrxervee 11
1.2.1 Một số khái niệm CO DEN esessrecssscrecssecressnecrsssnscssssnsssssensessssnsessseneesses 11
1.2.2 Uu điểm của việc tinh toán tỉ lệ rời bỏ của khách hàng 13 1.2.3 Tính toán tỉ lệ rời bỏ bằng cách phân tích dữ liệu khách hàng 13 CHƯƠNG II: TRUC QUAN HOA VÀ KHAI PHA DU LIỆU 18
2.1 Tổng quan về bộ dữ liệu - 2 2 2 SE £E££Et2E2EE2EEerxrrxrrkree 18
2.1.1 Mô tả bộ dit liỆu -ees©ee©ces+esetseEeeetseEteetsertesreertssrssersee 18
2.1.2 Tương quan giữa các ĐÏỄH e-escesce<cssessssseeeseesssssserserssrsesse 19
2.2 Khám phá dữ liệu 2-2 2© £+SE+EEE£EECEEEEEEEEEEEEEEEEErkerrkrrkrrrkee 21
2.2.1 Dữ liệu về thông tin cá nhân của khách hàng 21
2.2.2 Các thông tin liên quan đến hồ sơ đăng kí dịch vụ của khách hàng
——- ,ôÔỎ 23
CHƯƠNG III: VẬN DỤNG XỬ LY DU LIEU BANG CÁC THUẬT TOAN 30
3.1 Chuẩn bị dit liệu cssesscsecssessessessessessssssesssssessessesseeaeens 30
3.2 Xây dựng và đánh giá mô hình - 5 5-5 S51 +Eseeeersersee 3l
3.2.1 Mô hình Hồi quy L.0gÏstiC . s2 2s ssssessesss=sssssesses 31
3.2.2 Mô hình COX se s°sess+seevseSseEvseEseEtetssttsetssersssssersee 36
3.3 Kết luận ¿- 2+ z+E1£EEEEEEEEE211211211211111111111 2112111111111 re 40
TÀI LIEU THAM KHẢO - 56 t+StSE‡EEEEEEE+EEEEEEEEEEEEEEEEEEESEerkrrerkererkrre 42
Trang 5MỞ DAU
1 Lý do chọn đề tài
Lĩnh vực viễn thông đã trở thành một trong những ngành công nghiệp chính ởkhông chỉ các nước phát triển nói chung và cả ở Việt Nam nói riêng Doanh nghiệp viễnthông là những doanh nghiệp cung cấp phương tiện truyền dẫn thông tin liên lạc qua
một khoảng cách dia lý (điện tử viễn thông, điện thoại, internet, 4G, vệ tinh, ) Vai trò
của ngành đóng góp rất lớn trong cuộc sông xã hội hiện đại, tạo điều kiện cung cấp mọithông tin cơ bản cần thiết cho sản xuất và thúc đây các hoạt động sản xuất kinh doanh.Bên cạnh làn sóng cách mạng công nghiệp 4.0 đang diễn ra mạnh mẽ, thời gian sắp tới
sẽ chứng kiến những bước tiến vượt bậc của những doanh nghiệp trong ngành viễn
thông tại Việt Nam khi tận dụng cơ hội từ xu thế chuyền đôi số đang lan rộng khắp toàn
cau
Tiến bộ kỹ thuật và số lượng nhà cung cấp ngày càng tăng đã lam tăng mức độcạnh tranh cho các doanh nghiệp Các công ty viễn thông đang nỗ lực để tồn tại trongthị trường cạnh tranh này tùy thuộc vào nhiều chiến lược Ba chiến lược chính được đềxuất dé tạo thêm doanh thu là: (1) thu hút khách hàng mới, (2) bán thêm cho khách hàng
hiện tại và (3) tăng thời gian giữ chân khách hàng Tuy nhiên, khi so sánh các chiến
lược này có tính đến giá trị lợi tức đầu tư (Rol) của từng chiến lược đã chỉ ra rằng chiếnlược thứ ba là chiến lược có lợi nhất, chứng tỏ rằng chi phí giữ chân một khách hànghiện tại thấp hơn nhiều so với việc thu hút thêm một khách hàng mới, bên cạnh đó chiếnlược này cũng được coi là đễ dàng hơn rất nhiều so với chiến lược bán thêm các sảnphẩm cho khách hàng hiện tại Dé có thé áp dung được chiến lược thứ ba, các công ty
phải ưu tiên giảm khả năng rời bỏ khách hàng, hay nói cách khác là giảm “sự đi chuyên
của khách hàng từ nhà cung cấp này sang nhà cung cấp khác”
Cùng với sự phát triển của khoa học đữ liệu, các mô hình dự báo dựa trên phươngpháp định lượng đang dan trở thành những công cụ tối ưu thay thé cho con người trong
việc đánh giá không chỉ với từng khách hàng mà là trên một tập khách hàng rất lớn Các
mô hình học máy là một trong các công cụ ấy và đang dan trở thành xu hướng trọngtâm, nồi bật, đã và đang được nghiên cứu, ứng dụng rộng rãi trong ngành tài chính nói
Trang 6chung và lĩnh vực công nghệ tài chính nói riêng, tạo ra những bứt phá mạnh mẽ về tính
hiệu quả, kịp thời, chính xác trong công tác giám sát, dự báo.
Sức mạnh của một mô hình có tác động rất lớn đến kết quả hoạt động kinh doanh
của một doanh nghiệp Một mô hình có mức độ chuẩn xác cao giúp các tổ chức dự đoán
được hành vi rời bỏ của khách hàng, từ đó đề ra những chiến lược phù hợp đề giữ chânkhách hàng, đưa ra các chính sách sản phẩm tốt hơn qua thời gian và cải thiện chất
lượng dịch vụ, từ đó tối thiểu hóa chỉ phí và tối đa hóa doanh thu
2 Mục tiêu nghiên cứu
e Xác định các yếu tố quyết định tỷ lệ rời bỏ của khách hàng
e Đánh giá, phân tích ảnh hưởng của các yếu tô đến tỷ lệ rời bỏ của khách hàng
e Du đoán khoảng thời gian rời bỏ của khách hàng.
3 Đối tượng và phương pháp nghiên cứu
e_ Các yếu tô có ảnh hưởng đến quyết định rời bỏ dịch vụ của khách hang
e_ Mô hình học máy xếp hang (Classification): Logistics Regression và mô hình
phân tích sống sót Cox Proportional-Hazards
4 Pham vi nghiên cứu „
Chuyên dé trình bày hai mô hình Logistic và mô hình Cox theo quan điêm của phương pháp học máy Từ đó áp dụng xử lý dữ liệu trạng thái khách hàng rời bỏ dịch
vụ viễn thông dé thử nghiệm chương trình xử ly dit liệu theo phương pháp học máy
Trang 7CHUONG I: CƠ SỞ LÝ THUYET
1.1 Tông quan về Học Máy
1.1.1 Định nghĩa và phân loạt
Theo IBM Cloud Education (2020), Học máy hay Machine Learning (ML) là
một nhánh của Trí tuệ nhân tạo (AT) và khoa học máy tính, tập trung vào việc sử dụng
dữ liệu và thuật toán dé bắt chước cách con người học, dan dan cải thiện độ chính xáccủa nó Học máy là một thành phần quan trọng của lĩnh vực khoa học đữ liệu đang pháttriển Thông qua việc sử dụng các phương pháp thống kê, các thuật toán được đảo tạo
để đưa ra các phân loại hoặc dự đoán và khám phá những thông tin chỉ tiết chính (keyinsights) trong các dự án khai thác dit liệu Các quyết định được đưa ra là kết quả củanhững thông tin này này tác động mạnh mẽ đến các chỉ số tăng trưởng chính trong các
ứng dụng và doanh nghiệp.
Machine learning bao gồm Học có giám sát (Supervised Learning) và Học không
giám sát (Unsupervised Learning) Supervised Learning được định nghĩa bằng cách sử
dụng các tập dit liệu được gắn nhãn dé huấn luyện các thuật toán phân loại dit liệu hoặc
dự đoán kết quả một cách chính xác Supervised Learning được phân loạithành Regression (Bài toán hồi quy) và Classification (Bài toán phân loại) Một sốphương pháp được sử dụng trong Supervised machine learning bao gồm: logistic
regression, neural networks, linear regression, naive bayes, random forest, và support
vector machine (SVM).
Unsupervised machine learning là phương pháp sử dụng các thuật toán may hoc
dé phan tích va phan cụm các tập dữ liệu không được gắn nhãn
Không cần sự can thiệp của con người, các thuật toán này có thể phát hiện ra cácmau hoặc nhóm dữ liệu an Khả năng phát hiện ra những điểm tương đồng và khác biệttrong thông tin của phương pháp này khiến nó trở nên lý tưởng cho việc phân tích dữliệu khám phá, chiến lược bán chéo (cross-sell), phân khúc khách hàng cũng như nhận
dạng hình ảnh và mẫu.
Unsupervised machine learning cũng được sử dụng dé giảm số lượng các tínhnăng trong một mô hình thông qua quá trình giảm kích thước Phân tích thành phần
Trang 8chính (PCA) và phân tích giá trị đơn lẻ (SVD) là hai cách tiếp cận phổ biến cho việc
này.
Unsupervised Learning Algorithm cũng được chia thành 2 nhóm là:
e Clustering: hướng dén viéc phân nhóm, phân đoạn dữ liệu từ tap dữ liệu ban đầu
Vi dụ ta có một tập | triệu Gen, cần phải tìm ra cách tự động phân nhóm chonhững gen này dựa trên đặc điểm về vòng đời, vị trí, vài trò,
« Non-clustering: tìm các structure ân trong dữ liệu
Các thuật toán khác được sử dụng trong học tập không giám sát bao gồm:
k-means clustering, neural networks, và probabilistic clustering methods
1.1.2 Bài toán tong quat
Nguyên tac chung cơ sở cho mọi thuật toán hoc máy đó là với biên đâu vào x ta
cần dự đoán biến đầu ra y thông qua hàm mục tiêu F sao cho y = F(x) Tuy nhiêntrong thực tế, biến đầu vào x thường là dữ liệu nhiều chiều và khó kiểm soát nên rất
phức tạp dé có thé nhìn ra mối quan hệ giữa x và y, chính vì vậy ta thường không théđưa ra một công thức phân tích cụ thé dé biểu diễn x và y, hay chính là dang hàm F
Chính vì vậy, ta chỉ có thé thu thập tập dữ diệu D là tập hợp các cặp quan sát(x!,y') sao choy = F(x)), ,y) = F(x) tương ứng Tuy nhiên do khôngbiết mối quan hệ giữa x! và yÍ nên ta cần mô phỏng hàm ƒ„ sao cho 9 = ƒ„(x,w*) làhàm ước lượng tốt nhất của hàm F và điều chỉnh tham số w* sao cho hàm mat mát £(w)đạt giá trị nhỏ nhất Hàm mat mát này sẽ khác nhau tùy thuộc vào mỗi mô hình hàm f,,.1.1.3 Mô hình Hải quy Logistic
Hồi quy tuyến tính được sử dụng dé ước tính mối quan hệ tuyến tính giữa mộtbiến phụ thuộc và một tập hợp các biến độc lập Tuy nhiên, hồi quy tuyến tính khôngphù hợp khi biến mục tiêu là biến nhị phân Đối với các biến phụ thuộc nhị phân, hồiquy Logistic (LR) là một mô hình phù hợp dé đánh giá hồi quy LR tương tự như hồiquy tuyến tính tuy nhiên hồi quy tuyến tính cung cấp một dau ra liên tục còn LR cho
đầu ra nhị phân (0 hoặc 1)
1.1.3.1 Bài toán tổng quát ;
Ta có khái nệm Odds: thê hiện khả năng một su kiện có thé xảy ra băng cach lây xác suât biên cô xảy ra chia cho xác suât biên cô không xảy ra.
Trang 9Odds =—F—
1—p
Nhu vay, Odds là biến liên tục, khi p=0.5 thì odds=1
Odds(1) Odds ratio = 777500)
Lay log của odds ta được Logit
logit(p) = log c—)p-1
Mặt khác, ta có biến Y là biến nhị phân chi nhận hai giá tri 0 hoặc 1 Cu thé
y= 1 Nếu khách hang rời bỏ dịch vu
~ 0 Nếu khách hang không rời bỏ dịch vu
Giả sử p là xác suât rời bỏ dịch vụ của một khách hàng (tức xác suât biên Y nhận
giá trị = 1) và có logit(p) bi ảnh hưởng bởi biến X:
logit(p) = log (7) =at+ PxKhi đó, xác suất p sẽ được biéu diễn:
c#+BX
p= 1+ e%t+bx Công thức tong quát cho đa biến:
e a lalog odds của biến Y khi X=0
e B; là log odds ratio (tỉ số) liên quan đến một đơn vị tăng của X: giá tri
trung bình của p tăng hay giảm khi X; tăng nhưng luôn được giới hạn
trong khoảng 0 đến 1 Cụ thé, anh hưởng của X; lên p; là ø;(1 — p,);
se Mối quan hệ giữa odds ratio và hệ số hồi quy của một biến độc lập:
5
Trang 10Tỉ số odds = efi
Do rất khó dé đánh giá tác động của các biến phụ thuộc lên biến độc lập dựa trêndang mô hình của hồi quy logistic, vi vậy ta đánh giá chúng thông qua tỉ số nguy cơ haychính là ti số odds Có thé thấy khi X; tăng 1 đơn vị và các yếu tố khác không đổi thì ti
số odds tăng e%i lần hay log odds tăng Ø; đơn vi
Các giá tri B; được tính toán ước lượng dựa trên phương pháp MLE.
Linear Regression Logistic Regression
Khi xây dựng một mô hình học máy, chúng ta cân một phép đánh giá đê xem mô
hình sử dụng có hiệu qua không và dé so sánh khả năng của các mô hình Hiệu năngcủa một mô hình thường được đánh giá dựa trên tập dữ liệu kiểm thử (test data) Cụ thể,giả sử đầu ra của mô hình khi đầu vào là tập kiểm thử được mô tả bởi vector y_pred —
là vector dự đoán đầu ra với mỗi phần tử là class được dự đoán của một điểm dữ liệu
trong tập kiêm thử Ta cần so sánh giữa vector dự đoán y_pred này với vector class thật
của đữ liệu, được mô tả bởi vecotr y_true Có rất nhiều cách đánh giá một mô hình phânloại Tùy vào những bài toán khác nhau mà chúng ta sử dụng các phương pháp khác
nhau Các phương pháp thường được sử dụng là: accuracy, precision, recall, Fl score,
Accuracy đơn giản và hay được sử dụng nhất Cách đánh giá này đơn giản tinh
tỉ lệ giữa số điểm được dự đoán đúng và tong số điểm trong tập dữ liệu kiểm thử Tuy
nhiên accuracy chỉ cho chúng ta biết được bao nhiêu phần trăm đữ liệu được phân loại
đúng mà không chỉ ra được cụ thé mỗi loại được phân loại như thế nào, lớp nào được
6
Trang 11phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhằm vào lớpkhác Đề có thé đánh giá được các giá trị này, chúng ta sử dụng một ma trận được gọi
là Confusion matrix.
Confusion matrix
Actual Positive Actual Negative
Predicted Positive True Positive (TP) False Positive (FP)
Predict Negative False Negative (FN) True Negative (TN)
TP + TN TP+FP+TN+FN
TP
TP + FP TP
3 False Positive (FP) đề cap đến một mẫu thuộc loại âm tính nhưng bị phân loại
sai là thuộc loại dương tính.
4 False Negative (FN) dé cap đến một mẫu thuộc loại dương tính nhưng bị phân
loại sai là thuộc loại âm tính.
Confusion matrix là một ma trận vuông với kích thước mỗi chiều bằng số lượng
lớp dữ liệu Giá trị tại hàng thứ ¡, cột thứ j là số lượng điểm lẽ ra thuộc vào class i nhưng
lại được
Về cơ ban, confusion matrix thé hién co bao nhiéu điểm dữ liệu thuc sự thuộc
vào một class, và được đ đoán rơi vào một class Chúng ta có thể Suy ra ngay rằngtong các phan tử trong toàn ma trận này chính là số điểm trong tập kiểm thử Các phần
tử trên đường chéo của ma trận là số điểm được phân loại đúng của mỗi lớp đữ liệu Từ
Trang 12đây có thé suy ra accuracy chính bằng tông các phan tử trên đường chéo chia cho tổngcác phần tử toàn ma trận.
Với bài toán phân loại mà tập dữ liệu của các lớp là chênh lệch nhau rất nhiều,
có một phép hiệu quả thường được sử dụng là Precision — Recall Trong bài toán phân
loại nhị phân, coi một trong hai lớp là positive và lớp còn lại là negative Với cách xác
định một lớp là positive, Precision được định nghĩa là tỉ lệ số điểm true positive trongtong số những điểm được phân loại là positive (TP + FP) Recall được định nghĩa là ti
lệ số điểm true positive trong tổng số những điểm thực sự là positive (TP+FN) Precision
cao đồng nghĩa với việc độ chính xác của các điểm tìm được là cao Recall cao đồng
nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót các điểm thực sự positive là thấp.
Khi precision = 1, mọi điểm tìm được đều thực sự là positive, tức không có điểm
negative nào lẫn vào kết quả Tuy nhiên, precision = 1 không đảm bảo mô hình là tốt,
vì câu hỏi đặt ra là liệu mô hình đã tìm được rất cả các điểm positive hay chưa Nếu một
mô hình chỉ tìm được đúng một điểm positive mà nó chắc chắn nhất thì ta không thểgọi nó là một mô hình tốt Khi recall = 1, mọi điểm positive đều được tìm thấy Tuynhiên đại lượng này lại không đo liệu có bao nhiêu điểm negative bị lẫn trong đó Nếu
mô hình phân loại mọi điểm là positive thì chắc chan recall = 1, tuy nhiên dé nhận rađây là một mô hình cực tôi Một mô hình phân lớp tốt là mô hình có cả precision vàrecall đều cao, tức càng gần một càng tốt
Bên cạnh đó ta cũng có thê đánh giá mô hình dựa vào ROC và AUC ROC là đườngcong biểu diễn khả năng phân loại của một mô hình phân loại tại các ngưỡng threshold
Đường cong này dựa trên hai chỉ số :
e TPR (true positive rate): Hay còn gọi là recall hoặc sensitivity Là tỷ lệ các
trường hợp phân loại đúng positive trên tổng số các trường hợp thực tế làpositive Chỉ số này sẽ đánh giá mức độ dự báo chính xác của mô hình trên
positive Khi giá trị của nó càng cao, mô hình dự báo càng tốt trên nhóm
positive Nếu TPR = 0.9, ta tin rằng rằng 90% các mẫu thuộc nhóm positive đã
được mô hình phân loại đúng.
TP TPR=—————
total positive
Trang 13e FPR (false positive rate): Tỷ lệ dự báo sai các trường hợp thực tế là negative
thành thành positive trên tổng số các trường hợp thực tế là negative Nếu giá trịcủa FPR = 0.1, mô hình đã dự báo sai 10% trên tổng số các trường hợp lànegative Một mô hình có FPR càng thấp thì mô hình càng chuẩn xác vì sai sốcủa nó trên nhóm negative càng thấp Phan bù của FPR là specificity đo lường
tỷ lệ dự báo đúng các trường hợp negative trên tổng số các trường hợp thực tế là
negative.
FP FPR=————————
total negative
Đồ thi ROC là một đường cong cầu lồi dựa trên TPR và FPR có hình dạng như
bên dưới:
AUC là chỉ số được
ROC y ⁄ tính toán dựa tren duong cong
ROC (receiving operating
curve) nhằm đánh giá kha
năng phân loại của mô hình
TPR tốt như thé nào Phan diện tích
gạch chéo nằm dưới đường
cong ROC và trên trục hoành
là AUC (area under curve) có
gid trị nằm trong khoảng [0, 1]
Khi diện tích này càng lớn thì
đường cong ROC có xu hướng
tiệm cận đường thang y = 1 và khả năng phân loại của mô hình càng tốt Khi đường
cong ROC nam sát với đường chéo đi qua hai điểm (0, 0) và (1, 1), mô hình sẽ tương
đương với một phân loại ngẫu nhiên.
1.1.4 Mô hình Cox
Một mô hình khác có thé được sử dụng là mô hình Cox proportional hazards
model Đây là mô hình phân tích sống sót (Survival Analysis) và được sử dụng dé ước
9
Trang 14tính thời điểm khách hàng rời bỏ dịch vụ, do đó biến quan tâm là thời gian xảy ra sự
kiện Mô hình này ước lượng được xác suât sông sót trên toàn bộ tập dữ liệu.
1.1.4.1 Hàm sống sót (Survival Function)
Hàm sông sót được định nghĩa bởi s(x) là xác suât mà một cá thê sông sót vượtquá thời gian t Trong phạm vi đề tài này, đó là xác suất mà một khách hàng chưa rời
bỏ dịch vụ tại thời điểm t
Giả sử T là thời gian khách hàng gắn bó với dịch vụ T có hàm mật độ xác suất(PDF) f(t) và hàm phân phối tích lũy (CDF) F(t) Khi đó
S(t) = P(T >t) =1-F(t) = [ ?@aœ
t
1.1.4.2 Ham rủi ro (Hazard Function)
Ham rủi ro là ham do khả năng that bai tại thời điểm t trong điều kiện đối tượng
đã sống sót qua một số thời điểm t, hay xác suất khách hàng rời bỏ dịch vụ tại thời điểmt+At với At rất nhỏ (gần như tiến tới 0)
h(t) = lim PST Stt+AtlT >t) = f@)S(t)
At>0 At
Ta có, số khách hàng chưa rời bỏ dich vụ tại thời điểm t là S(t) * P
Số khách hàng chưa rời bỏ dich vụ tại thời điểm t + At là S(t+At) *P
Số khách hàng đã rời bỏ trong quãng thời gian At là [S(t)-S(t+At)] *P
[SŒ)— S(t+At)]*P
Như vậy, tỉ lệ khách hàng rời bỏ tức thời tại thời điểm t là re
hay h(t) = lim [SŒ)— SŒ+AÐ)]/At
Giả sử h(t|x1, xạ, , Xp) là hàm rủi ro tại thời điểm t với các điều kiện
#,%¿, ,p Ta có họ(£) là hàm rủi ro khi tat cả các yêu tô xy = X2 = + =
Xp» = 0 và h;(£) là tất cả các trường hợp còn lại Khi đó tỉ lệ rủi ro (Hazard
10
Trang 15hy(t) — h(t|x1,X2, 1 Xp)
Ratio - HR) là HR = 25 = me Trong đó ho(t) được gọi là rủi
ro cơ sở khi tat cả các yếu tô xạ, xạ, , Xp không tồn tại
Lay logarit ta được: h(f|xị, xạ, , Xp) = họ(£) * exp(#ị + Box2 + +
BpXp)
Nhu vay, log fia)
ho(t) = By xX, + BoxX2 +++ + pxp và các hệ số B duoc ước lượng
bang Maximum Likelihood Estimation
thỏa mãn nhu câu đó của mình.
Khách hàng là người có điều kiện ra quyết định mua sắm Họ là đối tượng được thừa
hưởng các đặc tính, chất lượng của sản phẩm hoặc dịch vụ.
Quản ly quan hệ khách hàng:
Quản lý quan hệ khách hang (Customer Relationship Management - CRM) là thuật
ngữ xuất hiện từ đầu những năm 1990 tại các công ty tư vấn kinh doanh Mỹ Mong
muốn của các chuyên gia khi xây dựng CRM là nhằm tạo ra một phương pháp có thé
phát hiện các đối tượng tiềm năng, biến họ thành khách hàng, và sau đó duy trì lâu đàicác khách hàng này cho công ty Đây là một phần mềm giúp các công ty phục vụ kháchhàng tốt hơn CRM là một phương pháp giúp các doanh nghiệp tiếp cận và giao tiếp với
khách hàng một cách có hệ thống và hiệu quả, quản lý các thông tin của khách hàng
như thông tin về tài khoản, nhu cầu, liên lạc và các van đề khác nhằm phục vụ kháchhàng tốt hơn Theo Nettleton, D (2014), các mục tiêu tông thé là tìm kiếm, thu hút,giành niềm tin khách hàng mới, duy trì những đối tác đã có, lôi kéo khách hàng cũ trởlại, giảm chi phí tiếp thị và mở rộng dịch vụ khách hàng Việc đo lường và đánh giámối quan hệ với khách hàng là rất quan trọng trong mục tiêu thực hiện chiến lược
II
Trang 16Sự rời bỏ của khách hàng:
Sự rời bỏ của khách hàng là hiện tượng khách hàng của một doanh nghiệp không cònmua hàng hoặc tương tác với doanh nghiệp Một sự rời bỏ cao có nghĩa là số lượng
khách hàng không còn muốn mua hàng hóa và dịch vụ từ doanh nghiệp ngày càng cao
Theo Molly Galetto (2016), sự rời bỏ của khách hàng xảy ra khi khách hàng quyếtđịnh không tiếp tục mua sản phẩm / dich vụ từ một tổ chức và kết thúc giao dịch với tôchức đó Đây là một chỉ sé không thể thiếu cho các tô chức vì để có được một kháchhàng mới có thể tốn kém hơn rất nhiều so với việc giữ chân một khách hàng hiện tại.Mặt khác, việc giữ chân khách hàng thường hiệu quả hơn về mặt chỉ phí vì bạn đã giành
được sự tin tưởng và lòng trung thành của khách hàng hiện tại Sự rời bỏ của khách
hàng có thé là một rào cản cho sự tăng trưởng của tô chức theo cấp số nhân và cần phải
có một chiến lược chăm sóc khách hàng hợp lý để tránh sự gia tăng tỷ lệ rời bỏ kháchhàng Sự rời bỏ này có thể được đo lường bang Tỉ lệ khách hàng rời bỏ (hay Customer
Customer Churn Rate là một phép đo đặc biệt hữu ích trong ngành viễn thông.
Điều này bao gồm cáp hoặc truyền hình vệ tinh cung cấp dich vụ, các nhà cung cấpInternet, và các nhà cung cấp dịch vụ điện thoại (điện thoại cố định và dich vu không
dây).
Vì hầu hết khách hàng có nhiều tùy chọn đề lựa chọn, Customer Churn Rate giúpmột công ty xác định cách họ đo lường so với các đối thủ cạnh tranh của mình Ty lệrời bỏ của khách hàng được tính bằng cách chia số lượng khách hàng có đăng ký bị hủytrong một khoảng thời gian nhất định cho tổng số khách hàng vào đầu khoảng thời gian
đó.
12
Trang 17Ví dụ: nếu có 300 người đăng ký vào đầu thời hạn thanh toán và 10 người trong
số họ đã rời đi trong khoảng thời gian này, thì phép tính tỷ lệ khách hàng rời bỏ sẽ là:
[(300-290) / 300] * 100 = 0,03 * 100 = 3%
Do đó, ty lệ khách hang rời bỏ là 3%.
1.2.2 Ưu điểm của việc tính toán tỉ lệ rời bỏ của khách hàng
Ưu điểm của việc tính toán tỷ lệ khách hàng rời bỏ của một công ty là nó cungcấp sự rõ ràng về mức độ hiệu quả của việc giữ chân khách hàng của doanh nghiệp,điều này phản ánh chất lượng dịch vụ mà doanh nghiệp đang cung cấp, cũng như tính
hữu ích của nó.
Nếu một công ty thấy rằng tỷ lệ nghỉ việc của mình đang tăng lên theo từng thời
kỳ thì công ty đó hiểu rằng một thành phan cơ bản của cách thức hoạt động kinh doanhcủa họ là sai sót Công ty có thé đang cung cap một sản phẩm bị lỗi, nó có thé có dich
vụ chăm sóc khách hàng kém, hoặc sản phẩm của nó có thé không hấp dẫn đối vớinhững cá nhân quyết định chi phí không xứng đáng với tiện ích
Tỷ lệ khách hàng rời bỏ sẽ cho một công ty biết rằng công ty cần hiểu lý do tạisao khách hàng của họ rời đi và nơi dé sửa chữa hoạt động kinh doanh của mình Chi
phí để có được khách hàng mới cao hơn nhiều so với việc giữ chân khách hàng hiện tại,
vì vậy, khi ban đảm bảo rằng những khách hang mà bạn đã nỗ lực thu hút vẫn là khách
hàng trả tiền, thi bạn nên hiểu chất lượng doanh nghiệp của minh
1.2.3 Tính toán tỉ lệ rời bỏ bang cách phân tích dữ liệu khách hang
Phân tích đữ liệu khách hàng (cũng có thể gọi ngắn gọn Phân tích khách hàng)hiểu đơn giản là các quy trình, và hệ thống các phương pháp, công nghệ được ứng dụnggiúp công ty nắm bắt, trích xuất những kiến thức, thông tin hữu ích tiềm ẩn trong nguồn
dữ liệu khách hàng Mục đích chính của phân tích dữ liệu khách hàng là tạo ra một cái
nhìn chỉ tiết và chính xác về khách hàng, dé công ty có thé đề xuất các chiến lược kinhdoanh, các quyết định phù hợp, hiệu quả trong tương lai nhằm thu hút nhiều khách hànghơn và “giữ chân” họ lâu dài bang các chiến dich marketing, chiến dich bán hàng, cáchoạt động quản ly mối quan hệ khách hàng (CRM — customer relationship management)
Một kết quả chỉ tiết có được sau khi phân tích dữ liệu khách hàng (gọi làCustomer analysis) hay tom tắt thành một hồ sơ khách hàng (Customer profile) sẽ làthành phan quan trọng, “nguyên liệu” dé công ty triển khai các kế hoạch tăng lợi nhuận,
13
Trang 18phát triển kinh doanh mà cụ thé đầu tiên là kế hoạch tiếp thị — Marketing plan Customerprofile giúp công ty xác định những khách hàng mục tiêu ở hiện tại, đặc điểm của kháchhàng tiềm năng, nhu cầu của những nhóm khách hàng này, và sản phâm của công ty sẽphải thoản mãn họ như thế nào? Tiếp thị sản phẩm bằng các kênh nào? Cách thức bánhàng phù hợp hay chưa? Kết quả phân tích khách hàng, hay quá trình phân tích đữ liệu
khách hàng có thể chia làm 2 hướng: thông tin về hành vi khách hàng (Behavioral
analysis) và thông tin về nhân khẩu học của khách hàng (Demographic analysis)
2.2.3.1 Phân tích nhân khẩu học của khách hàng
Thành phần chính đầu tiên trong phân tích khách hàng là xác định các phân khúc thịtrường mục tiêu có thể đem lại lợi nhuận như kì vọng của công ty Phân khúc khách
hàng hay phân khúc thị trường là xác định các “tập hợp con”, chia thị trường hay chia
tập khách hàng lớn thành những phân khúc nhỏ, mỗi phân khúc gồm những khách hàng,
những tô chức có chung (hoặc không chung) một hoặc nhiều đặc điểm (sở thích, lối
sống, thu nhập, ) khiến họ có nhu cầu mua cùng sản phâm và hoặc đăng ký cùng dịch
vụ Ngoài ra còn có thé kết hợp những đặc điểm của các sản phẩm đó như giá cả hoặcchức năng, dé tiến hành phân khúc thị trường
Một trong những loại dữ liệu khách hàng đóng vai trò cốt lõi trong quá trình phânkhúc khách hàng hay phân khúc thị trường, đó là nhân khẩu học — Demographic Thuthập và phân tích đữ liệu nhân khâu học — Demographic analysis, sẽ giúp công ty cóđược thông tin cụ thé về khách hàng như giới tính, tuôi tác, dan tộc, khu vực địa lý và
thu nhập hàng tháng Ví dụ, công ty sẽ phải có câu trả lời cho những câu hỏi về nhânkhẩu học đưới đây, dé tiến hành phân khúc chính xác:
e Độ tuôi của khách hàng muốn sản phẩm hoặc dich vụ là bao nhiêu? (Độ tuổi sẽ
tác động đến khẩu vị và sở thích, nhu cầu của các đối tượng khách hàng)
e Khách hàng với giới tính nào có khả năng sẽ quan tâm nhất đến sản phẩm hoặc
dịch vụ này?
e Mức thu nhập của khách hàng tiềm năng là bao nhiêu?
e Khu vực địa lý, nơi sinh sống của khách hàng có lượng tiêu thụ sản phẩm như
thế nào?
e Họ có trình độ hoc vân như thê nào?
14
Trang 19e Tình trạng hôn nhân hoặc gia đình của ho là gì: Ho đã kết hôn, độc than, đã ly
di? Họ có con chưa? v.v
e Sở thích của khách hàng mục tiêu là gì?
Những dit liệu về nhân khẩu học là cực kỳ cần thiết, và tối quan trọng đối với nhiều
tổ chức, công ty hoạt động trong lĩnh vực tai chính, viễn thông dé ngăn chặn, dự baocác rủi ro tin dụng hay trong khu vực công, Nhà nước đề phát hiện tội phạm, thống kêdân số
2.2.3.2 Phân tích hành vì của khách hàng
Dựa vào kết quả phân tích hành vi khách hàng, công ty sẽ xác định và đo lường mức
độ quan trong của những yếu tố tác động đến việc khách hang chọn mua sản phẩm, còngọi là yếu tổ quyết định mua hang (buying criteria) Đây chính là cơ sở dé công ty hiểuđược các nguyên nhân tại sao khách hàng ưu tiên sản pham của công ty hơn đối thủ
cạnh tranh hoặc ngược lại.
Ngoài ra, phân tích hành vi khách hàng là việc tìm hiểu sâu hơn về quá trình kháchhàng ra quyết định mua sản phẩm, hay đăng ký dịch vụ Ví dụ công ty phải trả lời được
những câu hỏi sau:
e Những bước nào có trong quá trình ra quyết định mua hang?
° Những nguồn thông tin về sản phẩm, dịch vụ mà khách hàng sử dụng dé tim
kiêm?
e Thời điểm khách hàng giao dịch (vi dụ: khách hang mua hang ngay hay cần
có thời gian suy nghĩ trước khi quyét định)
e Khách hàng sẽ hỏi ý kiến người khác như bạn bè, người thân gia đình trước
khi đưa ra quyết định?
e Ai có quyền đưa ra quyết định cuối cùng khi khách hàng không mua hang
một mình?
e Khi tham khảo, hay thử nghiệm sản phẩm, dịch vụ khách hàng cho ý kiến
như thế nào?
e Phản ứng của khách hang sau khi tìm hiểu thông tin ban đầu về sản pham,
dịch vụ vi dụ về giá cả, khách hàng mong muốn chi bao nhiêu?
Còn sau khi ra quyết định mua hàng, công ty có thé theo dõi khách hàng dé thu thậpthêm các dit liệu hành vi và phân tích dé tìm hiểu:
15
Trang 20Thông thường sau khoảng thời gian bao lâu khách hàng ra quyết định mua
Số tiền khách hàng thường bỏ ra dé mua sản phẩm trong thời điểm bat kỳ
Khách hàng thường giao dịch tai chi nhánh, cửa hang nào? Trên website, cửa
hàng, ứng dụng trực tuyến nào?
Phản hồi của khách hàng sau khi sử dụng sản pham, dịch vụ như thé nào?Tính năng nào của sản phẩm mà khách hàng thích? Khách hàng có thỏa mãnchưa, hay yêu cầu gì thêm không? Mục đích phân tích dé tìm hiểu liệu kháchhàng có thé tiếp thục gắn bó với sản phẩm, dịch vụ đó hay thay đôi sản phẩm,
dịch vụ khác hoặc rời bỏ thương hiệu của công ty.
2.2.3.3 Quy trình phân tích khách hàng
Một quy trình phân tích khách hàng thường đi qua 3 giai đoạn:
Đầu tiên cần tìm hiểu khách hàng của công ty mình là ai, thông qua việc thuthập những dữ liệu khách hàng mà chúng em vừa dé cập ở trên Càng hiéu rõkhách hàng chỉ tiết bao nhiêu sẽ góp phần tăng sự hiệu quả của các chiến lượckinh doanh lên bấy nhiêu
Phân tích dữ liệu, sau đó tiến hành phân khúc khách hàng thành từng nhóm
khác nhau.
Xác định các chiến dịch marketing, chiến lược bán hàng, chiến lược sản phẩm
nhắm mục tiêu chính xác đến từng phân khúc khách hàng, sau đó kiểm traxem vi dụ sản phẩm thỏa mãn từng nhóm khách hàng như thé nào, nếu kháchhàng không hài lòng thì công ty cần đưa ra giải pháp gì?
Quy trình khác về phân tích dữ liệu khách hàng có thể gồm những bước sau:
Xác định khách hàng tiêm năng và nghiên cứu các nhu câu của họ
Xác định tiếp các nguyên nhân, yếu tố dẫn đến quyết định mua hàng củakhách hàng, và các hành vi khách hàng có thé nói lên suy nghĩ của kháchhàng về sản phẩm, dịch vụ
16
Trang 21e Xác định các giá trị cốt lõi của sản phẩm, dịch vu, và chứng minh chúng sẽ
đáp ứng nhu cầu của khách hàng thông qua những chiến lược marketing, bán
hàng.
Xét đến quy trình mua hàng của khách hang, thì việc phân tích dữ liệu kháchhàng nên xuyên suốt 3 giai đoạn sau:
e Trước khi mua hang: vi dụ phân tích phản ứng, hành vi của khách hang trong
khi tra cứu, tìm hiểu sản phẩm, dich vụ, dé tìm ra Buying criteria như đã nói
ở trên.
e Trong khi khách hàng dang sử dung san phẩm, dịch vụ: ví dụ thu thập, phân
tích dữ liệu dé tìm hiểu những tính năng của sản phẩm khách hàng ưa chuộng,
hay đặc điểm nào của sản phẩm mà không làm hài lòng khách hàng
e Sau khi kết thúc giao dịch (sau khi sử dụng xong sản phẩm, dịch vụ): ví dụ
thu thập, phân tích dữ liệu về lượt truy cập website, fanpage của công ty củakhách hang sau khi giao dịch lần đầu dé tìm hiểu khả năng khách hang cóquay lại mua sản pham lần nữa hay không
17
Trang 22CHƯƠNG II: TRỰC QUAN HÓA VÀ KHAI PHÁ DỮ LIỆU
2.1 Tổng quan về bộ dữ liệu
2.1.1 Mô ta bộ dữ liệu Ộ ;
Bộ dữ liệu chứa thong tin về một công ty viên thông đã cung cap dich vu Internet
và điện thoại gia đình cho 7043 khách hàng ở California trong quý 3/2019 Nó cho biết
khách hàng nào đã rời đi, ở lại hoặc đăng ký dịch vụ của họ Bộ dữ liệu được công khai
tại trang web kaggle.com.
thé hiện trong bảng sau:
1
10
Bộ dữ liệu bao gồm 7043 dòng và 21 cột tương ứng với 21 trường thông tin được
Bang 1 Các trường dit liệu trong bộ dit liệu Telco Customer Churn STT Phân loại
Nhóm đữ liệu liên
quan đếnhop đồng
M6 ta Khách hang có rời bo hay không (Yes/No)2
Khoang thoi gian cu thé (tinh theo thang)
khách hang đã dang kí dich vụ của công ty
Khách hàng có sử dụng dịch vụ điện thoại
hay không (Có/ Không)
Khách hàng có thiết bị kết nỗi mạng hay
không (DSL/Fibre optics/Không)
18
Trang 23tuyến hay không (Có/ Không/ Không có
dịch vụ truyền hình trực tuyến hay không
(Có/ Không/ Không có dịch vụ Internet)
Khách hàng có sử dụng dịch vụ xem phim
trực tuyến hay không (Có/ Không/ Không
có dịch vụ Internet)
Thời hạn mỗi hợp đồng của khách hàng với
công ty (Hàng tháng, Một năm, Hai năm) Khách hàng có hóa đơn điện tử hay không (Có/ Không)
Phương thức thanh toán của từng khách hàng (Séc điện tử, Séc gửi qua bưu điện,
Chuyên khoản, Thẻ tín dụng)Các khoản phí hàng tháng — Số tiền được
tính cho khách hàng hàng tháng
Tổng số tiền phải trả cho khách hàng
Hệ sô tương quan là một thước đo thông kê vê độ mạnh yêu của môi quan hệgiữa các chuyền động tương đối của hai biến Các giá trị nằm trong khoảng từ -1 đến 1
19