1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp: Đọc hiểu một số mô hình học máy và thử nghiệm xử lý dữ liệu về trạng thái khách hàng rời bỏ dịch vụ viễn thông

47 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đọc hiểu một số mô hình học máy và thử nghiệm xử lý dữ liệu về trạng thái khách hàng rời bỏ dịch vụ viễn thông
Tác giả Phạm Phương Linh
Người hướng dẫn ThS. Trần Chung Thủy
Trường học Trường Đại học Kinh tế Quốc dân
Chuyên ngành Toán Kinh tế
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 47
Dung lượng 12,21 MB

Nội dung

Cùng với sự phát triển của khoa học đữ liệu, các mô hình dự báo dựa trên phươngpháp định lượng đang dan trở thành những công cụ tối ưu thay thé cho con người trong việc đánh giá không ch

Trang 1

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TE

CHUYEN NGANH: TOAN KINH TE

Giảng viên hướng dẫn : ThS Trần Chung Thủy

HÀ NỘI - 2023

Trang 2

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TE

KHOA LUAN TOT NGHIEP

CHUYEN NGANH: TOAN KINH TE

DE TAI:

ĐỌC HIẾU MOT SO MO HÌNH HOC MAY VÀ THU NGHIEM XU LY DU

LIEU VE TRANG THAI KHACH HANG ROI BO DICH VU VIEN THONG

Sinh vién thuc hién : Phạm Phương Linh

Mã sinh viên : 11193012

Lớp : Toán Kinh Tế 61

Giảng viên hướng dẫn : ThS Trần Chung Thủy

HÀ NỘI - 2023

Trang 3

LỜI CẢM ƠN

Đề hoàn thành khóa luận tốt nghiệp này, đầu tiên, em xin chân thành cảm ơn ThS.Trần Chung Thuỷ đã là người định hướng, giúp đỡ em trong việc lựa chọn đề tài nghiên

cứu và giúp em chỉnh sửa những sai sót trong quá trình hoàn thiện bài làm.

Em cũng xin gửi lời cảm ơn và sự tri ân sâu sắc đối với các thầy cô của trường Daihọc Kinh tế Quốc dân, đặc biệt là các thầy cô khoa Toán kinh tế đã giúp đỡ em trongsuốt quá trình học tập đề em có đầy đủ nền tảng kiến thức hoàn thành bài chuyên đề của

mình.

Trong quá trình thực hiện chuyên đề tốt nghiệp, em nhận thấy mình vẫn còn rấtnhiều thiếu sót, rat mong nhận được những ý kiến đóng góp từ phía các thay, cô dé em

có thêm nhiều kinh nghiệm cho con đường học tập và sự nghiệp mai sau

Em xin chân thành cảm ơn!

Trang 4

MỤC LỤC

LOL CẢM ƠN, - 55-222 21 212 1E211211211211211 211211111101 111 1E ke 8 i92 |

1 Lý do chọn dé tài 2- 2-5222 12 1E XE EEEE1211211211211 1111211 tre 1

2 Mục tiêu nghiên cỨu - - S231 33113 111 E11 EEkrrrrrrsee 2

3 Đối tượng và phương pháp nghiên cứu 2 2 5 sex: 2

4 Phạm vi nghiên CỨU - - E2 E2 E19 111v ng vn ng ng rệt 2

CHƯƠNG I: CƠ SỞ LÝ THUYÊTT - 2 2 25 E+£E££E££E£E££EE£EE+Exerxerxered 3

1.1 Tổng quan về Học Máy ¿ £+S<++E+EE£EEEEEEEEEEEEEEEEEkerkerkrree 3

1.1.1 Định nghĩa và PNan ÏOQÌ co << 5c s s 9 5991 968.0 895 8098658 3

1.1.2 Bài toán tONG qHÁI -e-csescc<ce<cecseesEseEsetestsEtstsetsetsstsrsesesrssrsrssse 4

1.1.3 Mô hình HỒi quy LogiSfÏ€ ee-esesccsecsecsecsetssesseeseeseetssrsersersssse 4

T.1.4 (6N .1090 56 9

1.2 Vấn đề rời bỏ của khách hàng 2-2-5 5c +c2Eczczxerxrrxervee 11

1.2.1 Một số khái niệm CO DEN esessrecssscrecssecressnecrsssnscssssnsssssensessssnsessseneesses 11

1.2.2 Uu điểm của việc tinh toán tỉ lệ rời bỏ của khách hàng 13 1.2.3 Tính toán tỉ lệ rời bỏ bằng cách phân tích dữ liệu khách hàng 13 CHƯƠNG II: TRUC QUAN HOA VÀ KHAI PHA DU LIỆU 18

2.1 Tổng quan về bộ dữ liệu - 2 2 2 SE £E££Et2E2EE2EEerxrrxrrkree 18

2.1.1 Mô tả bộ dit liỆu -ees©ee©ces+esetseEeeetseEteetsertesreertssrssersee 18

2.1.2 Tương quan giữa các ĐÏỄH e-escesce<cssessssseeeseesssssserserssrsesse 19

2.2 Khám phá dữ liệu 2-2 2© £+SE+EEE£EECEEEEEEEEEEEEEEEEErkerrkrrkrrrkee 21

2.2.1 Dữ liệu về thông tin cá nhân của khách hàng 21

2.2.2 Các thông tin liên quan đến hồ sơ đăng kí dịch vụ của khách hàng

——- ,ôÔỎ 23

CHƯƠNG III: VẬN DỤNG XỬ LY DU LIEU BANG CÁC THUẬT TOAN 30

3.1 Chuẩn bị dit liệu cssesscsecssessessessessessssssesssssessessesseeaeens 30

3.2 Xây dựng và đánh giá mô hình - 5 5-5 S51 +Eseeeersersee 3l

3.2.1 Mô hình Hồi quy L.0gÏstiC . s2 2s ssssessesss=sssssesses 31

3.2.2 Mô hình COX se s°sess+seevseSseEvseEseEtetssttsetssersssssersee 36

3.3 Kết luận ¿- 2+ z+E1£EEEEEEEEE211211211211111111111 2112111111111 re 40

TÀI LIEU THAM KHẢO - 56 t+StSE‡EEEEEEE+EEEEEEEEEEEEEEEEEEESEerkrrerkererkrre 42

Trang 5

MỞ DAU

1 Lý do chọn đề tài

Lĩnh vực viễn thông đã trở thành một trong những ngành công nghiệp chính ởkhông chỉ các nước phát triển nói chung và cả ở Việt Nam nói riêng Doanh nghiệp viễnthông là những doanh nghiệp cung cấp phương tiện truyền dẫn thông tin liên lạc qua

một khoảng cách dia lý (điện tử viễn thông, điện thoại, internet, 4G, vệ tinh, ) Vai trò

của ngành đóng góp rất lớn trong cuộc sông xã hội hiện đại, tạo điều kiện cung cấp mọithông tin cơ bản cần thiết cho sản xuất và thúc đây các hoạt động sản xuất kinh doanh.Bên cạnh làn sóng cách mạng công nghiệp 4.0 đang diễn ra mạnh mẽ, thời gian sắp tới

sẽ chứng kiến những bước tiến vượt bậc của những doanh nghiệp trong ngành viễn

thông tại Việt Nam khi tận dụng cơ hội từ xu thế chuyền đôi số đang lan rộng khắp toàn

cau

Tiến bộ kỹ thuật và số lượng nhà cung cấp ngày càng tăng đã lam tăng mức độcạnh tranh cho các doanh nghiệp Các công ty viễn thông đang nỗ lực để tồn tại trongthị trường cạnh tranh này tùy thuộc vào nhiều chiến lược Ba chiến lược chính được đềxuất dé tạo thêm doanh thu là: (1) thu hút khách hàng mới, (2) bán thêm cho khách hàng

hiện tại và (3) tăng thời gian giữ chân khách hàng Tuy nhiên, khi so sánh các chiến

lược này có tính đến giá trị lợi tức đầu tư (Rol) của từng chiến lược đã chỉ ra rằng chiếnlược thứ ba là chiến lược có lợi nhất, chứng tỏ rằng chi phí giữ chân một khách hànghiện tại thấp hơn nhiều so với việc thu hút thêm một khách hàng mới, bên cạnh đó chiếnlược này cũng được coi là đễ dàng hơn rất nhiều so với chiến lược bán thêm các sảnphẩm cho khách hàng hiện tại Dé có thé áp dung được chiến lược thứ ba, các công ty

phải ưu tiên giảm khả năng rời bỏ khách hàng, hay nói cách khác là giảm “sự đi chuyên

của khách hàng từ nhà cung cấp này sang nhà cung cấp khác”

Cùng với sự phát triển của khoa học đữ liệu, các mô hình dự báo dựa trên phươngpháp định lượng đang dan trở thành những công cụ tối ưu thay thé cho con người trong

việc đánh giá không chỉ với từng khách hàng mà là trên một tập khách hàng rất lớn Các

mô hình học máy là một trong các công cụ ấy và đang dan trở thành xu hướng trọngtâm, nồi bật, đã và đang được nghiên cứu, ứng dụng rộng rãi trong ngành tài chính nói

Trang 6

chung và lĩnh vực công nghệ tài chính nói riêng, tạo ra những bứt phá mạnh mẽ về tính

hiệu quả, kịp thời, chính xác trong công tác giám sát, dự báo.

Sức mạnh của một mô hình có tác động rất lớn đến kết quả hoạt động kinh doanh

của một doanh nghiệp Một mô hình có mức độ chuẩn xác cao giúp các tổ chức dự đoán

được hành vi rời bỏ của khách hàng, từ đó đề ra những chiến lược phù hợp đề giữ chânkhách hàng, đưa ra các chính sách sản phẩm tốt hơn qua thời gian và cải thiện chất

lượng dịch vụ, từ đó tối thiểu hóa chỉ phí và tối đa hóa doanh thu

2 Mục tiêu nghiên cứu

e Xác định các yếu tố quyết định tỷ lệ rời bỏ của khách hàng

e Đánh giá, phân tích ảnh hưởng của các yếu tô đến tỷ lệ rời bỏ của khách hàng

e Du đoán khoảng thời gian rời bỏ của khách hàng.

3 Đối tượng và phương pháp nghiên cứu

e_ Các yếu tô có ảnh hưởng đến quyết định rời bỏ dịch vụ của khách hang

e_ Mô hình học máy xếp hang (Classification): Logistics Regression và mô hình

phân tích sống sót Cox Proportional-Hazards

4 Pham vi nghiên cứu „

Chuyên dé trình bày hai mô hình Logistic và mô hình Cox theo quan điêm của phương pháp học máy Từ đó áp dụng xử lý dữ liệu trạng thái khách hàng rời bỏ dịch

vụ viễn thông dé thử nghiệm chương trình xử ly dit liệu theo phương pháp học máy

Trang 7

CHUONG I: CƠ SỞ LÝ THUYET

1.1 Tông quan về Học Máy

1.1.1 Định nghĩa và phân loạt

Theo IBM Cloud Education (2020), Học máy hay Machine Learning (ML) là

một nhánh của Trí tuệ nhân tạo (AT) và khoa học máy tính, tập trung vào việc sử dụng

dữ liệu và thuật toán dé bắt chước cách con người học, dan dan cải thiện độ chính xáccủa nó Học máy là một thành phần quan trọng của lĩnh vực khoa học đữ liệu đang pháttriển Thông qua việc sử dụng các phương pháp thống kê, các thuật toán được đảo tạo

để đưa ra các phân loại hoặc dự đoán và khám phá những thông tin chỉ tiết chính (keyinsights) trong các dự án khai thác dit liệu Các quyết định được đưa ra là kết quả củanhững thông tin này này tác động mạnh mẽ đến các chỉ số tăng trưởng chính trong các

ứng dụng và doanh nghiệp.

Machine learning bao gồm Học có giám sát (Supervised Learning) và Học không

giám sát (Unsupervised Learning) Supervised Learning được định nghĩa bằng cách sử

dụng các tập dit liệu được gắn nhãn dé huấn luyện các thuật toán phân loại dit liệu hoặc

dự đoán kết quả một cách chính xác Supervised Learning được phân loạithành Regression (Bài toán hồi quy) và Classification (Bài toán phân loại) Một sốphương pháp được sử dụng trong Supervised machine learning bao gồm: logistic

regression, neural networks, linear regression, naive bayes, random forest, và support

vector machine (SVM).

Unsupervised machine learning là phương pháp sử dụng các thuật toán may hoc

dé phan tích va phan cụm các tập dữ liệu không được gắn nhãn

Không cần sự can thiệp của con người, các thuật toán này có thể phát hiện ra cácmau hoặc nhóm dữ liệu an Khả năng phát hiện ra những điểm tương đồng và khác biệttrong thông tin của phương pháp này khiến nó trở nên lý tưởng cho việc phân tích dữliệu khám phá, chiến lược bán chéo (cross-sell), phân khúc khách hàng cũng như nhận

dạng hình ảnh và mẫu.

Unsupervised machine learning cũng được sử dụng dé giảm số lượng các tínhnăng trong một mô hình thông qua quá trình giảm kích thước Phân tích thành phần

Trang 8

chính (PCA) và phân tích giá trị đơn lẻ (SVD) là hai cách tiếp cận phổ biến cho việc

này.

Unsupervised Learning Algorithm cũng được chia thành 2 nhóm là:

e Clustering: hướng dén viéc phân nhóm, phân đoạn dữ liệu từ tap dữ liệu ban đầu

Vi dụ ta có một tập | triệu Gen, cần phải tìm ra cách tự động phân nhóm chonhững gen này dựa trên đặc điểm về vòng đời, vị trí, vài trò,

« Non-clustering: tìm các structure ân trong dữ liệu

Các thuật toán khác được sử dụng trong học tập không giám sát bao gồm:

k-means clustering, neural networks, và probabilistic clustering methods

1.1.2 Bài toán tong quat

Nguyên tac chung cơ sở cho mọi thuật toán hoc máy đó là với biên đâu vào x ta

cần dự đoán biến đầu ra y thông qua hàm mục tiêu F sao cho y = F(x) Tuy nhiêntrong thực tế, biến đầu vào x thường là dữ liệu nhiều chiều và khó kiểm soát nên rất

phức tạp dé có thé nhìn ra mối quan hệ giữa x và y, chính vì vậy ta thường không théđưa ra một công thức phân tích cụ thé dé biểu diễn x và y, hay chính là dang hàm F

Chính vì vậy, ta chỉ có thé thu thập tập dữ diệu D là tập hợp các cặp quan sát(x!,y') sao choy = F(x)), ,y) = F(x) tương ứng Tuy nhiên do khôngbiết mối quan hệ giữa x! và yÍ nên ta cần mô phỏng hàm ƒ„ sao cho 9 = ƒ„(x,w*) làhàm ước lượng tốt nhất của hàm F và điều chỉnh tham số w* sao cho hàm mat mát £(w)đạt giá trị nhỏ nhất Hàm mat mát này sẽ khác nhau tùy thuộc vào mỗi mô hình hàm f,,.1.1.3 Mô hình Hải quy Logistic

Hồi quy tuyến tính được sử dụng dé ước tính mối quan hệ tuyến tính giữa mộtbiến phụ thuộc và một tập hợp các biến độc lập Tuy nhiên, hồi quy tuyến tính khôngphù hợp khi biến mục tiêu là biến nhị phân Đối với các biến phụ thuộc nhị phân, hồiquy Logistic (LR) là một mô hình phù hợp dé đánh giá hồi quy LR tương tự như hồiquy tuyến tính tuy nhiên hồi quy tuyến tính cung cấp một dau ra liên tục còn LR cho

đầu ra nhị phân (0 hoặc 1)

1.1.3.1 Bài toán tổng quát ;

Ta có khái nệm Odds: thê hiện khả năng một su kiện có thé xảy ra băng cach lây xác suât biên cô xảy ra chia cho xác suât biên cô không xảy ra.

Trang 9

Odds =—F—

1—p

Nhu vay, Odds là biến liên tục, khi p=0.5 thì odds=1

Odds(1) Odds ratio = 777500)

Lay log của odds ta được Logit

logit(p) = log c—)p-1

Mặt khác, ta có biến Y là biến nhị phân chi nhận hai giá tri 0 hoặc 1 Cu thé

y= 1 Nếu khách hang rời bỏ dịch vu

~ 0 Nếu khách hang không rời bỏ dịch vu

Giả sử p là xác suât rời bỏ dịch vụ của một khách hàng (tức xác suât biên Y nhận

giá trị = 1) và có logit(p) bi ảnh hưởng bởi biến X:

logit(p) = log (7) =at+ PxKhi đó, xác suất p sẽ được biéu diễn:

c#+BX

p= 1+ e%t+bx Công thức tong quát cho đa biến:

e a lalog odds của biến Y khi X=0

e B; là log odds ratio (tỉ số) liên quan đến một đơn vị tăng của X: giá tri

trung bình của p tăng hay giảm khi X; tăng nhưng luôn được giới hạn

trong khoảng 0 đến 1 Cụ thé, anh hưởng của X; lên p; là ø;(1 — p,);

se Mối quan hệ giữa odds ratio và hệ số hồi quy của một biến độc lập:

5

Trang 10

Tỉ số odds = efi

Do rất khó dé đánh giá tác động của các biến phụ thuộc lên biến độc lập dựa trêndang mô hình của hồi quy logistic, vi vậy ta đánh giá chúng thông qua tỉ số nguy cơ haychính là ti số odds Có thé thấy khi X; tăng 1 đơn vị và các yếu tố khác không đổi thì ti

số odds tăng e%i lần hay log odds tăng Ø; đơn vi

Các giá tri B; được tính toán ước lượng dựa trên phương pháp MLE.

Linear Regression Logistic Regression

Khi xây dựng một mô hình học máy, chúng ta cân một phép đánh giá đê xem mô

hình sử dụng có hiệu qua không và dé so sánh khả năng của các mô hình Hiệu năngcủa một mô hình thường được đánh giá dựa trên tập dữ liệu kiểm thử (test data) Cụ thể,giả sử đầu ra của mô hình khi đầu vào là tập kiểm thử được mô tả bởi vector y_pred —

là vector dự đoán đầu ra với mỗi phần tử là class được dự đoán của một điểm dữ liệu

trong tập kiêm thử Ta cần so sánh giữa vector dự đoán y_pred này với vector class thật

của đữ liệu, được mô tả bởi vecotr y_true Có rất nhiều cách đánh giá một mô hình phânloại Tùy vào những bài toán khác nhau mà chúng ta sử dụng các phương pháp khác

nhau Các phương pháp thường được sử dụng là: accuracy, precision, recall, Fl score,

Accuracy đơn giản và hay được sử dụng nhất Cách đánh giá này đơn giản tinh

tỉ lệ giữa số điểm được dự đoán đúng và tong số điểm trong tập dữ liệu kiểm thử Tuy

nhiên accuracy chỉ cho chúng ta biết được bao nhiêu phần trăm đữ liệu được phân loại

đúng mà không chỉ ra được cụ thé mỗi loại được phân loại như thế nào, lớp nào được

6

Trang 11

phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhằm vào lớpkhác Đề có thé đánh giá được các giá trị này, chúng ta sử dụng một ma trận được gọi

là Confusion matrix.

Confusion matrix

Actual Positive Actual Negative

Predicted Positive True Positive (TP) False Positive (FP)

Predict Negative False Negative (FN) True Negative (TN)

TP + TN TP+FP+TN+FN

TP

TP + FP TP

3 False Positive (FP) đề cap đến một mẫu thuộc loại âm tính nhưng bị phân loại

sai là thuộc loại dương tính.

4 False Negative (FN) dé cap đến một mẫu thuộc loại dương tính nhưng bị phân

loại sai là thuộc loại âm tính.

Confusion matrix là một ma trận vuông với kích thước mỗi chiều bằng số lượng

lớp dữ liệu Giá trị tại hàng thứ ¡, cột thứ j là số lượng điểm lẽ ra thuộc vào class i nhưng

lại được

Về cơ ban, confusion matrix thé hién co bao nhiéu điểm dữ liệu thuc sự thuộc

vào một class, và được đ đoán rơi vào một class Chúng ta có thể Suy ra ngay rằngtong các phan tử trong toàn ma trận này chính là số điểm trong tập kiểm thử Các phần

tử trên đường chéo của ma trận là số điểm được phân loại đúng của mỗi lớp đữ liệu Từ

Trang 12

đây có thé suy ra accuracy chính bằng tông các phan tử trên đường chéo chia cho tổngcác phần tử toàn ma trận.

Với bài toán phân loại mà tập dữ liệu của các lớp là chênh lệch nhau rất nhiều,

có một phép hiệu quả thường được sử dụng là Precision — Recall Trong bài toán phân

loại nhị phân, coi một trong hai lớp là positive và lớp còn lại là negative Với cách xác

định một lớp là positive, Precision được định nghĩa là tỉ lệ số điểm true positive trongtong số những điểm được phân loại là positive (TP + FP) Recall được định nghĩa là ti

lệ số điểm true positive trong tổng số những điểm thực sự là positive (TP+FN) Precision

cao đồng nghĩa với việc độ chính xác của các điểm tìm được là cao Recall cao đồng

nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót các điểm thực sự positive là thấp.

Khi precision = 1, mọi điểm tìm được đều thực sự là positive, tức không có điểm

negative nào lẫn vào kết quả Tuy nhiên, precision = 1 không đảm bảo mô hình là tốt,

vì câu hỏi đặt ra là liệu mô hình đã tìm được rất cả các điểm positive hay chưa Nếu một

mô hình chỉ tìm được đúng một điểm positive mà nó chắc chắn nhất thì ta không thểgọi nó là một mô hình tốt Khi recall = 1, mọi điểm positive đều được tìm thấy Tuynhiên đại lượng này lại không đo liệu có bao nhiêu điểm negative bị lẫn trong đó Nếu

mô hình phân loại mọi điểm là positive thì chắc chan recall = 1, tuy nhiên dé nhận rađây là một mô hình cực tôi Một mô hình phân lớp tốt là mô hình có cả precision vàrecall đều cao, tức càng gần một càng tốt

Bên cạnh đó ta cũng có thê đánh giá mô hình dựa vào ROC và AUC ROC là đườngcong biểu diễn khả năng phân loại của một mô hình phân loại tại các ngưỡng threshold

Đường cong này dựa trên hai chỉ số :

e TPR (true positive rate): Hay còn gọi là recall hoặc sensitivity Là tỷ lệ các

trường hợp phân loại đúng positive trên tổng số các trường hợp thực tế làpositive Chỉ số này sẽ đánh giá mức độ dự báo chính xác của mô hình trên

positive Khi giá trị của nó càng cao, mô hình dự báo càng tốt trên nhóm

positive Nếu TPR = 0.9, ta tin rằng rằng 90% các mẫu thuộc nhóm positive đã

được mô hình phân loại đúng.

TP TPR=—————

total positive

Trang 13

e FPR (false positive rate): Tỷ lệ dự báo sai các trường hợp thực tế là negative

thành thành positive trên tổng số các trường hợp thực tế là negative Nếu giá trịcủa FPR = 0.1, mô hình đã dự báo sai 10% trên tổng số các trường hợp lànegative Một mô hình có FPR càng thấp thì mô hình càng chuẩn xác vì sai sốcủa nó trên nhóm negative càng thấp Phan bù của FPR là specificity đo lường

tỷ lệ dự báo đúng các trường hợp negative trên tổng số các trường hợp thực tế là

negative.

FP FPR=————————

total negative

Đồ thi ROC là một đường cong cầu lồi dựa trên TPR và FPR có hình dạng như

bên dưới:

AUC là chỉ số được

ROC y ⁄ tính toán dựa tren duong cong

ROC (receiving operating

curve) nhằm đánh giá kha

năng phân loại của mô hình

TPR tốt như thé nào Phan diện tích

gạch chéo nằm dưới đường

cong ROC và trên trục hoành

là AUC (area under curve) có

gid trị nằm trong khoảng [0, 1]

Khi diện tích này càng lớn thì

đường cong ROC có xu hướng

tiệm cận đường thang y = 1 và khả năng phân loại của mô hình càng tốt Khi đường

cong ROC nam sát với đường chéo đi qua hai điểm (0, 0) và (1, 1), mô hình sẽ tương

đương với một phân loại ngẫu nhiên.

1.1.4 Mô hình Cox

Một mô hình khác có thé được sử dụng là mô hình Cox proportional hazards

model Đây là mô hình phân tích sống sót (Survival Analysis) và được sử dụng dé ước

9

Trang 14

tính thời điểm khách hàng rời bỏ dịch vụ, do đó biến quan tâm là thời gian xảy ra sự

kiện Mô hình này ước lượng được xác suât sông sót trên toàn bộ tập dữ liệu.

1.1.4.1 Hàm sống sót (Survival Function)

Hàm sông sót được định nghĩa bởi s(x) là xác suât mà một cá thê sông sót vượtquá thời gian t Trong phạm vi đề tài này, đó là xác suất mà một khách hàng chưa rời

bỏ dịch vụ tại thời điểm t

Giả sử T là thời gian khách hàng gắn bó với dịch vụ T có hàm mật độ xác suất(PDF) f(t) và hàm phân phối tích lũy (CDF) F(t) Khi đó

S(t) = P(T >t) =1-F(t) = [ ?@aœ

t

1.1.4.2 Ham rủi ro (Hazard Function)

Ham rủi ro là ham do khả năng that bai tại thời điểm t trong điều kiện đối tượng

đã sống sót qua một số thời điểm t, hay xác suất khách hàng rời bỏ dịch vụ tại thời điểmt+At với At rất nhỏ (gần như tiến tới 0)

h(t) = lim PST Stt+AtlT >t) = f@)S(t)

At>0 At

Ta có, số khách hàng chưa rời bỏ dich vụ tại thời điểm t là S(t) * P

Số khách hàng chưa rời bỏ dich vụ tại thời điểm t + At là S(t+At) *P

Số khách hàng đã rời bỏ trong quãng thời gian At là [S(t)-S(t+At)] *P

[SŒ)— S(t+At)]*P

Như vậy, tỉ lệ khách hàng rời bỏ tức thời tại thời điểm t là re

hay h(t) = lim [SŒ)— SŒ+AÐ)]/At

Giả sử h(t|x1, xạ, , Xp) là hàm rủi ro tại thời điểm t với các điều kiện

#,%¿, ,p Ta có họ(£) là hàm rủi ro khi tat cả các yêu tô xy = X2 = + =

Xp» = 0 và h;(£) là tất cả các trường hợp còn lại Khi đó tỉ lệ rủi ro (Hazard

10

Trang 15

hy(t) — h(t|x1,X2, 1 Xp)

Ratio - HR) là HR = 25 = me Trong đó ho(t) được gọi là rủi

ro cơ sở khi tat cả các yếu tô xạ, xạ, , Xp không tồn tại

Lay logarit ta được: h(f|xị, xạ, , Xp) = họ(£) * exp(#ị + Box2 + +

BpXp)

Nhu vay, log fia)

ho(t) = By xX, + BoxX2 +++ + pxp và các hệ số B duoc ước lượng

bang Maximum Likelihood Estimation

thỏa mãn nhu câu đó của mình.

Khách hàng là người có điều kiện ra quyết định mua sắm Họ là đối tượng được thừa

hưởng các đặc tính, chất lượng của sản phẩm hoặc dịch vụ.

Quản ly quan hệ khách hàng:

Quản lý quan hệ khách hang (Customer Relationship Management - CRM) là thuật

ngữ xuất hiện từ đầu những năm 1990 tại các công ty tư vấn kinh doanh Mỹ Mong

muốn của các chuyên gia khi xây dựng CRM là nhằm tạo ra một phương pháp có thé

phát hiện các đối tượng tiềm năng, biến họ thành khách hàng, và sau đó duy trì lâu đàicác khách hàng này cho công ty Đây là một phần mềm giúp các công ty phục vụ kháchhàng tốt hơn CRM là một phương pháp giúp các doanh nghiệp tiếp cận và giao tiếp với

khách hàng một cách có hệ thống và hiệu quả, quản lý các thông tin của khách hàng

như thông tin về tài khoản, nhu cầu, liên lạc và các van đề khác nhằm phục vụ kháchhàng tốt hơn Theo Nettleton, D (2014), các mục tiêu tông thé là tìm kiếm, thu hút,giành niềm tin khách hàng mới, duy trì những đối tác đã có, lôi kéo khách hàng cũ trởlại, giảm chi phí tiếp thị và mở rộng dịch vụ khách hàng Việc đo lường và đánh giámối quan hệ với khách hàng là rất quan trọng trong mục tiêu thực hiện chiến lược

II

Trang 16

Sự rời bỏ của khách hàng:

Sự rời bỏ của khách hàng là hiện tượng khách hàng của một doanh nghiệp không cònmua hàng hoặc tương tác với doanh nghiệp Một sự rời bỏ cao có nghĩa là số lượng

khách hàng không còn muốn mua hàng hóa và dịch vụ từ doanh nghiệp ngày càng cao

Theo Molly Galetto (2016), sự rời bỏ của khách hàng xảy ra khi khách hàng quyếtđịnh không tiếp tục mua sản phẩm / dich vụ từ một tổ chức và kết thúc giao dịch với tôchức đó Đây là một chỉ sé không thể thiếu cho các tô chức vì để có được một kháchhàng mới có thể tốn kém hơn rất nhiều so với việc giữ chân một khách hàng hiện tại.Mặt khác, việc giữ chân khách hàng thường hiệu quả hơn về mặt chỉ phí vì bạn đã giành

được sự tin tưởng và lòng trung thành của khách hàng hiện tại Sự rời bỏ của khách

hàng có thé là một rào cản cho sự tăng trưởng của tô chức theo cấp số nhân và cần phải

có một chiến lược chăm sóc khách hàng hợp lý để tránh sự gia tăng tỷ lệ rời bỏ kháchhàng Sự rời bỏ này có thể được đo lường bang Tỉ lệ khách hàng rời bỏ (hay Customer

Customer Churn Rate là một phép đo đặc biệt hữu ích trong ngành viễn thông.

Điều này bao gồm cáp hoặc truyền hình vệ tinh cung cấp dich vụ, các nhà cung cấpInternet, và các nhà cung cấp dịch vụ điện thoại (điện thoại cố định và dich vu không

dây).

Vì hầu hết khách hàng có nhiều tùy chọn đề lựa chọn, Customer Churn Rate giúpmột công ty xác định cách họ đo lường so với các đối thủ cạnh tranh của mình Ty lệrời bỏ của khách hàng được tính bằng cách chia số lượng khách hàng có đăng ký bị hủytrong một khoảng thời gian nhất định cho tổng số khách hàng vào đầu khoảng thời gian

đó.

12

Trang 17

Ví dụ: nếu có 300 người đăng ký vào đầu thời hạn thanh toán và 10 người trong

số họ đã rời đi trong khoảng thời gian này, thì phép tính tỷ lệ khách hàng rời bỏ sẽ là:

[(300-290) / 300] * 100 = 0,03 * 100 = 3%

Do đó, ty lệ khách hang rời bỏ là 3%.

1.2.2 Ưu điểm của việc tính toán tỉ lệ rời bỏ của khách hàng

Ưu điểm của việc tính toán tỷ lệ khách hàng rời bỏ của một công ty là nó cungcấp sự rõ ràng về mức độ hiệu quả của việc giữ chân khách hàng của doanh nghiệp,điều này phản ánh chất lượng dịch vụ mà doanh nghiệp đang cung cấp, cũng như tính

hữu ích của nó.

Nếu một công ty thấy rằng tỷ lệ nghỉ việc của mình đang tăng lên theo từng thời

kỳ thì công ty đó hiểu rằng một thành phan cơ bản của cách thức hoạt động kinh doanhcủa họ là sai sót Công ty có thé đang cung cap một sản phẩm bị lỗi, nó có thé có dich

vụ chăm sóc khách hàng kém, hoặc sản phẩm của nó có thé không hấp dẫn đối vớinhững cá nhân quyết định chi phí không xứng đáng với tiện ích

Tỷ lệ khách hàng rời bỏ sẽ cho một công ty biết rằng công ty cần hiểu lý do tạisao khách hàng của họ rời đi và nơi dé sửa chữa hoạt động kinh doanh của mình Chi

phí để có được khách hàng mới cao hơn nhiều so với việc giữ chân khách hàng hiện tại,

vì vậy, khi ban đảm bảo rằng những khách hang mà bạn đã nỗ lực thu hút vẫn là khách

hàng trả tiền, thi bạn nên hiểu chất lượng doanh nghiệp của minh

1.2.3 Tính toán tỉ lệ rời bỏ bang cách phân tích dữ liệu khách hang

Phân tích đữ liệu khách hàng (cũng có thể gọi ngắn gọn Phân tích khách hàng)hiểu đơn giản là các quy trình, và hệ thống các phương pháp, công nghệ được ứng dụnggiúp công ty nắm bắt, trích xuất những kiến thức, thông tin hữu ích tiềm ẩn trong nguồn

dữ liệu khách hàng Mục đích chính của phân tích dữ liệu khách hàng là tạo ra một cái

nhìn chỉ tiết và chính xác về khách hàng, dé công ty có thé đề xuất các chiến lược kinhdoanh, các quyết định phù hợp, hiệu quả trong tương lai nhằm thu hút nhiều khách hànghơn và “giữ chân” họ lâu dài bang các chiến dich marketing, chiến dich bán hàng, cáchoạt động quản ly mối quan hệ khách hàng (CRM — customer relationship management)

Một kết quả chỉ tiết có được sau khi phân tích dữ liệu khách hàng (gọi làCustomer analysis) hay tom tắt thành một hồ sơ khách hàng (Customer profile) sẽ làthành phan quan trọng, “nguyên liệu” dé công ty triển khai các kế hoạch tăng lợi nhuận,

13

Trang 18

phát triển kinh doanh mà cụ thé đầu tiên là kế hoạch tiếp thị — Marketing plan Customerprofile giúp công ty xác định những khách hàng mục tiêu ở hiện tại, đặc điểm của kháchhàng tiềm năng, nhu cầu của những nhóm khách hàng này, và sản phâm của công ty sẽphải thoản mãn họ như thế nào? Tiếp thị sản phẩm bằng các kênh nào? Cách thức bánhàng phù hợp hay chưa? Kết quả phân tích khách hàng, hay quá trình phân tích đữ liệu

khách hàng có thể chia làm 2 hướng: thông tin về hành vi khách hàng (Behavioral

analysis) và thông tin về nhân khẩu học của khách hàng (Demographic analysis)

2.2.3.1 Phân tích nhân khẩu học của khách hàng

Thành phần chính đầu tiên trong phân tích khách hàng là xác định các phân khúc thịtrường mục tiêu có thể đem lại lợi nhuận như kì vọng của công ty Phân khúc khách

hàng hay phân khúc thị trường là xác định các “tập hợp con”, chia thị trường hay chia

tập khách hàng lớn thành những phân khúc nhỏ, mỗi phân khúc gồm những khách hàng,

những tô chức có chung (hoặc không chung) một hoặc nhiều đặc điểm (sở thích, lối

sống, thu nhập, ) khiến họ có nhu cầu mua cùng sản phâm và hoặc đăng ký cùng dịch

vụ Ngoài ra còn có thé kết hợp những đặc điểm của các sản phẩm đó như giá cả hoặcchức năng, dé tiến hành phân khúc thị trường

Một trong những loại dữ liệu khách hàng đóng vai trò cốt lõi trong quá trình phânkhúc khách hàng hay phân khúc thị trường, đó là nhân khẩu học — Demographic Thuthập và phân tích đữ liệu nhân khâu học — Demographic analysis, sẽ giúp công ty cóđược thông tin cụ thé về khách hàng như giới tính, tuôi tác, dan tộc, khu vực địa lý và

thu nhập hàng tháng Ví dụ, công ty sẽ phải có câu trả lời cho những câu hỏi về nhânkhẩu học đưới đây, dé tiến hành phân khúc chính xác:

e Độ tuôi của khách hàng muốn sản phẩm hoặc dich vụ là bao nhiêu? (Độ tuổi sẽ

tác động đến khẩu vị và sở thích, nhu cầu của các đối tượng khách hàng)

e Khách hàng với giới tính nào có khả năng sẽ quan tâm nhất đến sản phẩm hoặc

dịch vụ này?

e Mức thu nhập của khách hàng tiềm năng là bao nhiêu?

e Khu vực địa lý, nơi sinh sống của khách hàng có lượng tiêu thụ sản phẩm như

thế nào?

e Họ có trình độ hoc vân như thê nào?

14

Trang 19

e Tình trạng hôn nhân hoặc gia đình của ho là gì: Ho đã kết hôn, độc than, đã ly

di? Họ có con chưa? v.v

e Sở thích của khách hàng mục tiêu là gì?

Những dit liệu về nhân khẩu học là cực kỳ cần thiết, và tối quan trọng đối với nhiều

tổ chức, công ty hoạt động trong lĩnh vực tai chính, viễn thông dé ngăn chặn, dự baocác rủi ro tin dụng hay trong khu vực công, Nhà nước đề phát hiện tội phạm, thống kêdân số

2.2.3.2 Phân tích hành vì của khách hàng

Dựa vào kết quả phân tích hành vi khách hàng, công ty sẽ xác định và đo lường mức

độ quan trong của những yếu tố tác động đến việc khách hang chọn mua sản phẩm, còngọi là yếu tổ quyết định mua hang (buying criteria) Đây chính là cơ sở dé công ty hiểuđược các nguyên nhân tại sao khách hàng ưu tiên sản pham của công ty hơn đối thủ

cạnh tranh hoặc ngược lại.

Ngoài ra, phân tích hành vi khách hàng là việc tìm hiểu sâu hơn về quá trình kháchhàng ra quyết định mua sản phẩm, hay đăng ký dịch vụ Ví dụ công ty phải trả lời được

những câu hỏi sau:

e Những bước nào có trong quá trình ra quyết định mua hang?

° Những nguồn thông tin về sản phẩm, dịch vụ mà khách hàng sử dụng dé tim

kiêm?

e Thời điểm khách hàng giao dịch (vi dụ: khách hang mua hang ngay hay cần

có thời gian suy nghĩ trước khi quyét định)

e Khách hàng sẽ hỏi ý kiến người khác như bạn bè, người thân gia đình trước

khi đưa ra quyết định?

e Ai có quyền đưa ra quyết định cuối cùng khi khách hàng không mua hang

một mình?

e Khi tham khảo, hay thử nghiệm sản phẩm, dịch vụ khách hàng cho ý kiến

như thế nào?

e Phản ứng của khách hang sau khi tìm hiểu thông tin ban đầu về sản pham,

dịch vụ vi dụ về giá cả, khách hàng mong muốn chi bao nhiêu?

Còn sau khi ra quyết định mua hàng, công ty có thé theo dõi khách hàng dé thu thậpthêm các dit liệu hành vi và phân tích dé tìm hiểu:

15

Trang 20

Thông thường sau khoảng thời gian bao lâu khách hàng ra quyết định mua

Số tiền khách hàng thường bỏ ra dé mua sản phẩm trong thời điểm bat kỳ

Khách hàng thường giao dịch tai chi nhánh, cửa hang nào? Trên website, cửa

hàng, ứng dụng trực tuyến nào?

Phản hồi của khách hàng sau khi sử dụng sản pham, dịch vụ như thé nào?Tính năng nào của sản phẩm mà khách hàng thích? Khách hàng có thỏa mãnchưa, hay yêu cầu gì thêm không? Mục đích phân tích dé tìm hiểu liệu kháchhàng có thé tiếp thục gắn bó với sản phẩm, dịch vụ đó hay thay đôi sản phẩm,

dịch vụ khác hoặc rời bỏ thương hiệu của công ty.

2.2.3.3 Quy trình phân tích khách hàng

Một quy trình phân tích khách hàng thường đi qua 3 giai đoạn:

Đầu tiên cần tìm hiểu khách hàng của công ty mình là ai, thông qua việc thuthập những dữ liệu khách hàng mà chúng em vừa dé cập ở trên Càng hiéu rõkhách hàng chỉ tiết bao nhiêu sẽ góp phần tăng sự hiệu quả của các chiến lượckinh doanh lên bấy nhiêu

Phân tích dữ liệu, sau đó tiến hành phân khúc khách hàng thành từng nhóm

khác nhau.

Xác định các chiến dịch marketing, chiến lược bán hàng, chiến lược sản phẩm

nhắm mục tiêu chính xác đến từng phân khúc khách hàng, sau đó kiểm traxem vi dụ sản phẩm thỏa mãn từng nhóm khách hàng như thé nào, nếu kháchhàng không hài lòng thì công ty cần đưa ra giải pháp gì?

Quy trình khác về phân tích dữ liệu khách hàng có thể gồm những bước sau:

Xác định khách hàng tiêm năng và nghiên cứu các nhu câu của họ

Xác định tiếp các nguyên nhân, yếu tố dẫn đến quyết định mua hàng củakhách hàng, và các hành vi khách hàng có thé nói lên suy nghĩ của kháchhàng về sản phẩm, dịch vụ

16

Trang 21

e Xác định các giá trị cốt lõi của sản phẩm, dịch vu, và chứng minh chúng sẽ

đáp ứng nhu cầu của khách hàng thông qua những chiến lược marketing, bán

hàng.

Xét đến quy trình mua hàng của khách hang, thì việc phân tích dữ liệu kháchhàng nên xuyên suốt 3 giai đoạn sau:

e Trước khi mua hang: vi dụ phân tích phản ứng, hành vi của khách hang trong

khi tra cứu, tìm hiểu sản phẩm, dich vụ, dé tìm ra Buying criteria như đã nói

ở trên.

e Trong khi khách hàng dang sử dung san phẩm, dịch vụ: ví dụ thu thập, phân

tích dữ liệu dé tìm hiểu những tính năng của sản phẩm khách hàng ưa chuộng,

hay đặc điểm nào của sản phẩm mà không làm hài lòng khách hàng

e Sau khi kết thúc giao dịch (sau khi sử dụng xong sản phẩm, dịch vụ): ví dụ

thu thập, phân tích dữ liệu về lượt truy cập website, fanpage của công ty củakhách hang sau khi giao dịch lần đầu dé tìm hiểu khả năng khách hang cóquay lại mua sản pham lần nữa hay không

17

Trang 22

CHƯƠNG II: TRỰC QUAN HÓA VÀ KHAI PHÁ DỮ LIỆU

2.1 Tổng quan về bộ dữ liệu

2.1.1 Mô ta bộ dữ liệu Ộ ;

Bộ dữ liệu chứa thong tin về một công ty viên thông đã cung cap dich vu Internet

và điện thoại gia đình cho 7043 khách hàng ở California trong quý 3/2019 Nó cho biết

khách hàng nào đã rời đi, ở lại hoặc đăng ký dịch vụ của họ Bộ dữ liệu được công khai

tại trang web kaggle.com.

thé hiện trong bảng sau:

1

10

Bộ dữ liệu bao gồm 7043 dòng và 21 cột tương ứng với 21 trường thông tin được

Bang 1 Các trường dit liệu trong bộ dit liệu Telco Customer Churn STT Phân loại

Nhóm đữ liệu liên

quan đếnhop đồng

M6 ta Khách hang có rời bo hay không (Yes/No)2

Khoang thoi gian cu thé (tinh theo thang)

khách hang đã dang kí dich vụ của công ty

Khách hàng có sử dụng dịch vụ điện thoại

hay không (Có/ Không)

Khách hàng có thiết bị kết nỗi mạng hay

không (DSL/Fibre optics/Không)

18

Trang 23

tuyến hay không (Có/ Không/ Không có

dịch vụ truyền hình trực tuyến hay không

(Có/ Không/ Không có dịch vụ Internet)

Khách hàng có sử dụng dịch vụ xem phim

trực tuyến hay không (Có/ Không/ Không

có dịch vụ Internet)

Thời hạn mỗi hợp đồng của khách hàng với

công ty (Hàng tháng, Một năm, Hai năm) Khách hàng có hóa đơn điện tử hay không (Có/ Không)

Phương thức thanh toán của từng khách hàng (Séc điện tử, Séc gửi qua bưu điện,

Chuyên khoản, Thẻ tín dụng)Các khoản phí hàng tháng — Số tiền được

tính cho khách hàng hàng tháng

Tổng số tiền phải trả cho khách hàng

Hệ sô tương quan là một thước đo thông kê vê độ mạnh yêu của môi quan hệgiữa các chuyền động tương đối của hai biến Các giá trị nằm trong khoảng từ -1 đến 1

19

Ngày đăng: 19/06/2024, 10:52

w