CHƯƠNG 3: PHƯƠNG PHÁP LUẬN NGHIÊN CỨU
3.3. Mô hình kinh tế lượng
3.3.1. Lý thuyết phân tích sự rời mạng
Phân tích sống còn là cụm từ để mô tả phân tích dữ liệu tương ứng với biến thời gian. Biến này ghi nhận thời gian từ lúc bắt đầu theo dõi cho đến khi xảy ra biến cố hoặc điểm kết thúc cụ thể. Nếu điểm kết thúc là sự rời mạng của một cá nhân, dữ liệu kết quả theo nghĩa đen là thời gian sống sót. Ở nghiên cứu này được hiểu là thời gian rời mạng của khách hàng MobiFone.
Ưu điểm và thuận lợi của phân tích sống còn:
(i) Có thể giải thích cho những số liệu bị cắt (ii) Có thể so sánh giữa 02 nhóm với nhau
(iii) Có thể đánh giá mối liên quan giữa biến độc lập và thời gian sống Phân tích sự rời mạng là một tập hợp các phương pháp thống kê mô hình dữ liệu liên quan đến thời gian khi muốn tìm hiểu các yếu tố ảnh hưởng đến các biến kết cục (biến phụ thuộc) mang tính thời gian. Biến quan tâm là thời gian cho đến khi sự kiện này xảy ra. Điều này trái ngược với các phương pháp như phương pháp hồi quy.
Phân tích thời gian rời mạng của khách hàng được đặc trưng bởi ba hàm sau:
(iv) Hàm sống sót:
Hàm này được biểu thị bằng S (t) hoặc 1-F (T <t), được định nghĩa là xác suất mà một cá thể tồn tại lâu hơn t.
(v) Hàm mật độ xác suất
Hàm này được định nghĩa là giới hạn thời gian mà một cá nhân rời mạng trong khoảng thời gian ngắn t đến t + ∆t trên một đơn vị ∆t, hoặc đơn giản là xác suất rời mạng trong khoảng thời gian nhỏ trên một đơn vị thời gian.
(vi) Hàm nguy hiểm
Hàm nguy hiểm h (t) của thời gian rời mạng T đưa ra tỷ lệ thất bại có điều kiện. Điều này được xác định là xác suất rời mạng trong một khoảng thời gian rất nhỏ, giả định rằng cá nhân đã rời mạng đến đầu của khoảng thời gian, hoặc là giới
hạn thời gian mà một cá nhân rời mạng trong một khoảng thời gian rất ngắn, t đến t + ∆t trên mỗi đơn vị thời gian, cho rằng cá nhân đã sống sót đến thời gian t.
Dữ liệu rời mạng được ghi lại theo cách sau: các đối tượng được quan sát trong một khoảng thời gian nhất định. Trong thời gian này, thời gian của sự kiện quan tâm được đăng ký. Dữ liệu tồn tại yêu cầu cả nguồn gốc thời gian cũng như quy mô thời gian. Nguồn gốc của thời gian là thời điểm bắt đầu quan sát trong nghiên cứu này là ngày cam kết của khách hàng. Quy mô thời gian là tần suất mà một đối tượng được kiểm tra khi xảy ra sự kiện. Quy mô chung là dựa trên năm hoặc tháng, tùy thuộc vào bản chất của ứng dụng của nó. Trong bài này, tôi áp dụng quy mô thời gian dựa trên tháng, vì dữ liệu tôi sử dụng được tổng hợp hàng tháng.
3.3.2. Mô hình hồi qui Cox
Để có cái nhìn toàn diện về mối quan hệ giữa các biến giải thích này và tỷ lệ rời mạng của khách hàng, mô hình hồi quy Cox được sử dụng. Mô hình này được công nhận là kỹ thuật thống kê được sử dụng đồng thời điều tra các hiệu ứng của một số biến giải thích biến về sự rời mạng của khách hàng. Mô hình hồi qui Cox dựa trên phương pháp mô hình hóa phân tích dữ liệu về sự rời mạng, làm cho nó phù hợp với dữ liệu trong loại nghiên cứu này, xem xét các quan sát kiểm duyệt đúng và thay đổi theo thời gian của các biến giải thích.
Hàm nguy hiểm đo lường tiềm năng để 'sự kiện' xảy ra tại một thời điểm cụ thể, cho rằng sự kiện vẫn chưa xảy ra. Giá trị hàm nguy hiểm cao cho thấy rằng sự kiện có thể sẽ xảy ra. Nó được ký hiệu bằng h (t) có thể được ước tính bằng cách sử dụng như sau:
h (t)= Số cá nhân trải qua một sự kiện trong khoảng thời gian bắt đầu từ t (1) Số lượng cá nhân sống sót tại thời điểm t x khoảng thời gian
Trong bối cảnh khai thác dữ liệu trong ngành viễn thông, ‘sự rời mạng’ có nghĩa là giữ chân khách hàng trong khi 'chức năng nguy hiểm' có thể được xem là xác suất mà khách hàng sẽ rời khỏi nhà cung cấp dịch vụ MobiFone. Kết hợp các đặc điểm cá nhân khác nhau và các biến đặc điểm hành vi, ta có thể diễn đạt nguy
cơ khách hàng rời mạng tại thời điểm t như trong phương trình (2). Đây là phương trình ước lượng của bài nghiên cứu.
h(t) = h0(t) x exp (bBIRTH_DATE.BIRTH_DATE + bSEX.SEX + bID_ISSUE_PLACE.ID_ISSUE_PLACE + bTHOAI_DT.THOAI_DT + bSMS_DT.SMS_DT + bDATA_DT .DATA_DT) (2)
trong đó h0 (t) là nguy cơ rời mạng tại thời điểm t tương ứng với xác suất của khách hàng rời mạng khi tất cả các biến giải thích không thay đổi.
3.3.3. Định nghĩa các biến giải thích trong mô hình Bảng 3.1. Thống kê các biến trong mô hình
STT Tến biến Diễn giải
1 SUB_ID Mã thuê bao khách hàng
2 BIRTH_DATE ngày sinh của khách hàng
3 SEX Giới tính của khách hàng (male=1, female=0) 4 ID_ISSUE_PLACE nơi cấp CMND
5 STA_DATETIME thời gian hòa mạng 6 END_DATETIME thời gian hủy hợp đồng
7 MONTH tháng xuất dữ liệu
8 THOAI_DT doanh thu thoại (tính bằng đồng) 9 SMS_DT doanh thu sms (tính bằng đồng) 10 DATA_DT doanh thu data (tính bằng đồng) 11 CHAN_1C bị chặn chiều đi (1,2,3: số lần bị chặn)
12 CHAN_2C bị chặn chiều đi về chiều nghe (1,2,3: số lần bị chặn)
13 HUY_HOP_DONG 1: hủy
Bảng 3.2. Định nghĩa từng biến ID_ISSUE_PLACE
STT MÃ ID_ISSUE_PLACE DIỄN GIẢI
1 CTH TP Cần Thơ
2 BDI Bình Định
3 HTA Hà Tây
4 YBA Yên Bái
5 AGI An Giang
6 HYE Hưng Yên
7 BDU Bình Dương
8 KGI Kiên Giang
9 BPH Bình Phước
10 VPH Vĩnh Phúc
11 NBI Ninh Bình
12 DNA Đà Nẵng
13 DNI Đồng Nai
14 QBI Quảng Bình
15 TTH Thừa Thiên Huế
16 TNG Thái Nguyên
17 HDU Hải Dương
18 BNI Bắc Ninh
19 HPH Hải Phòng
20 LDO Lâm Đồng
21 LCA Lào Cai
22 BTH Bình Thuận
23 QNA Quảng Nam
24 HTI Hà Tĩnh
25 NAN Nghệ An
26 DBI Điện Biên
27 NTH Ninh Thuận
28 PTH Phú Thọ
29 DNO Đắk Nông
30 TQU Tuyên Quang
31 STR Sóc Trăng
32 BLI Bạc Liêu
33 DLA ĐắkLắk
34 SLA Sơn La
35 TBI Thái Bình
36 HGI Hậu Giang
37 KON Tỉnh KonTum
38 LSO Lạng Sơn
39 TGI Tiền Giang
40 QNI Quảng Ninh
41 KHO Khánh Hòa
42 LAN Long An
43 DTH Đồng Tháp
44 GLA Gia Lai
45 TVI Trà Vinh
46 BKA Bắc Kạn
47 BRV Bà Rịa - Vũng Tàu
48 QNG Quảng Ngãi
49 HNA Hà Nam
50 THO Thanh Hóa
51 TNI Tây Ninh
52 BGI Bắc Giang
53 PYE Phú Yên
54 HGA Hà Giang
55 CBA Cao Bằng
56 QTR QuảngTrị
57 CMA Cà Mau
58 HBI Hòa Bình
59 HNO Hà Nội
60 LCH Lai Châu
61 VLO Vĩnh Long
62 NDI Nam Định
63 HCM Thành Phố Hồ Chí Minh
64 BTR Bến Tre