Tìm ra được các nhân tố khiến khiến khách hàng rời bỏ chính là chìakhóa mở ra cánh cửa giúp khách hàng hạn chế rời bỏ và tăng tỷ lệ sử dụng dịch vụ của công ty.. Với việc dữ liệu của khá
Trang 1TRƯỜNG ĐẠI HỌC KINH TẺ QUÓC DÂN
KHOA TOÁN KINH TE
CHUYEN DUA TREN PHAN TÍCH BANG MACHINE
Trang 2LỜI CẢM ƠN
Trong quá trình nghiên cứu hoàn thành chuyên đề thực tập này, em đãnhận được sự hỗ trợ và giúp đỡ rất nhiều từ GS.TS Nguyễn Quang Dong Em xingửi lời cảm ơn chân thành và sâu sắc nhất đến thây vì đã tận tình giúp em hoàn
thiện khóa luận.
Đồng thời em cũng xin gửi lời cảm ơn đến tất cả các thầy cô trong khoa,
đã giúp đỡ và chỉ bảo em để em có được như ngày hôm nay Chỉ một thời giannữa thôi, khi không còn là sinh viên của nhà trường, phải bước ra thế giới vớinhững thách thức mới thì kiến thức mà thầy cô chỉ dạy sẽ là vũ khí để giúp emchiến dau, sống sót và thắng lợi
Em xin chúc thầy Dong và các thầy cô trong khoa mình ngày càng cónhiều sức khỏe để có thể tiếp tục công hiến cho đất nước nói chung và cho khoa
mình nói riêng.
Em xin chân thành cảm ơn!
Trang 3MỤC LỤC
09009 10)0057 7 i
09/00/0215 ii
/.0):010/0:79 62177 ivDANH MỤC HINH c.cccsssssssssssessscssessssssesessssesesscsesesessesesessesssesecssssssscoesesscees v
1.2.2 Van dé quản trị quan hệ khách hàng (CRM) -. 5 5-52©5: 552 5
1.2.3 Sự duy trì quan hệ với khách hàng «chi sekt 7
1.3 VẤN DE KHACH HÀNG ROI BỎ - -2- 5252252 2EcEExerxerrrrrreee 7
1.3.1 Sự rời bỏ của khách hÌng cv ve rưy 7 1.3.2 Hậu quả của việc rời ĐỎ cv KH kg kg kt 8 1.3.3 Sự can thiét cua việc xác định các nhân tô ảnh hưởng đên roi bo của khách hiỒHg cv và 6
1.4 DỮ LIEU KHACH HÀNG - 2+ 2+E+2+2E££E+EEEvEEEeErkerrrrerees 9
ID 50‹ 77.2 nhu 9 1.4.2 Phân tích dit liệu khách NANG «Shin 10
CHƯƠNG 2: PHƯƠNG PHÁP NGHIÊN CỨU . -° s5 <s©s<e 13
2.1 LY THUYET VE MACHINE LEARNING 2©55s+xccse: 13
2.1.2 Giới thiệu mô hình hồi quy LogistiGS - 25c 5s+ccs+cccescczescez 142.1.3 Mô hình Decision Tree (Cây quyết định) - se cs+cscsccez 192.2 GIA THUYET NGHIEN CUU CAC BIEN VE KHACH HANG ROIBO 222.3 PHUONG PHAP SU DUNG MO HINH HOI QUY LOGISTICS VADECISION TREE CHO DỊCH VU VAN CHUYEN ccccscsessseeseseseeeeeceeeteeees 24
2.3.1 (7 1 san ng ga am Ả - 242.3.2 Thiết lập các ĐiẾN - +5: tk E2 EEEE1151811111111111111E1 111 xe, 24
il
Trang 42.3.3 Mô hình khách hàng rời bỏ sử dụng dịch vụ vận chuyển bằng hồi quy
3.2 THONG KE MÔ TẢ 5-52 S12 212321231 212212121217121121211 111101 cxe 29
3.2.1 Thong kê mô tả các ĐiỂN -¿- + St SE+k‡E‡E+EEEEEEEEEEEEEEEEEkerrkrrrei 293.2.2 Mô tả một số biến cơ bản eccsescesessesssssssessessessessesssssssessessessesssssssueaes 303.3 KET QUA MÔ HÌNH HOI QUY LOGISTICS CHO DỊCH VỤ VANCHUYỂN 1-5: 22 2121 212122121121211212111111111121110110111 11011110111 11 re 32
3.3.1 KẾI quả UOC ÏƯỢN 5c St tk E211 111gr, 323.3.2 e1 nha 353.3.4 Kết quả đường cong ROC của mô hình hồi quy Logisties 383.4 KET QUA MO HINH HOI QUY DECISION TREE - - s52 40
3.4.1 Kết quả mô hình Decision Tree ccccccccccscscsscecssssvesssssvsvsssssssesesessesesees 403.4.2 Ma trận nhằm lẫn (confusion matrix) của mô hình Decision Tree
VỚI CAP ÍSÍ Ăn 41
3.5 KET LUẬN VÀ GIẢI PHAP oc osesscssessessessssssssssessessesssesssesstssessesseensaees 41
EU ca 4I3.5.2 Giải pháp từ các ĐiỂN 55c EEEk EEEEEEEEE121111811 1111111111 xe, 423.5.3 Vinghia gidti PRAD 0nnggAỤ À 43TÀI LIEU THAM KHẢO - 5< 5-5 s52 s2 £s£SsEseEsEseEeEseEseseEseseesee 45
3:0980900155 ộậA Ô 46
iii
Trang 5DANH MỤC BANG
Bảng 3.1: Giải thích các biến trong mô hình - - 2 2 s+£+E+Ez+E+£zzEecszz 28Bảng 3.2: Thống kê mô tả các biến - 2-2525 Sx+2x2E2EE2E2EExeExerxerrerres 29Bang 3.3: Kết quả hồi quy Logistiscs ¿5-5-5252 2E+EEEzEererkrkrrres 32Bảng 3 4: Kết quả Hồi quy Logistics cuối cùng -¿- 25255 5s+csccs25c+: 33Bang 3.5: Kết quả kiểm định Likelihood ratio test 5-5255 +ccz+szcssz 35Bang 3 6: Kết quả kiểm định Hosmer_Lemeshow 2-5 2 +5ss+55+2 36Bang 3.7: Kết quả kiểm định Wald-Test 5-5-5252 EESE2E£EEEEzEeEerxrkrrrrs 37
IV
Trang 6DANH MỤC HÌNH
Hình 2.1: Mô hình Decision Tree 5 + 119v vn ng 20
Hình 3 1: Thời gian sử dụng dịch vụ của khách hàng - « -«<<<<2 30
Hình 3 2: Sự tương quan giữa giá và khoảng cách vận chuyền 31
Hình 3 3: Đường cong ROC - - SH ng nếp 39
Hình 3.4: Kết quả mô hình Decision Tree - ¿2 5 22EE+Ee£+zEzEe£zxzesrs 40
Trang 7LỜI MỞ ĐẦU
Lý do chọn đề tài
Ngày nay, thị trường ngày càng phát triển và cạnh tranh, đặc biệt vớingành logistics được dự báo khan hiếm hàng hóa vận chuyền hơn do hậu quả củacovid gây ra, thì một trong những điều tất yếu của các công ty vận chuyên làquản lý mối quan hệ với khách hàng, giữ chân khách hàng Trong kinh doanh,
khái niệm này được gọi là “Quản lý quan hệ khách hàng” (Customer
Relationship Management - CRM) Một công ty áp dụng tốt CRM sẽ giảm được
tỉ lệ khách hàng rời đi, tránh tiêu hao lãng phi Vì thực tế chi phí dé có được mộtkhách hàng mới tiêu tốn hơn rất nhiều lần so với việc giữ chân được khách hàng
cũ Điều này khiến các công ty nỗ lực phân tích hành vi của khách hàng và đưa
ra nhiều giải pháp dé giữ chân được khách hàng, đặc biệt là những khách hàng
lớn, ví dụ như giảm tiền vận chuyên, gitt cước xe ở một mức én định đối với các
khách hàng lớn như Pepsi, acecook, để có được một số lượng chuyến vậnchuyên tương đối đều đặn theo từng thang, mang đến một doanh thu khá ồn địnhcho công ty Điều đó có lẽ sẽ tốt hơn so với việc bỏ chi phí dé đi chao hang tìmnhững khách hàng mới mà không biết kết quả sẽ ra sao
Các lý do khiến khách hàng rời bỏ có thé rất đa dạng: yếu tô giá cả,dịch vụ, cá nhân, sản phẩm, thị trường, chiến lược, tiếp thị và sự cạnh tranh củađối thủ Tìm ra được các nhân tố khiến khiến khách hàng rời bỏ chính là chìakhóa mở ra cánh cửa giúp khách hàng hạn chế rời bỏ và tăng tỷ lệ sử dụng dịch
vụ của công ty Vì vậy, nghiên cứu đến các nhân tố ảnh hưởng đến khả năng rời
bỏ của khách hàng là một sự cần thiết và là nhu cầu khá thiết thực đối với mọi
doanh nghiệp.
Trong những năm gần đây, mọi người đã quen thuộc với các cụm từ
như AI, bigdata, blockchain, machine learning, đặc biệt trong đó có machine learning Với việc dữ liệu của khách hàng ngày một phong phú, machine learning
hoàn toàn có thê giải quyết được vấn đề phân tích rời bỏ của khách hàng, nó cóthể kết nối và phân tích từng hành vi cụ thể của khách hàng, từ đó giúp doanhnghiệp hiểu rõ và tiếp cận được chính xác hơn, xây dựng đúng các chính sáchchăm sóc dé có thé giữ chân được khách hang và thu hút khách hàng mới
Với nhu cầu cần thiết và tính ứng dụng cao đối với các doanh nghiệp, emxin lựa chọn đề tài “Đánh giá các nhân tố ảnh hưởng đến sự rời bỏ của kháchhàng dựa trên kết quả phân tích Machine Learning”’
Trang 8Mục tiêu chung
Nghiên cứu các nhân tố ảnh hưởng đến sự rời bỏ của khách hàng băng môhình Machine learning cụ thể là hồi quy logistics và decision tree (cây quyếtđịnh) và đề xuất một số giải pháp để khách hàng gắn bó lâu dài với dịch vụ của
công ty
Mục tiêu cụ thể
- Xác định được các nhân tố ảnh hưởng tới tỷ lệ rời bỏ của khách hàng dựa
trên mô hình hôi quy logistics va decision tree
- _ Lựa chọn mô hình nghiên cứu sự rời bỏ
- Phan tích và đánh giá kết quả nhận được bằng cách sử dung Machine
Learning
- Dé xuất một số giải pháp dé hạn chế sự rời bỏ/giữ khách hàng
Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Chuyên đề tập trung nghiên cứu các yếu tố anh
hưởng đên khả năng rời bỏ của khách hàng đôi với dịch vụ vận chuyên của một công ty Logistics
Pham vi nghiên cứu: Nghiên cứu các khách hang đang sử dung dịch vu
vận chuyên đường bộ của Công ty Vsico
Chương 1: CƠ SỞ LÝ THUYET VA TONG QUAN NGHIÊN CỨU
Chương 2: PHƯƠNG PHÁP NGHIÊN CỨU
Chương 3: ĐÁNH GIÁ CÁC NHÂN TO ANH HUONG DEN SỰ ROI BO CUAKHÁCH HÀNG SỬ DỤNG DỊCH VỤ VẬN CHUYEN DUA TREN PHANTÍCH KÉT QUÁ BẰNG MACHINE LEARNING
Trang 9CHƯƠNG 1: CƠ SỞ LÝ THUYET VA TONG QUAN
NGHIEN CUU
1.1 TONG QUAN VE QUAN TRI HOAT DONG VAN CHUYEN
LOGISTICS
Trong vai năm trở lai day, logistics là nganh dich vụ quan trong trong co
cau tổng thé của nền kinh tế Hoạt động của chuỗi logistics xuyên suốt mọi khâutrong quá trình sản xuất Từ giai đoạn sản xuất hàng hóa đến khi hàng được giaođến người nhận đều có sự xuất hiện của ngành Logistics Logistics không chi làmột ngành riêng biệt, mà nó liên quan trực tiếp đến nhiều ngành khác nhau như:Giao thông vận tải, vận chuyên, cho thuê kho bãi, dich vụ xuất — nhập khẩu, dich
vụ hai quan, thuê, bao hiém, bán lẻ
Hiện tại, Việt Nam được đánh giá là thị trường tiềm năng cho sự phát triển
của ngành logistics Trong những năm gan đây, Việt Nam tập trung đầu tư vào hệthong co sở hạ tầng đường bộ, đường hàng không, đường sắt, đường biển, cùng
hệ thống kho bãi, trung tâm thương mại liên tục được mở rộng Kèm theo đó là
sự phát triển của dịch vụ đi kèm, thủ tục xuất nhập khẩu cũng được đơn giản hóa
để cải thiện chất lượng của dịch vụ
Về phía nhà nước đang tích cực triển khai các chính sách mở cửa dé khuyếnkhích đầu tư từ nước ngoài Đây vừa là cơ hội dé mở rộng hợp tác dé phát triểnngành logistics, nhưng cũng là thách thức không hề nhỏ với doanh nghiệp trongnước Theo thông kê của Vietnam Report năm 2022 tại “báo cáo Logistics 2022’,
trong hơn 3.000 doanh nghiệp logistics va vận tải trên cả nước thi 10% là của
nước ngoài và có đến 88% là doanh nghiệp nội địa Tuy nhiên, doanh thu của
doanh nghiệp nước ngoài chiếm 70 — 80%, điều này cho thấy hoạt động của các
công ty logistics nội địa còn thấp
Dịch Vụ vận chuyên là quá trình tác dụng vào một vật nào đó và mang nó
từ điểm A đến điểm B với mục dich nào đó Hay cụ thé hơn, khách hàng có hànghóa và nhờ một công ty vận chuyền đưa đến hàng hóa đó đến nơi họ muốn, công
ty vận chuyên đó sẽ thực hiện dịch vụ vận chuyên Tuy vào mặt hàng nhất định
và địa điểm, có thể vận chuyển băng đường bộ, đường sắt, đường thủy, đường
hàng không
Dịch vụ cho thuê kho bãi là dịch vụ cung cấp kho, bãi cho các khách hàng
là cá nhân hoặc doanh nghiệp có nhu cầu lưu trữ, cất giữ, bảo quản hàng hóa,
Trang 10nguyên vật liệu phục vụ cho sản xuất hoặc phân phối ra thị trường Các đơn vịcho thuê kho sẽ cập nhật thường xuyên về tình trạng hàng hóa, quá trình lưu kho,cất giữ chỉ tiết giúp cho khách hàng dé dàng theo dõi, kiểm soát.
Mua bán bảo hiểm hàng hóa là một cam kết bồi thường trong đó người bảohiểm sẽ bồi thường cho người được bảo hiểm trong trường hợp hàng hóa vậnchuyên bị tổn that, hư hong do rủi ro gây ra (những rủi ro này được quy địnhtrong hợp đồng bảo hiểm) Dé được bảo hiểm, bạn phải trả một khoản phí gọi làphí bảo hiểm Không ai có thể đoán được trước những rủi ro, bảo hiểm hàng hóa
sẽ giúp bảo vệ va giảm thiểu những thiệt hại do rủi ro mang lại như hàng hóa bị
hu hỏng, cháy né, bão lụt, gió lốc, hàng hóa bi đâm vào vật thé khác Việc muabảo hiểm hàng hóa phải được thực hiện trước khi có những rủi ro xảy ra, có thé
là trước khi hang hóa được vận chuyền Trên thực tế, bảo hiểm không thé ngănchặn xảy ra các rủi ro mà chỉ có thé giảm thiêu các tôn thất khi có sự cố xảy ra
1.2 QUAN TRI QUAN HỆ KHÁCH HÀNG
1.2.1 Khách hang
- Khái niệm:
Khách hang (customer) là tập hợp những cá nhân, nhóm người, tô chức, chỉ
nhánh, doanh nghiệp, có nhu câu sử dụng sản phâm của công ty và có mong muôn được thỏa mãn nhu câu đó của mình.
Khách hàng là người có điều kiện ra quyết định mua sam Ho là đối tượng
được thừa hưởng các đặc tính, chất lượng của sản pham hoặc dich vụ ma công tylogistics mang lại.
- Phân loại khách hàng:
+ Khách hàng cá nhân: Là khách hàng mua hàng hóa, dịch vụ cá nhân, đơn
giản hon so với khách hàng tô chức, đơn giản hơn cả về mặt trao đổi, giấy tờ, xử
lý khi bị phát sinh Tuy nhiên ở mức độ trung thành lại thấp hơn rất nhiều so với
tổ chức Với khách hang logistics, các khách hang cá nhân chủ yếu là nhữngkhách hàng vãng lai, thường chỉ dùng dịch vụ một vài lần, không được lâu đài và
ôn định
+ Khách hàng tổ chức, doanh nghiệp: là nhóm khách hàng thường có nhu
cầu sử dụng số lượng sản phẩm lớn Nhóm khách hàng này thường có nhữngquyết định mua sắm có tính chất phức tạp hơn, mất nhiều thời gian hơn so vớikhách hàng cá nhân Những vụ mua sắm của khách hàng tô chức thường liên
Trang 11quan đến số tiền khá lớn, có sự cân nhắc phức tạp về mặt kinh tế kỹ thuật và tiếntrình mua cũng quy cách hơn, chịu sự ảnh hưởng qua lại của nhiều người trong tổchức Tuy nhiên, khách hàng t6 chức là nhóm khách hàng dem lại lợi nhuận lớn
cho doanh nghiệp và mức độ trung thành vơi doanh nghiệp cao hơn khách hàng
cá nhân.
1.2.2 Vấn đề quản trị quan hệ khách hàng (CRM)
- Quản trị quan hệ khách hàng là chiến lược giúp doanh nghiệp tiếp cận vàgiao tiếp với khách hàng Việc sử dụng hợp lý CRM cho phép công ty tăng lợinhuận, đảm bảo sự hài lòng của khách hàng Nó thiết lập một cách tiếp cận mớiđến thị trường, kinh doanh tập trung vào khách hàng hơn sản phẩm Doanhnghiệp cần sử dụng CRM để quản lý khách hàng hiện tại và khách hàng tiềmnăng với những hành động và chiến lược phù hợp với nhu cầu và kỳ vọng củakhách hàng CRM dựa vào giao tiếp, con người và chiến lược
- Nói về hoạt động của CRM thì có 5 điểm chính tạo thành 1 vòng trònkhép kín và khi bắt đầu thì chúng ta có thé bắt đầu từ bat kỳ điểm nào đều được
Trong đó cơ sở dữ liệu khách hàng được đặt ở vị trí trung tâm.
—Cơ sở dữ liệu khách hàng: Đây là thành phần không thé thiếu được củamột hệ thống CRM Khi công ty bán được hàng cho một cá nhân hay tổ chức mớithì công ty sẽ có cơ hội để bán tiếp được hàng cho khách hàng này thêm nhiềulần hơn nữa nếu công ty có thể xây dựng được mối quan hệ tốt với khách hàngnày Trên cơ sở dữ liệu thông tin này, công ty có thé có được những kế hoạchchiến lược nhằm thiết lập được mối quan hệ lâu dài với khách hàng, tạo đượcmối quan hệ tương tác giữa sản phẩm với khách hàng Vì vậy, việc xây dựng cơ
sở đữ liệu khách hàng là sự sống còn của hệ thống CRM cũng như công ty
Marketing: Xác định và nhắm mục tiêu khách hàng tốt nhất của họ, quan
lý các chiến dịch/ chương trình tiếp thị và chỉ ra các đầu mối liên hệ có chấtlượng cho đội ngũ bán hàng Khi có khách hàng mua sản phẩm của chúng ta tức
là đã có giao dịch, bước tiếp theo chúng ta thành lập các kế hoạch Marketingnhằm mục đích lôi kéo khách hàng mua tiếp sản phẩm của công ty mình
—Sales: Có thé coi đây là một nhiệm vụ chính của CRM, trong các nghiệp
vụ bán hàng thì có các thực hiện xung quanh như: tìm kiếm khách hàng và pháttriển khách hàng mới, xây dựng và duy trì mối quan hệ với khách hang, lập kế
hoạch, quản lý hồ so,
Trang 12Hỗ trợ dé có thé tô chức tốt việc bán hàng từ xa Trong đó hệ thong phan
mêm được sử dụng bởi nhiêu tài khoản và các thông tin khách hàng được chia sẻ
lẫn nhau, giữa các đơn vị con, các nhân viên bán hàng khác nhau ở các địa điêm
khác nhau dé tinh giản quy trình
—Service: Cho phép hình thành các mối quan hệ cá nhân với khách hàngthông qua các đầu mối liên hệ, mục đích là để cải thiện sự hài lòng của kháchhàng và tối đa hóa lợi nhuận Xác định các khách hàng có lợi nhuận cao nhất và
chuẩn bị được sự đáp ứng dịch vụ cao nhất Cung cấp tự động các thông tinkhách hàng cho đội ngũ nhân viên Nhờ vậy đội ngũ nhân viên có phản ứng tức
thời đối với các giao dịch khách hàng, xây dựng mối quan hệ hiệu quả giữa cáccông ty, cơ sở khách hàng và đối tác Hỗ trợ tự động hóa các tác vụ thường niên
trong việc giao dịch với khách hàng, tự động hóa các chương trình marking trực
tuyến Internet, điện thoại di động v.v
Ví dụ: Khi khách hàng mua sản phẩm của công ty, công việc tiếp theo làcung cấp các dịch vụ tốt nhất cho khách hàng như: tặng quà nhân ngày thành lậpcông ty, 14/2, 8/3, 20/11 mục đích nhằm thu hút khách hàng quay lại mua hàngcủa công ty cho những lần tiếp theo
—Analysis: Khi chúng ta tạo lập một dach sách khách hàng mục tiêu hay
những khách hàng đã mua sản phẩm của công ty mình (khách hàng đã thực hiệnbat kỳ giao dịch nào) Phan phân tích sẽ được coi là yếu tô then chốt cho nhữngcông việc Sales, marketing, Service tiếp theo như phân tích theo độ tuổi, vùngmiền, sản phẩm nào bán chạy, thời điểm
Trong 5 bước này chúng ta bắt đầu từ bất ké bước nào chúng ta muốn.Muốn sử dụng CRM thành công, chúng ta phải phải xây dựng quy trình bênngoài tốt rồi mới áp dụng vào CRM
Mục đích của CRM rất nhiều nhưng có thé chia thành 5 điểm chính:
- Biết được những khách hàng hiện tại và khách hàng tiềm năng
- Liên lạc với khách hàng hiện tại và khách hàng tiềm năng
- Thu hút khách hàng mới.
- Tăng quan hệ khách hàng
- Duy trì mối quan hệ khách hàng trong dài hạn (quản lý khách hàng rời bỏ)
Trang 131.2.3 Sw duy trì quan hệ với khách hang
Theo dõi khách hàng để duy trì và khiến khách hàng trung thành là nhiệm
vụ chính của quản lý quan hệ khách hàng Khách hàng trung thành có vai trò lớn
đối với sự phát triển của mọi doanh nghiệp Khách hàng trung thành sẽ có chiphí phục vụ thấp hơn so với những khách hàng mới và họ cũng là những người ítthay đổi cũng như ít đòi hỏi Bên cạnh đó họ có thể góp ý cũng như đề xuấtnhững ý tưởng về dich vụ dé công ty có thé cải thiện Điều này đặc biệt quantrọng trong thị trường cạnh tranh khắc nghiệt như hiện nay Sự trung thành củakhách hàng đóng góp lớn vào lợi nhuận của công ty Chính vì thế các Doanhnghiệp hiện nay có xu hướng quan tâm nhiều hơn đến nhu cầu khách hàng và đưa
ra những biện pháp hợp lý dé có thể duy trì mối quan hệ với khách hàng và duy
trì sự trung thành.
1.3 VẤN ĐÈ KHÁCH HÀNG RỜI BỎ
1.3.1 Sự rời bỏ của khách hàng
Sự rời bỏ của khách hàng(churn) chính là việc khách hàng rời bỏ sử dụng
dịch vụ công ty mình và đến sử dụng dịch vụ của công ty khác Việc rời bỏ kháchhàng có thé được gây ra bởi nhiều yếu tố, bao gồm:
- Chất lượng dịch vụ: Nếu chất lượng dich vụ của doanh nghiệp logisticskhông đáp ứng được nhu cầu và mong đợi của khách hàng thì khả năng họ sẽ rời
bỏ doanh nghiệp này là rất cao
- Thời gian giao hàng: Khách hàng đánh gia cao việc giao hàng đúng thời
gian cam kết Nếu doanh nghiệp logistics không thé đảm bảo thời gian giao hangthì khả năng khách hàng rời bỏ là rất cao
- Giá cả: Giá cả là một yếu tố rất quan trọng đối với khách hàng trong lĩnhvực logistics Nếu giá cả quá cao hoặc không phù hợp với chất lượng dịch vụ thikhách hàng có thể chuyền sang sử dụng dịch vụ của đối thủ cạnh tranh
- Su hài lòng về dịch vụ: Nếu khách hàng không hai lòng với dịch vụ củadoanh nghiệp logistics thì khả năng rời bỏ là rất cao Điều này đặc biệt quantrọng đối với khách hàng doanh nghiệp vì họ có thể mất một số lượng lớn kháchhàng nếu các dịch vụ không đáp ứng được yêu cầu
- Tinh minh bach trong quá trình giao hàng: Nếu khách hàng cảm thấy
không được minh bạch và chính xác về quá trình vận chuyên hàng hoá của mình,
họ có thê mât niêm tin và rời bỏ doanh nghiệp.
Trang 14Sự rời bỏ của khách hàng có thể ảnh hưởng tiêu cực đến doanh nghiệp, gây
ra sự mat mát về doanh số, tăng chi phí dé tìm kiếm khách hang mới và giảm độtin cậy của khách hàng đối với thương hiệu của doanh nghiệp Vì vậy, việc giảm
tỷ lệ rời bỏ và duy trì khách hàng hiện tại là một mục tiêu quan trọng trong chiếnlược kinh doanh của nhiều doanh nghiệp
Tỷ lệ khách hàng rời bỏ được tính toán theo phần trăm Đây là một chỉ số
không thể thiếu cho các tổ chức vì dé có được một khách hàng mới có thé tốnkém hơn rất nhiều so với việc giữ chân một khách hàng hiện tại Nó là thước đo
số lượng khách hàng kết thúc sử dụng dịch vụ của công ty trong một thời gian
cụ thê
1.3.2 Hậu quả của việc rời bỏ
Khi công ty bị mat đi khách hàng, doanh thu công ty sẽ giảm Đồng thời họtiếp tục phải đầu tư vào truyền thông, marketing, phải đi chào hàng dé tìm cáckhách hang mới Điều này dẫn đến việc chi phí tăng cao và lợi nhuận giảm nhiều
hơn Danh ngôn Jim Rohn có một câu nồi tiếng: “Một khách hàng được chăm
sóc tốt có thê có giá trị hơn nhiều so với một đợt quảng cáo 10000 đô la”
Bên cạnh đó với thị trường cạnh tranh như hiện nay thì việc kiếm được một
khách hàng mới hay lôi kéo được khách hàng ở công ty khác sang công ty mình
chưa bao giờ là việc dễ dàng.
Tỷ lệ khách hàng rời bỏ cao cũng ảnh hưởng đến uy tín của công ty Điều
đó đang phần nào thể hiện chính sách chăm sóc dịch vụ của công ty đang có vấn
đề, không đem lại được những thứ mà khách hàng muốn Nếu không cải thiện thì
dù có thêm khách hàng mới thi họ cũng sớm rời đi Doanh nghiệp không biết lý
do tại sao khách hàng đã rời bỏ khiến cho hoạt động kinh doanh gặp khó khăn
trong tương lai.
1.3.3 Sự can thiết của việc xác định các nhân tổ ảnh hưởng đến rời bỏ của
khách hàng
Việc dự đoán những khách hàng loại bỏ là rất quan trọng vì nó giúp chodoanh nghiệp có thể ngăn chặn hoặc giảm thiểu việc mất khách hàng, tăng khảnăng duy trì khách hàng hiện có và tăng doanh số bán hàng
Khi các doanh nghiệp đưa ra các chương trình và chiến lược nhằm giữ chânkhách hang, phân tích các yêu tố dẫn đến việc rời bỏ của khách hang là một yếu
tố quan trọng để đưa ra những giải pháp và chính sách phù hợp Những khách
Trang 15hàng loại bỏ thường là những khách hàng có tiềm năng cao để mua hàng, tuy
nhiên, vì một lý do nào đó, họ đã quyết định chấm dứt việc sử dụng sản phẩmhoặc dịch vụ của doanh nghiệp.
Nếu doanh nghiệp có thể dự đoán những khách hàng loại bỏ, họ có thểđưa ra các giải pháp nhằm giữ chân khách hàng, giải quyết các van dé và tăngcường các yếu tố dé tăng tính cạnh tranh của doanh nghiệp Điều nay giúp chodoanh nghiệp có thể duy trì mối quan hệ với khách hàng hiện có và tăng doanh
số bán hàng
1.4 DỮ LIỆU KHÁCH HÀNG
1.4.1 Khai niệm
Chúng ta có thé hiểu dữ liệu khách hang là bat kỳ loại dit liệu nào ma công
ty sở hữu cho biết khách hàng đã và đang sử dụng sản phẩm hoặc dịch vụ củacông ty như thế nào và tương tác với thương hiệu của công ty ra sao (ví dụ kháchhàng có quan tâm đến sản pham công ty hay không? Thể hiện sự quan tâm bangcách nào); cụ thé các dit liệu này phải cung cấp thông tin hữu ích về nhu cầu,mong muốn, cảm xúc, trải nghiệm của khách hàng đối với từng sản phẩm, dịch
vu.
Hiện nay dữ liệu khách hang thường duoc gan với thuật ngữ “Big data” —
dữ liệu lớn, mô tả đặc điểm Customer data càng ngày đa dạng hơn về loại, địnhdạng, khối lượng, và yêu cầu được xử lý bằng các công cụ, phần mềm mới, tiên
tiễn hơn đặc biệt khi công ty vẫn còn vận hành những hệ thống, nên tảng công
nghệ cũ, lỗi thời đã không còn phù hợp Customer data có thể bao gồm:
Dữ liệu giao dịch: là kết quả từ sự trao đổi giữa công ty và khách hang, dữliệu thu thập từ các giao dịch bán lẻ, giao dịch trực tuyến; thông tin khách hàngmua các sản phẩm gi, đăng ký các dịch vụ gì, dữ liệu về tần suất và khối lượnghàng hóa phân phối tại các điểm bán hang, mức tiêu thụ sản phẩm và sử dụng
dịch vụ, v.v.
Với một công ty Logistics, đữ liệu khách hàng bao gồm tất cả các thông tincủa khách hàng cụ thê như:
- Thông tin khách hàng: tên, địa chỉ, số điện thoại, email
- Thông tin đơn hang: mô tả sản pham, kích thước, trọng lượng, giá trị đơn
hàng, địa chỉ giao hàng, người nhận hàng
Trang 16- Thời gian đặt hàng, thời gian giao hàng, thời gian vận chuyền, thời gian
management)
Kết quả phân tích dữ liệu khách hang chi tiết sé là một yếu tố quan trong, lànguyên liệu để công ty đánh giá, phân tích và đặt ra các mục tiêu để tăng lợinhuận, phát triển Dữ liệu khách hàng giúp công ty xác định được những van dé
ở hiện tiện, đặc điểm của khách hàng tiềm năng, nhu cầu, công ty đang làm hàilòng và không hài lòng khách hàng ở điểm nào, các chính sách có hiệu quả haykhông, các phương pháp đã được tối ưu chưa? Đối với các khách hàng có đặc thùliên quan đến logistics, dữ liệu khách hàng có thé chia làm 3 hướng:
- Thông tin về nhân khâu học khách hàng
- Thông tin về hành vi sử dụng dịch vụ của khách hàng
- Thông tin về sự khiếu nại, phan nàn của khách hàng1.4.2.1 Phân tích thông tin nhân khẩu học của khách hàng
Nhân khẩu học (tiếng Anh: Demographic) là quá trình thu thập và nghiêncứu dữ liệu được dùng để cho các doanh nghiệp có thể nhận diện khách hàngtiềm năng và đưa ra các chiến lược tiếp thị thành công Nhờ phân tích nhân khẩuhọc mà doanh nghiệp có thể hiểu rõ được đối tượng mình đang nhắm đến, cách
tiép cận phù hợp cũng như đưa ra các dự đoán vê xu hướng mua hàng của họ Từ
10
Trang 17đó phác họa nên chân dung khách hàng tiềm năng và xây dựng các chiến lượctiếp thị trong tương lai.
Phân tích nhân khẩu học khách hàng đóng vai trò cốt lõi trong việc phân
khúc khách hàng và phân khúc thị trường Do đặc thù cua logistics nên khách hàng cá nhân ít khi được quan tâm tới do tính vãng lai và không trung thành Đôi
khi chỉ có 1 cá nhân gọi đến công ty và nhờ vận chuyên 1 đơn hàng hóa duy nhất,sau đó thôi luôn, nên sẽ rất khó phân tích sự rời bỏ Đề tài này em sẽ tập trungphân tích khách hàng là các tổ chức doanh nghiệp và đã sử dụng dịch vụ củacông ty từ 6 tháng trở lên đề tăng tính chính xác Thông tin về nhân khâu học củakhách hàng sẽ được lấy thông tin từ những câu hỏi:
+ Tuổi của công ty, công ty thành lập đã lâu đời chưa?
+ Đã sử dụng dịch vụ của công ty trong thời gian bao lâu rồi?
+ Dia điêm công ty, địa diém nơi họ muôn vận chuyên, nơi đó có thuận lợi
cho lĩnh vực vận chuyên không?
+ Công ty đang kinh doanh trong lĩnh vực gì?
+ Hàng hóa mà họ nhờ vận chuyền là gi, tính chất, khối lượng hàng hóa?
1.4.2.2 Phân tích hành vi sử dụng dịch vụ của khách hang
Hành vi sử dụng dịch vụ khách hàng chính là một trong những yếu tố quantrọng mà bat kì doanh nghiệp nào cũng cần quan tâm nếu muốn đem lại sự hiệuquả cho các chiến dịch của mình Nghiên cứu hành vi khách hàng càng cụ thẻ,càng đem đến sự thành công cho quá trình quảng bá sản pham cũng như thươnghiệu đến với khách hàng
Ngoài ra, phân tích hành vi khách hàng là việc tìm hiểu sâu hơn về quátrình khách hàng ra quyết định mua sản phẩm, hay đăng ký dịch vụ Khi nghiên
cứu hành vi của khách hàng ta phải trả lời được những câu hỏi sau:
+ Lý do khách hàng sử dụng dịch vụ?
+ Với khoảng giá nào thì họ luôn đồng ý?
+ Ho đang sử dụng bao nhiêu đơn hang trong một thang?
+ Tần suất mỗi đơn hàng?
+ Giá trung bình của mỗi đơn hàng?
11
Trang 18+ sự tăng giảm về giá của cùng một tuyên trong các khoảng thời gian khác
nhau là như thế nào?
+ Có ký hợp đồng dài hạn với công ty mình không?
1.4.2.3 Phân tích sự khiếu nại (thái độ)
Phân tích thái độ của khách hàng rất quan trọng sau khi phân tích hành vi
sử dụng, nó thé hiện được mình có đang cung cấp dịch vụ của mình như thé nào,
sự đón nhận của các khách hàng như thế nào Kết quả phân tích sẽ quyết địnhđến giải pháp và định hướng của công ty Một số câu hỏi dé thu thập thông tin vềphân tích khiếu nại có thé là:
+ Phản hồi của khách hàng sau khi sử dụng dịch vụ?
+ Ý kiến của khách hàng muốn như thế nào?
+ Có bao nhiêu cuộc gọi phản hôi đên mỗi tháng, trong đó có bao nhiêu
cuộc gọi là phàn nàn?
12
Trang 19CHƯƠNG 2: PHƯƠNG PHÁP NGHIÊN CỨU
2.1 LÝ THUYET VE MACHINE LEARNING
2.1.1 Giới thiệu về Machine Learning
Những năm trở lại đây, trí tuệ nhân tao (Artificial Intelligence — AI) đang
nổi lên như một minh chứng cho cuộc cách mạng công nghiệp lần thứ tư (CMCN4.0) AI đã và đã trở thanh nhân tổ cốt lõi trong các hệ thống công nghệ cao, len
lỏi vào hau hết các lĩnh vực trong đời sông.
Khái niệm “học” (Learning) được Simon mô tả là quá trình cải thiện hành
vi thông qua việc khám phá các loại thông tin mới theo thời gian Việc học được
gọi là “Học máy” (Machine Learning — ML) khi nó được thực hiện bang máy
Machine Learning là một tập con của trí tuệ nhân tạo, một lĩnh vực nhỏ trong khoa học máy tính, có khả năng tự học hỏi dựa trên dữ liệu được đưa vào
mà không cần phải được lập trình cụ thể Sirmacek, B (2007) đã cải thiện kháiniệm này như sau: Việc học là tình trạng tìm những giải pháp tốt nhất cho cácvấn đề trong tương lai, bằng cách tích lũy những kinh nghiệm từ các ví dụ hiện
có trong quá trình học máy.
Cùng với đó, với sự phát triển như vũ bão của công nghệ thông tin theo thờigian, khái niệm dt liệu lớn (Big data) đã xuất hiện Theo Altunisik, R (2015), dữliệu lớn được định nghĩa là các tập dữ liệu rất lớn, không giới hạn và tiếp tụcđược tích lũy theo thời gian mà chúng ta không thể giải quyết bằng nhữngphương pháp co sở dit liệu truyền thống
Theo Gor, I (2014), các hoạt động thực hiện trên máy tính sử dụng các
thuật toán theo một thứ tự nhất định mà không có bất kỳ sai số nào Tuy nhiên,
không giống như các lệnh được tạo để lấy các dữ liệu đầu ra, cũng có nhữngtrường hợp quá trình ra quyết định đã diễn ra dựa trên những dữ liệu mẫu đã cósẵn Trong những trường hợp như vậy, máy tính có thé đưa ra những quyết địnhsai lầm, chăng hạn như những sai lầm mà mọi người có thể mắc phải trong quátrình ra quyết định Nói cách khác, ML là quá trình máy tính có được khả nănghọc tập như bộ não của con người, bằng tận dụng những lợi thế về dữ liệu vàkinh nghiệm thực tế
Mục đích chính của Machine Learning là phát triển các mô hình mà ta cóthê đào tạo (training) để cải thiện các mô hình nghiên cứu trước đây Bằng cách
13
Trang 20phát hiện các mẫu phức tạp, ML có thể tạo ra các mô hình mà giải quyết đượcnhững van đề mới, dựa trên dữ liệu lịch sử (Theo Turkmenoglu, C (2016)).
ML và các phương pháp tiếp cận dựa trên bộ dữ liệu dang dan trở nên rấtquan trọng trong nhiều lĩnh vực Ví dụ: phân loại thư rác thông minh để bảo vệ e-mail của chúng ta, bang cách học từ một lượng lớn dit liệu spam và phản hồi củangười dùng; hệ thống quảng cáo học cách kết hợp quảng cáo với nội dung phùhợp; hệ thống phát hiện gian lận bảo vệ ngân hàng khỏi những kẻ tấn công độchại; hệ thống phát hiện sự kiện kỳ lạ giúp các nhà vật lý thực nghiệm tìm ra các
sự kiện dẫn đến những quy luật vật lý mới Hoặc cụ thé hơn: hệ thống tự tagkhuôn mặt trong ảnh của Facebook, hệ thống gợi ý sản phâm của Amazon, gợi ýphim của Netflix, hệ thống dịch đa ngôn ngữ Google Translate, là một vai ứngdụng nổi bật trong vô vàn ứng dụng của ML nói riêng và AI nói chung
2.1.2 Giới thiệu mô hình hồi quy Logistics
Mô hình Logistic (Maddala, 1984) là mô hình định lượng trong đó biến phụthuộc là biến gia, chỉ nhận 2 giá tri là 0 hoặc 1 Mô hình này được ứng dụng rộngrãi trong phân tích kinh tế nói chung và trong phân tích sự rời bỏ khách hàng nói
riêng.
Logistic là một thuật toán Calssification Nếu như mô hình hồi quy tuyếntính trả về kết quả là một giá trị liên tục thì hồi quy logistic đưa kết qua dự đoánxác suất biến Y đạt giá trị 0 hoặc 1 - nó dự đoán cho một sự kiện liệu nó có xảy
ra hay không dựa trên mối quan hệ giữa nó và các biến độc lập X
Mô hình logistic (Maddala, 1984) được xác định bang:
eBo+B1Ä1¡ eZ
Pi — 11¿PotEiXii— 1+eZ
= 2 = e7 hay In (SP) =2
Ta có tỉ số Odds = Ta?1—p
© Là tỉ số của xác suất một sự kiện sẽ xảy ra trên xác suất không xảy ra.
Vì p là xác suất để Y=1 với điều kiện các biến độc lập có trị số được xácđịnh bằng véc tơ X; 1-p là xác suất dé Y = 0 cũng với véc tơ X Do vay Odds chobiết khả năng sự kiện Y =1 (hay Y xảy ra) bằng bao nhiêu lần so với khả năng Y
=0 Ví dụ, p =0,75 => Odds = 3 => Cùng với điều kiện X khả năng Y bằng 1 lớn
14
Trang 21gap 3 lần Y=0 Ta đưa trực tiếp vào vi dụ khách hàng rời bỏ, nếu coi Y =1 là
khách hàng ở lại, Y =0 là khách hàng rời bỏ, giả sử p = 0,8 => Odds = 4
Tỷ lệ khách hàng ở lại lớn gấp 4 lần so với khách hàng rời bỏ
In ) tuyến tính hóa các tham số của Odd
Hàm này sẽ chuyên đổi giá trị xác suất trong khoảng (0; 1] thành những giá
trị số thực nằm trong khoảng (-œ, +00) Cụ thê, giá trị của hàm logit sẽ tiễn đến
+00 khi xác suất p tiến đến 1, và tiến đến -œ khi p tiến đến 0
Các Kiểm định trong mô hình Logistic:
-Kiểm định giả thuyết (Hypothesis Test)
Kiểm định giả thuyết (Hypothesis Test) là một trong những kiến thức nềntang, và quan trọng nhất trong lĩnh vực thống kê (Statistics), được sử dụng déđánh giá liệu các giả thuyết từ dir liệu mẫu có thé suy ra dữ liệu tong thé nghiêncứu được hay không Nói cách khác dựa trên các tham số, đặc trưng của mẫu, cáckết luận đưa ra về quy luật phân phối, các đặc trưng của tổng thê có hợp lý haykhông Trong phân tích hồi quy cũng vậy, chúng ta thông thường không có dữliệu của tổng thé nghiên cứu, chỉ có tập dir liệu mẫu, mặc khác khi tiến hành xâydựng mô hình trên tông là rất phức tạp và tốn kém cả về thời gian và chi phí, nên
để kiểm chứng các kết quả từ dữ liệu mẫu có suy ra được cho tông thể hay khôngthì cần dùng đến kiểm định
Kiểm định thường là quy trình sau cùng của bước tính toán các tham sé,thiết lập phương trình tổng quát và ước lượng tham số trong khoảng tin cậy nhấtđịnh nhưng là quy trình ban đầu đánh giá độ hiệu quả của mô hình hồi quy Nóicách khác, kiểm định là đánh giá ý nghĩa các hệ số hồi quy, ý nghĩa của các biếnđộc lập trong phương trình, và ý nghĩa của phương trình tông quát trong việc đưa
ra dự báo, ước lượng giá trị của biến mục tiêu trong tổng thé ở tương lai
Các phương pháp kiểm định sẽ cho ta câu trả lời ban đầu cho những vấn đềtrên mà chúng ta quan tâm Hai phương pháp kiểm định phô biến trong hồi quy
logistic chính là Wald-test va Likelihood Ratio test.
—Wald — test
Kiểm định Wald-test dùng dé xem xét nhân tố đưa vào mô hình có ý nghĩa
15
Trang 22thống kê hay không Sử dụng kiểm định này để xác định nhân tố có ảnhhưởng đến sự rời bỏ của khách hàng hay không.
Wald-test dựa trên giá trị thống kê Wald (W), được tính bằng cách chiabình phương của sự khác biệt giữa giá trị ước tính của tham số và giá trị giả địnhcủa tham số cho phương sai của ước tính của tham số Giá trị thống kê Wald nàyđược so sánh với một ngưỡng cho trước dé quyết định xem có bác bỏ giả thuyết
hay không.
-Kiểm định Hosmer-lemeshow
Kiểm định Hosmer — Lemeshow là một kiểm định thống kê về mức độphù hợp đối với các mô hình hồi quy logistic Nó được sử dụng thường xuyêntrong các mô hình dự báo rủi ro Kiểm tra đánh giá xem liệu tỷ lệ dữ liệu quansát có khớp với tỷ lệ sự kiện dự kiến trong các nhóm con của quan sát của mô
hình hay không.
Bài kiêm tra Hosmer — Lemeshow xác định cụ thê các nhóm con dưới dạng các phân đoạn của các giá tri rủi ro phù hợp Các mô hình mà tỷ lệ sự kiện được mong đợi và quan sát được trong các nhóm con là tương tự nhau được gọi là đã
được hiệu chỉnh tốt
Tổng kết lại, kiểm định Hosmer-Lemeshow là một kiểm tra phù hợp tốt chohồi quy logistic, đặc biệt là đối với các mô hình dự báo rủi ro Kiểm tra mức độphù hợp dé biết dữ liệu phù hợp với mô hình như thé nào
Giả thuyết:
HO: Dữ liệu phù hợp với mô hình dự đoán HI: Dữ liệu không với mô hình dự đoán
—Likelihood ratio test
Kiểm định Likelihood ratio test là một phương pháp sử dung dé so sánhhai mô hình tuyến tính khác nhau và xác định mô hình nào phù hợp hơn
Phương pháp này dựa trên việc so sánh giá trị hàm hợp lý giữa hai mô hình: mô
hình day đủ (full model) và mô hình đơn giản (reduced model)
Cụ thể, giả sử ta có hai mô hình tuyến tính: mô hình đầy đủ với tất cả các
biến độc lập và mô hình đơn giản với một số biến bị loại bỏ Giá trị hàmhợp lý cho mỗi mô hình được tính toán và so sánh Nếu giá trị hàm hợp lý của
mô hình đầy đủ lớn hơn giá trị hàm hợp lý của mô hình đơn giản, thì ta có thể
16
Trang 23bác bỏ giả thuyết mô hình đơn giản và chấp nhận giả thuyết mô hình đầy đủ.Ngược lại, nếu giá trị hàm hợp lý của mô hình đơn giản không thấp hơn giá trịhàm hợp lý của mô hình đầy đủ, thì ta chấp nhận giả thuyết mô hình đơn giản
Cách thực hiện LRT là so sánh giá trị tối đa của hàm log likelihood giữa mô
hình đầy đủ và mô hình đơn giản Giá trị thống kê của LRT được tính bằngcách lây hai lần sự khác biệt giữa giá trị log likelihood tối đa của mô hình đầy đủ
và giá trị log likelihood tối đa của mô hình đơn giản Giá trị này được so sánh vớiphân phối chi-square đề xác định có bác bỏ giả thuyết không hay không
Công thức của likelihood ratio test:
— 2 (Lo)
LRT = —2Ìn (táo)
Với LRT là giá tri likelihood ratio test
L(8,) là giá trị ham likelihood của mô hình day đủ với các tham số ước
Model Coefficients Bảng này sẽ có ba mục: Step, Block, Model Chúng ta sẽ
chú trọng vào kết quả kiểm định Chi-square 6 mục Model, haimục Step và Block chúng ta sẽ đánh giá b6 sung thêm cho Model nếu sử dụngcác phép đưa biến vào là Forward, Backward
-Kiểm định bằng tỷ số hàm họp lý (LR)
Ty số hàm hợp lý là một thống kê dùng dé so sánh sự phù hợp của hai môhình Gia thieetts HO là giả thiết nào đó về các hệ số của các biến độc lập, vềquan hệ giữa các hệ sé
Ví dụ: Họ = y—m++ = k-m+a = -= Be = 9
A, = Br mat + Be maate+ +B", > 0
Thống kê tỷ số hàm hợp ly: R = 2(Lyp — Lp)
17
Trang 24Trong đó Lựụp va Lp là giá tri Ln hàm hợp lý khi không có Hạ và khí có Hạ.
Nếu các điều kiện ràng buộc bằng m và giả thiết Hy đúng thì LR phân bố xấp xi
x?(m)
Số đo độ phù hợp cũng được tính toán gọi là “tỷ lệ phần trăm dự báo đúng”
Nó được tính toán như sau:
Với mỗi I, tính xác suất để Y nhận giá trị bang 1, tức là tinh
P, = P( = 1|X = X,)
1 nếu p¡ > c
0 nếu p; < c Thông thường c =0,5
Giá trị dự báo Y*, = {
So sánh Y* với Y ta tính được ty lệ phan trăm dự báo đúng Chang hạn mau
n=300 quan sát, trong đó Y = 0 có 180 quan sát, Y* tương ứng có 150 quan sát
bang 0 và 60 quan sát Y* bang 1 tương ứng với Y =1 Khi đó tỷ lệ phan tram dự
báo đúng 210/300 = 70%
Đường cong ROC và chỉ số AUC
Đường cong ROC (Receiver Operating Characteristic Curve) là một đồ thịbiểu diễn độ chính xác của một mô hình phân loại nhị phân (binary classificationmodel) ở các ngưỡng phân loại khác nhau Nó biểu thị tỷ lệ giữa True PositiveRate (TPR) va False Positive Rate (FPR) khi giá tri ngưỡng phân loại thay đôi
True Positive Rate (TPR) là tỷ lệ giữa số lượng đữ liệu positive được dựđoán chính xác (true positive) trên tong số lượng dữ liệu positive False PositiveRate (FPR) là tỷ lệ giữa sỐ lượng dữ liệu negative được dự đoán sai (falsepositive) trên tổng số lượng dữ liệu negative
Đường cong ROC được sử dụng để đánh giá hiệu suất của các mô hình
phân loại nhị phân, dựa trên độ chính xác và độ phân biệt của mô hình Đường
cong ROC càng tiến gần đến điểm (0,1), tức là đường cong càng cong lên gầngóc trên bên trái của đồ thị thì mô hình càng tốt
Diện tích phía dưới đường cong ROC (Area Under the Curve - AUC) là
một chỉ số đánh giá hiệu suất của mô hình phân loại nhị phân, với giá tri AUCcàng lớn thì mô hình càng tốt AUC thường được sử dụng để so sánh hiệu suất
của các mô hình khác nhau.
18
Trang 25Độ phù hợp của mô hình
Độ phù hợp của mô hình được đo lường dựa trên chỉ tiêu -2LL (-2 Log
Likelihood), chỉ tiêu này có giá trị càng nhỏ càng tốt, nghĩa là giá trị -2LL càngnhỏ càng thé hiện độ phù hợp cao Gia trị nhỏ nhất của -2LL là 0 (tức là không
có sai số) khi đó mô hình có một độ phù hợp hoàn hảo
Hệ số tương quan Nagelkerke R Square cho biết phần trăm xác suất tiếp cận
nguôn vôn tín dụng được giải thích bởi các biên đưa vào mô hình.
Ngoài ra, có thé xác định được mô hình dự đoán tốt đến đâu qua bảng phânloại Bảng này sẽ so sánh trị số thực và trị số dự đoán cho từng biểu hiện, từ đó
đánh giá tỷ lệ dự đoán đúng của toàn bộ mô hình.
2.1.3 Mô hình Decision Tree (Cây quyết định)
Cây quyết định (Decision Tree) là một phương pháp học có giám sát trongmachine learning được sử dụng để phân loại hoặc dự đoán giá trị của một biếndựa trên các quyết định nhị phân trên các thuộc tính đầu vào Cây quyết định
được xây dựng dựa trên việc phân tách các mẫu dữ liệu thành các nhóm dựa trên
các thuộc tính đầu vào, sao cho các mẫu trong cùng một nhóm có các đặc điểmtương tự nhau Việc xây dựng cây quyết định bao gồm hai bước chính: chọnthuộc tính quyết định phù hợp nhất để phân tách các mẫu dữ liệu, và xây dựngcây bằng cách lặp lại quá trình này cho các nhóm con Sau khi cây quyết địnhđược xây dựng, nó có thé được sử dụng dé phan loai cac mau dữ liệu mới bangcach đi qua cây từ nút gốc đến nút lá và đưa ra kết luận dựa trên giá tri tại nút lá.Cây quyết định cũng có thể được sử dụng dé dự đoán gia tri của một biến dựa
trên các thuộc tính đâu vào.
Bản thân cái tên gợi ý rằng nó sử dụng một sơ đồ giống như cấu trúc cây déhiển thị các dự đoán là kết quả của một loạt các phân tách dựa trên tính năng Nóbat đầu với một Root Nodes và kết thúc bằng một quyết định của các lá
19
Trang 26Hình 2.1: Mô hình Decision Tree
Mô hình cây quyết định bao gồm:
Root Nodes — Nó là nút hiện diện ở đầu Decision Tree từ nút này, quần thêbắt đầu phân chia theo các đặc điểm khác nhau
Các Decision Nodes — các nút chúng ta nhận được sau khi tách các Root Nodes được gọi là Decision Nodes
Leaf Nodes — các nút không thé tách thêm được gọi là Leaf Nodes hoặc nút
Thuật toán Cây quyết định (Decision Tree) là một thuật toán đơn giản nhằm
mục tiêu xây dựng các quy tắc hoặc luật lệ quyết định dựa theo cấu trúc cây với
mỗi nhánh tương ứng của cây Dữ liệu đầu vào có thê là dữ liệu missing không
cần qua quá trình chuẩn hóa và tạo biến giả.
Công thức của Decision Tree được mô tả như sau:
1 Xây dựng cây quyết định bằng cách chọn ra biến đầu vào (input
20
Trang 27variable) tốt nhất để phân chia các mẫu dữ liệu (data sample) thành cácnhóm con (subgroups) có độ tỉnh khiết cao.
2 Đề chọn biến đầu vào tốt nhất, ta có thé sử dụng các độ đo nhưInformation Gain, Gain Ratio, hoặc Gini Impurity để đánh giá độ tinh khiết của
các nhóm con.
3 Tiếp tục phân chia các nhóm con bằng cách lặp lại quá trình tìm biến
đầu vào tốt nhất cho đến khi không thể phân chia được nữa hoặc đạt đượcđiều kiện dừng nhất định
4 Sau khi xây dựng cây quyết định, ta sử dụng cây dé phân loại hoặc dựđoán kết quả cho các mẫu dữ liệu mới dựa trên các quy tắc được học từ dữ liệu
- Có khả năng giải quyết các bài toán phân loại và dự đoán
- Có khả năng xử lý dữ liệu số và dữ liệu phân loại
- Có khả năng xử lý dữ liệu bị thiếu
Decision tree cũng có một số hạn chế, bao gồm:
- Dễ bị overfitting với dữ liệu nhiễu hoặc dữ liệu quá phức tạp.
- Không thể giải quyết các bài toán có liên quan tuyến tính giữa các thuộc tính
- Có thể dẫn đến việc chọn thuộc tính sai nếu thuộc tính được chọn không
phù hợp dé phân loại dit liệu.
Tuy nhiên, với sự phát triển của các phương pháp ensemble learning như
random forest và gradient boosting, decision tree vẫn là một trong những mô
hình phổ biến và hiệu quả trong học máy
21
Trang 282.2 GIÁ THUYET NGHIÊN CUU CÁC BIEN VE KHACH HÀNG ROI BO
Các ly do khiến khách hàng rời bỏ có thể khác nhau: yếu tố giá cả, yếu tố cá
nhân, yếu tố dịch vụ, yếu tố sản phẩm, yếu tố thị trường, chiến lược tiếp thị và sự
can thiệp thị trường của đối thủ cạnh tranh; tất cả chúng có thể dẫn đến sự rời bỏcủa khách hàng Tìm ra các lý do khiến khách hàng rời bỏ là chìa khóa để phục
hồi những khách hàng đã rời bỏ và giảm tỷ lệ khách hàng rời bỏ.
Với lĩnh vực logistics, một vài yếu tố và giả thuyết có thé ảnh hưởng đến
khách hàng rời bỏ được đưa ra như sau:
-Giả thuyết 1: yếu tô giá cả có thé ảnh hưởng tiêu cực đáng kế đến sự san
lòng của khách hàng.
Giá cả là yêu tố quan trọng ảnh hưởng đến hành vi tiêu dùng của kháchhàng Trong điều kiện các yếu tố như chất lượng sản phẩm và dịch vụ nhưnhau, khách hàng có xu hướng mua sản phẩm hoặc dịch vụ với giá thấp hơn,công ty nào cung cấp dịch vụ rẻ hơn thì khách hàng sẽ chuyển đến Tuy nhiên,giá rẻ không phải lúc nào cũng là yếu tố quyết định Khách hàng cũng quan tâmđến chất lượng, thương hiệu, tính tiện dụng, độ tin cậy của dịch vụ Do đó, giá
cả cần được xem xét kết hợp với các yêu tô khác để đảm báo sự hài lòng của
khách hàng.
Giá cả của một sản phẩm hay dịch vụ phụ thuộc vào nhiều yếu tố khácnhau Một số yếu tố chủ yếu có thể ké đến như chi phí sản xuất và kinh doanh,tính cạnh tranh trên thị trường, thuế và các chi phí liên quan, tình trạng kinh tế
chung
Với dịch vụ vận chuyên, một sô yêu tô có thê ảnh hưởng đên giá cả của một đơn hàng như:
- Khối lượng hàng hóa và quãng đường di chuyển: thông thường các công
ty về dich vụ vận chuyên hàng tháng sẽ có một biểu cước vận chuyên với quãngđường này khối lượng hàng hóa này thì giá vận chuyền là bao nhiêu, tuy nhiêngiá đó sẽ không áp dụng hoàn toàn cho tất cả khách hàng, tùy vào khách hàng mà