FINANCIAL TECHNOLOGY AND OTHER RELATING ISSUES
2. Tổng quan nghiên cứu & Phương pháp nghiên cứu
Dưới tác động của cuộc Cách mạng công nghệ 4.0, nền kinh tế chia sẻ nói chung và các mô hình kinh doanh chia sẻ nói riêng phát triển mạnh mẽ và nhanh chóng. Trong đó, mô hình kinh doanh chia sẻ xe công nghệ nổi bật hơn cả với câu chuyện thành công của hai mô hình dịch vụ taxi và xe ôm cộng đồng Uber và Grab. Mô hình kinh doanh này được cấu thành bởi sự tham gia của ba bên: khách hàng, tài xế và nền tảng. Cụ thể, các doanh nghiệp cung cấp các siêu ứng dụng để kết nối khách hàng - người có nhu cầu di chuyển với tài xế - người có nhu cầu tối đa hóa lợi ích từ tài sản nhàn rỗi (Trần Bình Minh và cộng sự, 2021).
Chính thức xâm nhập vào thị trường Việt Nam vào năm 2014 với sự xuất hiện của Uber và Grab, mô hình chia sẻ xe công nghệ đã kéo theo sự chuyển dịch của một lượng lớn khách hàng đang sử dụng taxi truyền thống sang việc gọi xe qua ứng dụng. Điều này cho thấy nhu cầu di chuyển theo hình thức này là không nhỏ ở thị trường Việt Nam. Tuy nhiên, về vấn đề phân khúc khách hàng, các hãng xe công nghệ Việt Nam mới chỉ dừng lại ở việc xác định nhóm đối tượng với những đặc điểm chung về mặt nghề nghiệp, độ tuổi, nhu cầu, tính cách, khu vực mà chưa đi sâu vào phân tích, chia nhóm tệp khách hàng nhằm cung cấp dịch vụ tốt nhất cho từng nhóm đối tượng và tối đa sự hài lòng khách hàng.
Vì vậy, trong bài nghiên cứu này, nhóm tập trung nghiên cứu sâu các đặc điểm của khách hàng sử dụng dịch vụ gọi xe công nghệ ở Việt Nam thông qua các nhân tố về nhân khẩu như giới tính, độ tuổi, nghề nghiệp, thu nhập, tần suất sử dụng và các nhân tố khác như độ hài lòng - “mức độ trạng thái, cảm giác của một người bắt nguồn từ việc so sánh kết quả nhận được từ việc tiêu dùng sản phẩm/dịch vụ với kỳ vọng ban đầu của họ” (Kotler, 2000) và lòng trung thành - “việc khách hàng sử dụng một sản phẩm/dịch vụ và có xu hướng lặp lại hành động đó” (Chaudhuri, 1999). Từ đó, khách hàng được chia thành các tập nhỏ nhằm phản ánh cụ thể hơn nhu cầu của họ và giúp các hãng xe công nghệ có cái nhìn sâu hơn về độ hài lòng và lòng trung của người sử dụng.
2.2. Phương pháp nghiên cứu
Trong đề tài này, phương pháp phân cụm (cluster analysis) là phương pháp nghiên cứu chính được áp dụng. Phương pháp này giúp phân tập dữ liệu thành nhiều cụm/nhóm khác nhau mà ở mỗi cụm/nhóm đều có những đặc điểm chung giữa các quan sát (King, 2015). Đây cũng là phương pháp được áp dụng vô cùng hiệu quả trong các mảng như Marketing, Sales hay CRM để đưa ra các chiến dịch quảng cáo, bán hàng hướng tới khách hàng mục tiêu. Do đó, phương pháp này còn được biết đến là phân tích phân khúc (segmentation analysis).
Dựa trên cấu trúc, phân tích cụm bao gồm hai dạng cơ bản: Phân cấp (Hierarchical clustering) và Phân nhóm (Partitional clustering). Trong phân tích phân cấp, các quan sát được gom từ những cụm nhỏ thành cụm lớn hoặc ngược lại. Trong khi đó, ở phân tích nhóm, các quan sát được gộp thành cụm dựa trên sự giống nhau của chúng. Điểm khác nhau chính giữa hai phương pháp này nằm ở chỗ phân tích nhóm là phân tích một cấp. Trước khi phân cụm, số lượng nhóm (cluster) phải được xác định trước. Cụ thể, trong đề tài này, phương pháp K-means sẽ được sử dụng chính để tiến hành phân cụm khách hàng.
Phương pháp phân cụm K-means clustering phân nhóm/cụm các quan sát dựa trên giá trị đại diện của các điểm tâm trung tính dựa trên giá trị trung bình Mean của các quan sát trong cluster (Bigdatauni, 2020). Theo phương pháp này, số lượng cụm cần phân - k, được xác định trước. Mỗi cụm sẽ được biểu diễn bằng tâm centroid tương ứng với giá trị trung bình của các điểm được gán cho cụm.
Phân cụm K-means là thuật toán học máy không giám sát được sử dụng để phân dữ liệu thành các cụm (cluster) khác nhau sao cho dữ liệu trong cùng một cụm có tính chất giống nhau (MacQueen, 1967). Số lượng cụm, kí hiệu k, cần được chỉ định trước. Đồng thời, các
cụm xác định theo tiêu chí làm sao giá trị total within-cluster variation là nhỏ nhất. Theo đó, giá trị total within-cluster được tính như sau:
!"!.!"#ℎ!"#$$ = !(!!) = (!! − !!)!
!!!!!
!
!!!
!
!!!
Ở đõy, xi là dữ liệu thuộc cụm Ck, àk là giỏ trị trung bỡnh của cỏc điểm trong cụm Ck. 2.3. Mô tả dữ liệu
Bộ dữ liệu thu thập được gồm 306 quan sát là các khách hàng đã và đang sử dụng dịch vụ đặt xe trực tuyến trên thị trường miền Bắc Việt Nam. Để có được bộ dữ liệu này, nhóm chúng tôi đã tiến hành khảo sát với 358 đối tượng thông qua 2 cách: (1) thả mẫu câu hỏi trực tuyến thông qua nền tảng Google Biểu mẫu trên các nhóm online dành cho học sinh và người đi làm ở miền Bắc, (2) thả phiếu trực tiếp và thu lại ngay khi trả lời xong tại các khu vực công cộng tập trung đông người như bến xe, trường học, cổng bệnh viện tại thành phố Hà Nội. Quá trình khảo sát diễn ra trong 30 ngày, từ 10/02/2021 - 10/03/2021.
Tuy nhiên sau quá trình sàng lọc các phiếu trả lời, các câu trả lời khảo sát chỉ còn lại 306 quan sát hợp lệ (chiếm tỉ lệ 85,47%).
3. Kết quả và thảo luận 3.1. Thống kê mô tả dữ liệu
Bộ dữ liệu bao gồm 306 biến quan sát được chia thành 4 nhóm: nhân khẩu học, độ hài lòng, lòng trung thành, tần suất sử dụng. Sau quá trình xử lý, chúng tôi rút ra được một vài đặc điểm về các biến nhân khẩu học như dưới đây:
Bảng 1: Bảng thống kê dữ liệu cho các biến nhân khẩu học
Tình trạng việc làm Tỉ lệ Thu nhập Tỉ lệ Độ tuổi Tỉ lệ
HS, SV đi làm bán thời gian 22,50 Dưới 3 triệu 35,40 18 – 21 32,40 HS, SV không đi làm 19,30 Từ 3 – 6 triệu 15,14 22 – 25 26,80
Thất nghiệp 1,00 Từ 6 – 9 triệu 15,10 Trên 25 40,80
Người đi làm bán thời gian 16,00 Trên 9 triệu 34,36 Người đi làm toàn thời gian 41,20
Tổng số 100,00 Tổng số 100,00 Tổng số 100,00
Nguồn: Dựa trên tính toán của nhóm tác giả
• Tỷ lệ giới tính được phân bố khá đồng đều với Nam đạt 50,7% và Nữ đạt 49,3%.
• Phân bố của 3 mốc tuổi trong nghiên cứu: Từ 18 đến 21 - mốc tuổi đang đi học (32,4%); Từ 22 đến 25 - mốc tuổi mới tốt nghiệp (26,8%); Trên 25 - mốc tuổi đi làm (40,8%).
• Phân bố của 5 nhóm nghề nghiệp trong nghiên cứu: Học sinh, sinh viên đi làm bán thời gian (19,3%); Học sinh, sinh viên không đi làm (22,5%); Thất nghiệp (1%); Người đi làm bán thời gian (16%); Người đi làm toàn thời gian (41,2%).
• Tỷ lệ của các nhóm thu nhập trong nghiên cứu: Dưới 3 triệu VNĐ (35,40%) và Trên 9 triệu VNĐ (34,36%) có tỷ lệ xấp xỉ nhau và chiếm hai vị trí cao nhất. Ngoài ra, hai nhóm còn lại là nhóm thu nhập Từ 3 - 6 triệu VNĐ và Từ 6 - 9 triệu VNĐ có phân bố gần bằng nhau với tỷ lệ là 15,14 và 15,10%.
Hình 1: Tần suất đặt xe của khách hàng trong giai đoạn Covid-19
Nguồn: Dựa trên tính toán của nhóm tác giả Về các biến còn lại: Tần suất sử dụng, Lòng trung thành, Độ hài lòng, nhóm chúng tôi nhận thấy tần suất di chuyển giảm mạnh từ trước so với sau dịch. Cụ thể, trong giai đoạn trước dịch, giá trị trung bình của tần suất sử dụng là 3,56 lần/tháng sau đó giảm mạnh xuống 1,74 ở giai đoạn trong dịch. Sau khi dịch giảm bớt, tần suất sử dụng có tăng lên thành 2,81 lần/tháng nhưng không đạt được giá trị như ở giai đoạn trước dịch (Hình 1).
Bảng 2: Thống kê mô tả bộ dữ liệu cho biến tần suất, độ hài lòng, lòng trung thành Tần suất
trước dịch
Tần suất trong dịch
Tần suất sau dịch
Độ hài lòng
Lòng trung thành
Quan sát 306 306 306 306 306
Trung bình 3,55 1,74 2,80 3,90 3,54
Độ lệch chuẩn 4,65 3,58 3,73 0,69 0,84
GT nhỏ nhất 0 0 0 1,66 1
Phân vị 25% 1 0 0 3,33 3
Phân vị 50% 2 0 1 4 3,5
Phân vị 75% 5 2 4 4,33 4
GT lớn nhất 31 25 23 5 5
Nguồn: Dựa trên tính toán của nhóm tác giả Về Độ hài lòng và Lòng trung thành, mức độ đồng ý của khách hàng với các biến này được đánh giá theo thang đo Likert 5. Trong đó:
• Giá trị 1, 2 – Độ hài lòng/trung thành ở mức thấp.
• Giá trị 3 – Độ hài lòng/trung thành ở mức trung bình.
• Giá trị 4, 5 - Độ hài lòng/trung thành ở mức cao.
Để cấu thành lên biến Độ hài lòng, nhóm chúng tôi đã đưa ra bảng hỏi gồm 5 nhóm yếu tố ảnh hưởng đến Độ hài lòng là Niềm tin (3 nhận định) , Hài lòng (4 nhận định), Nhận thức giá trị (4 nhận định), Nguy cơ (3 nhận định) và Sự hữu ích (5 nhận định). Biến Lòng trung thành có 1 yếu tố ảnh hưởng với 4 nhận định. Các biến sử dụng cho bài toán phân nhóm đã được lấy theo giá trị trung bình của các nhận định. Giá trị trung bình của hai biến này là tương đối cao so với các biến khác trong nghiên cứu (Độ hài lòng – 3,9, Lòng trung thành – 3,54). Ngoài ra, hai biến này cũng có độ lệch chuẩn tương đối thấp (Độ hài lòng – 0,69, Lòng trung thành – 0,84) thể hiện rằng các đối tượng được khảo sát có quan điểm khá đồng thuận về hai nhân tố này.
3.2. Kết quả phân khúc khách hàng
Kết quả phân tích dữ liệu của chúng tôi dựa trên phương pháp phân cụm K-means trong ngôn ngữ lập trình Python. Cụ thể, tệp khách hàng được phân khúc dựa trên các yếu tố về Giới tính, Độ tuổi, Nghề nghiệp, Thu nhập, Tần suất sử dụng, Độ hài lòng và Lòng trung thành.
Trong phần này, chúng tôi sử dụng hàm K-means trong ngôn ngữ lập trình Python để phân khúc khách hàng thành các nhóm riêng biệt dựa trên thói quen đặt xe, nhận thức hài lòng và lòng trung thành. Thuật toán này có khả năng xác định được phân khúc hoặc cụm khách hàng có sự tương quan nào đó.
Hình 2: Số cụm tối ưu (sử dụng Hàm plt.plot() trong gói matplotlib của Python)
Nguồn: Dựa trên tính toán của nhóm tác giả trên phần mềm Python Sau khi tải và chuẩn hóa bộ dữ liệu trên Python, phương pháp Elbow được áp dụng để xác định số cụm k tối ưu. Theo đó, phương pháp này cho ra giá trị WSS (Total within-cluster sum of square) hay còn gọi là k từ 1 - 10. Kết quả được biểu thị trên đồ thị bởi một đường cong nối các giá trị đã tính. Vị trí uốn cong trên đường cong thể hiện số cụm tối ưu (Hình 2).
Như vậy, phương pháp Elbow đã gợi ý số cụm tối ưu cho bộ dữ liệu của nhóm là k = 4. Tiếp tục thực hiện phân cụm với thuật toán K-means cho k = 4, nhóm thu được hình ảnh phân cụm như sau (Hình 3):
Hình 3: Kết quả phân cụm với k = 4
Nguồn: Dựa trên tính toán của nhóm tác giả trên phần mềm Python Thuật toán phân cụm K-means giúp phân chia nhóm khách hàng thành 4 cụm khách hàng 0-1-2-3 với số lượng quan sát lần lượt là 194 – 14 – 24 – 74 khách hàng. Biểu đồ radar sau đây cho cái nhìn trực quan về đặc điểm nhân khẩu học, tần suất sử dụng, độ hài lòng và lòng trung thành của từng cụm (Hình 4).
Hình 4: Biểu đồ radar của bốn phân khúc khách hàng
Nguồn: Dựa trên tính toán của nhóm tác giả trên phần mềm Python Bảng 3: Dữ liệu về Tình trạng nghề nghiệp, Thu nhập của 4 phân cụm khách hàng
Cụm NN1 NN2 NN3 NN4 NN5 <3tr 3-6tr 6-9tr >9tr 0 0,268 0,180 0,005 0,159 0,386 0,361 0,154 0,165 0,319 1 0,357 0,357 0,071 0,071 0,143 0,714 0,000 0,000 0,285 2 0,208 0,083 0,000 0,125 0,583 0,250 0,125 0,208 0,417 3 0,094 0,229 0,013 0,189 0,473 0,297 0,175 0,121 0,405
Nguồn: Dựa trên tính toán của nhóm tác giả1 Bảng 4: Dữ liệu về Tần suất, Độ hài lòng,
Lòng trung thành, Tuổi của 4 phân cụm khách hàng Trước
dịch
Trong dịch
Sau dịch
Độ hài lòng
Lòng
trung thành 18-21 22-25 > 25
0 0,000 0,000 0,000 0,000 0,000 0,288 0,324 0,386
1 1,000 1,000 1,000 1,000 0,657 0,571 0,285 0,143
2 0,499 0,283 0,727 0,315 1,000 0,250 0,125 0,625
3 0,194 0,142 0,265 0,744 0,920 0,270 0,283 0,446
Nguồn: Dựa trên tính toán của nhóm tác giả Phân cụm 0
Phân cụm 0 là nhóm khách hàng có tần suất sử dụng dịch vụ đặt xe công nghệ trong cả 3 thời điểm: trước, trong và sau dịch thấp nhất. Cụ thể, tần suất đặt xe trung bình trong 1 tháng của phân cụm này trước dịch Covid-19 là 1,24 lần/tháng. Giai đoạn trong dịch giảm xuống còn 0,4 lần/tháng và tăng lên 0,8 lần/tháng vào khoảng thời gian sau dịch (Hình 5).
Đặc biệt, độ hài lòng và lòng trung thành của phân khúc khách hàng này ở mức thấp nhất trong cả 4 phân cụm (Bảng 4).
Phân cụm này bao gồm 194 khách hàng - chiếm số lượng lớn nhất trong cả 4 phân cụm, trong đó nam chiếm 54% và nữ chiếm 46%. Thu nhập bình quân một tháng chủ yếu của nhóm khách hàng này là dưới 3 triệu với 36,1% và trên 9 triệu với 32%. Về độ tuổi, số người thuộc nhóm tuổi từ 18 - 21, 22 - 25 và trên 25 lần lượt là 28,9%; 32,4% và 38,7%. Về nghề nghiệp, có 26,8% đang là sinh viên và không đi làm thêm, 18% là sinh viên và có công việc bán thời gian, 15,9% là người đi làm bán thời gian, 38,6% là người đi làm toàn thời gian. Số lượng người không có việc làm chiếm rất ít, khoảng 5,1% (Bảng 3&4).
Phân cụm 1
Phân cụm 1 là nhóm khách hàng thường xuyên sử dụng dịch vụ nhất trong cả 3 thời điểm. Cụ thể, trước dịch, giá trị trung bình về tần suất đặt xe trên tháng của khách hàng thuộc phân cụm này là 18,8 lần/tháng. Tại thời điểm trong dịch, giá trị này giảm xuống 13,8 lần/tháng và tiếp tục giảm xuống 12,6 lần/tháng sau dịch (Hình 5). Hơn thế, mức độ hài lòng của phân cụm này cũng cao nhất so với 3 phân cụm còn lại. Tuy nhiên, lòng trung thành của nhóm này lại thấp hơn so với độ hài lòng, và đứng thứ 3 trong số 4 nhóm (Bảng 4).
Phân cụm này có số lượng ít nhất, bao gồm 14 khách hàng với số lượng nam giới vẫn chiếm ưu thế (57,1%). Thu nhập bình quân 1 tháng của nhóm này chỉ tập trung vào 2 khoảng, đó là dưới 3 triệu VNĐ (71,4%) và trên 9 triệu VNĐ (28,6%). Đa số khách hàng của phân cụm này thuộc nhóm tuổi 18 - 21 (57,1%), tiếp đến là nhóm 22 - 25 với 28,6%, nhóm trên 25 tuổi chiếm ít nhất với 14,3%. Tình trạng nghề nghiệp chủ yếu của họ là sinh
1 NN1: nhóm HSSV đi làm bán thời gian, NN2: nhóm HSSV không đi làm, NN3: nhóm Thất nghiệp, NN4:
nhóm Người đi làm bán thời gian, NN5: nhóm Người đi làm toàn thời gian
viên và sinh viên có công việc bán thời gian, đều chiếm 35,7%. Số lượng người có công việc bán thời gian và người không có việc làm là giống nhau với 7,1%. Người đi làm toàn thời gian chiếm 14,4% (Bảng 3&4).
Phân cụm 2
Tần suất sử dụng của nhóm khách hàng thuộc phân cụm nhóm 2 cũng bị ảnh hưởng khá nhiều vì dịch Covid. Cụ thể, trước dịch, giá trị trung bình về tần suất đặt xe trên tháng của khách hàng thuộc phân cụm này là 4,6 lần/tháng. Tại thời điểm trong dịch, giá trị này giảm xuống 2,3 lần/tháng và tăng nhẹ lên 3,9 lần/tháng sau dịch ((Hình 5). Về lòng trung thành, khách hàng ở nhóm này có lòng trung thành cao nhất dù độ hài lòng chỉ xếp thứ ba (Bảng 4).
Phân cụm này bao gồm 24 khách hàng với độ tuổi chủ yếu nằm trong nhóm trên 25, trong đó khách hàng nam chiếm 41,7% và khách hàng nữ chiếm 58,3%. Khách hàng thuộc phân cụm 2 chủ yếu đang làm việc toàn thời gian với mức thu nhập bình quân tháng rơi vào khoảng trên 9 triệu VNĐ. Ngoài ra, khách hàng thuộc nhóm này có tần suất sử dụng thuộc tầm trung so với 4 cụm trong cả 3 thời điểm trước, trong và sau dịch (Bảng 3&4).
Phân cụm 3
Tần suất sử dụng của phân cụm nhóm 3 cũng thuộc tầm trung, xếp thứ hai, sau phân cụm 1. Cụ thể, trước dịch, giá trị trung bình về tần suất đặt xe trên tháng của khách hàng thuộc phân cụm này là 10 lần/tháng. Tại thời điểm trong dịch, giá trị này giảm xuống 4,2 lần/tháng và tăng trở lại lên 9,4 lần/tháng sau dịch (Hình 5). Mức độ hài lòng và lòng trung thành của khách hàng thuộc phân cụm này nằm ở mức khá cao, luôn xếp thứ hai trong 4 nhóm, với mức đánh giá lần lượt 0,7/1 và 0,9/1 cho hai hai yếu tố trên (Bảng 4).
Phân cụm này bao gồm 74 khách hàng. Độ tuổi chủ yếu của khách hàng thuộc phân cụm nằm trong nhóm trên 25 tuổi. Tỷ lệ giới tính trong nhóm này không chênh lệch quá nhiều khi số lượng nam giới chiếm 54% và số lượng nữ giới chiếm 46%.
Khách hàng thuộc phân cụm này cũng chủ yếu làm việc toàn thời gian, số lượng này chiếm 47% trong tổng số lượng khách hàng trong nhóm 3. Thu nhập bình quân của nhóm chủ yếu rơi vào khoảng trên 9 triệu VNĐ/tháng (Bảng 3&4).
Hình 5: Biểu diễn Boxplot
Nguồn: Dựa trên tính toán của nhóm tác giả trên phần mềm Python 3.3. Thảo luận
Trong bài nghiên cứu này, thuật toán K-means được sử dụng nhằm phân cụm khách hàng. Ưu điểm của thuật toán nằm ở sự đơn giản, hiệu quả và dễ dàng thực hiện trên bộ dữ liệu lớn. Thêm vào đó, nghiên cứu cũng dựa trên nhiều yếu tố từ nhân khẩu học đến mức độ hài lòng và lòng trung thành nhằm phân khúc hiệu quả, phản ánh được nhiều đặc điểm của cụm khách hàng.
Về định hướng cho các bài nghiên cứu trong tương lai, nhóm mong muốn có thể mở rộng thêm số lượng mẫu và phân cụm dựa trên các nhân tố khác như nhận thức của khách hàng. Từ đó, tìm ra những phân khúc khách hàng mới, cụ thể và ý nghĩa hơn.
Pre-Covid freq.
cluster 0 1 2 3
count 194 14 74 24
mean 1.2449 18.7857 4.6487 10
std 1.0347 6.0913 1.7236 3.73
min 0 10 0 0
25% 0 15.25 4 9.5
50% 1 18 5 10
75% 2 20 5 10
max 5 31 10 20
Covid freq.
count 194 14 74 24
mean 0.3711 13.7857 2.2703 4.1667
std 0.7172 4.6273 2.9204 3.9416
min 0 8 0 0
25% 0 10 0 0
50% 0 13.5 2 3.5
75% 0 14.75 3 8
max 3 25 19 12
post-Covid freq.
count 194 14 74 24
mean 0.8479 12.5714 3.9595 9.375
std 0.9461 5.0492 1.7551 3.6213
min 0 5 0 2
25% 0 10 3 8
50% 1 11 4 10
75% 1 15 5 10
max 5 23 10 20