TRƯỜNG ĐẠI HỌC KINH TẾ - ĐẠI HỌC ĐÀ NẴNG KHOA QU N TR KINH DOANH ẢỊBÀI BÁO CÁO GIỮA KỲPHÂN TÍCH KHÁCH HÀNG THEO PHƯƠNG PHÁP K-MEAN H c ph n : ọầPhân tích kinh doanh trong môi trường sốGV
Trang 1TRƯỜNG ĐẠ I HỌC KINH TẾ - ĐẠI H ỌC ĐÀ NẴNG
KHOA QU N TR KINH DOANH Ả Ị
BÀI BÁO CÁO GIỮA KỲ PHÂN TÍCH KHÁCH HÀNG THEO PHƯƠNG PHÁP K-MEAN
H c ph n : ọ ầ Phân tích kinh doanh trong môi trường số
GVHD : TS Hoàng Văn Hải
Sinh viên: Đoàn Thị Uyên Vui
MSSV: 211121302348
L p sinh ho t: 47K02.3 ớ ạ
Đà Nẵng, ngày 01 tháng 04 năm 2024
Trang 21
MỤC LỤC
DANH MỤC BIỂU ĐỒ 2
DANH MỤC BẢNG BI U 2 Ể DANH MỤC HÌNH ẢNH 2
LỜI MỞ ĐẦU 3
PHÂN TÍCH KHÁCH HÀNG THEO PHƯƠNG PHÁP K- MEAN 4
PHẦN I PHƯƠNG PHÁP PHÂN TÍCH 4
1 Phương pháp thống kê: 4
2 K ỹ thuật phân c m (K-ụ Mean): 4
PHẦN II D Ữ LIỆU NGHIÊN C U 5 Ứ 1 Làm sạch dữ liệ u: 5
2 Mô tả ới tính củ gi a nhóm khách hàng: 6
3 Mô tả độ tuổi củ a nhóm khách hàng: 7
4 Mô tả thu nh p khách hàng: 7 ậ 5 Mô tả chi tiêu c a khách hàng: 8 ủ PHẦN III ỨNG DỤNG PHƯƠNG PHÁP K-MEAN 9
1 Phương pháp Elbow Method : 9
2 Chuẩn hóa d u: 10 ữ liệ 3 Khởi tạo Centroid và tính khoảng cách 10
4 Nhóm các đối tượng vào nhóm gần nhất 11
5 Solver 11
PHẦN IV PHÂN TÍCH KẾT QUẢ NGHIÊN C U 11 Ứ 1 Cụm 1: 12
2 Cụm 2: 12
3 Cụm 3 13
4 Cụm 4 14
5 Cụm 5 15
PHẦN V KẾT LUẬN 15
Trang 32
DANH M C BI U Ụ Ể ĐỒ
Biểu đồ 1 Box-Whisker phân b ố độ tuổi, thu nh p và chi tiêu c a KH 6 ậ ủ
Biểu đồ 2 Giới tính khách hàng 6
Biểu đồ 3 Độ tuổi khách hàng 7
Biểu đồ 4 Độ tuổi khách hàng 7
Biểu đồ 5 Số lượng khách hàng theo từng mức thu nhập 8
Biểu đồ 6 Số lượng khách hàng theo từng mức chi tiêu 9
Biểu đồ 7 Chọn K cụm theo phương pháp Elbow 9
Biểu đồ Phân nhóm khách hàng theo phương pháp K 8 -Means 11
Biểu đồ 9 Cluster 1 12
Biểu đồ 10 Cluster 2 12
Biểu đồ 11 Cluster 3 13
Biểu đồ 12 Cluster 4 14
Biểu đồ 13 Cluster 4 15
DANH M C BỤ ẢNG BIỂ U Table 1 B ng x ả ử lý số liệu theo t phân v 5 ứ ị Table 2 Th ng kê mô t ố ả độ tuổi của khách hàng 7
Table 3 Thống kê mô t ả thu nhập c a khách hàng 7 ủ Table 4 B ng th ng kê mô t chi tiêu c a khách hàng 8 ả ố ả ủ Table 5 Kho ng cách t ng Cluster 11 ả ừ Table 6 Thống kê mô t khách hàng Cluster 1 12 ả Table 7 Thống kê mô t Cả luster 2 13
Table 8 Thống kê mô t Cả luster 3 13
Table 9 Thống kê mô t Cả luster 4 14 Table 10 Thống kê mô t Cluster 5 15 ả
DANH M C HỤ ÌNH ẢNH
Hình 1 Các bước thực hi n K-Means 4 ệ Hình 2 Thao tác xóa d u trùng l p trong Excel 5 ữ liệ ặ Hình 3 Chu n hóa d u thu nh p 10 ẩ ữ liệ ậ Hình 4 Khởi tạo Centroid và tính kho ng cách 10 ả
Trang 4LỜI MỞ ĐẦU Trong m i doanh nghiỗ ệp, khách hàng luôn đóng vai trò quan trọng và là y u t quyế ố ết định s ự thành công hay th t b i c a m t chiấ ạ ủ ộ ến lược kinh doanh Khách hàng không ch là ngu n thu nh p ỉ ồ ậ chính c a doanh nghi p mà còn là nguủ ệ ồn thông tin quý giá để doanh nghiệp phải hiểu và đáp ứng nhu c u thầ ị trường Do đó, phân tích khách hàng trở thành m t công vi c c c k quan trộ ệ ự ỳ ọng để
t o ra s c nh tranh và t o dạ ự ạ ạ ựng được sự tương tác tốt với khách hàng
Có nhiều phương pháp để phân tích khách hàng như K-Mean, Mean-shift, Density- Based Spatial,… Tuy nhiên phương pháp phân tích theo K-Mean có lẽ là kỹ thuật cơ bản và được sử
d ng ph bi n ụ ổ ế nhất Phương pháp K-Mean ( phân c m khách hàng thành K c m) là quá trình phân ụ ụ chia khách hàng thành nhi u c m / nhóm có chung s ề ụ ự tương đồng về những tiêu chí như giới tính, tuổi tác, s thích, thu nhở ập, thói quen chi tiêu, để t ừ đó doanh nghiệp có những phương thức ti p ế thị hi u qu cho t ng nhóm khách hàng Khi th c hi n phân c m khách hàng s giúp doanh nghiệ ả ừ ự ệ ụ ẽ ệp
có thể tăng lợi nhuận, tăng s hài lòng khách hàng hay thu hút nhi u khách hàng tiự ề ềm năng mà lâu nay chưa phát hiện
Trong bài báo cáo này, em ứng dụng phương pháp K-Mean cùng v i các công c h ớ ụ ỗ trợ trong quá trình phân tích khách hàng t Excel d a t m u dừ ự ừ ẫ ữ liệu được cung c p t GVHD Bài phân tích ấ ừ này nh m mằ ục đích giúp doanh nghiệp hiểu rõ hơn về khách hàng của mình và đưa ra khuyến ngh cho nhà qu n tr ị ả ị các hành động c n thiầ ết để ữ chân khách hàng củ gi a doanh nghi p ệ
Bài báo cáo này là k t qu c a quá trình nghiên c u và phân tích c a chính b n thân em V i ki n ế ả ủ ứ ủ ả ớ ế thức và th i gian còn khá h n ch nên bài báo cáo c a em s không tránh kh i nh ng sai sót, em ờ ạ ế ủ ẽ ỏ ữ rất mong s ẽ được thầy góp ý để có th rút kinh nghi m và làm tể ệ ốt hơn để bài báo cáo cu i k Qua ố ỳ đây, em cũng xin gửi lời cảm ơn chân thành đến thầy TS Hoàng Văn Hải – GVHD h c ph n Phân ọ ầ tích kinh doanh trong môi trường số đã hướng dẫn tận tình để chúng em có bài báo cáo tốt nhất, cảm ơn bộ môn đã xây dựng kiến thức rất b ích phù h p ổ ợ đối với thờ đại i 4.0 hi n nay ệ
Too long to read on your phone? Save to
read later on your computer
Save to a Studylist
Trang 54
PHÂN TÍCH KHÁCH HÀNG THEO PHƯƠNG PHÁP K- MEAN
PHẦN I PHƯƠNG PHÁP PHÂN TÍCH
1. Phương pháp th ng kê: ố
Phương pháp thống kê được s d ng d ử ụ ữ liệu để tìm hi u ể rõ hơn về tính ch t c a d ấ ủ ữ liệu, đặc điểm cũng như mối quan h giữa chúng Đây cũng là bướệ c quan trọng để xác định các bi n có sự khác ế
biệt đáng kể trong t ng thổ ể, xác định s khác biự ệt giữa các nhóm dữ liệu Điều này giúp xác định được tính h p lý hay b t h p lý c a vi c s d ng phân c m cho d ợ ấ ợ ủ ệ ử ụ ụ ữ liệu c ụ thể Hơn nữa, phân tích thống kê còn được sử dụng để đánh giá kết quả trong quá trình phân cụm
2 K thu t phân c m (K-Mean): ỹ ậ ụ
Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng đã cho vào K cụm (với K là số cụm được xác định trước, K là một số nguyên dương), sao cho tổng bình phương khoảng cách giữa các đối tượng và tâm của cụm tương ứng là nhỏ nhất
Hình 1 Các bước thực hi n K-Meansệ
Thuật toán K-Means thực hiện qua các bước chính sau: (BIS, 2019)
Bước 1: Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các
tâm của cụm
Bước 2: Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách
Euclidean)
Bước 3: Nhóm các đối tượng vào nhóm gần nhất
Bước 4: Xác định lại tâm mới cho các nhóm
Trang 65
Bước 5: Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng
PHẦN II DỮ LIỆU NGHIÊN CỨU
1 Làm s ch d ạ ữ liệu:
Mẫu d ữ liệu ban đầu được cung c p gấ ồm 794 khách hàng được cung c p d a trên 4 tiêu th c gấ ự ứ ồm
mã khách hàng, giới tính, độ tuổi, thu nh p và mậ ức chi tiêu Đây chỉ là dữ liệu thô chưa được x ử
lý nên cần phả ải qua quá trình làm s ch i tr ạ
Đầu tiên, x lý các d u trùng l p b ng cách ch n l nh Data trên màn hình excel, ch n Remove ử ữ liệ ặ ằ ọ ệ ọ Duplicates và tiến hành ch n tọ ất cả các tiêu thức theo quy trình như ảnh sau
Hình 2 Thao tác xóa d u trùng l p trong Excel ữ liệ ặ
Kết quả thao tác trên cho ra kết quả 593 d ữ liệu được loạ ỏ do trùng l p, gi l i 201 d i b ặ ữ ạ ữ liệu Tiếp tục ới bướv c lo i b dạ ỏ ữ liệu ngo i lai b ng vi c s d ng biạ ằ ệ ử ụ ểu đồ Box – Whisker Tiến hành xác định giá trị Q1 và Q3 của các tiêu thức bằng hàm excel: Q = QUARTILE.EXC( ARRAY; QUART) Xác định tứ phân vị IQR = Q3 Q1 và xác định giới hạn trên = Q3+1,5*IQR và giới hạn -dưới = Q1 1,5*IQR Và được kết quả như sau:
Table 1 B ng x lý sả ử ố liệu theo t phân v ứ ị
Trang 76
Sử dụng công cụ excel để vẽ biểu đồ Box – Whisker và cho ra biểu đồ dưới đây:
1 Box-Whisker phân b i, thu nh p và chi tiêu c a KH
Dựa vào biểu đồ trên, ta thấy có xuất hiện giá trị ngoại lai ở tiêu thức Thu nhập theo năm với giá trị là 137.000$ Do đó, ta tiến hành loại bỏ dữ liệu này để đảm bảo sự chính xác, tránh sự sai lệch trong các ước lượng thống kê Sau khi đã hoàn tất quá trình làm sạch, dữ liệu hiện còn lại là 198
2. Mô tả ớ gi i tính c a nhóm khách hàng: ủ
Trong 198 d ữ liệu đại diện ph n l n có gi i tính là n v i s ầ ớ ớ ữ ớ ố lượng là 112 người chi m t l 57% ế ỷ ệ Còn lại nam là 86 người chiếm t l ỷ ệ ít hơn, chiếm 43% Điều này cho th y khách hàng nam và n ấ ữ
x p x ấ ỉ cân bằng nhau nhưng hơi thiên về khách hàng n nhiữ ều hơn
Biểu đồ 2 Giới tính khách hàng
Nữ ; 112 57% ; Nam ; ; 86 43%
Giới tính
Nữ Nam
Trang 87
3. Mô tả độ tuổ ủ i c a nhóm khách hàng:
Độ tu i bình quân c a khách hàng là 38,93 tu i, khách hàng có tuổi l n nhất là 70 tu i, ổ ủ ổ ớ ổ
nh nh t là 18 tuỏ ấ ổi và độ ệ lch chuẩn là 14,2 tuổi
Table 2 Thống kê mô tả độ tuổi của khách hàng
Biểu đồ hộp 3 và biểu đồ cột 4 dưới đây thể hi n s phân bệ ự ố theo độ ổ ủtu i c a khách hàng
Qua biểu đồ trên cho thấy được độ tuổ ậi t p trung từ 28 đến 48 tu i Biổ ểu đồ 1 th hi n s ể ệ ố lượng khách hàng trong từng nhóm tu i c thể, biổ ụ ểu đồ 2 thể hiện mức độ ập trung, độ t tuổi trung bình, trung vị và bách phân v 25% và 75% và không có giá tr ngo i vi ị ị ạ
4. Mô tả thu nh p khách hàng: ậ
Sau khi th ng kê mô t d u thu nh p khách hàng thì cho ra k t qu ố ả ữ liệ ậ ế ả sau đây:
Table 3 Thống kê mô t ả thu nhập c a khách hàng ủ
Từ b ng trên ta th y h s mean, mode và meadian không b ng nhau cùng v i Skewness b ng ả ấ ệ ố ằ ớ ằ 0,17 lớn hơn 0 nên có thể ết luậ k n thu nh p cậ ủa khách hàng phân phối xấp x ỉ chuẩn, hơi lệch
phải ( 0<skewness<0,5) Điều này cho th y r ng d u có mấ ằ ữ liệ ột phầ ớn l n giá tr ị thu nhập tập trung ở m c cao Vì v y, m c ứ ậ ứ thu nhập trung bình của khách hàng là 61.000$/ năm, trong đó người thấp nhất có thu nhập thấp nhất là 15.000$/ năm và cao nhất là 126.000$/ năm ểu đồBi dưới đây thể ệ hi n s lư ng khách hàng trong từng mức thu nhập c thể ố ợ ụ
Biểu đồ 4 Độ tuổi khách hàng Biểu đồ 3 Độ tuổi khách hàng
Trang 98
5 S ng khách hàng theo t ng m c thu nh p
Qua biểu đồ trên, ta th y khách hàng c a doanh nghi p ph n l n có thu nh p t 15.000 ấ ủ ệ ầ ớ ậ ừ – 87.000$
5. Mô tả chi tiêu c a khách hàng: ủ
Kết quả thống kê như sau
Table 4 B ng th ng kê mô t chi tiêu c a khách hàng ả ố ả ủ
Theo b ng trên, m c dù ch s Mean, mode và median không bả ặ ỉ ố ằng nhau nhưng độ lệch của
nó không l n cùng v i trớ ớ ị tuyệt đối của skewness b ng 0,04 thì r t nh Vì v y, có th nói ằ ấ ỏ ậ ể rằng m c chi tiêu có phân ph i chu n Dứ ố ẩ ựa vào đó ta có thể nhận xét được r ng, khách ằ hàng c a doanh nghi p s chi trung bình mủ ệ ẽ ột người là 5.020$, người có m c chi tiêu cao ứ
nh t là 9.900$ và th p nh t là 100$ ấ ấ ấ Biểu đồ dưới đây thể ệ hi n số lượng khách hàng trong
t ng mừ ức chi tiêu cụ thể
Trang 109
Biểu đồ 6 Số lượng khách hàng theo từng mức chi tiêu
Qua biểu đồ trên ta th y khách hàng c a doanh nghi p chi tiêu nhi u nh t tấ ủ ệ ề ấ ừ 4.100$ đến 6.100$/năm
PHẦN III ỨNG DỤNG PHƯƠNG PHÁP K-MEAN
1. Phương pháp Elbow Method :
Xác định số c m (K c m) tụ ụ ối ưu bằng phương pháp Elbow để phân b khách hàng là 5 c m B ng ổ ụ ằ phương pháp thử K = 3, 4 , 5 , 6 thì kết quả cho như biểu đồ dưới đây:
Biểu đồ 7 Chọn K cụm theo ph ương pháp Elbow
80
90
100
110
120
130
140
150
K cụm
Trang 1110
Với biểu đồ trên, ta sẽ chọn số lượng c m tụ ại điểm “khủy tay” tức là K=5, nơi mà mức độ ế bi n
động bắt đầu chậm hơn Điểm này thường cho thấy rằng việc tăng số lư ng c m không cung cấp ợ ụ nhi u thông tin b sung hoề ổ ặc cải thiện đáng kể cho mô hình phân cụm nên chọn K=5 là h p lý ợ
2. Chuẩn hóa d u: ữ liệ
Chuẩn hóa cột dữ liệu về một thang đo để tiến hành phân cụm , bao gồm chuẩn hóa thang đo cho
2 cột dữ liệu là thu nhập và mức chi tiêu Với công thức excel như sau:
=STANDARDIZE(X;AVERAGE(NUMBER1;NUMBER2);STDEV(NUMBER1;NUMBER2)) Hình dưới đây thể hiện chuẩn hóa cột dữ liệu thu nhập của khách hàng:
Hình 3 Chu n hóa d u thu nh p ẩ ữ liệ ậ
Cách làm tương tự đối với cột dữ liệu mức chi tiêu của khách hàng
3. Khởi tạo Centroid và tính khoảng cách
Tính khoảng cách từ tâm đến cluster = SQRT(($W$3-F2)^2+($X$3-G2)^2)
Hình 4 Khở ại t o Centroid và tính kho ng cáả ch
Trang 1211
4. Nhóm các đối tượng vào nhóm gần nhất.
Lựa chọn ra khoảng cách gần nhất để sắp xếp các đối tượng vào đúng tâm đó, sau khi lựa chọn được tâm cụm Tiến hành tính tổng khoảng cách của các đối tượng để đến tâm cụm sau khi đã nhó m
5 Solver
Tiếp tục Solver trong Excel để tìm tổng khoảng cách tối ưu ngắn nhất Tổng khoảng cách nhận được là 96,903 Với kết quả của từng cluster như sau:
Table 5 Kho ng cách t ng Clusterả ừ
Trực quan hóa dữ liệu như sau:
Biểu đồ 8 Phân nhóm khách hàng theo phương pháp K-Means
PHẦN IV PHÂN TÍCH KẾT QUẢ NGHIÊN CỨU
-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
normalized theo thu nhập
Phân nhóm khách hàng theo phương pháp K-Mean
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster Center 1 Cluster Center 2 Cluster Center 3 Cluster Center 4 Cluster Center 5
Trang 1312
1. Cụm 1:
Kích thước cụm 1 (cụm màu xanh nh t ạ ) gồm 22 đối tượng và phân b rố ải rác xa tâm
Biểu đồ 9 uster 1Cl
Cùng với d u th ng kê mô t ta có b ng kữ liệ ố ả ả ết quả thống kê như sau :
Table 6 Thống kê mô t ách hàng Cluster 1 ả kh
C m 1 vụ ới độ tuổi khách hàng trung bình tr 25,6 tu i ẻ ổ – nhóm khách hàng tương đối trẻ tuổi Mức thu nhập trung bình là 26.750$/năm ạl i khá th p ấ nhưng lại chi tiêu khá nhi u, chi trung bình là ề 7.900$/năm Khách hàng trong cụm 1 có xu hướng chi tiêu khá nhiều so với mức thu nhập trung bình c a hủ ọ Điều này có th cho th y khách hàng trong c m 1 có th có nhu c u tiêu dùng cao ể ấ ụ ể ầ hơn và có thể sẵn lòng chi tiêu nhiều hơn để mua sắm ho c sử dụng dịch vụ ặ
2. Cụm 2:
Kích thước cụm 2 (cụm màu cam) gồm 80 đối tượng, phân bố không đồng đều và xa tâm
Biểu đồ 10 Cluster 2
0 0,5 1 1,5 2
Cluster 1
-1 -0,5 0 0,5
Cluster 2
Trang 1413
Cùng với d u th ng kê mô t ta có b ng kữ liệ ố ả ả ết quả thống kê như sau :
Table 7 Thống kê mô t ả cluster 2
C m 2 vụ ới độ tuổi khách hàng trung bình là 45,31 tuổi , đây là nhóm khách hàng có xu hướng trưởng thành hơn so với cụm 1 Với mức thu nhập trung bình là 49.200$/năm cao hơn cụm 1 cho thấy nhóm này có tài chính mở ức khá tốt Nhưng chi tiêu thấ hơn chỉ ới 5.086$/năm, điềp v u này
có th cho th y h có phong cách tiêu dùng ti t ki m ể ấ ọ ế ệ hơn và có thể có nhu c u mua sầ ắm ít hơn so
với cụm 1
3. Cụm 3
Kích thước cụm 3 (cụm màu than) gồm 38 đối tượng, phân b ố không đồng đều và xa tâm
Biểu đồ 11 Cluster 3
Cùng với d u th ng kê mô t ta có b ng kữ liệ ố ả ả ết quả thống kê như sau :
Table 8 Thống kê mô t ả cluster 3
0
0,5
1
1,5
2
Cluster 3
Trang 1514
C m 3 vụ ới độ tuổi khách hàng trung bình là 32,64 tu i, c m 3 là m t nhóm khách hàng tr ổ ụ ộ ẻ hơn so
v i các cớ ụm 2 Điều này có thể có ảnh hưởng đến sở thích mua hàng, xu hướng tiêu dùng và tầm nhìn về thương hiệu M c thu nh p trung bình là ứ ậ 86.080$/năm cao hơn cụm 1 và 2 , cho th y ấ khách hàng trong c m 3 có kh ụ ả năng tài chính tốt Điều này có th dể ẫn đến kh ả năng chi tiêu cao hơn, khả năng mua hàng hoặc sử d ng d ch vụ t đ hơn Khách hàng trong cụm 3 có xu hư ng ụ ị đắ ỏ ớ chi tiêu cao hơn so với cụm 1 và c m 2 vụ ới 8.200$/ năm Điều này có thể đồng nghĩa với việc họ
có nhu c u mua s m và tiêu dùng tích cầ ắ ực, đóng góp vào việc t o ra doanh thu cho các doanh ạ nghi p ệ
4. Cụm 4
Kích thước cụm 4 (cụm màu vàng) gồm 37 đối tượng, phân b ố không đồng đều và xa tâm
Biểu đồ 12 Cluster 4
u th ng kê mô t ng k
Cùng với dữ liệ ố ả ta có bả ết quả thống kê như sau :
Table 9 Thống kê mô t ả cluster 4
Với độ tuổi trung bình là 40,09 tu i, c m 4 cổ ụ ó xu hướng có khách hàng trưởng thành hơn so với cụm 1 và c m 3 Mụ ức thu nhập trung bình là 87.300$/năm cao nhất so v i 3 cớ ụm trước, điều này cho th y khách hàng trong c m 4 có khấ ụ ả năng tài chính rấ ốt t t Nhưng chi tiêu thấp nh t trong so ấ
v i c m 1,2,3 m c ớ ụ ứ chi là 1.742$/năm, cho th y h có phong cách tiêu dùng ti t kiấ ọ ế ệm hơn và có thể có nhu c u mua sầ ắm ít hơn so với các c m khác Có thụ ể đánh giá rằng khách hàng trong cụm
4 có th có nhu c u tiêu dùng ch y u là các s n ph m ho c d ch v có giá trể ầ ủ ế ả ẩ ặ ị ụ ị cao, nhưn ạg l i có
xu hướng tiết kiệm và lựa chọn chi tiêu hợp lý
-2,5
-2
-1,5
-1
-0,5
0
CLuster 4