Ngoài Rượu và Thịt, những khách hàng này cũng thích mua Fruits, Fish, Sweet, Gold Cụm 2: Thu nh p th p nhậ ấ ất đến trung bình đã chi tiêu thấp nhất.. - Chia nhóm khách hàng thành 2 nhóm
Trang 1
- -
BÁO CÁO Môn: KHAI PHÁ D Ữ LIỆ U VÀ PHÂN TÍCH M NG XÃ H I Ạ Ộ
Nhóm sinh viên /
Trần Thị H i Anh ả
Trần Quốc Anh
Nguyễn Th Lan ị
Nguyễn Công Trữ
Lò Minh Quang
Nhóm 1: PTTCKH
19032857
19032856
19032872
19032898
190328 Khoa: Thông tin – thư viện
Môn: Khai phá d u và Phân tích ữ liệ
Mạng xã h i ộ Email: Haianhtran42@gmail.com
Hà N i, 2022 ộ
Trang 2Mục l c: ụ
1 Hiểu được bài toán đã lựa chọn 3
2 Hi u d ể ữ liệu 4
2.2 Các dữ liệu chính xác 6
3 Hiểu được thu ật toán khai phá d ữ liệu / học máy s áp dẽ ụng 9
4 Hiểu được phương pháp đánh giá mô hình đã huấn luyện 11
5 Các điểm mới 12
Tài li u tham kh o & File bài t ệ ả ập: 2
Tài li u tham kh o & File bài t p: ệ ả ậ
1 https://www.kaggle.com/tranductoan6a9/k-means-clustering-customers-segmentation
2 Links file d u và file Colab: ữ liệ
https://drive.google.com/drive/folders/1N9RIou0raKdUgBjdFpDYLEtqgTuK PQmk
Trang 3BÁO CÁO BÀI TẬ P L N Ớ
Nhóm 1 Bài toán phân tích tính cách khách hàng–
Bài toán - Ý nghĩa
Phân tích tính cách khách hàng là m t phân tích chi ti t v ộ ế ề khách hàng lý tưởng của một công ty Nó giúp doanh nghi p hiệ ểu rõ hơn về khách hàng c a mình và giúp h ủ ọ
dễ dàng sửa đổi s n ph m theo nhu c u, hành vi và m i quan tâm c ả ẩ ầ ố ụ thể ủ c a các loại khách hàng khác nhau
Phân tích tính cách khách hàng giúp doanh nghi p sệ ửa đổ ải s n ph m c a mình dẩ ủ ựa trên khách hàng m c tiêu t các lo i phân khúc khách hàng khác nhau Ví d , thay ụ ừ ạ ụ
vì chi tiền để tiếp th m t s n ph m m i cho mị ộ ả ẩ ớ ọi khách hàng trong cơ sở dữ liệu của công ty, m t công ty có th phân tích phân khúc khách hàng nào có nhi u kh ộ ể ề ả năng mua s n ph m nhả ẩ ất và sau đó tiếp th s n ph m ch trên phân khúc c ị ả ẩ ỉ ụ thể đó
1 Hiểu được bài toán đã lựa chọn
Công vi c (task) ệ Link t p d ệ ữ liệu
Input: Thông tin khách hàng và thông tin mua hàng
Output : phân c m khách hàng d a vào thông tin, tính cách hàng vi mua ụ ự hàng c a khách hàng, lủ ấy đây làm cơ sở cho chiến dịch sửa đổ ải s n ph m cho phù ẩ hợp
Trang 4Dựa vào output, cho th y x lý bài toán d ng phân cấ ử ạ ụm phương pháp K-mean Elbow
Output cho ra các cụm
Cụm 0: Thu nh p v a ph i> chi tiêu thậ ừ ả ấp
Chủ y u là có tr em Không thích mua v i danh mế ẻ ớ ục Thích mua nh ng th ữ ứ được giảm giá Thường xuyên ghé thăm sản phẩm thông qua trang web
Cụm 1: Thu nh p cao nh t> Chi tiêu nhi u nhậ ấ ề ất
Chủ y u là không có con, m t n a trong s h không có quan h tình c m T lế ộ ử ố ọ ệ ả ỷ ệ có trình độ đại học cao hơn các ngành khác Thích mua bằng cách sử ụ d ng danh mục
và tr c ti p t i cự ế ạ ửa hàng Ngoài Rượu và Thịt, những khách hàng này cũng thích mua Fruits, Fish, Sweet, Gold
Cụm 2: Thu nh p th p nhậ ấ ất đến trung bình đã chi tiêu thấp nhất
Tuổi: chủ y u kho ng 40 tuế ả ổi, tương đối trẻ hơn 1 và 2 Chủ yếu là có trẻ em Không thích mua v i danh mớ ục Thường xuyên ghé thăm sản phẩm thông qua trang web
Cụm 3: Thu nh p trung bình ậ đến cao> Chi tiêu nhiều
Hơn 2/3 trong số họ không có con Thích mua nh ng th ữ ứ được giảm giá Cũng thích mua Vàng bên cạnh Rượu và Thịt
2 Hi u d ể ữ liệu
2.1 Làm s ch d ạ ữ liệu
- Bước đầu tiên là bước tính tuổi của khách hàng bằng cách lấy năm của file dữ liệu báo cáo tức là năm 2015 trừ đi năm sinh của khách hàng
- Chia nhóm khách hàng thành 2 nhóm khách hàng có mối quan hệ và không
có mối quan hệ
Trang 5- Thực hiện phân loại khách hàng thành 2 nhóm có con hoặc không có con
- Tiến hành truy vấn những người có tuổi lớn hơn 90
Sau khi truy vấn xong tiếp tục tiến hành lọc những người có độ tuổi lớn hơn hoặc bằng 90 vì những khách hàng trên 90 tuổi còn khả năng vận động kém
- Có t ng c ng bao nhiêu d ổ ộ ữ liệu đã được thu th p ậ
Tệp d ữ liệu khách hàng g m 2240 dòng 29 c t ồ ộ
- Giải thích ý nghĩa các thuộc tính ( các thu c tính thi t yộ ế ếu)
Year_Birth: Năm sinh khách hàng
Education: Mức độ học vấn
Marital_Status: Tình tr ng hôn nhân ạ
Income: Thu nh p khách hàng ậ
Trang 6Kidhome: s ố trẻ em trong gia đình
Teenhome: S ố trẻ vị thành niên trong gia đình
Dt_Customer: Ngày mua hàng
Recency: L n truy c p ầ ậ
và các mặt hàng được mua: Rượu, trái cây,
- Không có thu c tính nào là nhãn (label) ộ
→ bài toán không giám sát (supervised)
Dữ liệu b khuy t thi u :Null- income :24 ị ế ế
- Dữ liệu không cùng 1 d i giá tr không: ả ị
> ph i chu n hóa ả ẩ
- Những thu c tính nào d ng s (ID, Yearbirth, Recency, income, các thuộ ở ạ ố ộc tính s n ph m MntFruits, Mntwines, ), ả ẩ
thuộc tính d ng categorical (education, Marital_status,) ở ạ
thuộc tính nào d ng phi cở ạ ấu trúc ( không có)
nếu khách hàng đại diện cho m t ch m tròn vào bi u hi n 3d thì s ộ ấ ể ệ ẽ như sau
2.2 Các dữ liệu chính xác
- Những đặc trưng của dữ liệu
Trang 7+ Mức thu nhập c a khách hàng ch yủ ủ ếu giao động từ 30000 -70000
+ Hầu hết độ tuổi khách hàng là 32-63 nhóm độ tuổi lao động
Dùng EDA để nêu lên phân b ổ khách hàng theo độ tuổi Nhìn số tuổi lao động giao động trong l a tu i trung niên ứ ổ
+ Phân b thu nh p khách hàng hố ậ ằng năm ở khoảng : 20.000 - 80.000 $
Trang 8+ Trình độ học v n ch y u thuấ ủ ế ộc tính graduation: 50,5%, ti p theo PhD: ế 21,6%, đứng thứ 3: Master: 16,5, 2n Cycle: 9,0% ; còn l i là Basic: 2,4%.ạ
+ Cử nhân, Sau đại học Giáo dục Thu nhập tương đương nhau, nhưng Thu nhập bằng Cơ bản thấp hơn rõ ràng so với những người khác đặc biệt là thể hiện như sau
Chỉ s h s ố ệ ố tương quan để xem mối liên hệ giữa các thu c tính c a khách hàng ộ ủ thuộc tính càng g n 1 ch ng tầ ứ ỏ mức độ quan h ệ giữa nó càng cao
Trang 93 Hiểu được thu t toán khai phá d u / h c máy s áp d ng ậ ữ liệ ọ ẽ ụ
Các tham s trong thu t toán K-means Elbow: 4 tham s ( 4 c m) và 4 cố ậ ố ụ ụm có đặc tính khác nhau ( c m 0, 1, 2, 3) ụ
Tại sao s d ng thuử ụ ật toán này: Đây là một thuật toán thường được sử dụng trong Kmean và có th ể thực hiện được Cũng là một phương pháp đơn giản để tham chiếu
số c m muụ ốn phân chia
Elbow method ch n s sọ ố ụm k sao cho khi thêm vào m t c m khác thì không làm ộ ụ cho WSS thay đổi nhiều
Quy trình tri n khai Elbow method cể ủa bài toán như sau:
Triển khai thuật toán phân c m k-mean) vụ ới các số cụm k thay đổi của bài toán là 1-16 c m ụ
Trang 10Với m i giá trỗ ị k, tính giá tr WSS, v Elbow curve theo các giá tr ị ẽ ị k
Dựa vào Elbow curve ch n s k thích h p, là v trí khúc cua bài toán khúc cọ ố ợ ị ở Ở ủa cụm 4 tr ở đi ít biến đổi → có k = 4
Từ đó ta có thể thấy các đặc của từng nh m kh ch hó á àng như thu chi , trình độ học vấn v trang th i k t hôn à á ế
Trang 11Và hơn nữ àa l cho c c kho n thu chi ra sao v mua nh ng g á ả à ữ ì
4 Hiểu được phương pháp đánh giá mô hình đã huấn luyện
Thuật toán Elbow đã thực hi n kh r rệ á õ àng v à nhóm đã ùng phương pháp PCA để d
mô t ả trên đồ thị và đặ íc t nh c a t ng nhóm ủ ừ
Trang 12Nhóm đã thử lại nhi u l n và nh n th y mô hình hu n luy n K-ề ầ ậ ấ ấ ệ means elbow được
sử dụng trong bài toán đã có độ chính xác cao
5 Các điểm mới
So với bài mẫu trên Kaggle thì nhóm đã tự làm thêm code EDA hi u d u liên ể ữ liệ quan t i phân b ớ ố độ ổ tu i, thu nhập trung bình khách hàng năm và PCA
Cụ thể phần:
Phân b ố độ tuổi khách hàng
Phân b thu nh p cố ậ ủa khách hàng năm
Trang 13Trình độ học vấn thu nh p cậ ủa khách hàng
Thu nh p khác cậ ủa khách hàng theo trình độ học vấn
Trang 14PCA
Phép biến đổi tạo ra những ưu điểm sau đối với dữ liệu:
thể thể hiện trong không gian 2 hay 3 chiều
cũ, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương, và đảm bảo
độ biến thiên của dữ liệu trên mỗi chiều mới
trong không gian mới, mà nếu đặt trong không gian cũ thì khó phát hiện vì những liên kết này không thể hiện rõ
nhau, mặc dù trong không gian ban đầu các trục có thể không trực giao
Trang 15Bảng đóng góp cá nhân
Trần Thị H i Anh ả 19032855 Tìm bài toán, Làm ppt, phân tích thuật
toán K-means Elbow Trần Quốc Anh 19032856 Tìm bài toán, Làm sạch d ữ liệu, phân
tích thu t toán K-means Elbow ậ Nguyễn Th Lan ị 19032872 Tìm bài toán, Tổng h p bài báo cáoợ ,
Làm báo cáo, phân tích thu t toán K-ậ means Elbow
Trang 16Nguyễn Công Trữ 19032898 Tìm bài toán, Chạy, Phân tích EDA,
thuyết trình, phân tích thu t toán K-ậ means Elbow
Lò Minh Quang 19032891 Xử lý d ữ liệu trước khi phân c m, phân ụ
tích thu t toán K-means Elbow ậ