1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo khai phá dữ liệu và phân tích mạng xã hội bài toán phân tích tính cách khách hàng

16 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích tính cách khách hàng
Tác giả Trần Thị Hải Anh, Trần Quốc Anh, Nguyễn Thị Lan, Nguyễn Công Trữ, Lò Minh Quang
Trường học ĐẠI HỌC QUỐC GIA HÀ NỘI
Chuyên ngành Khai phá dữ liệu và Phân tích Mạng xã hội
Thể loại Báo cáo
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 16
Dung lượng 3,87 MB

Nội dung

Ngoài Rượu và Thịt, những khách hàng này cũng thích mua Fruits, Fish, Sweet, Gold Cụm 2: Thu nh p th p nhậ ấ ất đến trung bình đã chi tiêu thấp nhất.. - Chia nhóm khách hàng thành 2 nhóm

Trang 1

- -

BÁO CÁO Môn: KHAI PHÁ D Ữ LIỆ U VÀ PHÂN TÍCH M NG XÃ H I Ạ Ộ

Nhóm sinh viên /

Trần Thị H i Anh ả

Trần Quốc Anh

Nguyễn Th Lan ị

Nguyễn Công Trữ

Lò Minh Quang

Nhóm 1: PTTCKH

19032857

19032856

19032872

19032898

190328 Khoa: Thông tin – thư viện

Môn: Khai phá d u và Phân tích ữ liệ

Mạng xã h i ộ Email: Haianhtran42@gmail.com

Hà N i, 2022

Trang 2

Mục l c: ụ

1 Hiểu được bài toán đã lựa chọn 3

2 Hi u d ữ liệu 4

2.2 Các dữ liệu chính xác 6

3 Hiểu được thu ật toán khai phá d ữ liệu / học máy s áp dụng 9

4 Hiểu được phương pháp đánh giá mô hình đã huấn luyện 11

5 Các điểm mới 12

Tài li u tham kh o & File bài t ệ ả ập: 2

Tài li u tham kh o & File bài t p: ệ ả ậ

1 https://www.kaggle.com/tranductoan6a9/k-means-clustering-customers-segmentation

2 Links file d u và file Colab: ữ liệ

https://drive.google.com/drive/folders/1N9RIou0raKdUgBjdFpDYLEtqgTuK PQmk

Trang 3

BÁO CÁO BÀI TẬ P L N

Nhóm 1 Bài toán phân tích tính cách khách hàng

Bài toán - Ý nghĩa

Phân tích tính cách khách hàng là m t phân tích chi ti t v ộ ế ề khách hàng lý tưởng của một công ty Nó giúp doanh nghi p hiệ ểu rõ hơn về khách hàng c a mình và giúp h ủ ọ

dễ dàng sửa đổi s n ph m theo nhu c u, hành vi và m i quan tâm c ả ẩ ầ ố ụ thể ủ c a các loại khách hàng khác nhau

Phân tích tính cách khách hàng giúp doanh nghi p sệ ửa đổ ải s n ph m c a mình dẩ ủ ựa trên khách hàng m c tiêu t các lo i phân khúc khách hàng khác nhau Ví d , thay ụ ừ ạ ụ

vì chi tiền để tiếp th m t s n ph m m i cho mị ộ ả ẩ ớ ọi khách hàng trong cơ sở dữ liệu của công ty, m t công ty có th phân tích phân khúc khách hàng nào có nhi u kh ộ ể ề ả năng mua s n ph m nhả ẩ ất và sau đó tiếp th s n ph m ch trên phân khúc c ị ả ẩ ỉ ụ thể đó

1 Hiểu được bài toán đã lựa chọn

Công vi c (task) ệ Link t p d ệ ữ liệu

Input: Thông tin khách hàng và thông tin mua hàng

Output : phân c m khách hàng d a vào thông tin, tính cách hàng vi mua ụ ự hàng c a khách hàng, lủ ấy đây làm cơ sở cho chiến dịch sửa đổ ải s n ph m cho phù ẩ hợp

Trang 4

Dựa vào output, cho th y x lý bài toán d ng phân cấ ử ạ ụm phương pháp K-mean Elbow

Output cho ra các cụm

Cụm 0: Thu nh p v a ph i> chi tiêu thậ ừ ả ấp

Chủ y u là có tr em Không thích mua v i danh mế ẻ ớ ục Thích mua nh ng th ữ ứ được giảm giá Thường xuyên ghé thăm sản phẩm thông qua trang web

Cụm 1: Thu nh p cao nh t> Chi tiêu nhi u nhậ ấ ề ất

Chủ y u là không có con, m t n a trong s h không có quan h tình c m T lế ộ ử ố ọ ệ ả ỷ ệ có trình độ đại học cao hơn các ngành khác Thích mua bằng cách sử ụ d ng danh mục

và tr c ti p t i cự ế ạ ửa hàng Ngoài Rượu và Thịt, những khách hàng này cũng thích mua Fruits, Fish, Sweet, Gold

Cụm 2: Thu nh p th p nhậ ấ ất đến trung bình đã chi tiêu thấp nhất

Tuổi: chủ y u kho ng 40 tuế ả ổi, tương đối trẻ hơn 1 và 2 Chủ yếu là có trẻ em Không thích mua v i danh mớ ục Thường xuyên ghé thăm sản phẩm thông qua trang web

Cụm 3: Thu nh p trung bình ậ đến cao> Chi tiêu nhiều

Hơn 2/3 trong số họ không có con Thích mua nh ng th ữ ứ được giảm giá Cũng thích mua Vàng bên cạnh Rượu và Thịt

2 Hi u d ữ liệu

2.1 Làm s ch d ữ liệu

- Bước đầu tiên là bước tính tuổi của khách hàng bằng cách lấy năm của file dữ liệu báo cáo tức là năm 2015 trừ đi năm sinh của khách hàng

- Chia nhóm khách hàng thành 2 nhóm khách hàng có mối quan hệ và không

có mối quan hệ

Trang 5

- Thực hiện phân loại khách hàng thành 2 nhóm có con hoặc không có con

- Tiến hành truy vấn những người có tuổi lớn hơn 90

Sau khi truy vấn xong tiếp tục tiến hành lọc những người có độ tuổi lớn hơn hoặc bằng 90 vì những khách hàng trên 90 tuổi còn khả năng vận động kém

- Có t ng c ng bao nhiêu d ổ ộ ữ liệu đã được thu th p ậ

Tệp d ữ liệu khách hàng g m 2240 dòng 29 c t ồ ộ

- Giải thích ý nghĩa các thuộc tính ( các thu c tính thi t yộ ế ếu)

Year_Birth: Năm sinh khách hàng

Education: Mức độ học vấn

Marital_Status: Tình tr ng hôn nhân ạ

Income: Thu nh p khách hàng ậ

Trang 6

Kidhome: s ố trẻ em trong gia đình

Teenhome: S ố trẻ vị thành niên trong gia đình

Dt_Customer: Ngày mua hàng

Recency: L n truy c p ầ ậ

và các mặt hàng được mua: Rượu, trái cây,

- Không có thu c tính nào là nhãn (label) ộ

→ bài toán không giám sát (supervised)

Dữ liệu b khuy t thi u :Null- income :24 ị ế ế

- Dữ liệu không cùng 1 d i giá tr không: ả ị

> ph i chu n hóa ả ẩ

- Những thu c tính nào d ng s (ID, Yearbirth, Recency, income, các thuộ ở ạ ố ộc tính s n ph m MntFruits, Mntwines, ), ả ẩ

thuộc tính d ng categorical (education, Marital_status,) ở ạ

thuộc tính nào d ng phi cở ạ ấu trúc ( không có)

nếu khách hàng đại diện cho m t ch m tròn vào bi u hi n 3d thì s ộ ấ ể ệ ẽ như sau

2.2 Các dữ liệu chính xác

- Những đặc trưng của dữ liệu

Trang 7

+ Mức thu nhập c a khách hàng ch yủ ủ ếu giao động từ 30000 -70000

+ Hầu hết độ tuổi khách hàng là 32-63 nhóm độ tuổi lao động

Dùng EDA để nêu lên phân b ổ khách hàng theo độ tuổi Nhìn số tuổi lao động giao động trong l a tu i trung niên ứ ổ

+ Phân b thu nh p khách hàng hố ậ ằng năm ở khoảng : 20.000 - 80.000 $

Trang 8

+ Trình độ học v n ch y u thuấ ủ ế ộc tính graduation: 50,5%, ti p theo PhD: ế 21,6%, đứng thứ 3: Master: 16,5, 2n Cycle: 9,0% ; còn l i là Basic: 2,4%.ạ

+ Cử nhân, Sau đại học Giáo dục Thu nhập tương đương nhau, nhưng Thu nhập bằng Cơ bản thấp hơn rõ ràng so với những người khác đặc biệt là thể hiện như sau

Chỉ s h s ố ệ ố tương quan để xem mối liên hệ giữa các thu c tính c a khách hàng ộ ủ thuộc tính càng g n 1 ch ng tầ ứ ỏ mức độ quan h ệ giữa nó càng cao

Trang 9

3 Hiểu được thu t toán khai phá d u / h c máy s áp d ng ữ liệ ọ ẽ ụ

Các tham s trong thu t toán K-means Elbow: 4 tham s ( 4 c m) và 4 cố ậ ố ụ ụm có đặc tính khác nhau ( c m 0, 1, 2, 3) ụ

Tại sao s d ng thuử ụ ật toán này: Đây là một thuật toán thường được sử dụng trong Kmean và có th ể thực hiện được Cũng là một phương pháp đơn giản để tham chiếu

số c m muụ ốn phân chia

Elbow method ch n s sọ ố ụm k sao cho khi thêm vào m t c m khác thì không làm ộ ụ cho WSS thay đổi nhiều

Quy trình tri n khai Elbow method cể ủa bài toán như sau:

Triển khai thuật toán phân c m k-mean) vụ ới các số cụm k thay đổi của bài toán là 1-16 c m ụ

Trang 10

Với m i giá trỗ ị k, tính giá tr WSS, v Elbow curve theo các giá tr ị ẽ ị k

Dựa vào Elbow curve ch n s k thích h p, là v trí khúc cua bài toán khúc cọ ố ợ ị ở Ở ủa cụm 4 tr ở đi ít biến đổi → có k = 4

Từ đó ta có thể thấy các đặc của từng nh m kh ch hó á àng như thu chi , trình độ học vấn v trang th i k t hôn à á ế

Trang 11

Và hơn nữ àa l cho c c kho n thu chi ra sao v mua nh ng g á ả à ữ ì

4 Hiểu được phương pháp đánh giá mô hình đã huấn luyện

Thuật toán Elbow đã thực hi n kh r rệ á õ àng v à nhóm đã ùng phương pháp PCA để d

mô t ả trên đồ thị và đặ íc t nh c a t ng nhóm ủ ừ

Trang 12

Nhóm đã thử lại nhi u l n và nh n th y mô hình hu n luy n K-ề ầ ậ ấ ấ ệ means elbow được

sử dụng trong bài toán đã có độ chính xác cao

5 Các điểm mới

So với bài mẫu trên Kaggle thì nhóm đã tự làm thêm code EDA hi u d u liên ể ữ liệ quan t i phân b ớ ố độ ổ tu i, thu nhập trung bình khách hàng năm và PCA

Cụ thể phần:

Phân b ố độ tuổi khách hàng

Phân b thu nh p cố ậ ủa khách hàng năm

Trang 13

Trình độ học vấn thu nh p của khách hàng

Thu nh p khác cậ ủa khách hàng theo trình độ học vấn

Trang 14

PCA

Phép biến đổi tạo ra những ưu điểm sau đối với dữ liệu:

thể thể hiện trong không gian 2 hay 3 chiều

cũ, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương, và đảm bảo

độ biến thiên của dữ liệu trên mỗi chiều mới

trong không gian mới, mà nếu đặt trong không gian cũ thì khó phát hiện vì những liên kết này không thể hiện rõ

nhau, mặc dù trong không gian ban đầu các trục có thể không trực giao

Trang 15

Bảng đóng góp cá nhân

Trần Thị H i Anh ả 19032855 Tìm bài toán, Làm ppt, phân tích thuật

toán K-means Elbow Trần Quốc Anh 19032856 Tìm bài toán, Làm sạch d ữ liệu, phân

tích thu t toán K-means Elbow ậ Nguyễn Th Lan ị 19032872 Tìm bài toán, Tổng h p bài báo cáoợ ,

Làm báo cáo, phân tích thu t toán K-ậ means Elbow

Trang 16

Nguyễn Công Trữ 19032898 Tìm bài toán, Chạy, Phân tích EDA,

thuyết trình, phân tích thu t toán K-ậ means Elbow

Lò Minh Quang 19032891 Xử lý d ữ liệu trước khi phân c m, phân ụ

tích thu t toán K-means Elbow ậ

Ngày đăng: 21/07/2024, 14:00

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN