1. Trang chủ
  2. » Tất cả

Đồ án môn học học phần khoa học dữ liệu

36 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

lOMoARcPSD|18034504 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CƠNG NGHỆ VÀ THIẾT KẾ ĐỒ ÁN MÔN HỌC Học phần: Khoa Học Dữ Liệu Nhóm Sinh Viên:  Đồn Vũ Minh Thanh – 31201020910  Đặng Thị Cẩm Tú – 31201024511  Nguyễn Hoàng Nhật Hồng Nguyên - 31201024506 Chuyên Ngành: KHOA HỌC DỮ LIỆU Khóa: K46 Giảng Viên: TS Trương Việt Phương TP Hồ Chí Minh, ngày 18 tháng 09 năm 2022 lOMoARcPSD|18034504 MỤC LỤC Giới thiệu - 2 Tiền xử lý liệu - Phân cụm liệu - Sử dụng biến Income spending plot thể mơ hình cụm - Phân lớp - 15 Dự đoán - 16 Trích 10% từ liệu phân lớp - 16 Đánh giá phương pháp dự đoán: .- 19 TÀI LIỆU THAM KHẢO - 26 - lOMoARcPSD|18034504 MỤC LỤC HÌNH ẢNH Hình Mơ tả liệu .- Hình Đọc file data tách cột liệu .- Hình Xử lý ngơn ngữ Python - Hình Sau kiểm tra có 24 missing value biến income - Hình 24 missing value xóa - Hình Chia cụm - Hình Chia cụm - 10 Hình Chia cụm - 10 Hình Loại bỏ 45 outliers - 11 Hình 10 Đánh giá lại liệu - 11 Hình 11 Phân cụm K-Means - 12 Hình 12 Phân phối liệu cụm - 12 Hình 13 Phân phối cụm với biến Spent - 13 Hình 14 Promotions - 14 Hình 15 Mơ hình Box Plox - 17 Hình 16 Các bước thực tiền xử lý, phân cụm phân lớp Orange - 20 Hình 17 Skip số biến khơng cần thiết - 21 Hình 18 Data Sampler - 21 Hình 19 Kết số đánh giá AUC, CA - 25 Hình 20 Ma trận nhầm lẫn Nearal Network .- 25 Hình 21 Ma trận nhầm lẫn SVM - 26 Hình 22 Ma trận nhầm lẫn Logistics Regression .- 26 Hình 23 Kết dự đoán phân lớp khách hàng - 28 Hình 24 So sánh kết dự đốn với liệu phân lớp gốc hàm “ = = “ - 29 - lOMoARcPSD|18034504 Giới thiệu  Phát biểu toán: Trong dự án này, lĩnh vực mà nhóm lựa chọn marketing Cụ thể, liệu mà nhóm nghiên cứu liệu hành vi mua hàng khách hàng qua chiến dịch siêu thị Mô tả tập liệu: Bộ liệu có tên market_campaign.csv, gồm 2240 phần tử, 28 biến khơng có biến phân loại Hình Mơ tả liệu lOMoARcPSD|18034504 Cụ thể thông tin biến sau: lOMoARcPSD|18034504 Bộ liệu chia thành nhóm (4P):  Con người (People):  ID: mã định danh khách hàng  Year_Birth: ngày sinh  Education: Cấp bậc giáo dục  Marital_Status: Tình trạng nhân  Income: Thu nhập trung bình khách hàng  Kidhome: Số trẻ hộ gia đình khách hàng  Teenhome: Số thiếu niên hộ gia đình khách hàng  Dt_Customer: Ngày đăng ký khách hàng với công ty  Recency: số ngày toán lại kể từ lần toán gần  Complain: khách phàn nàn năm qua, ngược lại  Sản phẩm (Products):  MntWines: số tiền chi cho rượu năm qua  MntFruits: số tiền chi cho trái năm qua  MntMeatProducts: số tiền chi cho thịt năm qua  MntFishProducts: số tiền chi cho cá năm qua  MntSweetProducts: số tiền chi cho đồ năm qua  MntGoldProds: số tiền chi cho vàng năm qua  Promotion:  NumDealsPurchases: sơ lần tốn có discount  AcceptedCmp1: khách hàng chấp nhận offer campaign đầu tiên, ngược lại  AcceptedCmp2: khách hàng chấp nhận offer campaign thứ 2, ngược lại lOMoARcPSD|18034504  AcceptedCmp3: khách hàng chấp nhận offer campaign thứ 3, ngược lại  AcceptedCmp4: khách hàng chấp nhận offer campaign thứ 4, ngược lại  AcceptedCmp5: khách hàng chấp nhận offer campaign thứ 5, ngược lại  Response: khách hàng chấp nhận offer campaign cuối, ngược lại  Địa Điểm (place):  NumWebPurchases: số lần mua hàng thông qua web site  NumCatalogPurchases: số lần mua hàng thông qua catalogue  NumStorePurchases: số lần mua hàng trực tiếp cửa hàng  NumWebVisitsMonth: sô lần ghé thăm web site tháng trước Khi kiểm tra, nhóm phát biến Income có 24 liệu bị thiếu Với liệu này, nhóm tiến hàng phân khúc khách hàng Phân khúc khách hàng hoạt động quan trọng trình marketing Cụ thể, nhóm thực việc phân tách khách hàng thành nhóm, nhóm khách hàng có đặc trưng riêng tính cách, hành vi, nhân học, … Qua việc phân khúc khách hàng, doanh nghiệp hiểu rõ nhóm khách hàng, chọn lọc nhóm khách hàng mục tiêu; từ doanh nghiệp đưa sản phẩm, chiến dịch quảng bá phù hợp, đáp ứng nhu cầu nhóm khách hàng nhằm tối ưu hóa lợi nhuận Tiền xử lý liệu lOMoARcPSD|18034504 Trước phân cụm khách hàng, nhóm thực việc tiền xử lý liệu để liệu “sạch” đẹp hơn, giúp kết phân cụm xác (Kết hợp Python Orange) (tên file Python: Preprocessing.ipynb) - Đọc file data tách cột liệu dấu “;” Hình Đọc file data tách cột liệu Tiếp theo, tính tốn vài feature đồng thời xóa column replace / thay giá trị column mang kiểu liệu category thành numeric Và column thay tên Chi tiết:  Trích xuất "Age" khách hàng theo "Year_birth" cho biết năm sinh người tương ứng  Tạo feature khác "Spent" cho biết tổng số tiền khách hàng chi tiêu danh mục khác khoảng thời gian hai năm (các danh mục bao gồm: gold, meat, wines, fruits, sweets, fish)  Tạo feature khác "Living_With" ngồi "Marital_Status" để bóc tách hoàn cảnh sống cặp vợ chồng/ cá nhân  Tạo feature "Children" để biểu thị tổng số trẻ em hộ gia đình, Kidhome Teenhome  Để hiểu rõ hộ gia đình, Tạo feature cho biết "Family_Size"  Tạo feature "Is_Parent" để biểu thị trạng thái làm cha mẹ  Cuối cùng, tạo ba danh mục "Giáo dục" cách đơn giản hóa số lượng giá trị Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504  Bỏ số feature thừa bao gồm: "Marital_Status", "Dt_Customer", "Z_CostContact", "Z_Revenue", "Year_Birth", "ID" Những bước xử lý xử lý ngơn ngữ Python: Hình Xử lý ngơn ngữ Python Tiếp nhóm thực đánh giá kiểm tra lại tồn liệu xem có “tốt” hay khơng Hình Sau kiểm tra có 24 missing value biến income Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Để xử lý missing value nhóm thực impute missing value cách xóa missing value thay replace biến random mean/mode liệu nhóm chọn phương pháp tỉ lệ missing value bé khơng ảnh hưởng đến data xóa Hình 24 missing value xóa Nhóm nghi ngờ liệu có điểm dị biệt (outliers) nên nhóm chọn widget Outliers, chọn covariance estimator = 0.5 Kết cho thấy có 45 outliers liệu Nhóm dự định loại bỏ outliers khỏi liệu, nhóm khơng chắn liệu việc loại bỏ có giúp việc phân cụm trở nên hiệu không Vì thế, nhóm thử trường hợp: phâm cụm bỏ outliers, trường hợp phân cụm không loại bỏ outliers Phân cụm liệu Sau hoàn thành việc xử lý phần liệu đầu vào nhóm tiếp tục thực bước phân cụm liệu dựa theo để mô tả phân chia cụm cụ thể giúp doanh nghiệp dễ dàng việc chọn đối tượng khách hàng mục tiêu cho Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 (hầu hết C1 chưa có gia đình chưa kết hơn, C2 ngược lại) (C1 tối đa đứa trẻ, cụm khác cụm phải đảm bảo ln có đứa trẻ cịn C3 C4 khơng có có có tối đa đứa trẻ) 21 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 C3: cụm có khoảng tuổi khách hàng mức trung niên cụm khác thuộc vào khoảng định chênh lệch cụm không nhiều nằm khoảng từ 44-64 tuổi Như nhận xét tước C1 có tối đa đứa trẻ nên family size tối đa và cụm khác nằm khoảng từ 2-4 members 22 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Phân lớp Dựa theo kết để mô tả rõ thông tin cụm (C1 tối đa đứa trẻ, cụm khác cụm phải đảm bảo ln có đứa trẻ cịn C3 C4 khơng có có có tối đa đứa trẻ)  C3: low spending & low income, khoảng độ tuổi tương đối trẻ với cụm lại, hầu hết lập gia đình số thành viên gia đình gia đình tối đa người có tỉ nhiều khách hàng undergraduate cụm  C2: average spending & average income, hầu hết lập gia đình số thành viên gia đình >=2

Ngày đăng: 23/02/2023, 21:57

w