Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
1,15 MB
Nội dung
TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN KHAI PHÁ DỮ LIỆU LỚN XÂY DỰNG BÀI TOÁN KHAI PHÁ DỮ LIỆU KHÁCH HÀNG TẠI KHU TRUNG TÂM MUA SẮM Giảng viên hướng dẫn: Hồ Ngọc Trung Kiên Sinh viên thực hiện: Trang Gia Bảo MSSV: 2000002273 Khố: 2020 Ngành/ chun ngành: TRÍ TUỆ NHÂN TẠO Tp HCM, tháng năm 2022 i TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN KHAI PHÁ DỮ LIỆU LỚN XÂY DỰNG BÀI TOÁN KHAI PHÁ DỮ LIỆU KHÁCH HÀNG TẠI KHU TRUNG TÂM MUA SẮM Giảng viên hướng dẫn: Hồ Ngọc Trung Kiên Sinh viên thực : Trang Gia Bảo MSSV: 2000002273 Khố: 2020 Ngành/ chun ngành: TRÍ TUỆ NHÂN TẠO Tp HCM, tháng năm 2022 ii LỜI CẢM ƠN Trước hết, em xin chân thành cảm ơn thầy Hồ Ngọc Trung Kiên hỗ trợ, truyền tải cho chúng em kiến thức chất lượng, thiết thực môn Khai Phá Dữ Liệu Lớn mà thầy đảm nhận ba tháng vừa qua Em xin cảm ơn tất thầy, cô trường đại học Nguyễn Tất Thành hỗ trợ chúng em mặt, em trân trọng điều Cảm ơn ba mẹ, người xung quanh ủng hộ em, động viên em đường trưởng thành mình, vinh dự học tập tồn sống trải nghiệm thứ, trải qua bao khó khăn điều mà khơng phải em phải trân trọng Cảm ơn không đủ thứ xảy sống điều mà em muốn phải cố gắng để khơng phụ lịng người Em xin chân thành cảm ơn người lần Tp Hồ Chí Minh, tháng năm 2022 Sinh viên ký tên I BM-ChTTRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KỲ THI KẾT THÚC HỌC PHẦN TRUNG TÂM KHẢO THÍ HỌC KỲ NĂM HỌC 2022 PHIẾU CHẤM THI TIỂU LUẬN/ĐỒ ÁN Môn thi: KHAI PHÁ DỮ LIỆU LỚN Lớp học phần: 20DTH1C Nhóm sinh viên thực :Nhóm 20 Trang Gia Bảo 2000002273 20DTH1A Tham gia đóng góp:100% đồ án Tham gia đóng góp: Tham gia đóng góp: Tham gia đóng góp: Tham gia đóng góp: Tham gia đóng góp: Tham gia đóng góp: Tham gia đóng góp: Ngày thi: Phòng thi: Đề tài tiểu luận/báo cáo sinh viên : XÂY DỰNG BÀI TOÁN KHAI PHÁ DỮ LIỆU KHÁCH HÀNG TẠI KHU TRUNG TÂM MUA SẮM Phần đánh giá giảng viên (căn thang rubrics mơn học): Tiêu chí (theo CĐR HP) Cấu trúc báo cáo Đánh giá GV Điểm tối Điểm đạt đa Nội dung - Các nội dung thành phần - Lập luận - Kết luận Trình bày TỔNG ĐIỂM Giảng viên chấm thi (ký ghi rõ họ tên) II MỤC LỤC LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 CƠ SỞ LÝ THUYẾT 1.1.1 Data Clustering 1.1.2 Các loại phương pháp gom cụm phổ biến 1.1.3 Các phương pháp đánh giá chất lượng gom cụm 1.1.4 THUẬT TOÁN K-MEANS DỰA TRÊN PHÂN HOẠCH 1.1.5 GIẢI THUẬT AGGLOMERATIVE DỰA TRÊN PHÂN CẤP 1.2 NỘI DUNG ĐỀ TÀI 1.2.1 Phân cụm khách hàng 1.3 MỤC TIÊU NGHIÊN CỨU 1.3.1 Nhu cầu đời sống 1.3.2 Lợi ích cho doanh nghiệp 1.4 ĐỐI TƯỢNG NGHIÊN CỨU 1.5 KẾT QUẢ MONG ĐỢI CHƯƠNG 2: BÀI BÁO LIÊN QUAN 2.1 TRONG NƯỚC 2.2 NGOÀI NƯỚC 2.3 TRONG VÀ NGOÀI NƯỚC 10 CHƯƠNG 3: MƠ HÌNH THỰC NGHIỆM 12 3.1 QUI TRÌNH GOM CỤM DỮ LIỆU 12 3.2 THU THẬP DỮ LIỆU 12 3.3 MƠ HÌNH THUẬT TỐN K-MEANS 14 3.3.1 Ý tưởng 14 III 3.3.2 Mơ hình thuật tốn 15 3.3.3 Thuật toán 15 3.4 Công thức toán học 16 3.5 THỰC NGHIỆM VỚI DỮ LIỆU MẪU 17 3.6 ỨNG DỤNG 20 3.7 ĐÁNH GIÁ KẾT QUẢ 40 CHƯƠNG 4: KẾT LUẬN 42 4.1 NHỮNG KIẾN THỨC ĐÃ TIẾP THU TỪ MÔN HỌC 42 4.2 HƯỚNG PHÁT TRIỂN 42 IV DANH MỤC BẢNG Bảng 2.1 Tập liệu báo nước Bảng 3.1 Thông tin khách hàng khu trung tâm mua sắm thu thập từ thi KAGGLE 13 Bảng 3.2 Bảng thực nghiệm với dòng từ liệu gốc chưa chuẩn hóa 17 Bảng 3.3 Vịng lặp thứ tính khoảng cách 18 Bảng 3.4 Vòng lặp phân cụm 18 Bảng 3.5 Vòng lặp thứ tính khoảng cách 19 Bảng 3.6 Vòng lặp phân cụm 19 Bảng 3.7 Vịng lặp thứ tính khoảng cách 20 Bảng 3.8 Vòng lặp phân cụm 20 Bảng 3.9 Tập liệu phân cụm 40 Bảng 3.10 Bảng so sánh thuật toán 40 V DANH MỤC HÌNH Hình 1.1 Phương pháp gom cụm liệu Hình 2.1 Bài báo nước phân cụm khách hàng Hình 2.2 Bài báo nước phân cụm khách hàng Hình 2.3 Bảng liệu báo nước Hình 2.4 Tìm số k cụm Elbow báo Hình 2.5 Tìm số k cụm hệ số Silhouette báo Hình 2.6 Bài báo cộng sinh phân cụm khách hàng 10 Hình 2.7 Kết phân cụm báo 11 Hình 3.1 Gom cụm liệu 12 Hình 3.2: Flow chart giải thuật K-means 15 Hình 3.3 bảng liệu 21 Hình 3.4 So sánh tỉ lệ (Male)nam , Female(nữ) thuộc tính Gender 22 Hình 3.5 Thông tin Age, Annual Income (k$), Spending Score (1-100) 22 Hình 3.6 Hệ số tương quan 23 Hình 3.7 Số liệu thống kê 24 Hình 3.8 Số liệu thống kê 24 Hình 3.9 Sự phân bố liệu thuộc tính 25 Hình 3.10 Mối quan hệ Age, Annual Income (k$), Spending Score (1-100) 26 Hình 3.11 Độ xác thuật toán K-means với cụm 27 Hình 3.12 Tìm k cụm với phương pháp Elbow 29 Hình 3.13 Số cluster tâm cụm 30 Hình 3.14 Tìm k cụm với phương pháp Silhouette Coefficient 31 Hình 3.15 Độ xác thuật tốn cụm 31 Hình 3.16 Biểu diễn liệu phân cụm với k = 33 Hình 3.17 Phân bố liệu gom cụm 34 Hình 3.18 Danh sách điểm liệu mang thuộc tính CustomerID 35 Hình 3.19 Dự đốn số cụm thuộc dựa input 36 Hình 3.20 Tìm k với thư viện yellowbrick sử dụng phương pháp elbow .37 VI Hình 3.21 Cây phân cấp tập liệu với số 38 Hình 3.22 Mơ hình so sánh liệu với thuật toán khác 39 VII