Untitled BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH BỘ MÔN KHOA HỌC DỮ LIỆU Đồ án SỬ DỤNG PHẦN MỀM ORGANCE DỰ ĐOÁN TỶ LỆ THÀNH CÔNG TRONG VIỆC TIẾP THỊ QUA ĐIỆN THOẠI THÔNG QUA VIỆC ĐĂNG KÝ TIỀN GỬI NGÂN[.]
lOMoARcPSD|9242611 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH BỘ MÔN KHOA HỌC DỮ LIỆU - - Đồ án SỬ DỤNG PHẦN MỀM ORGANCE DỰ ĐOÁN TỶ LỆ THÀNH CÔNG TRONG VIỆC TIẾP THỊ QUA ĐIỆN THOẠI THÔNG QUA VIỆC ĐĂNG KÝ TIỀN GỬI NGÂN HÀNG CÓ KỲ HẠN - GV hướng dẫn: Đặng Ngọc Hoàng Thành - SV thực hiện: + Lâm Thị Tú Quyên – 31211026755 + TP Hồ Chí Minh, ngày 12 tháng 03 năm 2022 lOMoARcPSD|9242611 MỤC LỤC A CHỌN BỘ DỮ LIỆU B TIỀN XỬ LÝ DỮ LIỆU Mô tả liệu Làm liệu C KHAI THÁC DỮ LIỆU Phân cụm liệu 7 1.1 Giới thiệu phân cụm liệu 1.2 Phân cụm phân cấp (Hierarchical Clustering) phương pháp Diana 1.2.1 Khái niệm 1.2.2 Phân cụm phân cấp phương pháp Diana kết 1.3 Phân cụm phân hoạch thuật toán K-means 1.3.1 Khái niệm 1.3.2 Phân cụm phân hoạch thuật toán K-means kết 1.4 Đánh giá mơ hình phân cụm, chọn mơ hình phân cụm tối ưu 10 1.4.1 Đánh giá (external validation) 10 1.4.2 Nhận xét, chọn mơ hình phân cụm tối ưu 11 Phân lớp liệu 11 2.1 Giới thiệu phân lớp liệu 11 2.2 Xây dựng mô hình phân lớp, đánh giá mơ hình phân lớp liệu 11 2.2.1 Một số phương pháp phân lớp 11 2.2.2 Xây dựng mơ hình phân lớp, kiểm tra mơ hình phân lớp liệu 12 2.2.3 Đánh giá nhận xét 14 D KẾT LUẬN Đóng góp thực tiễn dự án 14 14 1.1 Phân tích đặc điểm nhóm khách hàng , dự đốn khả thành cơng 14 1.2 Dự đoán kết hoạt động tiếp thị Hạn chế TÀI LIỆU THAM KHẢO & PHỤ LỤC 16 16 17 lOMoARcPSD|9242611 DANH MỤC BẢNG BIỂU Bảng 1: Bảng kết so sánh phân cụm phương pháp Diana với nhãn liệu 10 Bảng 2: Bảng kết so sánh phân cụm thuật toán K-means với nhãn liệu 10 Bảng 3: Bảng ma trận nhầm lẫn kết gắn nhãn liệu – 500 mẫu 14 Bảng 4: Bảng khác đặc điểm cụm 15 lOMoARcPSD|9242611 A CHỌN BỘ DỮ LIỆU Bộ liệu sử dụng: Bộ liệu “Bank Marketing” – nguồn: [Moro et al., 2014] S Moro, P Cortez and P Rita Bộ liệu kết thu từ chiến dịch marketing ngân hàng lớn Bồ Đào Nha, họ thu thập tính tốn đưa kết gọi điện thoại thực Khảo sát thực với mục tiêu tìm hiểu xem mong muốn khách hàng Thơng qua phương án: có đăng ký (yes) hay khơng có đăng ký (no) sản phẩm ngân hàng Và sản phẩm nêu đến đăng kí gửi tiền có kỳ hạn * Giải vấn đề số mẫu lớn - Do kích thước liệu “Bank Marketing” q lớn (41188 mẫu), khơng phân cụm được, nhóm định chọn 5000 mẫu để sử dụng cho dự án - Vì sau cho máy học để phân lớp cần liệu để đánh giá hiệu mơ hình, nên nhóm định trích 500 mẫu khơng trùng với 5000 mẫu dùng cho dự án Như vậy, nhóm trích ngẫu nhiên 5000 mẫu từ liệu lớn “Bank Marketing” (41188 mẫu) chọn 5000 mẫu để dùng cho dự án 500 mẫu phía sau để dùng thực hành phân lớp Cách chọn mẫu ngẫu nhiên: Dùng phần mềm Orange để chọn mẫu ngẫu nhiên: - File input: Bộ liệu “Bank Marketing” (41188 mẫu) Data Sampler: Chọn số lượng chọn mẫu ngẫu nhiên 5500 Ở Data table chọn 5000 mẫu đầu cho bảng liệu dùng cho dự án 500 mẫu sau cho liệu dùng để phân lớp lOMoARcPSD|9242611 B TIỀN XỬ LÝ DỮ LIỆU Mô tả liệu Bộ liệu có 5000 mẫu Bộ liệu bao gồm 15 biến biến mục tiêu: Age tuổi (biến định lượng) Job nghề nghiệp khách hàng (biến định tính – admin: quản trị viên, blue collar: lao động phổ thông, entrepreneur: doanh nhân, housemaid: người giúp việc, management: nhà quản lý, retired: người hưu, self-employed: lao động tự do, services: dịch vụ, student: học sinh, technician: kỹ thuật viên, unemployed: thất nghiệp, unknown: chưa biết) Marital tình trạng nhân (biến định tính – divorced: ly hơn, married: kết hôn, single: độc thân, unknown: chưa biết) Education trình độ học vấn (biến định tính – basic.4y: năm tiểu học, basic.6y: năm tiểu học, basic.9y: Trung học sở, high.school: Trung học phổ thông, illiterate: không học, professional.course: học nghề, university.degree: bậc đại học, unknown: chưa biết) Default có tín dụng tình trạng nợ khơng (biến định tính – yes: có, no: khơng, unknown: chưa biết) Housing có khoản vay mua nhà khơng (biến định tính – yes: có, no: khơng, unknown: chưa biết) Loan có khoản vay cá nhân khơng? (biến định tính – yes: có, no: khơng, unknown: chưa biết) Contact hình thức liên lạc (biến định tính – cellular: điện thoại di động, telephone: điện thoại để bàn) Month tháng liên lạc cuối năm (biến định tính – jan, feb, mar, apr, may, jun, jul, aug, sep, oct, nov, dec) 10 Day of week ngày liên lạc cuối tuần (biến định tính – mon: thứ 2, tue: thứ 3, wed: thứ 4, thu: thứ 5, fri: thứ 6) 11 Duration thời lượng liên lạc cuối (đơn vị: giây) (biến định lượng) 12 Campaign số lần liên lạc thực khách hàng chiến dịch (biến định lượng) 13 Pdays số ngày kể từ khách hàng liên hệ lần cuối đến lúc thực chiến dịch (biến định lượng) lOMoARcPSD|9242611 14 Previous số lần liên lạc thực khách hàng trước chiến dịch (biến định lượng) 15 Poutcome kết chiến dịch tiếp thị trước (biến định tính – failure: thất bại, nonexistent: không tồn tại, success: thành công) 16 Subscribed khách hàng đăng ký tiền gửi có kỳ hạn chưa (BIẾN MỤC TIÊU) (biến định tính – yes: có, no: khơng) Làm liệu Dữ liệu khơng có liệu bị thiếu (no missing data) C KHAI THÁC DỮ LIỆU Phân cụm liệu 1.1 Giới thiệu phân cụm liệu Phân cụm liệu q trình gom cụm nhóm đối tượng hay liệu có đặc điểm tương đồng vào cụm/nhóm tương ứng Trong đó: - Các đối tượng cụm có tính chất tương tự Các đối tượng thuộc cụm nhóm khác có tính chất khác 1.2 Phân cụm phân cấp (Hierarchical Clustering) phương pháp Diana 1.2.1 Khái niệm a) Phân cụm phân cấp (Hierarchical clustering) Xây dựng phân cấp cho liệu cần gom cụm dựa trên: - Ma trận khoảng cách phần tử (similarity matrix dissimilarity matrix) • Similarity matrix số đo mức độ giống hai đối tượng • Dissimilarity matrix số đo mức độ khác hai đối tượng lOMoARcPSD|9242611 - Độ đo khoảng cách cụm (single link, complete link…) Phương pháp không cần xác định trước số cụm cần xác định điều kiện dừng Các phương pháp điển hình: Agnes, Diana… b) Phương pháp phân cụm phân cấp Diana Theo chiến lược top down: - Bắt đầu với cụm gồm tất phần tử Ở bước, chia cụm ban đầu thành cụm: khoảng cách cụm khoảng cách điểm gần từ hai cụm, khoảng cách trung bình Thực đệ quy cụm tách lặp lại phần tử cụm Kết phát sinh phân cấp (dendrogram) 1.2.2 Phân cụm phân cấp phương pháp Diana kết a) Dùng phần mềm Orange để phân cụm phân cấp phương pháp Diana chọn số cụm tốt nhất: - File input: Bộ liệu sử dụng cho dự án bỏ qua (skip) biến mục tiêu subcribed - Distances: Sử dụng độ đo khoảng cách Euclidean (Euclid=Minkowski (với n=2)) Hierarchical Clustering: Sử dụng phương pháp tính khoảng cách Single-link chia làm cụm để số Sihouette Cluster dương nhiều b) Kết lOMoARcPSD|9242611 Số cụm tốt (vì chia làm cụm để số Sihouette Cluster dương nhiều nhất) Phân cụm liệu dự án (5000 mẫu) thành cụm gồm C1 (195 mẫu) C2 (4805 mẫu) 1.3 Phân cụm phân hoạch thuật toán K-means 1.3.1 Khái niệm a) Phân cụm phân hoạch Phân tập liệu có n phần tử cho trước thành k tập (k