Phân tích và dự báo bộ dữ liệu banking marketing

lOMoARcPSD|18034504 Đại học Kinh Tế TP.HCM KHOA QUẢN TRỊ ⁂⁂⁂ BỘ MƠN KHOA HỌC DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH VÀ DỰ BÁO BỘ DỮ LIỆU “BANKING MARKETING” Giảng viên hướng dẫn: Trương Việt Phương Sinh viên thực hiện: Huỳnh Bá Thắng Lớp: KHDL_S2 TP.HCM - Năm 2021 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 LỜI CẢM ƠN Để hoàn thành tiểu luận này, em xin gửi lời cảm ơn chân thành đến: Giảng viên môn Khoa học liệu - Thầy Trương Việt Phương giảng dạy tận tình, chi tiết để em có đủ kiến thức vận dụng chúng vào tiểu luận Ban giám hiệu trường Đại học Kinh Tế Thành phố Hồ Chí Minh tạo điều kiện sở vật chất với hệ thống thư viện đại, đa dạng loại sách, tài liệu thuận lợi cho việc tìm kiếm, nghiên cứu thơng tin Do chưa có nhiều kinh nghiệm làm để tài hạn chế kiến thức, tiểu luận chắn không tránh khỏi thiếu sót Rất mong nhận nhận xét, ý kiến đóng góp, phê bình từ phía thầy để tiểu luận hoàn thiện Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành công hạnh phúc Huỳnh Bá Thắng Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 MỤC LỤC CHƯƠNG I: MỞ ĐẦU 1.1 Chọn liệu: 1.2 Mô tả liệu: 1.2.1 Biến đầu vào (Input Variables): 1.2.2 Biến đầu (Output Variable): .6 1.3 Mục tiêu phân tích: .6 CHƯƠNG II: NỘI DUNG 2.1 Tiền xử lý liệu: 2.1.1 “Role” thuộc tính: 2.1.2 “Missing Value” liệu: 2.2 Khai thác liệu: .10 2.2.1 Phân cụm liệu: .10 2.2.2 Trích xuất liệu: .15 2.2.3 Phân lớp liệu: .17 2.2.4 Dự báo: .21 TÀI LIỆU THAM KHẢO .22 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG I: MỞ ĐẦU 1.1 Chọn liệu: Dữ liệu “ Banking Marketing “ liên quan đến chiến dịch tiếp thị trực tiếp tổ chức ngân hàng Bồ Đào Nha Các chiến dịch tiếp thị tính tốn dựa gọi điện thoại thực Thông thường, với khách hàng có nhiều liên hệ, để truy cập tìm hiểu xem họ có đăng ký (‘yes’) hay khơng đăng ký (‘no’) sản phẩm ngân hàng hay không – sản phẩm việc đăng ký sách tiền gửi có kỳ hạn 1.2 Mơ tả liệu: 1.2.1 Biến đầu vào (Input Variables): 1.2.1.1 Thuộc tính liệu khách hàng (Bank Client Data): a) Độ tuổi (Age): - Được định dạng “Numeric” - Thuộc tính nhằm xác định độ tuổi đối tượng thực khảo sát b) Nghề nghiệp (Job): - Được định dạng “Categorical” - Thuộc tính nhằm xác định nghề nghiệp đối tượng thực khảo sát Trong đó, loại nghề nghiệp bao gồm:  Quản trị viên (Admin)  Dịch vụ (Services)  Công nhân phổ thông  Học sinh (Student) (Blue-collar)  Kỹ thuật viên   (Technician) Chủ doanh nghiệp (Entrepreneur)  Đã nghỉ hưu (Retired) Người giúp việc nhà  Thất nghiệp (Unemployed) (Housemaid)  Nhà quản lý  (Management)  Chưa xác định (Unknown) Tự (Self-employed) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 c) Tình trạng nhân (Marital): - Được định dạng “Categorical” - Thuộc tính nhằm xác định tình trạng nhân đối tượng thực khảo sát Trong đó, loại tình trạng bao gồm:  Đã kết hôn (Married)  Đã ly hôn (Divorced)  Độc thân (Single) d) Trình độ văn hóa (Education): - Được định dạng “Categorical” - Thuộc tính nhằm xác định trình độ văn hóa đối tượng thực khảo sát Trong đó, trình độ bao gồm:   năm tiểu học  Thất học (Illiterate) (Basic.4y)  Đào tạo nghiệp vụ (Professional Course) năm tiểu học (Basic.6y)   (University Degree) Tốt nghiệp Trung học sở (Basic.9y)  Tốt nghiệp đại học  Chưa xác định (Unknown) Tốt ngiệp Trung học phổ thơng (High school) e) Tình trạng tín dụng bị vỡ nợ (Default): - Được định dạng “Categorical” - Thuộc tính nhằm xác định tình trạng tín dụng có bị vỡ nợ hay khơng đối tượng thực khảo sát Trong đó, tình trạng bao gồm:  Có (Yes)  Khơng (No)  Chưa xác định (Unknown) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 f) Tình trạng nhà (Housing): - Được định dạng “Categorical” - Thuộc tính nhằm xác tình trạng có khoản vay nhà hay không đối tượng thực khảo sát Trong đó, tình trạng bao gồm:  Có (Yes)  Khơng (No)  Chưa xác định (Unknown) g) Tình trạng vay nợ (Loan): - Được định dạng “Categorical” - Thuộc tính nhằm xác tình trạng có vay nợ hay khơng đối tượng thực khảo sát Trong đó, tình trạng bao gồm:  Có (Yes)  Khơng (No)  Chưa xác định (Unknown) 1.2.1.2 Thuộc tính liên quan đến lần liên lạc gần chiến dịch tại: a) Liên lạc (Contact): - Được định dạng “Categorical” - Thuộc tính nhằm xác hình thức liên lạc với đối tượng thực khảo sát Trong đó, hình thức bao gồm:  Điện thoại di động (Cellular)  Điện thoại dây (Telephone) b) Tháng liên lạc (Month): - Được định dạng “Categorical” - Thuộc tính nhằm xác định tháng liên lạc gần năm đối tượng thực khảo sát Trong đó, tháng bao gồm:  Tháng (Jan)  Tháng (Jun)  Tháng (Feb)  Tháng (Jul)  Tháng (Mar)  Tháng (Aug)  Tháng (Apr)  Tháng (Sep)  Tháng (May)  Tháng 10 (Oct) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504  Tháng 11 (Nov)  Tháng 12 (Dec) c) Thứ tuần (Day of Week): - Được định dạng “Categorical” - Thuộc tính nhằm xác định thứ liên lạc gần tuần đối tượng thực khảo sát Trong đó, thứ bao gồm:  Thứ Hai (Mon)  Thứ năm (Thu)  Thứ Ba (Tue)  Thứ sáu (Fri)  Thứ tư (Wed) d) Khoảng thời gian (Duration): - Được định dạng “Numeric” - Thuộc tính nhằm xác định khoảng thời gian liên lạc gần đối tượng thực khảo sát  Đơn vị khoảng thời gian: Giây (s)  Thuộc tính ảnh hưởng nhiều đến biến đầu ( Nếu ‘Duration’ mang giá trị biến đầu ‘y’=0) Khi gọi thực xong, ‘y’ xác định  Thuộc tính nên đưa vào cho mục đích kiểm chuẩn Cịn cho mục đích dự đốn thực tế thuộc tính nên loại bỏ 1.2.1.3 Các thuộc tính khác (Other Attributes): a) Chiến dịch (Campaign): - Được định dạng “Numeric” - Thuộc tính nhằm xác định số liên hệ thực chiến dịch đối tượng thực khảo sát b) Số ngày chờ (Pdays): - Được định dạng “Numeric” - Thuộc tính nhằm xác định số ngày trôi qua kể từ lần liên hệ cuối thực chiến dịch trước đối tượng thực khảo sát Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504  Nếu thuộc tính cho giá trị 999 nghĩa đối tượng chưa liên hệ trước c) Số liên hệ (Previous): - Được định dạng “Numeric” - Thuộc tính nhằm xác định số liên hệ thực trước chiến đối tượng thực khảo sát d) Kết chiến dịch (Poutcome): - Được định dạng “Categorical” - Thuộc tính nhằm xác định kết chiến dịch tiếp thị trước đối tượng thực khảo sát Các kết bao gồm:  Thành công (Success)  Thất bại (Failure)  Khơng tồn (Nonexistent) 1.2.1.4 Thuộc tính bối cảnh kinh tế, xã hội (Social and Economic Context Attributes): a) Tỷ lệ thay đổi việc làm (Emp.var.rate): - Được định dạng “Numeric”, giá trị báo hàng quý - Thuộc tính nhằm xác định tỷ lệ thay đổi việc làm đối tượng thực khảo sát b) Chỉ số giá tiêu dùng (Cons.price.idx): - Được định dạng “Numeric”, giá trị báo hàng tháng - Thuộc tính nhằm xác định số giá tiêu dùng đối tượng thực khảo sát c) Chỉ số niềm tin người tiêu dùng (Cons.conf.idx): - Được định dạng “Numeric”, giá trị báo hàng tháng - Thuộc tính nhằm xác định số niềm tin tiêu dùng đối tượng thực khảo sát Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 d) Lãi suất tháng Euribor (Euribor3m): - Được định dạng “Numeric”, giá trị báo hàng ngày - Thuộc tính nhằm xác định lãi suất tháng Euribor đối tượng thực khảo sát e) Số lượng nhân công (Nr.employed): - Được định dạng “Numeric”, giá trị báo hàng quý - Thuộc tính nhằm xác định số lượng nhân công đối tượng thực khảo sát 1.2.2 Biến đầu (Output Variable): - Biến ‘y’: Khách hàng có định đăng ký gửi tiền lãi có kỳ hạn hay khơng? 1.3 Nhị phân: ‘Yes’, ‘No’ Mục tiêu phân tích: Từ liệu “Banking Marketing” ban đầu, ta tiến hành dự đoán phân loại xem liệu khách hàng đăng ký (‘yes’) hay không đăng ký (‘no’) gửi tiền lãi có kỳ hạn CHƯƠNG II: NỘI DUNG 2.1 Tiền xử lý liệu: 2.1.1 “Role” thuộc tính: Từ liệu “Banking Marketing” ban đầu, ta có “Type” “Role” 21 thuộc tính sau (Hình 2.1.1.a,b): Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 2.1.1.b: Type vàcủa Rolecác thuộc Hình Hình 2.1.1.a: Type Role thuộc tính tính Đến đây, ta thực trình xử lý cách điều chỉnh thuộc tính sang “Type” “Role” cho hợp lý Cụ thể:  Vì ta thực xử lý liệu nhằm mục đích dự báo cho biến đầu y, ta chuyển “Role” thuộc tính y từ Feature => Target  Những thuộc tính duration, campaign, pdays, previous khơng có yếu tố ảnh hưởng đến việc dự báo kết đầu y = có đồng ý đăng ký gửi tiền lãi có kỳ hạn hay khơng, thuộc tính ta chuyển “Role” chúng từ Feature => Skip  Đối với thuộc tính có “Type” Categorical contact, month, day of week ta không cần phải chuyển đổi “Role” chúng từ Feature => Skip Bởi lẽ, tiến hành phân cụm phân cấp, thuộc tính Numeric sử dụng để tính khoảng cách cụm Kết ta thu được: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 2.1.2.b: Qúa trình thực Preprocess Để xử lý mẫu có “Missing Value”, ta tiến hành thực Preprocess, chọn Impute Missing Values, sau chọn Average/Most frequent nhằm mục đích điền mẫu giá trị trung bình giá trị có tần số xuất thường xuyên Sau thực hiện, ta có kết sau: Hình 2.1.2.c: Kết tiền xử lý liệu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Kết thu ta tiến hành lưu giữ định dạng Excel, để từ ta tiếp tục lấy liệu kết tiến hành phân cụm phân lớp 2.2 Khai thác liệu: 2.2.1 Phân cụm liệu: Sau xử lý xong định dạng excel, ta tiếp tục phân cụm liệu từ liệu tiền xử lý trước đó, cụ thể: Hình 2.2.1.a: Chuỗi thực trình phân cụm Orange 2.2.1.1 Phân cụm phân cấp (Hierarchical Clustering): Ta tiến hành phân cụm phân cấp dựa vào thuật tốn Hierarchical Clustering Sau chạy liệu, ta có: 10 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 2.2.1.b: Kết phân cụm phân cấp Orange Ở đây, tính liên kết đối tượng (Linkage), ta sử dụng phương pháp tính tốn khoảng cách trung bình (Average) Kết cho thấy ta nên chia toàn mẫu liệu làm phân cụm 11 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 2.2.1.c,d,e: Bảng Silhouette Plot cho phân cụm phân cấp Nguyên tắc: Gía trị Silhouette nằm khoảng từ -1 đến 1, giá trị lớn (tức gần 1) kết phân cụm tốt (càng đáng tin cậy) Ở ta thấy phân cụm, với cụm (màu xanh) giá trị Silhouette mẫu nằm khoảng từ 0,65 0,85 Còn 12 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 cụm thứ (màu đỏ) giá trị chạy khoảng từ 0,45 0,75 Những khoảng nằm khoảng dương dần gần giá trị 1, kết phân cụm đáng tin cậy 2.2.1.2 Phân cụm phân hoạch (Partitioning Clustering): Ta tiến hành phân cụm phân hoạch dựa vào thuật toán K-means Sau chạy liệu, ta có: Hình 2.2.1.f: Phân tích k-Means cho liệu Trong thuật tốn k-Means, ta phân tích thử xem với liệu ta nên lựa chọn phân làm cụm hợp lý Và để đánh giá xem phương án tối ưu ta dựa vào giá trị Silhouette Cụ thể, ta thấy ta phân liệu làm 2,3,4,5,6,7 cụm giá trị Silhouette trung bình phân cụm 0,296 , 0,154 , 0,161 , 0,171 , 0,171 0,181 Gía trị Silhouette trung bình lớn phương án phân cụm đáng tin cậy  Vì ta lựa chọn phương án phân làm cụm Đồng thời phân tích kỹ giá trị Silhouette cụm phương án chia cụm này, ta có: 13 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 2.2.1.g,h,i: Bảng Silhouette Plot cho phân cụm phân hoạch 14 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Ở ta thấy phân cụm, với cụm (màu xanh) giá trị Silhouette mẫu nằm khoảng từ 0,7 0,85 Còn cụm thứ (màu đỏ) giá trị chạy khoảng từ 0,45 0,7 Những khoảng nằm khoảng dương (trừ cụm thứ có mẫu có giá trị âm) dần gần giá trị 1, kết phân cụm đáng tin cậy Đồng thời, tham khảo dựa kinh nghiệm tác giả tài liệu “Data mining and Predictive analytics” nhà xuất Wiley:  Nếu điểm trung bình Silhouette từ 0,5 trở lên chứng tỏ cụm phân sát với thực tế  Nếu điểm trung bình Silhouette từ 0,25 đến 0,5 chứng tỏ cần thêm kiến thức chuyên môn, kinh nghiệm để dánh giá thêm khả phân cụm có thực tế  Nếu điểm trung bình Silhouette 0,25 khơng nên tin tưởng cụm cần phải tìm nhiều chứng khác  Khi phân tích đến đây, thấy người thực liệu cần phải có thêm nhiều chuyên môn kinh nghiệm để giúp cho chất lượng liệu bảo đảm, có độ tin cậy thực tế cao 2.2.2 Trích xuất liệu: Sau tiến hành phân cụm, ta bắt đầu tiến hành trích xuất liệu bảng định dạng excel để tiến hành phân lớp Với đối tượng phân cụm dựa phương pháp phân cấp phân hoạch này, ta sử dụng công thức Euclidean để tính tốn khoảng cách điểm gần trung tâm Vì trích xuất liệu bảng Data Table, ta đưa đầu vào phân cụm vào để chạy kết quả, cụ thể ta có: 15 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 2.2.2.a: Trích xuất liệu phân cụm Sau lưu định dạng excel để ta tiến hành chọn cụm, tiếp tục tiến Hình 2.2.2.b: Bảng liệu excel phân cụm hành thực phân lớp liệu cụm đó, cụ thể ta lựa chọn cụm 16 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 2.2.3 Phân lớp liệu: Sau tiến hành trích xuất liệu làm cụm C1 C2, ta sử dụng liệu mẫu C2 để tiến hành bắt đầu phân lớp liệu Hình 2.2.3.a: Chuỗi trình thực phân lớp Orange Ở ta thực trình phân lớp dựa phương pháp: Logistic Regression, SVM Tree Chúng ta đánh giá xem phương pháp này, đâu phương pháp tốt để phân lớp liệu việc thông qua Text and Score Ta có bảng sau đây: 17 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 2.2.3.b: Bảng đánh giá Text and Score Ở ta chia nhỏ liệu làm phần (Number of folds: 5) để tiến hành kiểm tra a) Chỉ số AUC: - Nguyên tắc: Gía trị số dương ≤ Nếu giá trị lớn mơ hình phân lớp tốt - Ta thấy số AUC phương pháp Logistic Regression, SVM Tree 0,776; 0,685 0,609 b) Chỉ số CA: - Chỉ số CA thể tỷ lệ số mẫu phân lớp toàn tập liệu - Nguyên tắc: Gía trị số dương ≤1 Nếu giá trị lớn mơ hình phân lớp tốt 18 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Ta thấy số CA phương pháp Logistic Regression, SVM Tree 0,789; 0,738 0,754 c) Chỉ số Precision: - Chỉ số độ xác (Precision) cho biết số m mẫu phân vào lớp i (ở trường hợp lớp) có tỷ lệ mẫu có - Ta thấy số Precision phương pháp Logistic Regression, SVM Tree 0,765; 0,727 0,746 d) Chỉ số Recall: - Chỉ số độ phủ (Recall) hay gọi độ nhạy (Sensitivity) TPR (True Positive Rate) - Ta thấy số Recall phương pháp Logistic Regression, SVM Tree 0,789; 0,738 0,754 e) Chỉ số F1: - Là số giá trị trung bình điều hịa độ đo Precision Recall - Ta thấy số F1 phương pháp Logistic Regression, SVM Tree 0,764; 0,732 0,749  Chỉ số F1 thường sử dụng cho phân lớp đa lớp phân lớp đa nhãn  Các số Precision Recall thường sử dụng cho phân lớp nhị phân f) Ma trận nhầm lẫn (Confusion Matrix): Ở ta xem xét xác suất dự đốn xác với thực tế phương pháp Logistic Regression, SVM Tree Nếu phương pháp có xác suất phần tram dự đốn xác với thực tế (No-No; Yes-Yes) lớn phương án tối ưu Ta có: 19 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 2.2.3.c,d,e: Ma trận nhầm lẫn phương pháp Logistic Regression, SVM Tree 20 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504  Kết luận: Qua việc phân tích số Text and Score, đồng thời dựa vào ma trận nhầm lẫn (Confusion Matrix), ta rút phương pháp Logistic Regression phương pháp tối ưu 2.2.4 Dự báo: 2.2.4.1 Trích liệu dự báo: Từ liệu Clustering 2, ta tiến hành lấy 10% liệu từ liệu phân lớp để thực dự báo (như hình 2.2.3.a) Ta có file Forecast Data 2.2.4.2 Tiến hành dự báo: Bằng việc đánh giá phương pháp trên, ta sử dụng phương pháp Logistic Regression để tiến hành dự báo liệu (Forecast Data) Ta có kết sau: Hình 2.2.4.a: Kết dự báo liệu 21 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 TÀI LIỆU Hình 2.2.4.b: Kết chạy excel THAM KHẢO Daniel T Larose (March 2015) Data Mining and Predictive Analytics (2rd edition), James, G., Witten, D., Hastie, T., & Tibshirani, R (2013) An introduction to statistical learning (Vol 112) New York: Springer Kaufman, L., & Rousseeuw, P J (1990) Partitioning around medoids (program pam) Finding groups in data: an introduction to cluster analysis, 68-125 22 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Tibshirani, R., Walther, G., & Hastie, T (2001) Estimating the number of clusters in a data set via the gap statistic Journal of the Royal Statistical Society: Series B (Statistical Methodology), 63(2), 411-423 S Moro, P Cortez and P Rita (June 2014) A Data-Driven Approach to Predict the Success of Bank Telemarketing 23 Downloaded by vu ga (vuchinhhp2@gmail.com) ... 1, kết phân cụm đáng tin cậy 2.2.1.2 Phân cụm phân hoạch (Partitioning Clustering): Ta tiến hành phân cụm phân hoạch dựa vào thuật toán K-means Sau chạy liệu, ta có: Hình 2.2.1.f: Phân tích k-Means... cho liệu Trong thuật tốn k-Means, ta phân tích thử xem với liệu ta nên lựa chọn phân làm cụm hợp lý Và để đánh giá xem phương án tối ưu ta dựa vào giá trị Silhouette Cụ thể, ta thấy ta phân liệu. .. việc phân tích số Text and Score, đồng thời dựa vào ma trận nhầm lẫn (Confusion Matrix), ta rút phương pháp Logistic Regression phương pháp tối ưu 2.2.4 Dự báo: 2.2.4.1 Trích liệu dự báo: Từ liệu

Định dạng
Số trang	26
Dung lượng	1,9 MB