1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING

29 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 1,82 MB

Nội dung

Đại học Kinh Tế TP.HCM KHOA QUẢN TRỊ ⁂⁂⁂ BỘ MƠN KHOA HỌC DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH VÀ DỰ BÁO BỘ DỮ LIỆU “BANKING MARKETING” Giảng viên hướng dẫn: Trương Việt Phương Sinh viên thực hiện: Lớp: KHDL_S2 TP.HCM - Năm 2021 LỜI CẢM ƠN Để hoàn thành tiểu luận này, em xin gửi lời cảm ơn chân thành đến: Giảng viên môn Khoa học liệu - Thầy Trương Việt Phương giảng dạy tận tình, chi tiết để em có đủ kiến thức vận dụng chúng vào tiểu luận Ban giám hiệu trường Đại học Kinh Tế Thành phố Hồ Chí Minh tạo điều kiện sở vật chất với hệ thống thư viện đại, đa dạng loại sách, tài liệu thuận lợi cho việc tìm kiếm, nghiên cứu thơng tin Do chưa có nhiều kinh nghiệm làm để tài hạn chế kiến thức, tiểu luận chắn không tránh khỏi thiếu sót Rất mong nhận nhận xét, ý kiến đóng góp, phê bình từ phía thầy để tiểu luận hoàn thiện Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành công hạnh phúc MỤC LỤC CHƯƠNG I: MỞ ĐẦU 1.1 Chọn liệu: Dữ liệu “ Banking Marketing “ liên quan đến chiến dịch tiếp thị trực tiếp tổ chức ngân hàng Bồ Đào Nha Các chiến dịch tiếp thị tính tốn dựa gọi điện thoại thực Thơng thường, với khách hàng có nhiều liên hệ, để truy cập tìm hiểu xem họ có đăng ký (‘yes’) hay khơng đăng ký (‘no’) sản phẩm ngân hàng hay không – sản phẩm việc đăng ký sách tiền gửi có kỳ hạn 1.2 Mơ tả liệu: 1.2.1 Biến đầu vào (Input Variables): 1.2.1.1 Thuộc tính liệu khách hàng (Bank Client Data): a) Độ tuổi (Age): - Được định dạng “Numeric” - Thuộc tính nhằm xác định độ tuổi đối tượng thực khảo sát b) Nghề nghiệp (Job): - Được định dạng “Categorical” - Thuộc tính nhằm xác định nghề nghiệp đối tượng thực khảo sát Trong đó, loại nghề nghiệp bao gồm: • • Quản trị viên (Admin) Công nhân phổ thông • (Blue-collar) Chủ doanh nghiệp • (Entrepreneur) Người giúp việc nhà • (Housemaid) Nhà quản lý • (Management) Tự (Self-employed) • • • Dịch vụ (Services) Học sinh (Student) Kỹ thuật viên • • (Technician) Đã nghỉ hưu (Retired) Thất nghiệp • (Unemployed) Chưa xác định (Unknown) c) Tình trạng nhân (Marital): - Được định dạng “Categorical” - Thuộc tính nhằm xác định tình trạng nhân đối tượng thực khảo sát Trong đó, loại tình trạng bao gồm: • Đã kết (Married) • Đã ly (Divorced) • Độc thân (Single) d) Trình độ văn hóa (Education): - Được định dạng “Categorical” - Thuộc tính nhằm xác định trình độ văn hóa đối tượng thực khảo sát Trong đó, trình độ bao gồm: • năm tiểu học • (Basic.4y) năm tiểu học • • (Basic.6y) Tốt nghiệp Trung học sở (Basic.9y) Tốt ngiệp Trung học phổ thông (High school) • • Thất học (Illiterate) Đào tạo nghiệp vụ • (Professional Course) Tốt nghiệp đại học • (University Degree) Chưa xác định (Unknown) e) Tình trạng tín dụng bị vỡ nợ (Default): - Được định dạng “Categorical” - Thuộc tính nhằm xác định tình trạng tín dụng có bị vỡ nợ hay không đối tượng thực khảo sát Trong đó, tình trạng bao gồm: • • • f) Có (Yes) Khơng (No) Chưa xác định (Unknown) Tình trạng nhà (Housing): - Được định dạng “Categorical” - Thuộc tính nhằm xác tình trạng có khoản vay nhà hay khơng đối tượng thực khảo sát Trong đó, tình trạng bao gồm: • Có (Yes) • Khơng (No) • Chưa xác định (Unknown) g) Tình trạng vay nợ (Loan): - Được định dạng “Categorical” - Thuộc tính nhằm xác tình trạng có vay nợ hay khơng đối tượng thực khảo sát Trong đó, tình trạng bao gồm: • Có (Yes) • Khơng (No) • Chưa xác định (Unknown) 1.2.1.2 Thuộc tính liên quan đến lần liên lạc gần chiến dịch tại: a) Liên lạc (Contact): - Được định dạng “Categorical” - Thuộc tính nhằm xác hình thức liên lạc với đối tượng thực khảo sát Trong đó, hình thức bao gồm: • Điện thoại di động (Cellular) • Điện thoại dây (Telephone) b) Tháng liên lạc (Month): - Được định dạng “Categorical” - Thuộc tính nhằm xác định tháng liên lạc gần năm đối tượng thực khảo sát Trong đó, tháng bao gồm: • • • • • • • • • • • • Tháng (Jan) Tháng (Feb) Tháng (Mar) Tháng (Apr) Tháng (May) Tháng (Jun) Tháng (Jul) Tháng (Aug) Tháng (Sep) Tháng 10 (Oct) Tháng 11 (Nov) Tháng 12 (Dec) c) Thứ tuần (Day of Week): - Được định dạng “Categorical” - Thuộc tính nhằm xác định thứ liên lạc gần tuần đối tượng thực khảo sát Trong đó, thứ bao gồm: • • • • • Thứ Hai (Mon) Thứ Ba (Tue) Thứ tư (Wed) Thứ năm (Thu) Thứ sáu (Fri) • d) Khoảng thời gian (Duration): - Được định dạng “Numeric” - Thuộc tính nhằm xác định khoảng thời gian liên lạc gần đối tượng thực khảo sát  Đơn vị khoảng thời gian: Giây (s)  Thuộc tính ảnh hưởng nhiều đến biến đầu ( Nếu ‘Duration’ mang giá trị biến đầu ‘y’=0) Khi gọi thực xong, ‘y’ xác định  Thuộc tính nên đưa vào cho mục đích kiểm chuẩn Cịn cho mục đích dự đốn thực tế thuộc tính nên loại bỏ • 1.2.1.3 Các thuộc tính khác (Other Attributes): a) Chiến dịch (Campaign): - Được định dạng “Numeric” - Thuộc tính nhằm xác định số liên hệ thực chiến dịch đối tượng thực khảo sát • b) Số ngày chờ (Pdays): Được định dạng “Numeric” - Thuộc tính nhằm xác định số ngày trôi qua kể từ lần liên hệ cuối thực chiến dịch trước đối tượng thực khảo sát  Nếu thuộc tính cho giá trị 999 nghĩa đối tượng chưa liên hệ trước • c) Số liên hệ (Previous): - Được định dạng “Numeric” - Thuộc tính nhằm xác định số liên hệ thực trước chiến đối tượng thực khảo sát • d) Kết chiến dịch (Poutcome): - Được định dạng “Categorical” - Thuộc tính nhằm xác định kết chiến dịch tiếp thị trước đối tượng thực khảo sát Các kết bao gồm: • Thành cơng (Success) • Thất bại (Failure) • Khơng tồn (Nonexistent) • 1.2.1.4 Thuộc tính bối cảnh kinh tế, xã hội (Social and Economic Context Attributes): • a) Tỷ lệ thay đổi việc làm (Emp.var.rate): - Được định dạng “Numeric”, giá trị báo hàng quý - Thuộc tính nhằm xác định tỷ lệ thay đổi việc làm đối tượng thực khảo sát • b) Chỉ số giá tiêu dùng (Cons.price.idx): - Được định dạng “Numeric”, giá trị báo hàng tháng - Thuộc tính nhằm xác định số giá tiêu dùng đối tượng thực khảo sát • c) Chỉ số niềm tin người tiêu dùng (Cons.conf.idx): - Được định dạng “Numeric”, giá trị báo hàng tháng - Thuộc tính nhằm xác định số niềm tin tiêu dùng đối tượng thực khảo sát • d) Lãi suất tháng Euribor (Euribor3m): - Được định dạng “Numeric”, giá trị báo hàng ngày - Thuộc tính nhằm xác định lãi suất tháng Euribor đối tượng thực khảo sát • e) Số lượng nhân công (Nr.employed): - Được định dạng “Numeric”, giá trị báo hàng quý - Thuộc tính nhằm xác định số lượng nhân công đối tượng thực khảo sát • 1.2.2 Biến đầu (Output Variable): - Biến ‘y’: Khách hàng có định đăng ký gửi tiền lãi có kỳ hạn hay khơng? - Nhị phân: ‘Yes’, ‘No’ • 1.3 Mục tiêu phân tích: • Từ liệu “Banking Marketing” ban đầu, ta tiến hành dự đốn phân loại xem liệu khách hàng đăng ký (‘yes’) hay khơng đăng ký (‘no’) gửi tiền lãi có kỳ hạn • • • • CHƯƠNG II: NỘI DUNG • 2.1 Tiền xử lý liệu: • • 2.1.1 “Role” thuộc tính: • Từ liệu “Banking Marketing” ban đầu, ta có “Type” “Role” 21 thuộc tính sau (Hình 2.1.1.a,b): • • • • • • • • • 2.1.1.b: Type vàcủa Rolecác thuộc Hình Hình 2.1.1.a: Type Role thuộc tính tính • • • • • • • • Đến đây, ta thực trình xử lý cách điều chỉnh thuộc tính sang “Type” “Role” cho hợp lý Cụ thể:  Vì ta thực xử lý liệu nhằm mục đích dự báo cho biến đầu y, ta chuyển “Role” thuộc tính y từ Feature => Target  Những thuộc tính duration, campaign, pdays, previous khơng có yếu tố ảnh hưởng đến việc dự báo kết đầu y = có đồng ý đăng ký gửi tiền lãi có kỳ hạn hay khơng, thuộc tính ta chuyển “Role” chúng từ Feature => Skip  Đối với thuộc tính có “Type” Categorical contact, month, day of week ta khơng cần phải chuyển đổi “Role” chúng từ Feature => Skip Bởi lẽ, tiến hành phân cụm phân cấp, thuộc tính Numeric sử dụng để tính khoảng cách cụm • • Hình 2.2.1.b: Kết phân cụm phân cấp Orange • • Ở đây, tính liên kết đối tượng (Linkage), ta sử dụng phương pháp tính tốn khoảng cách trung bình (Average) Kết cho thấy ta nên chia toàn mẫu liệu làm phân cụm • • • • • • • • • • • Hình 2.2.1.c,d,e: Bảng Silhouette Plot cho phân cụm phân cấp • • • Nguyên tắc: Gía trị Silhouette nằm khoảng từ -1 đến 1, giá trị lớn (tức gần 1) kết phân cụm tốt (càng đáng tin cậy) • Ở ta thấy phân cụm, với cụm (màu xanh) giá trị Silhouette mẫu nằm khoảng từ 0,65 0,85 Còn cụm thứ (màu đỏ) giá trị chạy khoảng từ 0,45 0,75 Những khoảng nằm khoảng dương dần gần giá trị 1, kết phân cụm đáng tin cậy • • 2.2.1.2 Phân cụm phân hoạch (Partitioning Clustering): • Ta tiến hành phân cụm phân hoạch dựa vào thuật toán K-means Sau chạy liệu, ta có: • • • Hình 2.2.1.f: Phân tích k-Means cho liệu • • • • • • • • • Trong thuật tốn k-Means, ta phân tích thử xem với liệu ta nên lựa chọn phân làm cụm hợp lý Và để đánh giá xem phương án tối ưu ta dựa vào giá trị Silhouette Cụ thể, ta thấy ta phân liệu làm 2,3,4,5,6,7 cụm giá trị Silhouette trung bình phân cụm 0,296 , 0,154 , 0,161 , 0,171 , 0,171 0,181 Gía trị Silhouette trung bình lớn phương án phân cụm đáng tin cậy  Vì ta lựa chọn phương án phân làm cụm • Đồng thời phân tích kỹ giá trị Silhouette cụm phương án chia cụm này, ta có: • • • • • • • • • • • • • • • • • • • • • Ở ta thấy phân cụm, với cụm (màu xanh) giá trị Silhouette đến 0,85 mẫu nằm Hình 2.2.1.g,h,i: Bảng Silhouette Plot cho phân cụm phân hoạch khoảng từ 0,7 cho Còn cụm thứ (màu đỏ) giá trị chạy khoảng từ 0,45 0,7 Những khoảng nằm khoảng dương (trừ cụm thứ có mẫu có giá trị âm) dần gần giá trị 1, kết phân cụm đáng tin cậy • Đồng thời, tham khảo dựa kinh nghiệm tác giả tài liệu “Data mining and Predictive analytics” nhà xuất Wiley: • Nếu điểm trung bình Silhouette từ 0,5 trở lên chứng tỏ cụm phân sát với thực tế • Nếu điểm trung bình Silhouette từ 0,25 đến 0,5 chứng tỏ cần thêm kiến thức chuyên môn, kinh nghiệm để dánh giá thêm khả phân cụm có thực tế • Nếu điểm trung bình Silhouette 0,25 khơng nên tin tưởng cụm cần phải tìm nhiều chứng khác •  Khi phân tích đến đây, thấy người thực liệu cần phải có thêm nhiều chun mơn kinh nghiệm để giúp cho chất lượng liệu bảo đảm, có độ tin cậy thực tế cao • • 2.2.2 Trích xuất liệu: • Sau tiến hành phân cụm, ta bắt đầu tiến hành trích xuất liệu bảng định dạng excel để tiến hành phân lớp Với đối tượng phân cụm dựa phương pháp phân cấp phân hoạch này, ta sử dụng cơng thức Euclidean để tính tốn khoảng cách điểm gần trung tâm Vì trích xuất liệu bảng Data Table, ta đưa đầu vào phân cụm vào để chạy kết quả, cụ thể ta có: • • • • • • Hình 2.2.2.a: Trích xuất liệu phân cụm • • Sau lưu định dạng excel để ta tiến hành chọn cụm, tiếp tục tiến hành thực phân lớp liệu cụm đó, cụ thể ta lựa chọn cụm • • • • 2.2.3 Phân lớp liệu: • Sau tiến hành trích xuất liệu làm cụm C1 C2, ta sử dụng liệu mẫu C2 để tiến hành bắt đầu phân lớp liệu • • Hình 2.2.3.a: Chuỗi trình thực phân lớp Orange • • Ở ta thực trình phân lớp dựa phương pháp: Logistic Regression, SVM Tree Chúng ta đánh giá xem phương pháp này, đâu phương pháp tốt để phân lớp liệu việc thông qua Text and Score Ta có bảng sau đây: Hình 2.2.2.b: Bảng liệu excel phân cụm • • Hình 2.2.3.b: Bảng đánh giá Text and Score • • Ở ta chia nhỏ liệu làm phần (Number of folds: 5) để tiến hành kiểm tra a) Chỉ số AUC: - Nguyên tắc: Gía trị số dương ≤ Nếu giá trị lớn - mơ hình phân lớp tốt Ta thấy số AUC phương pháp Logistic Regression, SVM Tree 0,776; 0,685 0,609 • b) Chỉ số CA: - Chỉ số CA thể tỷ lệ số mẫu phân lớp toàn tập - liệu Nguyên tắc: Gía trị số dương ≤1 Nếu giá trị lớn mơ - hình phân lớp tốt Ta thấy số CA phương pháp Logistic Regression, SVM Tree 0,789; 0,738 0,754 • c) Chỉ số Precision: - Chỉ số độ xác (Precision) cho biết số m mẫu phân vào lớp - i (ở trường hợp lớp) có tỷ lệ mẫu có Ta thấy số Precision phương pháp Logistic Regression, SVM Tree 0,765; 0,727 0,746 • d) Chỉ số Recall: - Chỉ số độ phủ (Recall) hay gọi độ nhạy (Sensitivity) TPR - (True Positive Rate) Ta thấy số Recall phương pháp Logistic Regression, SVM Tree 0,789; 0,738 0,754 • e) Chỉ số F1: - Là số giá trị trung bình điều hịa độ đo Precision Recall - Ta thấy số F1 phương pháp Logistic Regression, SVM Tree 0,764; 0,732 0,749  Chỉ số F1 thường sử dụng cho phân lớp đa lớp phân lớp đa nhãn  Các số Precision Recall thường sử dụng cho phân lớp nhị phân • f) Ma trận nhầm lẫn (Confusion Matrix): • Ở ta xem xét xác suất dự đốn xác với thực tế phương pháp Logistic Regression, SVM Tree Nếu phương pháp có xác suất phần tram dự đốn xác với thực tế (No-No; Yes-Yes) lớn phương án tối ưu Ta có: • • • Hình 2.2.3.c,d,e: Ma trận nhầm lẫn phương pháp Logistic Regression, SVM Tree • • • • • • • • • • • • • • •  Kết luận: Qua việc phân tích số Text and Score, đồng thời dựa vào ma trận nhầm lẫn (Confusion Matrix), ta rút phương pháp Logistic Regression phương pháp tối ưu • • 2.2.4 Dự báo: • • 2.2.4.1 Trích liệu dự báo: Từ liệu Clustering 2, ta tiến hành lấy 10% liệu từ liệu phân lớp để thực dự báo (như hình 2.2.3.a) Ta có file Forecast Data • 2.2.4.2 Tiến hành dự báo: • Bằng việc đánh giá phương pháp trên, ta sử dụng phương pháp Logistic Regression để tiến hành dự báo liệu (Forecast Data) Ta có kết sau: • • Hình 2.2.4.a: Kết dự báo liệu • • Hình 2.2.4.b: Kết chạy excel • • • • • • • • TÀI LIỆU THAM KHẢO • • Daniel T Larose (March 2015) Data Mining and Predictive Analytics (2rd edition), • James, G., Witten, D., Hastie, T., & Tibshirani, R (2013) An introduction to statistical learning (Vol 112) New York: Springer • Kaufman, L., & Rousseeuw, P J (1990) Partitioning around medoids (program pam) Finding groups in data: an introduction to cluster analysis, 68-125 • Tibshirani, R., Walther, G., & Hastie, T (2001) Estimating the number of clusters in a data set via the gap statistic Journal of the Royal Statistical Society: Series B (Statistical Methodology), 63(2), 411-423 • S Moro, P Cortez and P Rita (June 2014) A Data-Driven Approach to Predict the Success of Bank Telemarketing • • • • • • • • • ... tục lấy liệu kết tiến hành phân cụm phân lớp • Hình 2.1.2.c: Kết tiền xử lý liệu • 2.2 Khai thác liệu: • 2.2.1 Phân cụm liệu: • Sau xử lý xong định dạng excel, ta tiếp tục phân cụm liệu từ liệu. .. phân cụm đáng tin cậy • • 2.2.1.2 Phân cụm phân hoạch (Partitioning Clustering): • Ta tiến hành phân cụm phân hoạch dựa vào thuật toán K-means Sau chạy liệu, ta có: • • • Hình 2.2.1.f: Phân tích. .. gửi tiền lãi có kỳ hạn hay khơng? - Nhị phân: ‘Yes’, ‘No’ • 1.3 Mục tiêu phân tích: • Từ liệu ? ?Banking Marketing? ?? ban đầu, ta tiến hành dự đốn phân loại xem liệu khách hàng đăng ký (‘yes’) hay không

Ngày đăng: 01/12/2022, 04:00

HÌNH ẢNH LIÊN QUAN

Hình 2.1.1.a: Type và Role của các thuộc tính - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.1.1.a Type và Role của các thuộc tính (Trang 10)
• Hình 2.1.2.a: Chuỗi thực hiện tiền xử lý dữ liệu trên Orange - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.1.2.a Chuỗi thực hiện tiền xử lý dữ liệu trên Orange (Trang 11)
• Hình 2.1.1.c: Kết quả xử lý “Role” của các biến thuộc tính - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.1.1.c Kết quả xử lý “Role” của các biến thuộc tính (Trang 11)
Hình 2.1.2.b: Qúa trình thực hiện Preprocess - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.1.2.b Qúa trình thực hiện Preprocess (Trang 12)
Hình 2.1.2.c: Kết quả tiền xử lý dữ liệu - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.1.2.c Kết quả tiền xử lý dữ liệu (Trang 13)
• Hình 2.2.1.a: Chuỗi thực hiện quá trình phân cụm trên Orange - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.2.1.a Chuỗi thực hiện quá trình phân cụm trên Orange (Trang 14)
• Hình 2.2.1.b: Kết quả phân cụm phân cấp trên Orange - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.2.1.b Kết quả phân cụm phân cấp trên Orange (Trang 15)
Hình 2.2.1.c,d,e: Bảng Silhouette Plot cho 2 phân cụm phân cấp - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.2.1.c d,e: Bảng Silhouette Plot cho 2 phân cụm phân cấp (Trang 17)
Hình 2.2.1.f: Phân tích k-Means cho bộ dữ liệu - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.2.1.f Phân tích k-Means cho bộ dữ liệu (Trang 18)
Hình 2.2.1.g,h,i: Bảng Silhouette Plot cho 2 phân cụm phân hoạch - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.2.1.g h,i: Bảng Silhouette Plot cho 2 phân cụm phân hoạch (Trang 20)
• Hình 2.2.2.a: Trích xuất dữ liệu đã phân cụm - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.2.2.a Trích xuất dữ liệu đã phân cụm (Trang 22)
• Hình 2.2.3.a: Chuỗi quá trình thực hiện phân lớp trên Orange - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.2.3.a Chuỗi quá trình thực hiện phân lớp trên Orange (Trang 23)
• Hình 2.2.3.b: Bảng đánh giá Text and Score - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.2.3.b Bảng đánh giá Text and Score (Trang 24)
Hình 2.2.3.c,d,e: Ma trận nhầm lẫn của 3 phương pháp Logistic Regression, SVM và Tree - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.2.3.c d,e: Ma trận nhầm lẫn của 3 phương pháp Logistic Regression, SVM và Tree (Trang 26)
• Hình 2.2.4.a: Kết quả dự báo dữ liệu - ĐỀ tài PHÂN TÍCH và dự báo bộ dữ LIỆU BANKING MARKETING
Hình 2.2.4.a Kết quả dự báo dữ liệu (Trang 28)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w