Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 45 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
45
Dung lượng
1,09 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH KHOA KINH TẾ TIỂU LUẬN Môn học: KHOA HỌC DỮ LIỆU Tp.HCM, tháng 11 năm 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH KHOA KINH TẾ Đề tài: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING MARKETING Giảng viên hướng dẫn: ThS Trần Lê Phúc Thịnh Sinh viên thực MSSV Phần trăm đóng góp Lương Trung Quốc 31201020481 100% Hoàng Võ Cao Sơn 31201020493 100% Mai Mai T Thị hị Yến Yến Nh Nhii 31201026374 100% Nguyễ Nguyễnn Đức Đức Th Thắn ắngg 31201026048 100% Trần Trần Nguy Nguyễn ễn Trâ Trâm m Yến Yến 31201020653 100% Nguyễ Nguyễnn Thị Thị Thúy Thúy Nga Nga 31201020396 100% Nguyễ Nguyễnn Thị Thị Minh Minh Vươn Vươngg 31201020639 100% Mã lớp học phần: 21C1MAR5030011 LỜI CẢM ƠN Để hoàn thành tiểu luận này, em xin gửi lời chân thành đến: Giảng viên môn Khoa học Dữ liệu - Trần Lê Phúc Thịnh giảng dạy tận tình, nhiệt tình chi tiết để chúng em có kiến thức vận dụng chúng vào tiểu luận Ban giám hiệu trường Đại học UEH tạo điều kiện sở vật chất với hệ thống thư viên đại, tài liệu thuận lợi cho việc tìm kiếm, nguyên cứu thơng tin Do chưa có nhiều kinh nghiệm làm đề tài hạn chế kiến thức, tiểu luận chắn không tránh khỏi thiếu sót Rất mong nhận nhận xét, ý kiến đóng góp, phê bình từ phía thầy để tiểu luận hoàn thiện Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành cơng hạnh phúc “MỤC LỤC DANH MỤC HÌNH ẢNH LỜI CẢM ƠN LỜI MỞ ĐẦU CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI .7 1.1 Giới thiệu thiệu Khoa học liệu liệu 1.2 Giớ 1.2 Giớii thiệu thiệu đề tài tài “Phân “Phân tích và dự đoán đoán rời ccủa khách khách hàng hàng tro ng lĩnh lĩnh vực viễn thông” .8 1.2.1 Lý ddoo ch chọn đề đề ttàài 1.2 1.2.2 Mụ Mụcc tiê tiêuu ngh nghiê iênn cứu u .9 1.2 1.2.3 Ph Phươ ương ng ph pháp áp th thực ực hiện 1.2.4 Ý nghĩa .10 CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 10 2.1 Tổng quan phần mềm Orange 10 2.1.1. Mô 2.1.1 Mô tả sơ lược về phần mềm Orange Orange 10 .10 2.1.2 Các tính 11 11 2.2 Tổng quan phương pháp sử dụng 18 2.2.1 Tiền xử lý liệu 18 liệu 18 2.2.2 Phân lớp liệu liệu 19 19 2.2.3 Phân cụm liệu 21 liệu 21 CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT 25 3.1 Bộ liệu Telecom Telecom Customer Customer Churn Churn 25 25 3.2 Giải thích thích ccác ác thuộc tính dữ liệu liệu “Telecom “Telecom Cust Customer omer Churn Churn” ” 25 25 CHƯƠNG 4: KẾT QUẢ THỰC HIỆN 31 4.1 Tiền xử lí liệu liệu 31 31 4.1 4.1.1 Ch Chọn ọn số lư lượn ợngg kkhả hảoo ssát át .32 4.1 1.2 Lo Loại ại bỏ cá cácc biế biếnn khô không ng ph phùù hhợp ợp .32 32 4.2 Phân lớp liệu liệu.(lưu (lưu ý thứ thứ tự tthực hực hiện) hiện) 36 .36 4.2 4.2.1 Cá Cácc phư phươn ơngg pphá hápp đđán ánhh ggiá iá 36 4.2.2 Dự báo: 42 4.3 Phân cụm liệu.(lưu liệu.(lưu ý thứ thứ tự thực hiện) hiện) 43 43 4.3.1. Phương pháp Hierarchical 4.3.1 Hierarchical lustering lustering …………….… ……………44 …………….… ……………44 4.3 4.3.2 Ph Phươ ương ng ph pháp áp KK-me mean ans s .45 45"" KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 48 Kết luận luận .48 48 Hướng Hướng phát triể triển n 49 49 TÀI LIỆU THAM KHẢO 50" KHẢO 50" DANH MỤC HÌNH ẢNH Hình : Phần mềm orange 11 orange 11 Hình : Chọn chức Datasets 20 Datasets 20 Hình : Chọn liệu Banking Marketing từ Datasets Datasets 20 20 Hình : Liên kết Datasets vào Data Table 21 Table 21 Hình : Kết liệu Banking Marketing Data Table 21 Table 21 Hình : Quy trình tiền xử lý liệu liệu 22 22 Hình : Các bước thực xử lý liệu Preprocess 22 Preprocess 22 Hình : Kết liệu Data_Tiền xử lý liệu với mẫu 4119 quan sát sát .23 23 Hình : Quy trình tạo File Training Data File Testing Data 23 Data 23 Hình 10 : Data Sampler File Training Data Data .24 .24 Hình 11 : Data Sampler File Testing Data .24 Data .24 Hình 12 : Dữ liệu đầu vào 25 vào 25 Hình 13 : Lựa chọn chức 26 .26 Hình 14 : Kết phân cụm 26 cụm 26 Hình 15 : Kết phân cụm theo số Silhouette Silhouette 27 27 Hình 16 : Chỉ số Silhouette cao cụm .28 cụm .28 Hình 17 : Phân cụm với phương pháp Hierarchical clustering .28 clustering 28 Hình 18 : Dữ liệu đầu vào 29 vào 29 Hình 19 : Phân Cụm với chứng K-means K-means 29 .29 Hình 20 : Bảng kết phân cụm 30 30 Hình 21 : Bảng kết phân cụm 1 31 31 Hình 22 : Bảng kết phân cụm 2 31 31 Hình 23 : Bảng số Silhouette Silhouette Scores Scores cao cụm .32 cụm .32 Hình 24 : Mơ hình phân cụm phương pháp K-means K-means 32 32 Hình 25 : Mơ hình phân cụm liệu Bank Marketing Marketing 33 33 Hình 26 : Insert File Training Data vào hộp chức File 33 File 33 Hình 27 : Mơ hình phân lớp liệu 34 liệu 34 Hình 28 : Kết chi mẫu liệu thành phần 35 phần 35 Hình 29 : Kết chia mẫu liệu thành 10 phần 35 phần 35 Hình 30 : Kết chia mẫu liệu với tỷ lệ 10% - 60% 60% .36 36 Hình 31 : Kết chia mẫu liệu với tỷ lệ 20% - 70% 70% .36 36 Hình 32 : Kết ma trận nhầm lẫn phương pháp Logistic Regress Regression ion 37 37 Hình 33 : Kết ma trận nhầm lẫn phương pháp Decision Tre Treee 38 Hình 34 : Kết ma trận nhầm lẫn phương pháp SVM 38 38 Hình 35 : Kết ROC Analysis Analysis 39 .39 Hình 36 : Testing Data .40 Data .40 Hình 37 : Dự báo Prediction với phương pháp Logistic Regression Regression .40 .40 Hình 38 : Kết dự báo Logistic Regression 100 mẫu liệu liệu .41 .41 CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu khoa học liệu Khoa học liệu lĩnh vực áp dụng kỹ thuật phân tích tiên tiến ngun tắc khoa để trích có giá liệu choNóviệc quyếtquan địnhtrọng kinh đối doanh, lập kếhọc hoạch chiếnxuất lượcthơng cáctinmục đíchtrịsửtừdụng khác ngày với doanh nghiệp: Những hiểu biết sâu sắc mà khoa học liệu tạo giúp tổ chức tăng hiệu hoạt động, xác định hội kinh doanh cải thiện chương trình tiếp thị bán hàng, với lợi ích khác Cuối cùng, chúng dẫn đến lợi cạnh tranh so với đối thủ kinh doanh Khoa học liệu kết hợp nhiều lĩnh vực khác - ví dụ, kỹ thuật liệu, chuẩn bị liệu, khai thác liệu , phân tích dự đốn, học máy trực quan hóa liệu, thống kê, tốn học lập trình phần mềm Khoa học liệu đóng vai trị quan trọng tất khía cạnh hoạt động chiến lược kinh doanh Ví dụ, cung cấp thông tin khách hàng giúp công ty tạo chiến dịch tiếp thị mạnh mẽ quảng cáo nhắm mục tiêu để tăng doanh số bán sản phẩm Nó hỗ trợ việc quản lý rủi ro tài chính, phát giao dịch gian lận ngăn ngừa cố thiết bị nhà máy sản xuất sở công nghiệp khác Nó giúp chặn cơng mạng mối đe dọa bảo mật khác hệ thống CNTT Khoa học liệu quan trọng lĩnh vực ngồi hoạt động kinh doanh thơng thường Trong chăm sóc sức khỏe, ứng dụng bao gồm chẩn đốn tình trạng y tế, phân tích hình ảnh, lập kế hoạch điều trị nghiên cứu y tế Các tổ chức học thuật sử dụng khoa học liệu để theo dõi kết hoạt động sinh viên cải thiện hoạt động tiếp thị họ tới sinh viên tương lai Các đội thể thao phân tích hiệu suất người chơi lập kế hoạch chiến lược trị chơi thơng qua khoa học liệu Các cơ quan phủ tổ chức sách cơng người sử dụng lớn Vòng đời khoa học liệu bao gồm sáu bước sau: Xác định giả thuyết liên quan đến kinh doanh để kiểm tra Thu thập liệu chuẩn bị để phân tích Thử nghiệm với mơ hình phân tích khác Chọn mơ hình tốt chạy với liệu Trình bày kết cho nhà quản trị doanh nghiệp Triển khai mô hình để sử dụng liên tục với liệu 1.2 Giới thiệu thiệu đề tài Makerting phổ biến cho ngành nghề Các ngành nghề cần makerting để tối ưu tìm hiểu yêu cầu mong muốn khách hàng xác định khả sản xuất với giá thành phù hợp sau sản xuất bán thị trường với chiến lược giá đề ra.Và bank makerting vậy, ngân hàng cần tiếp thị để phục vụ khách hàng cách tốt xem xét cần thiết phù hợp cho khách hàng mục tiêu 1.2.1 Lý chọn đề tài Hiện việc khai thác liệu trở nên thiếu ngành nghề Đặc biệt đề cập đến thương mại kinh doanh Một lượng lớn liệu từ khách hàng, hoạt động kinh doanh, đối tác,… Những điều khơng thể xử lý bằng sức người, việc số hóa số liệu điều vơ cần thiết Để phân tích liệu cách tự động nhóm sử dụng phần mềm Orange để xây dựng quy trình khai thác liệu trực quan – phần mềm khai thác liệu phổ biến thực mà khơng cần lập trình Nhóm tìm liệu tổ chức ngân hàng, liệu có liên quan Dữ liệu sau phân tích Orange, nhóm đưa số nhận xét kết luận cửa sổ phân tích , đánh giá độ hiệu đề xuất số hướng phát triển dành cho ??? Đó lý chọn đề tài: “Phân tích liệu Bank Marketing qua thuật toán Orange” 1.2.2 Mục tiêu nghiên cứu Xử lý liệu Bank Makerting để dự đốn liệu khách hàng có đăng ký khoản tiền gửi có kỳ hạn hay khơng dựa hồ sơ khách hàng có thuộc tính: tuổi, cơng việc, tình trạng nhân, học vấn,… 1.2.3 Phương pháp thực Nhóm sử dụng phần mềm Orange để tiến hành thực xử lý liệu, phân cụm, phân lớp liệu, sau tiến hành dự báo cho nhóm liệu ngẫu nhiên chưa phân lớp Ta thấy với số cụm số Silhouette Scores có số cao nên ta chọn số cụm phân cụm B4: Xuất kết phân cụm thành bảng Hình 20: Bảng kết quả phân cụm Hình 21: Bảng kết phân phân cụm Hình 22: Bảng kết phân phân cụm Hình 23: Bảng số Silhouette Silhouette Scores Scores cao cụm cụm Hình 24: Mơ hình hình phân cụm phương phương pháp K-means K-means Hình 25: Mơ hình hình phân cụm liệu liệu Bank Marketi Marketing ng 3.3 Phân lớp liệu Đầu tiên, lấy File Training chọn biến y target để tiến hành phân lớp Hình 26: Insert File Training Training Data vào hộp chức File 3.3.1 Các phương pháp đánh giá 3.3.1.1 Test and Score Sử dụng Test and Score để so sánh đánh giá phương pháp (Logistic Regression, Tree SVM), để lựa chọn phương pháp tốt nhất, xác phục vụ cho việc dự báo Hình 27: Mơ hình hình phân lớp liệu liệu Tại bảng Test and Score, chọn tỷ lệ khác Cross validation Random Sampling để có kết tốt Cross validation với Number of folds (chia mẫu liệu thành phần): Hình 28: Kết chi chi mẫu liệu tthành hành phần Hình 29: Kết chia chia mẫu liệu thành thành 10 phần Random sampling với tỷ lệ 10% - 66%: Hình 30: Kết chia chia mẫu liệu với với tỷ lệ 10% - 60% Random sampling với tỷ lệ 20% - 70%: Hình 31: Kết chia chia mẫu liệu với với tỷ lệ 20% - 70% - Đánh giá: Mục Evaluation Results thể kết định lượng mơ hình Logistic Regression, Tree SVM Khi xem xét số, ta thấy phương pháp Logistic Regression trường hợp chia lấy mẫu liệu với tỷ lệ 20% - 70% tốt với số liệu: + Diện tích đường cong AUC: 92,2% - số liệu tốt so với phương án khác + Độ phủ (Recall): 91,3% + Tính xác (CA): 91,3% + Giá trị trung bình điều hịa (F1): 90,4% + Độ xác (Precision): 90,2% 3.3.1.2 Ma trận nhầm lẫn – Confusion Matrix Hình 32: Kết ma trận nhầm lẫn của phương pháp Logistic Logistic Regression Regression Hình 33: Kết ma trận nhầm lẫn của phương pháp Decision Decision Tree Tree Hình 34: Kết ma trận nhầm lẫn củ củaa phương pháp SVM SVM - Đánh giá: Trong Confusion Matrix, số liệu cần ý Sai lầm loại Sai lầm loại (mơ hình tốt xác mơ hình có tỷ lệ hai sai lầm thấp nhất) Ta thấy, phương pháp Logistic Regression có tỷ lệ Sai lầm loại Sai lầm loại thấp (lần lượt 6,9% 32,6%) Vì vậy, phương pháp pháp Logistic Regression phù hợp 3.3.1.3 ROC Analysis Hình 35: Kết ROC ROC Analysis - Đánh giá: Một mơ hình hiệu có FP Rate thấp TP Rate cao, hay nói cách khác phương pháp có đường cong ROC tiệm cận với điểm (0;1), phương pháp tốt xác Logistic regression có đường cong ROC tiệm cận với điểm (0;1) nên phương pháp tốt Kết luận: Từ Test and Score, Confusion Matrix ROC Analysis Logistic Regression phương pháp tốt để lựa chọn 3.3.2 Dự báo Sau đánh mơ hình lựa100 chọn mơ hình tốt Logistic Regression, ta lấygiá phương pháp nàyphân để dựlớp báovàcho mẫu Sử dụng Testing Data để tiến hành dự báo: Hình 36: Testing Testing Data Hình 37: Dự báo bằng Prediction vớ vớii phương pháp Logistic Logistic Regres Regression sion Hình 38: Kết dự báo Logistic Regression Regression 100 mẫu liệu Lưu kết dự báo thành file excel có tên Du Bao CHƯƠNG 4: KẾT LUẬN VÀ ĐỀ XUẤT Kết luận Về phânthực cụm, thấy vớinhư bộvậy liệu bantoàn đầu phù cho hợp thấy tỷ lệ phân cụm sát với tế, kết mô hìnhcho phân cụm hồn Về phân lớp, qua đánh giá kết thấy Logistic Regression phương pháp phù hợp cho liệu liệu Nội dung nghiên cứu đề tài, nhóm chúng tơi đưa phân tích phân cụm liệu phần mềm Orange tiến hành khai thác xử lý chúng để đưa liệu cần thiết Các liệu lại tối ưu hoá đem vào sử dụng cách hiệu sở liệu lưu trữ phần mềm Excel Đề tài sâu vào tính ứng dụng đưa cách thức xử lý liệu cách phù hợp linh hoạt Thực phân tích liệu mang lại lại nhiều lợi ích ích khác chẳng chẳng hạn đoán liệu khách hàng có đăng ký khoản tiền gửi có kỳ hạn hay khơng dựa hồ sơ khách hàng có thuộc tính: tuổi, cơng việc, tình trạng nhân, học vấn,… Mục đích cuối thu hút khách hàng quay lại Nó mang lại tính ổn định tạo khách hàng trung thành mang lại giá trị cho ngân hàng dài hạn tạo doanh thu lợi nhuận lớn Dự đoán mẫu thường xuyên từ tập liệu xác định cách sử dụng khai thác quy tắc kết hợp sử dụng thuật toán apriori Hư Hướn ớngg phá phátt triể triển n Từ tốn tốn phân tích tích ta có thấy thấy hiện nay, với với phát triển triển cô công ng nghệ thông tin xu hướng bùng nổ mạng xã hội đời sống dẫn đến hoạt động marketing phải thay đổi theo hướng thích nghi với sống, Bank Marketing đưa nỗ lực ngân hàng nhằm thỏa mãn nhu cầu khách hàng thực mục tiêu lợi nhuận +Tận dụng tối đa lợi ích liệu Các marketer ngân hàng chắn thiếu thông tin liệu từ khách hàng tầm tay – từ lịch sử mua hàng nhân học nhiều – điều quan trọng marketer ngân hàng phải sử dụng liệu để tạo phân khúc có ý nghĩa xây dựng nên chiến lược nhắm mục tiêu tốt để tăng trải nghiệm phục vụ khách hàng phát triển doanh thu Chính điều tạo thúc đẩy cho hành trình phát triển dài lâu ngân hàng + Chú trọn trọngg vào vào việc việc tươn tươngg tác tác với với khách khách hàn hàng g Nhấn mạnh tương tác với khách hàng lĩnh vực ngân hàng, khách hàng có mức độ tương tác cao khách hàng có độ trung thành cao; trung thành khách hàng doanh thu tăng lên theo thời gian Trong nghiên cứu tương lai, muốn sử dụng loại liệu khác để thử nghiệm, chẳng hạn ngành tài giáo dục ngành… Thị trường tiêu dùng động châu Á đòi hỏi cơng ty dịch vụ tài phải hiểu rõ học cách tiếp cận thay đổi - mặt xã hội, nhân học công nghệ Thập kỷ mang đến vô số hội cho nhà cung cấp tìm giải pháp phù hợp để tiếp cận cung cấp dịch vụ cho người tiêu dùng châu Á TÀI LIỆU THAM KHẢO https://www.simplilearn.com /tutorials/data-science-tutorial science-tutorial/what-is-data /what-is-data-science -science https://www.simplilearn.com/tutorials/datahttps://www.oracle.com/what https://www oracle.com/what-is-data-scie -is-data-science/ nce/ https://www.techtarget.com/ https://www techtarget.com/searchenterpris searchenterpriseai/definition/da eai/definition/data-science ta-science https://archive.ics.uci.edu/ml/ https://archive ics.uci.edu/ml/datasets/bank+m datasets/bank+marketing arketing ... BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH KHOA KINH TẾ ? ?Đề tài: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING MARKETING Giảng viên hướng dẫn:... sổ phân tích , đánh giá độ hiệu đề xuất số hướng phát triển dành cho ??? Đó lý chọn đề tài: ? ?Phân tích liệu Bank Marketing qua thuật toán Orange” 1.2.2 Mục tiêu nghiên cứu Xử lý liệu Bank Makerting... liệu Banking Marketing Marketing từ Datasets Datasets Để quan sát liệu, ta liên kết Datasets vào Data Tables Hình 4: Liên kết kết Datasets vào Data Data Table Hình 5: Kết liệu Banking Marketing