Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
1,39 MB
Nội dung
lOMoARcPSD|22244702 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH PHÂN HIỆU VĨNH LONG TIỂU LUẬN CUỐI KÌ MƠN: KHOA HỌC DỮ LIỆU Đề tài: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING QUA CÁC THUẬT TOÁN TRÊN ORANGE Giáo viên hướng dẫn: Thầy Trương Việt Phương Lớp học phần: 22C9INF50905901 Sinh viên thực hiện: Phạm Ngô Hồng Ngân (31211572372) Phạm Thị Như Quỳnh (31211572385) lOMoARcPSD|22244702 Lê Nhật My (31211570106) MỤC LỤC CHƯƠNG 1: TỔNG QUAN VỀỀ KHOA HỌC DỮ LIỆU VÀ ĐỀỀ TÀI Giới thiệu vềề Khoa học liệu…………………………………… Tập liệu Thông tn thuộc tnh Giới thiệu vềề đềề tài ………………………………………………… Phương pháp thực hiện…………………………………………… CHƯƠNG 2: TỔNG QUAN VỀỀ PHẦỀN MỀỀM ORANGE Tổng quan vềề orange ………… Phân cụm…………………………………………………………… 2.1 Định nghĩa……………………………………………………… 2.2 Các phương pháp phân cụm………………………………… Phân lớp…………………………………………………………… 3.1 Định nghĩa……………………………………………………… 3.2 Quá trình phân lớp liệu…………………………………… 3.3 Một sôố phương pháp phân lớp……………………………… CHƯƠNG 3: MƠ HÌNH NGHIỀN CỨU CHƯƠNG 4: KỀẾT QUẢ THỰC HIỆN Loại bỏ biềốn không phù hợp……………………………… Phân cụm liệu………………………………………………… 2.1 Phương pháp Hierarchical Clustering……………………… 2.2 Phương pháp K-Means……………………………………… Phân lớp liệu………………………………………………… lOMoARcPSD|22244702 CHƯƠNG 5: KỀẾT LUẬN TÀI LIỆU THAM KHẢO CHƯƠNG 1: TỔNG QUAN VỀỀ KHOA HỌC DỮ LIỆU VÀ ĐỀỀ TÀI Giới thiệu vềề Khoa học liệu Khoa học liệu(DS) khoa học vềề việc quản trị phân tch liệu, trích xuâốt giá trị từ liệu phân tch để tm quyềốt định dâẫn dắốt hành động Việc phân tch dùng liệu lại dựa vào ba nguôền tri thức: tốn học ( thơống kề), cơng nghệ thơng tn ( máy học) tri thức lĩnh vực ứng dụng cụ thể Mục đích Khoa học liệu biềốn đổi lượng liệu lớn chưa qua xử lí, từ giúp đỡ tổ chức tềốt giảm chi phí, gia tắng hiệu làm việc, nắốm bắốt hội, rủi ro trền thị trường làm tắng lợi thềố cạnh tranh doanh nghiệp Các lĩnh vực khoa học liệu gôềm: - Data mining: Khai thác liệu - Statstc: Thôống kề - Machine learning: Học máy - Analyze: Phân tch - Programming: Lập trình Và cối cùng, nhà khoa học liệu ( Data Scientst) câền phải có nhóm kyẫ nắng: Analytcs (phân tch)-quan trọng nhâốt, Programming( lập trình), Domain Knowledge ( Kiềốn thức chuyền ngành) sôố kyẫ nắng khác Tập liệu: 2.1 Bank-additonal-full: Với tâốt ví dụ (41188) 20 đâều vào, sắốp xềốp theo ngày (t tháng nắm 2008 đềốn tháng 11 nắm 2010), râốt gâền với liệu phân tch [Moro cộng sự, 2014 ] lOMoARcPSD|22244702 2.2 Bank-additonal: Với 10% sơố ví dụ (4119), chọn ngâẫu nhiền từ 1) 20 đâều vào 2.3 Bank-full: Với 10% ví dụ 17 đâều vào, chọn ngâẫu nhiền từ (phiền cũ tập liệu với đâều vào hơn) Thông tn thuộc tn Biềốn đâều vào (Input Variables) 3.1 Dữ liệu khách hàng ngân hàng: a Độ tuổi (age): - Định dạng bắềng “ numeric ” - Dùng để xác định độ tuổi đôối tượng nhắềm thực khảo sát b Công việc (job): - Định dạng bắềng “categorical” - Dùng để xác định công việc đôối tượng nhắềm thực khảo sát - Được phân loại sau: + Quản trị viền ( admin ) + Công nhân phổ thông (blue-collar) + Doanh nhân (blue-collar) + Người giúp việc (housemaid) + Quản lý (management) + Nghỉ hưu (retred) + Tự kinh doanh(self-employed) + Dịch vụ (services) + Sinh viền (student) + Kyẫ thuật viền(technician) + Thâốt nghiệp (unemployed) + Không xác định (unknown) c Tình trạng nhân (marital status) - Định dạng bắềng “categorical” - Dùng để xác định hôn nhân đôối tượng nhắềm thực khảo sát - Được phân loại sau: + Đã ly hôn (divorced) + Đã kềốt hôn(married) + Độc thân(single) d Giáo dục (educaton) - Định dạng bắềng “categorical” lOMoARcPSD|22244702 - Dùng để xác định học vâốn đôối tượng nhắềm thực khảo sát - Được phân loại sau: + năm tiểu học (Basic.4y) + năm tiểu học (Basic.6y) + Tốt nghiệp Trung học sở (Basic.9y) + Tốt ngiệp Trung học phổ thông (High school) + Thất học (Illiterate) + Đào tạo nghiệp vụ (Professional Course) + Tốt nghiệp đại học (University Degree) + Chưa xác định (Unknown) e Tình trạng tín dụng bị vỡ nợ (Default): - Được định dạng “Categorical” - Thuộc tính nhằm xác định tình trạng tín dụng có bị vỡ nợ hay không đối tượng thực khảo sát Trong đó, tình trạng bao gồm: + Có (Yes) + Khơng (No) + Chưa xác định (Unknown) f Nhà (housing) - Định dạng bắềng “categorical” - Dùng để xác định nơi đôối tượng nhắềm thực khảo sát - Được phân loại sau: + Có (Yes) + Khơng (No) lOMoARcPSD|22244702 + Không xác định (unknown) j Khoản vay (loan) - Định dạng bắềng “categorical” - Dùng để xác định khoản vay nợ đôối tượng nhắềm thực khảo sát - Được phân loại sau: + Có (Yes) + Không (No) + Không xác định (unknown) 3.2 Liên quan đến địa liên hệ cuối chiến dịch tại: a Liên lạc (contact) - Được định dạng “Categorical” - Dùng để xác định khoản liền lạc đôối tượng nhắềm thực khảo sát - Được phân loại sau: + Điện thoại di động (Cellular) + Điện thoại dây (Telephone) b Tháng liên lạc (Month): - Được định dạng “Categorical” - Dùng để xác định tháng liền lạc đôối tượng nhắềm thực khảo sát - Các tháng bao gôềm : lOMoARcPSD|22244702 Tháng (Jan) Tháng (Feb) Tháng (Mar) Tháng (Apr) Tháng (May) Tháng (Jun) Tháng (Jul) Tháng (Aug) Tháng (Sep) Tháng 10 (Oct) Tháng 11 (Nov) Tháng 12 (Dec) c Thứ tuần (Day of Week): - Được định dạng “Categorical” - Dùng để xác định thứ liền lạc đôối tượng nhắềm thực khảo sát - Các thứ bao gôềm + Thứ Hai (Mon) + Thứ Ba (Tue) + Thứ tư (Wed) + Thứ năm (Thu) + Thứ sáu (Fri) lOMoARcPSD|22244702 d Thời lượng (Duration): - Được định dạng “Numeric” - Thuộc tính nhằm xác định khoảng thời gian liên lạc gần đối tượng thực khảo sát - Thời lượng liên lạc cuối cùng, tính giây (số) - Lưu ý quan trọng: thuộc tính ảnh hưởng nhiều đến mục tiêu đầu (ví dụ: thời lượng = y = 'khơng') - Thời lượng trước thực gọi Ngoài ra, sau kết thúc gọi, y hiển nhiên biết đến Do đó, đầu vào nên đưa vào cho mục đích chuẩn nên bị loại bỏ mục đích có mơ hình dự đốn thực tế 3.3 Thuộc tính khác: a Chiến dịch (Campaign) - Được định dạng “Numeric” - Thuộc tính nhằm xác định số liên hệ thực chiến dịch cho khách hàng (số, bao gồm liên hệ cuối cùng) b Số ngày chờ (Pdays): - Được định dạng “Numeric” - Thuộc tính nhằm xác định số ngày trơi qua sau khách hàng liên hệ lần cuối từ chiến dịch trước (số; 999 có nghĩa khách hàng chưa liên hệ trước đó) c Kết chiến dịch (Poutcome): - Được định dạng “Categorical” - Thuộc tính nhằm xác định kết chiến dịch tiếp thị trước đối tượng thực khảo sát Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 - Các kết bao gồm: + Thành công (Success) + Thất bại (Failure) + Không tồn (Nonexistent) 3.4 Thuộc tính bối cảnh kinh tế, xã hội (Social and Economic Context Attributes): a) Tỷ lệ thay đổi việc làm (Emp.var.rate): - Được định dạng “Numeric”, giá trị báo hàng quý - Thuộc tính nhằm xác định tỷ lệ thay đổi việc làm đối tượng khảo sát b) Chỉ số giá tiêu dùng (Cons.price.idx): - Được định dạng “Numeric”, giá trị báo hàng tháng - Thuộc tính nhằm xác định số giá tiêu dùng đối tượng khảo sát c) Chỉ số niềm tin người tiêu dùng (Cons.conf.idx): - Được định dạng “Numeric”, giá trị báo hàng tháng - Thuộc tính nhằm xác định số niềm tin tiêu dùng đối tượng khảo sát d) Lãi suất tháng Euribor (Euribor3m): - Được định dạng “Numeric”, giá trị báo hàng ngày Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 - Thuộc tính nhằm xác định lãi suất tháng Euribor đối tượng khảo sát e) Số lượng nhân công (Nr.employed): - Được định dạng “Numeric”, giá trị báo hàng quý - Thuộc tính nhằm xác định số lượng nhân cơng đối tượng khảo sát Biềốn đâều (Output Variable) - Biến ‘y’: Khách hàng có định đăng ký gửi tiền lãi có kỳ hạn hay khơng? - Nhị phân: ‘Yes’, ‘No’ Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Giới thiệu đềề tài Nhóm tm liệu Bank Marketng ( tổ chức ngân hàng Bơề Đào Nha, liệu có liền quan đềốn chiềốn dịch tềốp thị bắềng kều gọi khách hàng đắng kí tềền gửi có kì hạn ngân hàng Với liệu mà nhóm thu thập được, chúng em seẫ sử dụng phâền mềềm Orange để xây d ựng quy trình phân tch khai thác trực quan-đây phâền mềềm thực khai thác mà khơng câền lập trình Và cối nhóm chọn đềề tài: “PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING QUA CÁC THUẬT TOÁN TRỀN ORANGE” Phương pháp thực Nhóm sử dụng phâền mềềm Orange để tềốn hành xử lí liệu, phân cụm, phân lớp liệu sau tềốn hành dự báo -Để phân cụm liệu nhóm sử dụng hai phương pháp Hierarchical clustering K-Means + Đôối với Hierarchical clustering: tnh khoảng cách phâền tử bắềng Distance rôềi quan sát liệu phân cụm với sôố cụm từ đềốn đôềng thời quan sát trền Silhouette Plot + Đôối với K-means: quan sát sôố Silhouette trung bình phân liệu từ đềốn cụm, chọn sơố cụm có sơố Silhouette tơốt, phù hợp với sơố lượng biềốn có sắẫn trền liệu quan sát trền Silhouette Plot Sau thực phân cụm liệu, nhóm tềốn hành chọn phương pháp tôốt nhâốt để phân cụm - Đôối với việc phân lớp, chọn biềốn “y” biềốn mục tều, phân lớp trền phương pháp: + Decision Tree: quyềốt định + SVM ( Support Vector Machine) + Logistc Regression: hôềi quy Logistc Sử dụng Test and Core, quan sát AUC phương pháp cuôối quan sát trền ma trận nhâềm lâẫn Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 CHƯƠNG 2: TỔNG QUAN VỀỀ PHÂỀN MỀỀM ORANGE Tổng quan vềề Orange Orange công cụ trực quan để nghiền cứu vềề thuật toán machine learning thực hành data mining Orange cung câốp cho người dùng tập toolbox gọn nhâốt để người dùng bắốt tay vào phân tch liệu gơềm: - Data: dùng để rút trích, biềốn đổi, nạp liệu ( ETL process) - Visualize: biểu diềẫn biểu đôề ( chart) giúp quan sát liệu - Model: gôềm hàm machine learning phân lớp liệu - Evaluate: phương pháp đánh giá mơ hình máy học - Unsupervised: hàm machine learning gom nhóm liệu Phân cụm 2.1 Định nghĩa Phân cụm liệu q trình gom cụm/ nhóm đơối tượng hay liệu có đặc điểm tương đơềng Sau xử lý xong định dạng excel, ta tiếp tục phân cụm liệu từ liệu tiền xử lý trước đó, cụ thể: 2.2 Phân cụm phân câốp (Hierarchical Clustering) : Ta dựa vào thuật toán Hierarchical Clustering Sau chạy liệu, ta có: Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Hình :Chẫi thực trình phân cụm Hierarchical Clustering Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Hình : kềốt phân cụm phân câốp Hierarchical Clustering Kết cho thấy, tính liên kết Linkae phương pháp tính tốn average Ta nên chia toàn mẫu liệu làm phân cụm Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Hình : Bảng Silhouette Plot cho phân cụm phân cấp Nguyên tắc: Gía trị Silhouette nằm khoảng từ -1 đến 1, giá trị lớn (tức gần 1) kết phân cụm tốt (càng đáng tin cậy) Kết cho thấy phân cụm, cụm ( màu xanh ) có giá trị Silhouette mẫu nằm khoảng 0.828 Còn cụm (màu đỏ) có giá trị Silhouette khoảng 0.615 Những giá trị nằm khoảng dương dần giá trị 1, phân cụm đáng tin cậy 2.3 Phân cụm phân hoạch (Partitioning Clustering): Tiến hành phân cụm phân hoạch dựa vào thuật tốn K-mean Sau chạy liệu, ta có: Hình :Chẫi thực q trình phân cụm K-mean Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Hình : Phân tch K-mean cho liệu Trong thuật toán K-Means, ta phân tích thử xem với liệu ta nên lựa chọn phân làm cụm hợp lý Và để đánh giá xem phương án tối ưu ta dựa vào giá trị Silhouette Cụ thể, ta thấy ta phân liệu làm 2,3,4,5,6,7 cụm giá trị Silhouette trung bình phân cụm 0.580, 0.459,0.387,0.348,0.325,0.328 Gía trị Silhouette trung bình lớn phương án phân cụm đáng tin cậy Vì ta lựa chọn phương án phân làm cụm Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Đồng thời phân tích kỹ giá trị Silhouette cụm phương án chia cụm này, ta có: Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Hình : : Bảng Silhouette Plot cho phân cụm phân hoạch Ở ta thấy phân cụm, với cụm (màu xanh) giá trị Silhouette nằm khoảng 0.828 Còn cụm thứ (màu đỏ) giá trị chạy Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 khoảng 0.615 Những khoảng nằm khoảng dương dần gần giá trị 1, kết phân cụm đáng tin cậy 2.4 Trích suất liệu: uu Sau tiến hành phân cụm, ta bắt đầu tiến hành trích xuất liệu bảng định dạng excel để tiến hành phân lớp Với đối tượng phân cụm dựa phương pháp phân cấp phân hoạch này, ta sử dụng cơng thức Euclidean để tính tốn khoảng cách điểm gần trung tâm Vì trích xuất liệu bảng Data Table, ta đưa đầu vào phân cụm vào để chạy kết quả, cụ thể ta có: Hình : Trích xuất liệu phân cụm Sau lưu định dạng excel để ta tiến hành chọn cụm, tiếp tục tiến hành thực phân lớp liệu cụm đó, cụ thể ta lựa chọn cụm Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Hình : Bảng liệu excel phân cụm 3.Phân lớp liệu: Sau tiến hành trích xuất liệu thành cụm C1 C2 Ta tiến hành sử dụng liệu mẫu C2 để phân lớp liệu HÌNH: Chuỗi q trình thực phân lớp Orange Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Thực trình phân lớp dựa phương pháp: Logistic Regression, SVM Tree đánh giá xem đâu phương pháp tốt phương pháp việc thông qua Text and Score Ta có: HÌNH: Bảng đánh giá Text and Score Chỉ số AUC: - Nguyên tắc: Giá trị số dương ≤ Giá trị lớn mơ hình phân lớp tốt Chỉ số AUC phương pháp Logistic Regression, SVM Tree là: 0.998, 0.997 0.976 Chỉ số CA: - Chỉ số CA thể tỷ lệ số mẫu phân lớp toàn tập liệu Nguyên tắc: Giá trị số dương ≤ Giá trị lớn mơ hình phân lớp tốt Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 - Chỉ số CA phương pháp Logistic Regression, SVM Tree là: 0.967, 0.960 0.960 Chỉ số Precision: - Chỉ số Precision (chỉ số độ xác) cho biết số m mẫu phân vào lớp i có tỷ lệ mẫu có Chỉ số Precision phương pháp Logistic Regression, SVM Tree là: 0.967, 0.960 0.960 Chỉ số Recall: - Chỉ số Recall (chỉ số độ phủ) hay gọi độ nhạy (Sensitivity) TPR (True Positive Rate) Chỉ số Recall phương pháp Logistic Regression, SVM Tree là: 0.967, 0.960 0.960 Chỉ số F1: - Là số giá trị trung bình điều hoà độ đo Precision Recall Chỉ số F1 phương pháp Logistic Regression, SVM Tree là: 0.967, 0.960 0.960 Ma trận nhầm lẫn (Confusion Matrix): Xem xét xác suất dự đốn xác với thực tế phương pháp Logistic Regression, SVM Tree Phương pháp có xác suất phần trăm dự đốn xác với thực tế lớn phương pháp tối ưu Ta có: Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Downloaded by vú hi (vuchinhhp12@gmail.com) lOMoARcPSD|22244702 Qua việc phân tích số Text and Score dựa vào ma trận nhầm lẫn (Confusion Matrix), ta thấy phương pháp Logistic Regression tối ưu Downloaded by vú hi (vuchinhhp12@gmail.com)