Tiểu luận môn khoa học dữ liệu

15 5 0
Tiểu luận môn khoa học dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Untitled ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA TÀI CHÍNH

lOMoARcPSD|17838488 ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA TÀI CHÍNH 🙤🙤🙤 MÔN KHOA HỌC DỮ LIỆU TIỂU LUẬN KẾT THÚC HỌC PHẦN Giảng viên: Võ Thành Đức Sinh viên thực hiện: NHÓM Mã lớp học phần: 22C1INF50905901 Thành phố Hồ Chí Minh, ngày 30 tháng 10 năm 2022 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 MỤC LỤC I GIỚI THIỆU 1 Mục tiêu nghiên cứu Phương pháp thực II THU THẬP VÀ LÀM SẠCH DỮ LIỆU 1 Thông tin liệu Làm liệu III KIỂM ĐỊNH MƠ HÌNH Chuỗi thao tác thực phân lớp Orange .5 Các phương pháp phân lớp liệu IV ĐÁNH GIÁ VÀ LỰA CHỌN MƠ HÌNH V KẾT QUẢ THỰC HIỆN .10 VI ĐÁNH GIÁ ĐÓNG GÓP CỦA CÁC THÀNH VIÊN THAM GIA DỰ ÁN 12 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 I II GIỚI THIỆU Mục tiêu nghiên cứu  Xác định mơ hình mang lại đánh giá có độ xác cao việc nghiên cứu khả khách hàng đăng ký gửi kỳ hạn  Dựa mô hình xác định từ kết luận đặc điểm để dự đoán khách hàng tương lai có đăng ký gửi kỳ hạn hay khơng  Câu hỏi đề tài: Liệu khách hàng có đăng ký gửi kỳ hạn hay không với thông tin cung cấp khách hàng Phương pháp thực  Phương pháp nghiên cứu: công cụ khai phá liệu Orange để xử lý liệu, biểu diễn liệu so sánh mơ hình  Thực q trình phân lớp liệu, nhóm chọn biến “Subscribed” (đã đăng ký) cho việc gửi tiền có kỳ hạn biến mục tiêu, tiến hành phân lớp phương pháp Cây định (Decision Tree), SVM (Support Vector Machine) Hồi quy Logistic (Logistic Regression) Sử dụng Test and Score, quan sát số AUC phương pháp cuối quan sát ma trận nhầm lẫn THU THẬP VÀ LÀM SẠCH DỮ LIỆU Thông tin liệu  Bộ liệu “Bank Additional full” tập hợp liệu đa biến, có 41188 mẫu, 21 thuộc tính, khơng có liệu bị thiếu mục tiêu nghiên cứu cột “Subscribe”, cho biết khách hàng có đăng ký (yes) hay khơng có đăng ký (no) tiền gửi có kỳ hạn vào ngân hàng Bồ Đào Nha  Đặc điểm thuộc tính liệu: STT Tên biến Loại biến Ý nghĩa Giá trị age Định lượng Tuổi Từ 18 - 95 tuổi job Định Nghề “Quản trị viên (admin), người Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 tính nghiệp lao động phổ thông (blue-collar), doanh nhân (entrepreneur), người giúp việc (housemaid), nhà quản lý (management), người hưu (retired), lao động tự (self-employed), dịch vụ (services), học sinh (student), kỹ thuật viên (technician), thất nghiệp (unemployed), khác (unknown).” marital Định tính Tình trạng nhân “Ly (divorce), kết hôn (married), độc thân (single), khác (unknown)” education Định tính default Định tính Tình trạng “có (yes), khơng (no) khác tín dụng (unknown).” housing Định tính Khoản vay “có (yes), khơng (no) khác mua nhà (unknown).” loan Định tính Khoản vay “có (yes), khơng (no) khác cá nhân (unknown).” contact Định tính Hình thức “Điện thoại di động (cellular) liên lạc điện thoại có dây (telephone).” month Định Trình độ học vấn Tháng “tiểu học (basic.4y), năm tiểu học (basic.6y), Trung học sở (basic.9y), trung học phổ thông (high school), khơng có học (illiterate), khóa học chun nghiệp (professional course), bậc đại học (university degree), khác (unknown).” “Tháng (jan), tháng (feb), Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 tính cuối tháng (mar), tháng (apr), liên lạc tháng (may), tháng (jun), năm tháng (jul), tháng (aug), tháng (sep), tháng 10 (oct), tháng 11 (nov), tháng 12 (dec).” 10 day of week Định tính Ngày cuối “Thứ hai (mon), thứ ba (tue), thứ liên tư (wed), thứ năm (thu), thứ sáu lạc (fri).” tuần 11 duration Định lượng Thời Khoảng từ đến 31 lượng liên lạc cuối 12 campaign Định Số lần liên Khoảng từ đến 275 lượng lạc với khách hàng 13 pdays 14 previous Định Số lần liên Khoảng từ đến 275275 lượng hệ thực khách hàng 15 poutcome Định tính Định lượng Số ngày Khoảng từ -1 đến 871 sau khách hàng liên hệ lần cuối Kết chiến dịch tiếp thị trước Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 16 emp.var.rate Định lượng Tỷ lệ thay đổi việc làm 17 cons.price.idx Định lượng Chỉ số giá tiêu dùng 18 cons.conf.idx Định lượng Chỉ số niềm tin người tiêu dùng 19 euribor3m Định lượng Lãi suất eurobor tháng 20 nr.employed Định lượng Số lượng nhân viên 21 Subscribed Định tính “Khách hàng có đăng ký tiền gửi Khách hàng chấp (yes) hay không đăng ký (no)” nhận đăng ký tiền gửi hay không Làm liệu  Để thuận lợi cho trình phân lớp liệu, nhóm lọc ngẫu nhiên liệu với số lượng mẫu khảo sát 5000 mẫu  Tiếp theo, thực loại bỏ biến kinh tế không liên quan, gần khơng đổi ảnh hưởng đến định đăng ký gửi tiền kỳ hạn khách hàng công cụ Select Columns Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488  Thơng qua hình ảnh thấy: biến nr.employed, euribor3m, cons.conf.idx, cons.price.idx, emp.var.rate, pdays biến gần không đổi đến định khách hàng  Sau trình thu thập làm liệu, nhóm chọn số lượng mẫu khảo sát 5000 mẫu tương ứng với 14 thuộc tính liên quan III KIỂM ĐỊNH MƠ HÌNH Chuỗi thao tác thực phân lớp Orange Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Các phương pháp phân lớp liệu  Nhóm thực kiểm định ba mơ hình phân lớp cơng cụ Test and Score để lựa chọn phương pháp tốt  Bảng đánh giá Test and Score sau:  Theo bảng đánh giá kết phân lớp ba phương pháp: SVM, Tree Logistic Regression liệu thì: Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488  Cả ba phương pháp có AUC Recall cao Logistic Regression cao  Phương pháp Logistic Regression tối ưu AUC (gần nhất), độ xác (Precision), độ nhạy (Recall), F1-score CA  Do đó, chọn phương pháp Logistic Regression để tiến hành phân lớp mơ hình cho hiệu tính xác cao  Bảng kết ma trận nhầm lẫn phương pháp Tree: Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488  Bảng kết ma trận nhầm lẫn phương pháp Logistic Regression Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488  Bảng kết ma trận nhầm lẫn phương pháp SVM IV ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH  Kết ma trận nhầm lẫn phương pháp Logistic Regression thể rõ sau: Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488  98% no-no: 98% khách hàng dự đốn khơng đăng ký tiền gửi kỳ hạn thực tế không đăng ký  2% yes-no: 2% khách hàng dự đốn có đăng ký tiền gửi kỳ hạn thực tế không đăng ký  5.2% no-yes: 5.2% khách hàng dự đoán không đăng ký tiền gửi kỳ hạn thực tế có đăng ký  94.8% yes-yes: 94.8% khách hàng dự đốn có đăng ký tiền gửi kỳ hạn thực tế có đăng ký Qua đó, tỷ lệ người không đăng ký cao chút tỷ lệ đăng ký Và số phần trăm dự đốn xác cao (>90%) cho thấy hiệu phương pháp Logistic Regression  Thông qua kiểm định mục III, nhóm lựa chọn phương pháp phân lớp hiệu Logistic Regression V KẾT QUẢ THỰC HIỆN  Phân tích kết dựa mơ hình - Qua đánh giá lựa chọn mơ hình, nhóm lựa chọn phương pháp phân lớp Logistic Regression tiến hành dự báo sau:  Thêm liệu vào mơ hình Nhóm chọn liệu 1000 mẫu đưa vào dự báo qua Data Sampler chọn liệu: 10 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488  Kiểm tra sau huấn luyện cho kết sau:  Với mơ hình Logistic kết dự báo trên, ta giúp Ngân hàng dự đốn thuộc tính khách hàng đồng ý gửi kỳ hạn, và thuộc tính phân tích sau: 11 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 - Default (tình trạng tín dụng): Những người có tình trạng tín dụng có xu hướng đồng ý người khơng có tình trạng tín dụng có xu hướng khơng đồng ý - Những người chưa kết có xu hướng đồng ý không đồng ý - Những người có nhà có xu hướng đồng ý từ chối - Những người 40 tuổi có xu hướng đồng ý nhiều nhất, cịn người từ 40 tuổi trở lên không đồng ý - Liên lạc vào tháng 7, tháng 8, tháng 10 khách hàng có xu hướng đồng ý cao, hoàn toàn Nếu liên lạc vào tháng nhận lại khơng đồng ý từ khách hàng - Những người vay tiền để mua nhà đồng ý đăng ký ngược lại người khơng vay tiền để mua nhà từ chối đăng ký gửi kỳ hạn - Với thời lượng liên kết cao khả khách hàng đồng ý cao - Những người hươu có xu hướng đồng ý đăng ký gửi kỳ hạn, người lao động phổ thơng đa phần từ chối, khơng gửi kỳ hạn  Mơ hình sở để Ngân Hàng dự đốn đối tượng khách hàng tiềm cách dự báo liệu Orange Từ có sách phù hợp để gia tăng số lượng khách hàng sử dụng dịch vụ VI ST T ĐÁNH GIÁ ĐÓNG GÓP CỦA CÁC THÀNH VIÊN THAM GIA DỰ ÁN Họ Tên MSSV Nội dung đóng góp Tỷ lệ đóng góp cho dự án Hồ Thị Hồi Thu 31201022762 Tìm liệu, 100% thực thao tác Orange, đưa đánh giá mơ hình, phân tích số liệu dựa mơ hình Tổng hợp word, đánh giá tiến độ làm 12 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Nguyễn Thị Thanh Giang 31201022173 Nguyễn Thị Xuân 31201021941 An Lê Thanh Tâm 31201022666 Nguyễn Tiến Thành 312010 việc nhóm Tìm liệu, thực thao tác Orange, đưa đánh giá mơ hìn, phân tích số liệu dựa mơ hình Tìm liệu, thực thao tác Orange, đưa đánh giá mơ hình, phân tích số liệu dựa mơ hình Tìm liệu, trình bày nội dung mở đầu dự án Tìm liệu, trình bày nội dung trình thu thập làm liệu 13 Downloaded by hây hay (vuchinhhp3@gmail.com) 100% 100% 100% 100% ... month Định Trình độ học vấn Tháng ? ?tiểu học (basic.4y), năm tiểu học (basic.6y), Trung học sở (basic.9y), trung học phổ thông (high school), khơng có học (illiterate), khóa học chun nghiệp (professional... ma trận nhầm lẫn THU THẬP VÀ LÀM SẠCH DỮ LIỆU Thông tin liệu  Bộ liệu “Bank Additional full” tập hợp liệu đa biến, có 41188 mẫu, 21 thuộc tính, khơng có liệu bị thiếu mục tiêu nghiên cứu cột... THẬP VÀ LÀM SẠCH DỮ LIỆU 1 Thông tin liệu Làm liệu III KIỂM ĐỊNH MƠ HÌNH Chuỗi thao tác thực phân lớp Orange .5 Các phương pháp phân lớp liệu IV ĐÁNH

Ngày đăng: 23/02/2023, 22:05

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan