Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 92 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
92
Dung lượng
2,96 MB
Nội dung
HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC DỰ ĐỐN KHẢ NĂNG GỬI TIỀN CỦA KHÁCH HÀNG CÁNHÂN QUA TELEMARKETING TẠI NGÂN HÀNG VỚI THUẬT TOÁN PHÂN LỚP NAIVE BAYES VÀ C4.5 NGUYỄN THỊ HƯƠNG HÀ NỘI, NĂM 2020 HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC DỰ ĐỐN KHẢ NĂNG GỬI TIỀN CỦA KHÁCH HÀNG CÁNHÂN QUA TELEMARKETING TẠI NGÂN HÀNG VỚI THUẬT TOÁN PHÂN LỚP NAIVE BAYES VÀ C4.5 Giáo viên hướng dẫn: ThS Nguyễn Dương Hùng Sinh viên thực hiện: Nguyễn Thị Hương Mã sinh viên: 19A4040076 Lớp: K19HTTTA Khóa: K19 Hệ: Đại học quy Hà Nội, tháng 6/2020 Khóa luận tốt nghiệp LỜI CẢM ƠN Khoảng thời gian bốn năm đại học, học mái trường Học Viện Ngân Hàng, trở thành sinh viên khoa Hệ Thống Thông Tin Quản Lý niềm vinh dự em nói riêng học sinh khóa 19 nói chung Chúng em trải qua nhiều học tuyệt vời chia sẻ kinh nghiệm làm việc, kinh nghiệm sống thầy Các thầy nhiệt tình tuyệt vời Em khơng thể hồn thành khóa luận tốt nghiệp thiếu hướng dẫn tâm huyết tận tình thầy Nguyễn Dương Hùng Thầy mang đến cho chúng em cảm hứng cho ngành khai phá liệu, phân tích liệu Những số, hàng ngàn liệu mà thu thập hàng ngày trở nên có sức sống hơn, ý nghĩa Thầy Hùng khiến toán học trở nên có hồn, ý nghĩa đến mức nói môn nghệ thuật sống, điều thực tiễn Không vậy, em may mắn thầy hướng dẫn tận tình tập lớn Khai Phá Dữ Liệu Phân tích xử lý thơng tin kinh tế Đây tảng giúp em tự tin thực đề tài khóa luận Em xin gửi lời cảm ơn sâu sắc tới thầy Nguyễn Dương Hùng nhiều bạn sinh viên khoa Hệ Thống Thông Tin Quản Lý trường Học Viện Ngân Hàng hỗ trợ em nhiều việc tạo ý tưởng cho đề tài khóa luận tốt nghiệp Sau cùng, em xin kính chúc quý thầy, cô Khoa Hệ thống thông tin quản lý luôn khỏe mạnh, công tác tốt, tiếp tục gặt hái nhiều thành công nghiệp trồng người Em xin chân thành cảm ơn! Nguyễn Thị Hương - 19A4040076 Page | i Khóa luận tốt nghiệp LỜI CAM KẾT Em xin cam đoan: Khóa luận tốt nghiệp với đề tài “Dự đoán khả gửi tiền khách hàng cá nhân qua TeleMarketing ngân hàng với thuật toán phân lớp C4.5 Naive Bayes” khóa luận riêng cá nhân em, khơng chép Em xin chịu trách nhiệm khóa luận mình! Hà Nội, ngày tháng năm 2020 Người cam đoan Nguyễn Thị Hương Nguyễn Thị Hương - 19A4040076 Page | ii Khóa luận tốt nghiệp NHẬN XÉT (của quan thực tập) mặt: Ý thức chấp hành nội quy, thái độ làm việc sinh viên nơi thực tập; Tiến độ, kết thực cơng việc giao; Tính thực tiễn ứng dụng đề tài Sau trình thực tập cơng ty giải pháp phần mềm tài FSS sinh viên Nguyễn Thị Hương, chúng tơi có số nhận sét sau: - Sinh viên Hương có ý thức chấp hành tốt nội quy, nề nếp cơng ty đặt - Có tinh thần học hỏi, tham gia tích cực hoạt động cơng ty - Có tinh thần trách nhiệm hịa đồng với người Hà Nội, ngày 05 tháng 06 năm 2020 Người nhận xét (Ký tên, đóng dấu) Nguyễn Thị Hương - 19A4040076 Page | iii Khóa luận tốt nghiệp NHẬN XÉT (của giáo viên hướng dẫn) mặt: Mục đích đề tài; Tính thời ứng dụng đề tài; Bố cục hình thức trình bầy đề tài; Ket thực đề tài; Ý thức, thái độ sinh viên trình thực đề tài Kết luận: Hà Nội, ngày 12 tháng 06 năm 2020 Giáo viên hướng dẫn (Ký tên) Nguyễn Thị Hương - 19A4040076 Page | iv Khóa luận tốt nghiệp MỤC LỤC LỜI CẢM ƠN i LỜI CAM KẾT ii NHẬN XÉT (của quan thực tập) iii NHẬN XÉT (của giáo viên hướng dẫn) iv DANH MỤC TỪ VIẾT TẮT vii DANH MỤC HÌNH ẢNH viii DANH MỤC BẢNG BIỂU x MỞ ĐẦU CHƯƠNG I: HOẠT ĐỘNG MARKETING VÀ CRM TRONG NGÂN HÀNG 1.1 Hoạt động Marketing trongngân hàng 1.1.1 Sự cần thiết Marketing lĩnh vực ngân hàng 1.1.2 Chức phận Marketing ngân hàng 1.1.3 Đặc điểm Marketing ngân hàng .6 1.1.4 Một số phương pháp Marketing 1.2 CRM ngân hàng .13 1.2.1 Khách hàng cá nhân ngân hàng thương mại 13 1.2.2 CRM ngành ngân hàng 13 1.2.3 Tầm quan trọng CRM ngân hàng 14 1.2.4 Một số lợi ích sử dụng CRM ngân hàng 15 CHƯƠNG II: XÂY DỰNG THUẬT TOÁN PHÂN LỚP C4.5 VÀ NAIVE BAYES 17 2.1 Giới thiệu khai phá liệu 17 2.1.1 Khái niệm khai phá liệu 17 2.1.2 Mục đích khai phá liệu 17 2.1.3 Quy trình khai phá liệu 18 2.1.4 Ứng dụng khai phá liệu 20 2.2 Các kỹ thuật khai phá liệu 21 2.2.1 Phân lớp .21 Nguyễn Thị Hương - 19A4040076 Page | v Khóa luận tốt nghiệp DANH MỤC TỪ VIET TẮT 2.2.2 Phân cụm 23 2.2.3 Luật kết hợp .23 2.3 Thuật toán C4.5 Naive Bayes .24 STT 2.3.1 Thuật toán C4.5 24 Chữ viết tắt Tiếng Anh Tiếng Việt 2.3.2 Thuật toán Naive Bayes 37 CRM III: ỨNG Customer quan hệ khách CHƯƠNG DỤNGRelationship KHAI PHÁ DỮ Quản LIỆUlýTRONG MARKETING NGÂN Management hàng NĂNG ĐĂNG KÝ GỬI HÀNG (CÁC CUỘC GỌI ĐIỆN THOẠI) Dự ĐOÁN KHẢ TIỀN CỦA KHÁCH HÀNG 47 CSDL Cơ sở liệu 3.1 liệu ngân hàng 47 DLỨng dụng khai phá Data Dữ liệu 3.1.1 Quản lý rủi ro .48 3.1.2 Marketing 48 3.1.3 Phát gian lận .49 3.1.4 Quản trị quan hệ khách hàng 49 3.2 Bài toán dự đoán đăng ký gửi tiền khách hàng 50 3.2.1 Chiến dịch Bank TeleMarketing khuyến khích khách hàng gửi tiền 50 3.2.2 Mơ tả tốn 50 3.3 Thực nghiệm .52 3.3.1 Chuẩn bị liệu 52 3.3.2 Thực nghiệm với thuậttoán C4.5 Naive Bayes Rapid miner 54 3.4 Kết 57 3.4.1 Thuật toán C4.5 58 3.4.2 Thuật toán Naive Bayes 60 3.4.3 Đánh giá mơ hình 68 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 71 Nguyễn Thị Hương - 19A4040076 Page | vi DN Doanh nghiệp ERP HĐKD ID3 Iteractive Dichotomiser Thuật toán ID3 IQR Interquartile Range Khoảng tứ phân vị KH Khách hàng 10 KPDL Khai phá liệu 11 NBC 12 NH Ngân hàng 13 SPDV Sản phẩm dịch vụ 14 THCS Trung học sở 15 THPT Trung học phổ thông Enterprise resource planning systems Hoạch định tài nguyên doanh nghiệp Hoạt động kinh doanh Naive Bayes Classification Thuật tốn phân lớp Naive Bayes TP Khóa luận tốt nghiệp _ - FN (False Negative): Số lượng phân tự dự đốn nhầm lớp Negative Độ xác (precision): tính số tài liệu phân lớp tổng số tài liệu phân vào lớp P= TP + FP *100% TP Độ hồi tưởng (recall): tính số tài liệu phân lớp tổng số tài liệu thực chất thuộc lớp R= *100% TP + FN Độ đo tổng hợp (F-measure) accuracy: 88.57% true KHONG true CO class precision pred KHONG 1154 94 9247% pred CO 61 47 class recall 94.98% 33.33% _ 2*P * R _ F = J J *100% P+R 43.52% 3.4.1 Thuật toán C4.5 Chạy thuật toán C4.5 với liệu truyền vào, thu ma trận nhầm lẫn (Confusion Matrix) sau: Bảng 27 Bảng ma trận nhầm lẫn - TP (True Positive): Số lượng phân tự dự đoán lớp Positive - TN (True Negative): Số lượng phân tự dự đoán lớp Negative - FP (False Positive): Số lượng phân tự dự đoán nhầm lớp Positive Nguyễn Thị Hương - 19A4040076 Page | 57 Hình 20 Ma trận nhầm lẫn thuật tốn C4.5 - Có 1154 ghi thuộc lớp KHONG mà phân lớp phân giá trị KHONG - Có 47 ghi thuộclớp CO mà phân lớp phân giá trị CÓ - Có 94 ghi thclớp CO mà phân lớp phân sai thành giá trị thuộclớp KHONG - Có 61 ghi thuôclớp KHONG mà phân lớp phân sai thành giá trịthuộc lớp CO - Độ đo xác Accuracy: 88.57% (Tỷ lệ mẫu phân lớp đúngtrên toàn tập mẫu) - Độ hồi tưởng Class recall lớp KHONG 94.98% (Tỷ lệ mẫu phân lớp KHONG toàn mẫu thực thuộc phân lớp KHONG), độ hồi tưởng recall lớp CO 33.33% (Tỷ lệ mẫu phân lớp CO toàn mẫu thực thuộc phân lớp CO) - Độ hiệu dụng Precision lớp KHONG 92.47% (Tỷ lệ mẫu phân lớp KHONG tồn mẫu dự đốn phân lớp KHONG), độ hiệu dụng Precision lớp CO 43.52% (Tỷ lệ mẫu phân lớp CO toàn mẫu dự đoán phân lớp CO) Nguyễn Thị Hương - 19A4040076 Page | 58 Khóa luận tơt nghiệp _ Khóa luận tốt nghiệp Cây định Tree TG LLC = IT | KQCD TRUOC = KHAC | | SO DU = CAO | | | | | | | | | | | SO DU = THAP | | NHA = CO: KHONG {KHONG=13, CO=0} | | NHA = KHONG | | | SLLH = IT | | | | HOC VAN = DAI HOC: KHONG {KHONG=3, CO=1} | | | | HOC VAN = THPT: CO {KHONG=1, CO=2} | | | SLLH = TB: KHONG {KHONG=2, CO=0} | SO DU = TRUNG BINH: CO {KHONG=0, CO=7} KQCD TRUOC = KHONG RO: KHONG {KHONG=771, CO=83} KQCD TRUOC = THANH CONG Hình 21 Cây định thuật toán C4.5 RapidMiner Một số luật đáng ý rút từ kết thuật toán sau: - Nếu “Thời gian liên lạc gọi cuối ít” “Kết chiến dịch trước khơng rõ thất bại” “KH khơng gửi tiền” - Nếu “Thời gian liên lạc gọi cuối ít” “Kết chiến dịch trước thành công” “Học vấn THPT” “Số dư cao” “KH gửi tiền” - Nếu “Thời gian liên lạc gọi cuối ít” “Kết chiến dịch trước thành công” “Học vấn THPT” “Số dư trung bình” “KH gửi tiền” - Nếu “Thời gian liên lạc gọi cuối ít” “Kết chiến dịch trước thành công” “Học vấn THPT” “Số dư trung thấp” “Tình trạng nhân = Kết hơn” “KH khơng gửi tiền” - Nếu “Thời gian liên lạc gọi cuối ít” “Kết chiến dịch trước thành công” “Học vấn Đại học” “Tình trạng nhân độc thân” “KH gửi tiền” - Nếu “Thời gian liên lạc gọi cuối ít” “Kết chiến dịch trước thành cơng” “Học vấn Đại học” “Tình trạng nhân kết hơn” “Số dư thấp trung bình” “KH khơng gửi tiền” - Nếu “Thời gian liên lạc gọi cuối ít” “Kết chiến dịch trước thành cơng” “Học vấn Đại học” “Tình trạng hôn nhân kết hôn” “Số dư cao” “Số lần liên lạc trung bình” “KH gửi tiền” - Nếu “Thời gian liên lạc gọi cuối nhiều” “KH gửi tiền” - Nếu “Thời gian liên lạc gọi cuối ít” “Kết chiến dịch trước khác” “Số dư trung bình” “KH gửi tiền” Các luật định T T T T H HO HO HO NV NHAN D THAN NHAN K HON: NHAN L DI: == DAI YHOCCO KHONG {KHONG=6, CO {KHONG=3, CO=3} {KHONG=1, CO=2} Nguyễn Thị Hương - 19A4040076 Page | 59 | | | | | | | | H H O H | | | | | | T T | | | | | T V V A V S S | | | S O H H S | | S S H = D D T T T D U NHAN = THAN: CO {KHONG=2, CO=5} NHAN = HON DU = CAO SL = KHONG {KHONG=1, CO=1} SL = CO {KHONG=0, CO=3} LH = THAP TB: DU CO {KHONG=0, CO=7} DU = TRUN BINH: CO {KHONG=0, CO=3} NHAN = LY DI: KHONG {KHONG=1, CO=1} KHON RO: {KHONG=0, CO=5} THCS KHON {KHONG=3, CO=0} : G THPT = CO {KHONG=0, CO=10} = HON NHAN DOC THAN: CO {KHONG=0, CO=2} HON NHAN KET HON: KHONG {KHONG=2, = CO=0} HON NHAN LY DI: CO {KHONG=0, CO=2} = TRUNG : CO {KHONG=0, CO=2} BINH | KQCD TRUOC = THAT BAI: KHONG {KHONG=98, CO=26} TG LLC = NHIEU: CO {KHONG=43, CO=151} TG LLC = TRUNG BINH: KHONG {KHONG=218, CO=205} 3.4.2 Thuật toán Naive Bayes Chạy thuật toán Naive Bayes với liệu truyền vào, thu ma trận nhầm lẫn (Confusion Matrix) sau Hình 22 Ma trận nhầm lẫn thuật tốn Naive Bayes - Có 3642 ghi thuộc lớp KHONG mà phân lớp phân giá trị KHONG - Có 291 ghi thuộc lớp CO mà phân lớp phân giá trị CĨ Nguyễn Thị Hương - 19A4040076 Page | 60 Khóa luận tốt nghiệp - Có 291 ghi thc lớp CO mà phân lớp phân sai thành giá trị thuộc lớp KHONG - Có 358 ghi thc lớp KHONG mà phân lớp phân sai thành giá trị thuộc lớp CO - Độ đo xác Accuracy: 86.99% (Tỷ lệ mẫu phân lớp toàn tập mẫu) - Độ hồi tưởng Class recall lớp KHONG 91.05% (Tỷ lệ mẫu phân lớp KHONG toàn mẫu thực thuộc phân lớp KHONG), độ hồi tưởng recall lớp CO 55.85% (Tỷ lệ mẫu phân lớp CO toàn mẫu thực thuộc phân lớp CO) - Độ hiệu dụng Precision lớp KHONG 94.06% (Tỷ lệ mẫu phân lớp KHONG tồn mẫu dự đốn phân lớp KHONG), độ hiệu dụng Precision lớp CO Kết thu thuật tốn Naive Bayes Hình 23 Kết chạy thuật toán Naive Bayes RapidMiner Nguyễn Thị Hương - 19A4040076 Page | 61 Khóa luận tốt nghiệp Hình 24 Kết chạy thuật toán Naive Bayes RapidMiner Nhận xét: NBC có hướng tiếp cận phân lớp theo mơ hình xác suất, dự đốn xác suất số đối tượng thuộc thuộc tính lớp xét Nguyễn Thị Hương - 19A4040076 Page | 62 Khóa luận tốt nghiệp • Thuộc tính TUOI Hình 25 Kết chạy thuật tốn Naive Bayes thuộc tính TUOI Từ kết thuật toán Naive Bayes, thấy thuộc tính TUOI ảnh hưởng tới xu hướng gửi tiền sau: Nhóm tuổi có khả gửi tiền vào ngân hàng cao từ ≤ 35 tuổi chiếm khoảng 37.8%, đứng thứ hai nhóm tuổi từ 36-49 chiếm 35.5% nhóm tuổi ≥ 50 có khả gửi tiền thấp chiếm 26.7% Nhìn chung, thuộc tính TUOI khơng ảnh hưởng nhiều tới xu hướng gửi tiền, khả gửi tiền nhóm tuổi khơng chênh lệch nhiều Hình 26 Kết chạy thuật tốn Naive Bayes thuộc tính TT HON NHAN Nhìn vào biểu đồ, thấy khách hàng kết có khả gửi tiền cao chiếm khoảng 53,2%, khách hàng độc thân có khả gửi tiền dự đoán khoảng 32,1% khách hàng ly dị có khả gửi tiền thấp khoảng 14,8% Tỷ lệ khách Nguyễn Thị Hương - 19A4040076 Page | 63 Khóa luận tốt nghiệp hàng có khả khơng gửi tiền cao thuộc nhóm KH kết chiếm 61.4% thấp thuộc nhóm KH ly dị chiếm khoảng 11.7% • Thuộc tính HOC VAN Hình 27 Kết chạy thuật tốn Naive Bayes thuộc tính HOC VAN Chúng ta thấy thuộc tính TT HOC VAN có xác suất khả gửi tiền khơng gửi tiền rõ ràng Những khách hàng có trình độ học vấn từ Trung học phổ thơng (THPT) Đại học có khả gửi tiền vào ngân hàng cao hơn, cụ thể THPT khoảng 47% Đại học khoảng 37% Khả gửi tiền vào ngân hàng KH có trình độ học vấn khơng rõ chiếm khoảng 3.6% KH có trình độ học vấn Trung học sở 12.3% • Thuộc tính NHA Attribute: BKHONC BCO co KHONC unknown NHA Hình 28 Kết chạy thuật tốn Naive Bayes thuộc tính NHA Từ biểu đồ, thấy thuộc tính NHA có xác suất khả gửi tiền KH có nhà khoảng 42,2% KH khơng có nhà khoảng 57.8% Xác suất khả không gửi Nguyễn Thị Hương - 19A4040076 Page | 64 Khóa luận tốt nghiệp tiền KH có nhà 56.9% KH khơng có nhà 43.1% Có thể thấy, KH có nhà hay khơng khơng ảnh hưởng nhiều tới khả gửi tiền khơng gửi tiền họ • Thuộc tính NO Hình 29 Kết chạy thuật tốn Naive Bayes thuộc tính NO Nhìn vào biểu đồ, rõ ràng khả gửi tiền vào ngân hàng KH khơng có khoản nợ 91.7% cao nhiều KH có khoản nợ Từ đây, ngân hàng nên tập trung thực chiến dịch TeleMarketing với KH khơng có khoản nợ ngân hàng nhiều KH nợ • Thuộc tính TG LLC Hình 30 Kết chạy thuật toán Naive Bayes thuộc tính TG LLC Thời gian gọi cuối có ảnh hưởng tới khả gửi tiền KH sau: - Thời gian gọi (31.7%) - Thời gian gọi trung bình (39.3%) Nguyễn Thị Hương - 19A4040076 Page | 65 Khóa luận tốt nghiệp _ - Thời gian gọi nhiều (29%) Tuy nhiên, KH có thời gian gọi cuối KH có khả khơng gửi tiền vào ngân hàng cao khoảng 76.7% • Thuộc tính SLLH Hình 31 Kết chạy thuật tốn Naive Bayes thuộc tính SLLH KH có số lần liên hệ có khả tham gia chiến dịch gửi tiền vào ngân hàng cao (khoảng 72.6%) có khả khơng gửi tiền vào ngân hàng cao (khoảng 68.3%) Những KH có số lần liên hệ nhiều trung bình có khả gửi tiền vào ngân hàng thấp khoảng 6.5% 20.9% • Thuộc tính NGAY LLGD Hình 32 Kết chạy thuật tốn Naive Bayes thuộc tính NGAYLLGD Nguyễn Thị Hương - 19A4040076 Page | 66 Khóa Khóaluận luậntốttốtnghiệp nghiệp Chúng ta thấy, liên lạc với NH có khả gửi tiền vào ngân hàng cao 3.4.3 Đánh giá KH gần mô hình (khoảng 76.6%) Những khách hàng lâu khơng liên lạc với ngân hàng có khả Từ tiền kết thuật toán trênchiếm RapidMiner gửi vào chạy ngân 2hàng thấp 6.5% có bảng so sánh kết C4.5 Naive Bayes sau: • Thuộc tính KQCD TRUOC Độ đo C4.5 Naive Bayes Thuật tốn Hình 33 Kết chạy thuật tốn Naive Bayes thuộc tính KQCD TRUOC lớn hơn? Khả gửi tiền vào ngân hàng KH có kết chiến dịch trước thành công KHONG CO KHONG CO KHONG CO 15.9% kết chiến dịch trước thất bại 12.1% Những KH có thuộc tính KQCD TRUOC rõ có khả33.33 gửi tiền vào ngân hàng cao Tuy nhiên, nhìn Độ hồi tưởng khơng 94.98% 91.05 55.85% C4.5(64.7%) NBC vào giá trị đó, thấy % hạn chế % toán chưa thu thập kết tham gia Recall chiến dịch khác ngân hàng Độ xác 92.47% Precision Độ đo tổng hợp F-measure 93.71% 43.52 % 94.06 % 37.75 % 92.53 % 44.84% NBC NBC 49.74% C4.5 NBC Độ đo xác Accuracy 88.57% 86.99% C4.5 11.43% 13.01% NBC Tỷ lệ lỗi Error Rate Nguyễn Thị Hương - 19A4040076 Page | 67 Bảng 28 So sánh kết C4.5 Naive Bayes Theo kết dựa 4500 ghi liệu KH với cơng cụ Rapid Miner ta thu được: - Thuật tốn C4.5 có độ đo xác = 88,57% cao độ đo xác thuật tốn Naive Bayes = 86.99% Thuật tốn C4.5 sử dụng với liệu đa trị, nhiên, sử dụng liệu để trực quan so sánh thuật toán với - Thuật toán Naive Bayes nêu rõ xác suất khả gửi tiền thuộc tính Từ kết thực nghiệm, nên sử dụng thuật toán C4.5 để khai phá liệu KH NH để dự đoán khả khách hàng tham gia gửi tiền hay khơng thơng qua chiến dịch TeleMarketing lý sau: Mặc dù DL có kích thước tương đối nhiên nguồn thu thập liệu chưa đạt yêu cầu, nhiều ghi có thuộc tính khơng rõ nên kết phân lớp DL chưa cao Bên cạnh luật sinh từ định C4.5 cịn có luật khơng phù hợp chí mâu thuẫn với thực tế Song luật kết chạy thuật toán C4.5 góp phần giúp Ngân hàng nhận diện KH tiềm tham gia gửi tiền sau chiến dịch TeleMarekting Hơn nữa, cải tiến thuật Nguyễn Thị Hương - 19A4040076 Page | 68 Khóa luận tốt nghiệp toán C4.5 làm việc với thuộc tính đa trị làm việc với giá trị bị thiếu Mà DL Khách hàng có nhiều DL bị thiếu, khơng rõ q trình nhập liệu nhân viên, có nhiều thuộc tính đa trị tuổi, số ngày liên lạc gần đây, thời gian gọi cuối nên sử dụng thuật toán C4.5 để khai phá giúp NH tiết kiệm thời gian, công sức việc chuyển đổi DL thuộc tính đa trị Nguyễn Thị Hương - 19A4040076 Page | 69 Khóa luận tốt nghiệp TÀI LIỆU KẾTTHAM LUẬNKHẢO “Dự đốn khả năngtrình gửi Marketing tiền khách cá Hà nhân quaNhà TeleMarketing N.Đề T tài: M H PGS.TS, "Giáo ngânhàng hàng", Nội: xuất Lao ngân hàng với thuật toán phân lớp C4.5 Naive Bayes ” thực nhằm dự Động, 2016 đoán [1] [2] tham gia gửi tiền khách hàng ngân hàng thông qua liệu chiến dịch khả N T M Hiền, Marketing ngân hàng, Hà Nội: Nhà xuất lao động, 2016 TeleMarketing, xác định đối tượng khách hàng có khả cao gửi tiền vào [3] Ianhàng H Wrtten, Mark vạch A.Hall, "Datađịnh Mining Practical Machine ngân để từ đóEibe giúpFrank, ngân hàng hướng chăm sóc kháchLearning hàng tập Tool and Techniques", Morgan Kaufmann, 2011 trung [4] Công việc thực Trevor Robert Tibshirani, Jerome H Friedman, "ThesựElements of vai Statistical • Hastie, Tìm hiểu hoạt động Marketing ngân hàng, cần thiết, trò Learning", 1st ed, 2001 Marketing ngân hàng đặc điểm Tìm hiểu số phương pháp Marketing [5] truyền Michael Steinbach, PangNing Tan, Vipin Kumar, "Introduction to Data Mining", thống 2005 đại Cùng với tìm hiểu CRM ngân hàng, tầm quan trọng lợi [6] M.Kamber, and Techniques," in Data Mining, ed., Morgan ích J.Han, CRM ngân"Concepts hàng Kaufmann, 2011 • Trình bày vấn đề Khai phá liệu khái niệm, mục đích, [7] quy trình ứng dụng khai phá liệu Nắm kỹ thuật KPDL phân lớp Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, "Giáo trình Khai phá liệu", 2013.tốn C4.5 thuật tốn Naive Bayes Xây dựng mơ hình câyNXB quyếtĐHQGHN, định qua thuật [8] định C4.5 thuật tốn Naive Bayes cơng cụ RapidMiner C Ket t T c THNH, "ỨNG DỤNG VÀ PHÁT TRIỂN CÔNG NGHỆ TRONG HOẠT đạt ĐỘNG NGÂN Ngân Nhà nước Việt Nam, 04/10/2013 KPDL kháchHÀNG," hàng tham giahàng chiến dịch TeleMarketing nhằm phân tích đối tượng KH gửi tiền vào ngân hàng Cho thấy hiệu chiến dịch, phân tích [9] Lưu Đan Thọ, Lượng Văn Quốc, Quản trị quan hệ khách hàng, Nhàhiệu xuấtquả bảnhuy tài đối tượng KH mà ngân hàng nên tập trung chăm sóc để2016: có động vốn cao Hạn chế Do thời gian lực hạn chế nên đề tài khóa luận cịn số vấn đề sau: • Một số thơng tin Khách hàng số điện thoại, họ tên không đưa vào khóa luận để đảm bảo tính bảo mật ngân hàng • Nguồn liệu cịn hạn chế chưa thức • Các liệu cịn thiếu sót so với thuộc tính ngân hàng Hướng nghiên cứu tiếp theo: Vì thời gian hạn chế nên đề tài khóa luận nghiên cứu thực nghiệm hai thuật toán C4.5 Naive Bayes, tương lai mong muốn toán nghiên cứu thực thuật toán khác Kmeans, hồi quy dự báo, mạng noron Ngoài ra, cần sử dụng thêm liệu cho tập huấn luyện để mô hình định thuật tốn Naive Bayes có độ tin cậy cao hoạt động hiệu Nguyễn Thị Hương - 19A4040076 Page | 71 70 ... NGÂN HÀNG KHOA HỆ THỐNG THƠNG TIN QUẢN LÝ KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC DỰ ĐOÁN KHẢ NĂNG GỬI TIỀN CỦA KHÁCH HÀNG C? ?NH? ?N QUA TELEMARKETING TẠI NGÂN HÀNG VỚI THUẬT TOÁN PHÂN LỚP NAIVE BAYES VÀ C4. 5. .. NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC DỰ ĐỐN KHẢ NĂNG GỬI TIỀN CỦA KHÁCH HÀNG C? ?NH? ?N QUA TELEMARKETING TẠI NGÂN HÀNG VỚI THUẬT TOÁN PHÂN LỚP NAIVE BAYES VÀ C4. 5. .. tài: ? ?Dự đoán khả gửi tiền khách hàng cá nh? ?n qua TeleMarketing ngân hàng với thuật toán phân lớp Naive Bayes C4. 5? ?? Mục đích đề tài Nghiên cứu phân tích liệu khách hàng ngân hàng cơng cụ