1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình dự báo churn cho khách hàng bằng phương pháp học máy suy diễn phương sai

75 49 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 75
Dung lượng 1,24 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐÀO CƠNG ÂN ĐÀO CƠNG ÂN TỐN TIN MƠ HÌNH DỰ BÁO CHURN CHO KHÁCH HÀNG BẰNG PHƯƠNG PHÁP HỌC MÁY SUY DIỄN PHƯƠNG SAI LUẬN VĂN THẠC SĨ KHOA HỌC Tốn tin KHỐ 2015B Hà Nội – Năm 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐÀO CƠNG ÂN MƠ HÌNH DỰ BÁO CHURN CHO KHÁCH HÀNG BẰNG PHƯƠNG PHÁP MÁY HỌC SUY DIỄN PHƯƠNG SAI LUẬN VĂN THẠC SĨ KHOA HỌC Toán tin NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Nguyễn Thị Ngọc Anh Hà Nội – Năm 2018 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Đào Công Ân Đề tài luận văn: Mô hình dự báo Churn cho khách hàng phương pháp máy học suy diễn Phương sai Chuyên ngành: Toán tin Mã số SV: CB150076 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 19/10/2018 với nội dung sau: - Mô tả các biến phần phụ lục đưa lên phần mô tả liệu - Bổ xung bước thực xử lý liệu đặc biệt làm online tiền xử lý liệu - Các phần mềm để chạy, tham số chi tiết chạy thuật toán - Đo thời gian chạy thuật toán Ngày tháng 10 năm 2018 Giáo viên hướng dẫn Nguyễn Thị Ngọc Anh CHỦ TỊCH HỘI ĐỒNG Tác giả luận văn Đào Công Ân LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng hướng dẫn khoa học TS Nguyễn Thị Ngọc Anh Các nội dung nghiên cứu, số liệu, kết nêu Luận văn trung thực rõ nguồn trích dẫn Kết nghiên cứu chưa công bố cơng trình khác Tơi xin chịu trách nhiệm cơng trình nghiên cứu riêng ! Hà Nội, Ngày 28 tháng 09 năm 2018 Tác giả luận văn Đào Công Ân Mục lục Danh sách bảng Danh sách hình vẽ Lời mở đầu Giới thiệu chung 1.1 Giới thiệu toán Churn 10 1.2 Các công trình nghiên cứu liên quan 12 1.3 Mục tiêu nghiên cứu luận văn 13 1.4 Học máy, ứng dụng vào dự báo Churn ngân hàng 13 1.5 Cấu trúc luận văn 15 Áp dụng học máy toán dự báo Churn 16 2.1 Phương pháp phân tích dự báo Churn 16 2.2 Áp dụng định (Decision Tree) cho dự báo Churn 19 2.3 2.2.1 Khái niệm định (Decision tree) 19 2.2.2 Thuật toán xây dựng định 20 2.2.3 Ứng dụng định cho dự báo Churn 23 Áp dụng mạng Nơron (Artificial Neural Network - ANN) cho dự báo Churn 23 2.3.1 Perceptron learning algorithm (PLA) 28 2.3.2 Mơ hình Logistic regression 31 LUẬN VĂN 2.3.3 2.4 Đào Công Ân Áp dụng mạng Nơron cho dự báo Churn 34 Áp dụng suy diễn phương sai trực tuyến cho phân phối Gaussian đa biến (VIGO) cho dự báo Churn 35 2.4.1 Phương pháp học trực tuyến 35 2.4.2 Phương pháp suy diễn xấp xỉ 37 2.4.3 Suy diễn phương sai cho ước lượng Bayes nhiều biến 41 2.4.4 Suy diễn phương sai trực tuyến cho ước lượng Bayes nhiều biến 45 Ứng dụng toán dự báo Churn vào lĩnh vực ngân hàng 48 3.1 Mô tả liệu 48 3.2 Tiền xử lý liệu 50 3.3 Các kết phân tích toán Churn 51 3.4 Một số tiêu chí đánh giá mơ hình học 56 3.5 Chọn model thực training cho toán dự báo Churn 58 3.6 Kết cho toán dự báo Churn 59 3.6.1 Cây định (Decision Tree) 59 3.6.2 Mạng Nơron (ANN) 61 3.6.3 Suy diễn phương sai trực tuyến cho ước lượng Bayes nhiều biến (VIGO) 63 3.6.4 Ưu nhược điểm kỹ thuật học máy 65 Kết luận 65 66 Tài liệu tham khảo 67 A Một số kết chạy toán dự báo Churn 70 Trang Danh sách bảng 3.2 Tỷ lệ phân loại sai dự báo Churn sử dụng kỹ thuật định 60 3.3 Tỷ lệ phân loại sai dự báo Churn sử dụng kỹ thuật mạng Nơron 62 3.4 Độ xác ba phương pháp 63 3.5 Tỷ lệ phân loại sai dự báo Churn dựa mean var 64 3.6 Ưu nhược điểm kỹ thuật học máy 65 Danh sách hình vẽ 1.1.1 Mơ hình dịng chảy khách hàng 11 2.1 Kết hợp mơ hình dự báo Churn với kỹ thuật học máy 17 2.2.1 Mơ hình cấu trúc định 19 2.2.2 Sơ đồ thuật toán định cho dự báo Churn 24 2.3.1 Kiến trúc một ANN 25 2.3.2 Q trình xử lý thơng tin ANN 26 2.3.3 Đồ thị hàm sigmoid (bên trái) hàm (bên phải) 27 2.3.4 Mơ hình mơ tả thuật toán Perceptron learning algorithm [20] 30 2.3.5 Sơ đồ thuật toán mạng Nơron cho dự báo Churn 34 2.4.1 Mơ hình tổng qt cho phân loại trực tuyến [5] 36 3.3.1 Ma trận tương quan thuộc tính (feature) liệu 51 3.3.2 Biểu đồ số lượng khách hàng Churn Non-churn 52 3.3.3 Mô tả liệu thuộc tính theo nhóm Churn Non-Churn 52 3.3.4 Phân phối theo thuộc tính tỉ lệ ghi nợ quý T (X81) 53 3.3.5 Biểu đồ phân phối theo thuộc tính tuổi 53 3.3.6 Phân phối theo thuộc tính Day-of-open 54 3.3.7 Phân phối theo thuộc tính số dư 54 3.3.8 Phân phối tỷ lệ Churn theo thuộc tính tuổi 55 3.3.9 Phân phối tỷ lệ Churn theo thuộc tính Day-of-open 56 3.6.1 Biểu đồ dự báo Churn với kỹ thuật Cây định 60 LUẬN VĂN Đào Công Ân 3.6.2 Receiver operating characteristic of decision tree 61 3.6.3 Mơ hình dự báo Churn với kỹ thuật mạng Nơron 62 3.6.4 Receiver operating characteristic of atifical neural network 63 3.6.5 Biểu đồ Mean Var 64 A.0.1Mơ hình định xây dựng từ liệu ngân hàng 70 A.0.2Kết mơ hình mạng Nơron từ liệu ngân hàng 71 Trang Lời mở đầu Nhà bác học tiếng người Mỹ John Naisbitt nói: Thế giới đói khát tri thức chết chìm thơng tin Theo nghiên cứu IBM: năm 2003 người tạo năm exabyte - tỷ gigabyte thông tin Vào năm 2011, lượng thông tin ngày tạo lên tới 2,5 tỷ gigabyte Mặt khác, phát triển internet đánh dấu bước tiến quan trọng bùng nổ thông tin, liệu trao đổi qua internet năm 1993 100 gigabyte ngày, vào năm 1997 100 gigabyte giờ, năm 2002 giây, đến năm 2013 28 875 gigabyte giây, đến năm 2018 lên đến 50 000 gigabyte giây [12] Đặc biệt, 90% liệu giới tạo năm lại Dữ liệu đến từ nơi ví dụ như: từ cảm biến sử dụng để thu thập thông tin, từ trang web, mạng xã hội, hình ảnh kỹ thuật số video, giao dịch điện tử tín hiệu định vị toàn cầu (global positioning system) điện thoại di động Sự bùng nổ thơng tin tồn cầu lượng tri thức mà thấy được, khai thác lại hạn chế Nguyên nhân cấu trúc thơng tin thường có tính đặc thù, đa dạng cấu trúc 80 − 90% liệu dạng phi cấu trúc nên việc khai thác, trích rút tri thức gặp nhiều khó khăn Vì vậy, u cầu đặt cần nghiên cứu phương pháp để khai thác, trích rút tri thức, phân loại tri thức tốt hơn, xác Sự phát triển bùng nổ công nghệ thông tin làm thay đổi giới, LUẬN VĂN Đào Công Ân nhầm thành positive - False Negative (FN): số lượng quuan sát lớp positiv bị phân loại nhầm thành negative • Độ xác (accuracy): Accuracy = TP + TN (T P + F P + T N + F N ) (3.1) • Khi kích thước lớp liệu chênh lệch, precision recall thường sử dụng: TP (T P + F P ) TP Recall = (T P + F N ) P recision = (3.2) (3.3) • F1 score: xem giá trị trung bình độ xác (precision) số quan sát cần trả lại (recall) giúp truy vấn thông tin để đảm bảo độ tin cậy F 1score = precision.recall precision + recall Trong precision xác cịn recall giá trị thu hồi Trang 57 LUẬN VĂN 3.5 Đào Công Ân Chọn model thực training cho toán dự báo Churn Training sử dụng model định (Decision Tree) Chúng ta sử dụng phần mềm lập trình Python 3.6 để thực training liệu - Sử dụng gói packages: scikit-learn import tree sklearn.metrics - Chia liệu thành bộ: Trainning (80%) testing (20%) - Sử dụng model: DecisionTreeClassifier để training, sau thực test Chi tiết training định sử dụng phần mềm lập trình Python 3.6 : from sklearn import tree Y1=df.Churn X1=df.drop([’Churn’], axis=1) X_train, X_test, y_train, y_test = train_test_split(X1,Y1, test_size=0.2) clf1 = tree.DecisionTreeClassifier() clf1.fit(X_train, y_train) y_pred = clf1.fit(X_train,y_train).predict(X_test) Training sử dụng model mạng Nơron (ANN) Chúng ta sử dụng Python 3.6 để thực training hộ liệu Trang 58 LUẬN VĂN Đào Cơng Ân - Sử dụng gói: sklearn với packages neural network packages model selection - Chia liệu thành bộ: Trainning (80%) testing (20%) - Sử dụng model: MLPClassifier với cross-val-score Chi tiết training mạng Nơron sử dụng phần mềm lập trình Python 3.6 : Y=df.Churn X=df.drop([’Churn’], axis=1) X_train, X_test, y_train, y_test = train_test_split(X,Y, testsize=0.8) mlp = MLPClassifier() model = mlp.fit(X_train, y_train) y_pred = model.predict(X_test) Training sử dụng model suy diễn phương sai trực tuyến cho ước lượng Bayes nhiều biến (VIGO) Thực chạy code thuật toán VIGO ngơn ngữ lập trình Matlab 2016 3.6 3.6.1 Kết cho toán dự báo Churn Cây định (Decision Tree) Accuracy = 99.78% Trang 59 LUẬN VĂN Đào Công Ân Hình 3.6.1: Biểu đồ dự báo Churn với kỹ thuật Cây định Bảng 3.2: Tỷ lệ phân loại sai dự báo Churn sử dụng kỹ thuật định Precision Recal F1-score Support 0.956 0.9723 268 1.00 1.00 1.00 185 Avg / total 0.976 0.9962 0.9865 453 Classification Report: Trang 60 LUẬN VĂN Đào Cơng Ân Hình 3.6.2: Receiver operating characteristic of decision tree 3.6.2 Mạng Nơron (ANN) Khi chạy ANN cần phân tích thuộc tính có mức độ ảnh hưởng cao đến việc training xây dựng ANN Nếu sử dùng tất biến ko thu hiệu có sai số lớn Để xác định độ ảnh hưởng biến có thuật tốn PCA dựa vào kinh nghiệm đội nghiệp vụ mà dự đốn độ anh hưởng biến Một điểm lưu ý xây dựng ANN lúc để nhiều lớp ẩn cho ta kết cao Vì training, cần lựa chọ số lớp ẩn cho phù hợp với liệu đầu vào Với liệu ngân hàng, chạy mạng Nơron phần mềm R programing thu kết bảng 3.6.2 Accuracy = 94.26% Classification Report: Trang 61 LUẬN VĂN Đào Cơng Ân Hình 3.6.3: Mơ hình dự báo Churn với kỹ thuật mạng Nơron Bảng 3.3: Tỷ lệ phân loại sai dự báo Churn sử dụng kỹ thuật mạng Nơron Precision Recal F1-score Support 0.94 0.95 0.94 246 0.93 0.95 0.94 207 Avg / total 0.94 0.94 0.94 453 Trang 62 LUẬN VĂN Đào Công Ân Hình 3.6.4: Receiver operating characteristic of atifical neural network Bảng 3.4: Độ xác ba phương pháp Phương pháp Precision Recal F1-score Thời gian chạy VIGO 0.9805 0.9803 0.9804 giây Cây định 0.976 0.9962 0.9865 giây Mạng Nơron 0.94 0.94 10 giây 3.6.3 0.94 Suy diễn phương sai trực tuyến cho ước lượng Bayes nhiều biến (VIGO) Qua so sánh kết ba phương pháp học máy với liệu (bảng 3.3 bảng 3.4), thấy phương pháp định có độ xác cao Trang 63 LUẬN VĂN Đào Cơng Ân Hình 3.6.5: Biểu đồ Mean Var Bảng 3.5: Tỷ lệ phân loại sai dự báo Churn dựa mean var Mean Variancel Cây định 0.9970588235 0.0058823529 Mạng Nơron 0.63402503293 0.1581635451 VIGO 0.8881879 0.001173129 Trang 64 LUẬN VĂN 3.6.4 Đào Công Ân Ưu nhược điểm kỹ thuật học máy Bảng 3.6: Ưu nhược điểm kỹ thuật học máy Thuật toán Ưu điểm Nhược điểm Phù hợp với tồn - Cây đơi xây - Thời gian thực - Tốt cho toán dựng lên phức tạp, Nhanh Cây định phân lớp khó hiểu - Làm việc tốt với - Có thể giống - Chuẩn đoán y tế liệu bị nhiễu, bị nhánh thiếu tốt - Dễ xảy lỗi có - Phân tích rủi ro tín - Chính xác nhiều lớp dụng - Dễ bị overfitting - Hình ảnh - Thuật toán mạnh mẽ Mạng Nơron - Có thể xử lý - Thời gian trainning - Video, Robot tốn phức tạp dài - Mơ hình đơn giản - Trí tuệ nhân tạo - Hoạt động tốt tỏ hiệu kiểu chế độ tự động - Học xác VIGO - Độ sai số cao - Hệ thống thời gian - Giảm chi phí vận chút so với hành lái xe, tàu bay thực phương pháp khác - Yêu cầu phần cứng tương đối thấp Luận văn tìm hiểu nghiên cứu phương pháp giải toán dự doán Churn học máy với việc áp dụng ba kỹ thuật học máy định, mạng Nơron, suy diễn phương sai trực tuyến cho phân phối Trang 65 LUẬN VĂN Đào Công Ân Gaussian đa biến Kết hợp phương pháp học máy với toán dự đoán Churn để dự đoán Churn khách hàng liệu đầu vào liệu ngân hàng Việt Nam Tính luận văn đưa toán thực tế dự báo Churn khách hàng ngân hàng Viêt Nam ba phương pháp Từ kết thực nghiệm, thấy phương pháp định tốt Hướng phát triển luận văn xây dựng phương pháp học trực tuyến hiệu với liệu trực tuyến toán dự báo Churn Kết hợp dự báo Churn với mô hình giá trị vịng đời khách hàng (CLV- Customer Lifetime Value) Từ phân loại khách hàng thành nhiều nhóm với hệ thống quản trị thơng tin khách hàng để từ phân loại nhóm khách hàng Khi ngân hàng có đươc nhóm khách hàng, giúp cho đơn vị xác định sản phẩm phù hợp với khách hàng, đưa sách chăm sóc dành cho nhóm khách hàng, khai thác tiền khách hàng có sách kịp thời nhằm lơi kéo khách hàng có nguy rời bỏ hệ thống Trang 66 Tài liệu tham khảo [1] Adnan Amin, Feras Al-Obeidat, Babar Shah, Awais Adnan, Jonathan Loo, and Sajid Anwar Customer churn prediction in telecommunication industry using data certainty Journal of Business Research, pages – 18, 2018 [2] Dao Cong An Nghiên cứu định xếp hạng tín dụng khách hàng ngân hàng Do an tot nghiep, pages 12 – 48, 2014 [3] L Breiman, J H Friedman, R A Olshen, and C J Stone Classification and regression trees Wadsworth International Group, pages 246 – 280, 1984 [4] Arno De Caigny, Kristof Coussement, and Koen W De Bock A new hybrid classification algorithm for customer churn prediction based on logistic regression and decision trees European Journal of Operational Research, pages 760 – 772, 2018 [5] Nguyen Van Duc Phương pháp phân lớp trực tuyến dự vào suy diễn phương sai bayes Do an tot nghiep, pages 14 – 30, 2017 [6] Tal EL-Hay Efficient methods for exact and approximate inference in discrete graphical models pages – 30, 2001 [7] M.A.H Farquad, Vadlamani Ravi, and S Bapi Raju Churn prediction using comprehensible support vector machine: An analytical crm application Applied Soft Computing, pages 31 – 40, 2014 67 LUẬN VĂN Đào Công Ân [8] S.C.H Hoi, J Wang, and P Zhao A library for online learning algorithms Journal of Machine Learning Research 15, pages 495 – 499, 2014 [9] PAT LANGLEY and STEPHANIE SAGE Induction of selective bayesian classifiers pages 399 – 406, 1994 [10] Daniel Lowd and Pedro Domingos Naive bayes models for probability estimation pages – 8, 2006 [11] Alberto Pliego Marugán and Fausto Pedro García Márquez Chapter logical decision tree analysis pages 11 – 25, 2017 [12] Brijesh B Mehta and Udai Pratap Rao Privacy preserving unstructured big data analytics: Issues and challenges Procedia Computer Science, pages 120 – 124, 2016 ˇ c, and Igor Andjelkovi´c Early churn prediction [13] Miloˇs Miloˇsevi´c, Nenad Zivi´ with personalized targeting in mobile social games Expert Systems with Applications, pages 326 – 332, 2017 [14] Guangli Nie, Yibing Chen, Lingling Zhang, and Yuhong Guo Credit card customer analysis based on panel data clustering Procedia Computer Science, pages 2489 – 2497, 2010 [15] Guangli Nie, Wei Rowe, Lingling Zhang, Yingjie Tian, and Yong Shi Credit card churn forecasting by logistic regression and decision tree Expert Systems with Applications, pages 15273 – 15285, 2011 [16] Quinlan Programs for machine learning Morgan Kaufmann Publishers, pages 18 – 24, 1993 [17] Smita Roy, Samrat Mondal, Asif Ekbal, and Maunendra Sankar Desarkar Dispersion ratio based decision tree model for classification Expert Systems with Applications, pages – 9, 2018 Trang 68 LUẬN VĂN Đào Công Ân [18] Paul Smolensky and Michael C Mozer Mathematical perspectives on neural networks Wadsworth International Group, pages – 20, 2015 [19] Nguyen Tien Thanh, Nguyen Thi Thu Thuy, Phan Xuan Cuong, and Alan Wee-Chung Liew A novel combining classifier method based on variational inference Journal of Machine Learning, pages – 15, 2015 [20] Vu Huu Tiep Machine learning pages 140 – 211, 2018 [21] Wang Xiaohu, Wang Lele, and Li Nianfeng An application of decision tree based on id3 Physics Procedia, pages 1017 – 1021, 2012 Trang 69 Phụ lục A Một số kết chạy toán dự báo Churn Sử dụng phần mềm Weka 2.8 ta có định bên Hình A.0.1: Mơ hình định xây dựng từ liệu ngân hàng 70 LUẬN VĂN Đào Công Ân Sử dụng ngơn ngữ lập trình R để thực training liệu dùng model mạng Nơron - Sử dụng gói packages: caret, gdata, neuralnet - Chia liệu thành bộ: Trainning (80%) testing (20%) - Sử dụng model: neuralnet packages với lớp layers ẩn dùng neurons để training, sau thực test Với thời gian chạy lên đến 30 phút cho ta kết xác đến tận 99,1% (hình bên dưới) Hình A.0.2: Kết mơ hình mạng Nơron từ liệu ngân hàng Trang 71 ... ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐÀO CƠNG ÂN MƠ HÌNH DỰ BÁO CHURN CHO KHÁCH HÀNG BẰNG PHƯƠNG PHÁP MÁY HỌC SUY DIỄN PHƯƠNG SAI LUẬN VĂN THẠC SĨ KHOA HỌC Toán tin NGƯỜI HƯỚNG DẪN KHOA HỌC... nhà khoa học cải tiến cho đời phương pháp phương pháp học trực tuyến (online learning) Phương pháp học trực tuyến phương pháp học sử dụng phương pháp, kỹ thuật học máy thơng thường mơ hình cập... Áp dụng học máy toán dự báo Churn Trong phần tìm hiểu phương pháp phân tích tốn dự báo Churn mơ tả ba kỹ thuật học máy (machine learning) kết hợp với tốn dự báo Churn là: kết hợp mơ hình Churn

Ngày đăng: 28/02/2021, 14:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w