3.6.1 Cây quyết định (Decision Tree).
Accuracy = 99.78%
LUẬN VĂN Đào Công Ân
Hình 3.6.1: Biểu đồ dự báo Churn với kỹ thuật Cây quyết định
Bảng 3.2: Tỷ lệ phân loại sai của dự báo Churn sử dụng kỹ thuật cây quyết định
Precision Recal F1-score Support
0 0.956 1 0.9723 268
1 1.00 1.00 1.00 185
Avg / total 0.976 0.9962 0.9865 453
Classification Report:
Trang 60
Hình 3.6.2: Receiver operating characteristic of decision tree
3.6.2 Mạng Nơron (ANN).
Khi chạy ANN chúng ta cần phân tích thuộc tính nào có mức độ ảnh hưởng cao đến việc training xây dựng ANN. Nếu sử dùng tất cả các biến thì sẽ ko thu được hiệu quả và sẽ có sai số lớn. Để xác định độ ảnh hưởng của biến chúng ta có thuật toán PCA hoặc có thể dựa vào kinh nghiệm của đội nghiệp vụ mà có thể dự đoán được độ anh hưởng của biến. Một điểm lưu ý nữa khi xây dựng ANN là không phải lúc nào để nhiều lớp ẩn là cũng cho ta kết quả cao. Vì vậy khi training, chúng ta cần lựa chọ số lớp ẩn cho phù hợp với bộ dữ liệu đầu vào.
Với bộ dữ liệu ngân hàng, chúng ta chạy mạng Nơron trên phần mềm R programing và thu được kết quả bảng 3.6.2.
Accuracy = 94.26% Classification Report:
LUẬN VĂN Đào Công Ân
Hình 3.6.3: Mô hình dự báo Churn với kỹ thuật mạng Nơron
Bảng 3.3: Tỷ lệ phân loại sai của dự báo Churn sử dụng kỹ thuật mạng Nơron
Precision Recal F1-score Support
0 0.94 0.95 0.94 246
1 0.93 0.95 0.94 207
Avg / total 0.94 0.94 0.94 453
Trang 62
Hình 3.6.4: Receiver operating characteristic of atifical neural network.
Bảng 3.4: Độ chính xác của ba phương pháp
Phương pháp Precision Recal F1-score Thời gian chạy
VIGO 0.9805 0.9803 0.9804 3 giây
Cây quyết định 0.976 0.9962 0.9865 2 giây
Mạng Nơron 0.94 0.94 0.94 10 giây
3.6.3 Suy diễn phương sai trực tuyến cho ước lượng Bayes nhiều biến (VIGO).
Qua so sánh kết quả của ba phương pháp học máy với bộ dữ liệu này (bảng 3.3 và bảng 3.4), chúng ta thấy rằng phương pháp cây quyết định có độ chính xác cao nhất.
LUẬN VĂN Đào Công Ân
Hình 3.6.5: Biểu đồ Mean và Var.
Bảng 3.5: Tỷ lệ phân loại sai của dự báo Churn dựa trên mean và var
Mean Variancel
Cây quyết định 0.9970588235 0.0058823529 Mạng Nơron 0.63402503293 0.1581635451
VIGO 0.8881879 0.001173129
Trang 64
3.6.4 Ưu nhược điểm của các kỹ thuật học máy
Bảng 3.6: Ưu nhược điểm của các kỹ thuật học máy
Thuật toán Ưu điểm Nhược điểm Phù hợp với bài toàn
Cây quyết định
- Thời gian thực hiện Nhanh
- Cây đôi khi xây dựng lên phức tạp, khó hiểu
- Tốt cho bài toán phân lớp
- Làm việc tốt với dữ liệu bị nhiễu, bị thiếu tốt
- Có thể giống nhau
ở nhánh con - Chuẩn đoán y tế
- Chính xác - Dễ xảy ra lỗi khi có quá nhiều lớp
- Phân tích rủi ro tín dụng
Mạng Nơron
- Thuật toán cực kỳ
mạnh mẽ - Dễ bị overfitting - Hình ảnh - Có thể xử lý bài
toán phức tạp
- Thời gian trainning
dài - Video, Robot
- Hoạt động rất tốt
- Mô hình đơn giản thì tỏ ra kém hiệu quả
- Trí tuệ nhân tạo kiểu chế độ tự động như lái xe, tàu bay
VIGO
- Học chính xác - Độ sai số có thể cao hơn chút so với
phương pháp khác
- Hệ thống thời gian thực
- Giảm chi phí vận hành
- Yêu cầu phần cứng tương đối thấp
Luận văn đã tìm hiểu và nghiên cứu về các phương pháp giải bài toán dự doán Churn và học máy cùng với việc áp dụng ba kỹ thuật trong học máy đó là cây quyết định, mạng Nơron, suy diễn phương sai trực tuyến cho phân phối
LUẬN VĂN Đào Công Ân Gaussian đa biến. Kết hợp phương pháp học máy với bài toán dự đoán Churn để dự đoán Churn của khách hàng trên bộ dữ liệu đầu vào là bộ dữ liệu trong ngân hàng tại Việt Nam. Tính mới của luận văn là đưa ra bài toán thực tế dự báo Churn khách hàng của một ngân hàng ở Viêt Nam bằng ba phương pháp trên. Từ kết quả thực nghiệm, chúng ta thấy phương pháp cây quyết định là tốt nhất.
Hướng phát triển tiếp theo của luận văn là xây dựng phương pháp học trực tuyến hiệu quả với dữ liệu trực tuyến trong bài toán dự báo Churn. Kết hợp dự báo Churn với mô hình giá trị vòng đời của khách hàng (CLV- Customer Lifetime Value). Từ đó phân loại khách hàng thành nhiều nhóm hơn cùng với hệ thống quản trị thông tin khách hàng để từ đó phân loại được các nhóm khách hàng. Khi ngân hàng có đươc các nhóm khách hàng, nó sẽ giúp cho các đơn vị có thể xác định các sản phẩm phù hợp với khách hàng, đưa ra được các chính sách chăm sóc dành cho các nhóm khách hàng, khai thác tiền năng của khách hàng. và có những chính sách kịp thời nhằm lôi kéo các khách hàng có nguy cơ rời bỏ hệ thống.
Trang 66