Từ kết quả chạy 2 thuật toán trên RapidMiner chúng ta có bảng so sánh kết quả của C4.5 và Naive Bayes như sau:
Theo kết quả dựa trên hơn 4500 bản ghi dữ liệu KH với công cụ Rapid Miner ta thu được:
- Thuật toán C4.5 có độ đo chính xác = 88,57% cao hơn độ đo chính xác của thuật toán Naive Bayes = 86.99%. Thuật toán C4.5 có thể được sử dụng với dữ liệu đa trị, tuy nhiên, chúng ta đã sử dụng cùng một bộ dữ liệu để có thể trực quan so sánh 2 thuật toán với nhau.
- Thuật toán Naive Bayes nêu được rõ hơn xác suất về khả năng gửi tiền đối với từng thuộc
tính.
Từ kết quả thực nghiệm, chúng ta nên sử dụng thuật toán C4.5 để khai phá dữ liệu KH
của NH để dự đoán được khả năng khách hàng tham gia gửi tiền hay không thông qua chiến dịch TeleMarketing vì những lý do sau: Mặc dù bộ DL trên có kích thước tương đối tuy nhiên do nguồn thu thập dữ liệu chưa đạt yêu cầu, vẫn còn nhiều bản ghi có thuộc tính không rõ nên kết quả phân lớp DL chưa cao. Bên cạnh đó những luật sinh ra từ cây quyết định C4.5 còn có những luật không phù hợp thậm chí mâu thuẫn với thực tế. Song các luật
của kết quả chạy thuật toán C4.5 cũng đã góp phần giúp Ngân hàng nhận diện được những
KH tiềm năng tham gia gửi tiền sau chiến dịch TeleMarekting. Hơn nữa, cải tiến của thuật
Khóa luận tốt nghiệp________________________________________________________ toán C4.5 là làm việc với thuộc tính đa trị và làm việc với giá trị bị thiếu. Mà bộ DL Khách
hàng của chúng ta đang có nhiều DL bị thiếu, hoặc không rõ do quá trình nhập liệu của nhân viên, có nhiều thuộc tính đa trị như tuổi, số ngày liên lạc gần đây, thời gian cuộc gọi cuối... nên nếu sử dụng thuật toán C4.5 để khai phá sẽ giúp NH tiết kiệm được thời gian, công sức trong việc chuyển đổi DL của các thuộc tính đa trị.
KẾT LUẬN
Đề tài: “Dự đoán khả năng gửi tiền của khách hàng cá nhân qua TeleMarketing tại ngân hàng với thuật toán phân lớp C4.5 và Naive Bayes ” đã được thực hiện nhằm dự đoán
khả năng tham gia gửi tiền của khách hàng tại ngân hàng thông qua dữ liệu của chiến dịch TeleMarketing, xác định được những đối tượng khách hàng có khả năng cao gửi tiền vào ngân hàng để từ đó giúp ngân hàng vạch ra được định hướng chăm sóc khách hàng tập trung.
Công việc thực hiện
• Tìm hiểu về hoạt động Marketing trong ngân hàng, sự cần thiết, vai trò của Marketing ngân hàng và đặc điểm của nó. Tìm hiểu một số phương pháp Marketing truyền
thống và hiện đại. Cùng với đó là tìm hiểu về CRM trong ngân hàng, tầm quan trọng và lợi
ích của CRM trong ngân hàng.
• Trình bày cơ bản được những vấn đề của Khai phá dữ liệu như khái niệm, mục đích, quy trình và ứng dụng của khai phá dữ liệu. Nắm được kỹ thuật KPDL phân lớp bằng
cây quyết định qua thuật toán C4.5 và thuật toán Naive Bayes. Xây dựng được mô hình cây quyết định C4.5 và thuật toán Naive Bayes trên công cụ RapidMiner
Ket quả đạt được
KPDL khách hàng tham gia chiến dịch TeleMarketing nhằm phân tích đúng đối tượng KH sẽ gửi tiền vào ngân hàng. Cho thấy được hiệu quả của chiến dịch, phân tích được đối tượng KH mà ngân hàng nên tập trung chăm sóc hơn để có được hiệu quả huy động vốn cao hơn.
Hạn chế
Do thời gian và năng lực hạn chế nên đề tài khóa luận còn một số vấn đề sau:
• Một số thông tin về Khách hàng như số điện thoại, họ tên đã không được đưa
vào khóa luận để đảm bảo tính bảo mật của ngân hàng. • Nguồn dữ liệu còn hạn chế và chưa chính thức
• Các dữ liệu còn thiếu sót so với thuộc tính của ngân hàng
Hướng nghiên cứu tiếp theo:
Vì thời gian hạn chế nên đề tài khóa luận mới chỉ nghiên cứu và thực nghiệm trên hai
thuật toán C4.5 và Naive Bayes, trong tương lai mong muốn bài toán sẽ được nghiên cứu và thực hiện trên các thuật toán khác như Kmeans, hồi quy dự báo, mạng noron... Ngoài ra, cần sử dụng thêm dữ liệu cho tập huấn luyện để mô hình cây quyết định và thuật toán Naive Bayes có độ tin cậy cao hơn và hoạt động hiệu quả hơn.
Nguyễn Thị Hương - 19A4040076 Page | 70
TÀI LIỆU THAM KHẢO
[1]
N. T. M. H. PGS.TS, "Giáo trình Marketing ngân hàng", Hà Nội: Nhà xuất bản Lao Động, 2016.
[2]
N. T. M. Hiền, Marketing ngân hàng, Hà Nội: Nhà xuất bản lao động, 2016.
[3]
Ian H. Wrtten, Eibe Frank, Mark A.Hall, "Data Mining Practical Machine Learning Tool and Techniques", Morgan Kaufmann, 2011.
[4]
Trevor Hastie, Robert Tibshirani, Jerome H. Friedman, "The Elements of Statistical Learning", 1st ed, 2001.
[5]
Michael Steinbach, PangNing Tan, Vipin Kumar, "Introduction to Data Mining", 2005.
[6]
J.Han, M.Kamber, "Concepts and Techniques," in Data Mining, 3 ed., Morgan Kaufmann, 2011.
[7]
Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, "Giáo trình Khai phá dữ liệu", NXB ĐHQGHN, 2013.
[8]
C. t. T. c. THNH, "ỨNG DỤNG VÀ PHÁT TRIỂN CÔNG NGHỆ TRONG HOẠT ĐỘNG NGÂN HÀNG," Ngân hàng Nhà nước Việt Nam, 04/10/2013.
[9]
Lưu Đan Thọ, Lượng Văn Quốc, Quản trị quan hệ khách hàng, 2016: Nhà xuất bản tài chính.