Kết quả chạy thuậttoán Naive Bayes trên RapidMiner

Một phần của tài liệu Dự đoán khả năng gửi tiền của khách hàng cá nhân qua telemarketing tại NH với thuật toán phân lớp naive bayes và c4 5 072 (Trang 83)

Hình 24. Kết quả chạy thuật toán Naive Bayes trên RapidMiner

Nhận xét:

NBC có hướng tiếp cận phân lớp theo mô hình xác suất, dự đoán xác suất của một số đối tượng mới thuộc về thuộc tính của lớp đang xét.

Khóa luận tốt nghiệp • Thuộc tính TUOI

Hình 25. Kết quả chạy thuật toán Naive Bayes của thuộc tính TUOI

Từ kết quả của thuật toán Naive Bayes, chúng ta thấy thuộc tính TUOI ảnh hưởng tới xu hướng gửi tiền như sau: Nhóm tuổi có khả năng gửi tiền vào ngân hàng cao nhất là từ ≤ 35 tuổi chiếm khoảng 37.8%, đứng thứ hai là nhóm tuổi từ 36-49 chiếm 35.5% và nhóm tuổi ≥ 50 có khả năng gửi tiền thấp nhất chiếm 26.7%. Nhìn chung, thuộc tính TUOI không ảnh hưởng nhiều tới xu hướng gửi tiền, khả năng gửi tiền ở 3 nhóm tuổi không chênh lệch quá nhiều.

Hình 26. Kết quả chạy thuật toán Naive Bayes của thuộc tính TT HON NHAN

Nhìn vào biểu đồ, chúng ta thấy khách hàng đã kết hôn có khả năng gửi tiền cao nhất chiếm khoảng 53,2%, khách hàng độc thân có khả năng gửi tiền được dự đoán khoảng 32,1% và khách hàng đã ly dị có khả năng gửi tiền thấp nhất là khoảng 14,8%. Tỷ lệ khách

hàng có khả năng không gửi tiền cao nhất thuộc về nhóm KH đã kết hôn chiếm 61.4% và thấp nhất thuộc về nhóm KH đã ly dị chiếm khoảng 11.7%.

Thuộc tính HOC VAN

Hình 27. Kết quả chạy thuật toán Naive Bayes của thuộc tính HOC VAN

Chúng ta thấy thuộc tính TT HOC VAN có xác suất khả năng gửi tiền và không gửi tiền rất rõ ràng. Những khách hàng có trình độ học vấn từ Trung học phổ thông (THPT) và Đại học có khả năng gửi tiền vào ngân hàng cao hơn, cụ thể THPT khoảng 47% và Đại học khoảng 37%. Khả năng gửi tiền vào ngân hàng của những KH có trình độ học vấn không rõ chỉ chiếm khoảng 3.6% và KH có trình độ học vấn Trung học cơ sở 12.3%.

Thuộc tính NHA

Attribute: BKHONC BCO

co KHONC unknown

NHA

Hình 28. Kết quả chạy thuật toán Naive Bayes của thuộc tính NHA

Từ biểu đồ, chúng ta thấy thuộc tính NHA có xác suất về khả năng gửi tiền của KH có nhà khoảng 42,2% và KH không có nhà là khoảng 57.8%. Xác suất về khả năng không gửi

Khóa luận tốt nghiệp________________________________________________________ tiền của KH có nhà là 56.9% và KH không có nhà là 43.1%. Có thể thấy, nếu KH có nhà hay không thì sẽ không ảnh hưởng nhiều tới khả năng gửi tiền và không gửi tiền của họ. • Thuộc tính NO

Hình 29. Kết quả chạy thuật toán Naive Bayes của thuộc tính NO

Nhìn vào biểu đồ, rõ ràng khả năng gửi tiền vào ngân hàng của những KH không có khoản nợ là 91.7% cao hơn rất nhiều những KH có khoản nợ. Từ đây, ngân hàng nên tập trung thực hiện chiến dịch TeleMarketing với những KH không có khoản nợ ngân hàng nhiều hơn là những KH đang nợ.

Thuộc tính TG LLC

Hình 30. Kết quả chạy thuật toán Naive Bayes của thuộc tính TG LLC

Thời gian của cuộc gọi cuối có ảnh hưởng tới khả năng gửi tiền của KH như sau:

- Thời gian gọi ít (31.7%)

- Thời gian gọi nhiều (29%)

Tuy nhiên, những KH có thời gian cuộc gọi cuối ít cũng là những KH có khả năng không gửi tiền vào ngân hàng cao nhất là khoảng 76.7%

Thuộc tính SLLH

Hình 31. Kết quả chạy thuật toán Naive Bayes của thuộc tính SLLH

KH có số lần liên hệ ít có khả năng tham gia chiến dịch gửi tiền vào ngân hàng cao nhất (khoảng 72.6%) nhưng cũng có khả năng không gửi tiền vào ngân hàng cao nhất (khoảng 68.3%). Những KH có số lần liên hệ nhiều và trung bình có khả năng gửi tiền vào ngân hàng thấp hơn lần lượt là khoảng 6.5% và 20.9%.

Thuộc tính NGAY LLGD

Hình 32. Kết quả chạy thuật toán Naive Bayes của thuộc tính NGAYLLGD

Độ đo C4.5 Naive Bayes Thuật toán nào lớn hơn?

KHONG CO KHONG CO KHONG CO

Độ hồi tưởng Recall 94.98% 33.33 % 91.05 % 55.85% C4.5 NBC Độ chính xác Precision 92.47% 43.52 % 94.06 % 44.84% NBC NBC Độ đo tổng hợp F-measure 93.71% %37.75 %92.53 49.74% C4.5 NBC Độ đo chính xác Accuracy 88.57% 86.99% C4.5 Tỷ lệ lỗi Error Rate 11.43% 13.01% NBC

Khóa luận tốt nghiệp________________________________________________________ Chúng ta thấy, KH gần đây liên lạc với NH sẽ có khả năng gửi tiền vào ngân hàng cao nhất (khoảng 76.6%). Những khách hàng đã lâu không liên lạc với ngân hàng sẽ có khả năng gửi tiền vào ngân hàng thấp nhất chiếm 6.5%

Thuộc tính KQCD TRUOC

Hình 33. Kết quả chạy thuật toán Naive Bayes của thuộc tính KQCD TRUOC

Khả năng gửi tiền vào ngân hàng của KH có kết quả chiến dịch trước là thành công là 15.9% và kết quả chiến dịch trước thất bại là 12.1%. Những KH có thuộc tính KQCD TRUOC là không rõ có khả năng gửi tiền vào ngân hàng cao nhất (64.7%). Tuy nhiên, nhìn vào giá trị đó, chúng ta thấy hạn chế của bài toán là chưa thu thập được kết quả tham gia những chiến dịch khác của ngân hàng.

Khóa luận tốt nghiệp

3.4.3. Đánh giá các mô hình

Từ kết quả chạy 2 thuật toán trên RapidMiner chúng ta có bảng so sánh kết quả của C4.5 và Naive Bayes như sau:

Theo kết quả dựa trên hơn 4500 bản ghi dữ liệu KH với công cụ Rapid Miner ta thu được:

- Thuật toán C4.5 có độ đo chính xác = 88,57% cao hơn độ đo chính xác của thuật toán Naive Bayes = 86.99%. Thuật toán C4.5 có thể được sử dụng với dữ liệu đa trị, tuy nhiên, chúng ta đã sử dụng cùng một bộ dữ liệu để có thể trực quan so sánh 2 thuật toán với nhau.

- Thuật toán Naive Bayes nêu được rõ hơn xác suất về khả năng gửi tiền đối với từng thuộc

tính.

Từ kết quả thực nghiệm, chúng ta nên sử dụng thuật toán C4.5 để khai phá dữ liệu KH

của NH để dự đoán được khả năng khách hàng tham gia gửi tiền hay không thông qua chiến dịch TeleMarketing vì những lý do sau: Mặc dù bộ DL trên có kích thước tương đối tuy nhiên do nguồn thu thập dữ liệu chưa đạt yêu cầu, vẫn còn nhiều bản ghi có thuộc tính không rõ nên kết quả phân lớp DL chưa cao. Bên cạnh đó những luật sinh ra từ cây quyết định C4.5 còn có những luật không phù hợp thậm chí mâu thuẫn với thực tế. Song các luật

của kết quả chạy thuật toán C4.5 cũng đã góp phần giúp Ngân hàng nhận diện được những

KH tiềm năng tham gia gửi tiền sau chiến dịch TeleMarekting. Hơn nữa, cải tiến của thuật

Khóa luận tốt nghiệp________________________________________________________ toán C4.5 là làm việc với thuộc tính đa trị và làm việc với giá trị bị thiếu. Mà bộ DL Khách

hàng của chúng ta đang có nhiều DL bị thiếu, hoặc không rõ do quá trình nhập liệu của nhân viên, có nhiều thuộc tính đa trị như tuổi, số ngày liên lạc gần đây, thời gian cuộc gọi cuối... nên nếu sử dụng thuật toán C4.5 để khai phá sẽ giúp NH tiết kiệm được thời gian, công sức trong việc chuyển đổi DL của các thuộc tính đa trị.

KẾT LUẬN

Đề tài: “Dự đoán khả năng gửi tiền của khách hàng cá nhân qua TeleMarketing tại ngân hàng với thuật toán phân lớp C4.5 và Naive Bayes ” đã được thực hiện nhằm dự đoán

khả năng tham gia gửi tiền của khách hàng tại ngân hàng thông qua dữ liệu của chiến dịch TeleMarketing, xác định được những đối tượng khách hàng có khả năng cao gửi tiền vào ngân hàng để từ đó giúp ngân hàng vạch ra được định hướng chăm sóc khách hàng tập trung.

Công việc thực hiện

• Tìm hiểu về hoạt động Marketing trong ngân hàng, sự cần thiết, vai trò của Marketing ngân hàng và đặc điểm của nó. Tìm hiểu một số phương pháp Marketing truyền

thống và hiện đại. Cùng với đó là tìm hiểu về CRM trong ngân hàng, tầm quan trọng và lợi

ích của CRM trong ngân hàng.

• Trình bày cơ bản được những vấn đề của Khai phá dữ liệu như khái niệm, mục đích, quy trình và ứng dụng của khai phá dữ liệu. Nắm được kỹ thuật KPDL phân lớp bằng

cây quyết định qua thuật toán C4.5 và thuật toán Naive Bayes. Xây dựng được mô hình cây quyết định C4.5 và thuật toán Naive Bayes trên công cụ RapidMiner

Ket quả đạt được

KPDL khách hàng tham gia chiến dịch TeleMarketing nhằm phân tích đúng đối tượng KH sẽ gửi tiền vào ngân hàng. Cho thấy được hiệu quả của chiến dịch, phân tích được đối tượng KH mà ngân hàng nên tập trung chăm sóc hơn để có được hiệu quả huy động vốn cao hơn.

Hạn chế

Do thời gian và năng lực hạn chế nên đề tài khóa luận còn một số vấn đề sau:

• Một số thông tin về Khách hàng như số điện thoại, họ tên đã không được đưa

vào khóa luận để đảm bảo tính bảo mật của ngân hàng. • Nguồn dữ liệu còn hạn chế và chưa chính thức

• Các dữ liệu còn thiếu sót so với thuộc tính của ngân hàng

Hướng nghiên cứu tiếp theo:

Vì thời gian hạn chế nên đề tài khóa luận mới chỉ nghiên cứu và thực nghiệm trên hai

thuật toán C4.5 và Naive Bayes, trong tương lai mong muốn bài toán sẽ được nghiên cứu và thực hiện trên các thuật toán khác như Kmeans, hồi quy dự báo, mạng noron... Ngoài ra, cần sử dụng thêm dữ liệu cho tập huấn luyện để mô hình cây quyết định và thuật toán Naive Bayes có độ tin cậy cao hơn và hoạt động hiệu quả hơn.

Nguyễn Thị Hương - 19A4040076 Page | 70

TÀI LIỆU THAM KHẢO

[1]

N. T. M. H. PGS.TS, "Giáo trình Marketing ngân hàng", Hà Nội: Nhà xuất bản Lao Động, 2016.

[2]

N. T. M. Hiền, Marketing ngân hàng, Hà Nội: Nhà xuất bản lao động, 2016.

[3]

Ian H. Wrtten, Eibe Frank, Mark A.Hall, "Data Mining Practical Machine Learning Tool and Techniques", Morgan Kaufmann, 2011.

[4]

Trevor Hastie, Robert Tibshirani, Jerome H. Friedman, "The Elements of Statistical Learning", 1st ed, 2001.

[5]

Michael Steinbach, PangNing Tan, Vipin Kumar, "Introduction to Data Mining", 2005.

[6]

J.Han, M.Kamber, "Concepts and Techniques," in Data Mining, 3 ed., Morgan Kaufmann, 2011.

[7]

Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, "Giáo trình Khai phá dữ liệu", NXB ĐHQGHN, 2013.

[8]

C. t. T. c. THNH, "ỨNG DỤNG VÀ PHÁT TRIỂN CÔNG NGHỆ TRONG HOẠT ĐỘNG NGÂN HÀNG," Ngân hàng Nhà nước Việt Nam, 04/10/2013.

[9]

Lưu Đan Thọ, Lượng Văn Quốc, Quản trị quan hệ khách hàng, 2016: Nhà xuất bản tài chính.

Một phần của tài liệu Dự đoán khả năng gửi tiền của khách hàng cá nhân qua telemarketing tại NH với thuật toán phân lớp naive bayes và c4 5 072 (Trang 83)

Tải bản đầy đủ (DOCX)

(92 trang)
w