Bảng ma trận nhầm lẫn

Một phần của tài liệu Dự đoán khả năng gửi tiền của khách hàng cá nhân qua telemarketing tại NH với thuật toán phân lớp naive bayes và c4 5 072 (Trang 78)

- TP (True Positive): Số lượng các phân tự được dự đoán đúng lớp Positive.

- TN (True Negative): Số lượng các phân tự được dự đoán đúng lớp Negative.

- FP (False Positive): Số lượng các phân tự được dự đoán nhầm lớp Positive.

Nguyễn Thị Hương - 19A4040076 Page | 57

Khóa luận tốt nghiệp_____________________________________________________

- FN (False Negative): Số lượng các phân tự được dự đốn nhầm lớp Negative.

Độ chính xác (precision): được tính bằng số tài liệu phân lớp đúng trên tổng số tài liệu được phân vào lớp đó.

P = *100%

Độ hồi tưởng (recall): được tính bằng số tài liệu phân lớp đúng trên tổng số tài liệu thực chất thuộc về lớp đó. R = *100% Độ đo tổng hợp (F-measure) _ 2*P * R_____ F = J J *100% P + R 3.4.1. Thuật toán C4.5

Chạy thuật toán C4.5 với bộ dữ liệu truyền vào, chúng ta thu được ma trận nhầm lẫn (Confusion Matrix) như sau:

Hình 20. Ma trận nhầm lẫn của thuật tốn C4.5

- Có 1154 bản ghi thuộc lớp KHONG mà bộ phân lớp phân đúng giá trị KHONG

- Có 47 bản ghi thuộclớp CO mà bộ phân lớp phân đúng giá trị CÓ

- Có 94 bản ghi thclớp CO mà bộ phân lớp phân sai thành giá trị thuộclớp KHONG

- Có 61 bản ghi thclớp KHONG mà bộ phân lớp phân sai thành giá trịthuộc lớp CO

- Độ đo chính xác Accuracy: 88.57% (Tỷ lệ các mẫu được phân lớp đúngtrên toàn bộ tập mẫu)

- Độ hồi tưởng Class recall của lớp KHONG là 94.98% (Tỷ lệ các mẫu phân lớp KHONG đúng trên toàn bộ các mẫu thực sự thuộc phân lớp KHONG), độ hồi tưởng recall của lớp CO là 33.33% (Tỷ lệ các mẫu phân lớp CO đúng trên toàn bộ các mẫu thực sự thuộc phân lớp CO)

- Độ hiệu dụng Precision của lớp KHONG là 92.47% (Tỷ lệ các mẫu phân lớp KHONG đúng trên tồn bộ các mẫu dự đốn phân lớp KHONG), độ hiệu dụng Precision của lớp CO là 43.52% (Tỷ lệ các mẫu phân lớp CO đúng trên tồn bộ các mẫu dự đốn phân lớp CO)

Các luật của cây quyết định

T HO NHAN D THAN KHONG {KHONG=6,

T HO NHAN K HON: CO {KHONG=3, CO=3}

T

T HON NHAN = LY DI:CO {KHONG=1, CO=2}

H V = DAI HOC

Khóa luận tốt nghiệp

Cây quyết định

Hình 21. Cây quyết định của thuật tốn C4.5 trên RapidMiner

Một số luật đáng chú ý được rút ra từ kết quả thuật toán như sau:

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước khơng rõ hoặc thất

bại” thì “KH không gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành cơng” và

“Học vấn THPT” và “Số dư cao” thì “KH gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành công” và

“Học vấn THPT” và “Số dư trung bình” thì “KH gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành công” và

“Học vấn THPT” và “Số dư trung thấp” và “Tình trạng hơn nhân = Kết hơn” thì “KH khơng gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành cơng” và

“Học vấn Đại học” và “Tình trạng hơn nhân độc thân” thì “KH gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành công” và

“Học vấn Đại học” và “Tình trạng hơn nhân kết hơn” và “Số dư thấp hoặc trung bình” thì “KH khơng gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành công” và

“Học vấn Đại học” và “Tình trạng hơn nhân kết hơn” và “Số dư cao” và “Số lần liên lạc trung bình” thì “KH gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối nhiều” thì “KH gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước khác” và “Số dư

trung bình” thì “KH gửi tiền”

Nguyễn Thị Hương - 19A4040076 Page | 59

Tree

TG LLC = IT

| KQCD TRUOC = KHAC

| | SO DU = CAO

| | SO DU = THAP

| | | NHA = CO: KHONG {KHONG=13, CO=0}

| | | NHA = KHONG

| | | | SLLH = IT

| | | | | HOC VAN = DAI HOC: KHONG {KHONG=3, CO=1}

| | | | | HOC VAN = THPT: CO {KHONG=1, CO=2}

| | | | SLLH = TB: KHONG {KHONG=2, CO=0}

| | SO DU = TRUNG BINH: CO {KHONG=0, CO=7}

| KQCD TRUOC = KHONG RO: KHONG {KHONG=771, CO=83}

| T H NHAN = THAN: CO {KHONG=2, CO=5}

| T H NHAN = HON

| | S DU = CAO

| | | SL = KHONG {KHONG=1, CO=1}

| | | SL

LH = TB: CO {KHONG=0, CO=3}

| | S DU = THAP CO {KHONG=0, CO=7}

| | S DU = TRUN BINH: CO {KHONG=0, CO=3}

| T H NHAN = LY DI: KHONG {KHONG=1, CO=1}

H V = KHON RO: {KHONG=0, CO=5}

H

O VA THCS: KHONG {KHONG=3, CO=0}

H V THPT

| S D = CO {KHONG=0, CO=10}

| S D =

| | T HON NHAN DOC THAN: CO {KHONG=0, CO=2}

| | T

T HON NHAN = KET HON: KHONG {KHONG=2, CO=0}

| | T HON NHAN LY DI: CO {KHONG=0, CO=2}

| S

TG LLC = TRUNG BINH: KHONG {KHONG=218, CO=205}

3.4.2. Thuật toán Naive Bayes

Chạy thuật toán Naive Bayes với bộ dữ liệu truyền vào, chúng ta thu được ma trận nhầm lẫn (Confusion Matrix) như sau

Hình 22. Ma trận nhầm lẫn của thuật tốn Naive Bayes

- Có 3642 bản ghi thuộc lớp KHONG mà bộ phân lớp phân đúng giá trị KHONG

- Có 291 bản ghi thuộc lớp CO mà bộ phân lớp phân đúng giá trị CĨ

Khóa luận tốt nghiệp

- Có 291 bản ghi thc lớp CO mà bộ phân lớp phân sai thành giá trị thuộc lớp KHONG

- Có 358 bản ghi thc lớp KHONG mà bộ phân lớp phân sai thành giá trị thuộc lớp CO

- Độ đo chính xác Accuracy: 86.99% (Tỷ lệ các mẫu được phân lớp đúng trên toàn bộ tập mẫu)

- Độ hồi tưởng Class recall của lớp KHONG là 91.05% (Tỷ lệ các mẫu phân lớp KHONG

đúng trên toàn bộ các mẫu thực sự thuộc phân lớp KHONG), độ hồi tưởng recall của lớp CO là 55.85% (Tỷ lệ các mẫu phân lớp CO đúng trên toàn bộ các mẫu thực sự thuộc phân lớp CO)

- Độ hiệu dụng Precision của lớp KHONG là 94.06% (Tỷ lệ các mẫu phân lớp KHONG đúng trên toàn bộ các mẫu dự đoán phân lớp KHONG), độ hiệu dụng Precision của lớp CO

Kết quả thu được của thuật tốn Naive Bayes

Hình 24. Kết quả chạy thuật tốn Naive Bayes trên RapidMiner

Nhận xét:

NBC có hướng tiếp cận phân lớp theo mơ hình xác suất, dự đốn xác suất của một số đối tượng mới thuộc về thuộc tính của lớp đang xét.

Khóa luận tốt nghiệp • Thuộc tính TUOI

Hình 25. Kết quả chạy thuật tốn Naive Bayes của thuộc tính TUOI

Từ kết quả của thuật tốn Naive Bayes, chúng ta thấy thuộc tính TUOI ảnh hưởng tới xu hướng gửi tiền như sau: Nhóm tuổi có khả năng gửi tiền vào ngân hàng cao nhất là từ ≤ 35 tuổi chiếm khoảng 37.8%, đứng thứ hai là nhóm tuổi từ 36-49 chiếm 35.5% và nhóm tuổi ≥ 50 có khả năng gửi tiền thấp nhất chiếm 26.7%. Nhìn chung, thuộc tính TUOI khơng ảnh hưởng nhiều tới xu hướng gửi tiền, khả năng gửi tiền ở 3 nhóm tuổi khơng chênh lệch quá nhiều.

Hình 26. Kết quả chạy thuật tốn Naive Bayes của thuộc tính TT HON NHAN

Nhìn vào biểu đồ, chúng ta thấy khách hàng đã kết hơn có khả năng gửi tiền cao nhất chiếm khoảng 53,2%, khách hàng độc thân có khả năng gửi tiền được dự đốn khoảng 32,1% và khách hàng đã ly dị có khả năng gửi tiền thấp nhất là khoảng 14,8%. Tỷ lệ khách

hàng có khả năng khơng gửi tiền cao nhất thuộc về nhóm KH đã kết hơn chiếm 61.4% và thấp nhất thuộc về nhóm KH đã ly dị chiếm khoảng 11.7%.

• Thuộc tính HOC VAN

Hình 27. Kết quả chạy thuật tốn Naive Bayes của thuộc tính HOC VAN

Chúng ta thấy thuộc tính TT HOC VAN có xác suất khả năng gửi tiền và không gửi tiền rất rõ ràng. Những khách hàng có trình độ học vấn từ Trung học phổ thơng (THPT) và Đại học có khả năng gửi tiền vào ngân hàng cao hơn, cụ thể THPT khoảng 47% và Đại học khoảng 37%. Khả năng gửi tiền vào ngân hàng của những KH có trình độ học vấn khơng rõ chỉ chiếm khoảng 3.6% và KH có trình độ học vấn Trung học cơ sở 12.3%.

• Thuộc tính NHA

Attribute: BKHONC BCO

co KHONC unknown

NHA

Hình 28. Kết quả chạy thuật tốn Naive Bayes của thuộc tính NHA

Từ biểu đồ, chúng ta thấy thuộc tính NHA có xác suất về khả năng gửi tiền của KH có nhà khoảng 42,2% và KH khơng có nhà là khoảng 57.8%. Xác suất về khả năng khơng gửi

Khóa luận tốt nghiệp________________________________________________________ tiền của KH có nhà là 56.9% và KH khơng có nhà là 43.1%. Có thể thấy, nếu KH có nhà hay khơng thì sẽ khơng ảnh hưởng nhiều tới khả năng gửi tiền và khơng gửi tiền của họ. • Thuộc tính NO

Hình 29. Kết quả chạy thuật tốn Naive Bayes của thuộc tính NO

Nhìn vào biểu đồ, rõ ràng khả năng gửi tiền vào ngân hàng của những KH khơng có khoản nợ là 91.7% cao hơn rất nhiều những KH có khoản nợ. Từ đây, ngân hàng nên tập trung thực hiện chiến dịch TeleMarketing với những KH khơng có khoản nợ ngân hàng nhiều hơn là những KH đang nợ.

• Thuộc tính TG LLC

Hình 30. Kết quả chạy thuật tốn Naive Bayes của thuộc tính TG LLC

Thời gian của cuộc gọi cuối có ảnh hưởng tới khả năng gửi tiền của KH như sau:

- Thời gian gọi ít (31.7%)

- Thời gian gọi nhiều (29%)

Tuy nhiên, những KH có thời gian cuộc gọi cuối ít cũng là những KH có khả năng không gửi tiền vào ngân hàng cao nhất là khoảng 76.7%

• Thuộc tính SLLH

Hình 31. Kết quả chạy thuật tốn Naive Bayes của thuộc tính SLLH

KH có số lần liên hệ ít có khả năng tham gia chiến dịch gửi tiền vào ngân hàng cao nhất (khoảng 72.6%) nhưng cũng có khả năng khơng gửi tiền vào ngân hàng cao nhất (khoảng 68.3%). Những KH có số lần liên hệ nhiều và trung bình có khả năng gửi tiền vào ngân hàng thấp hơn lần lượt là khoảng 6.5% và 20.9%.

• Thuộc tính NGAY LLGD

Hình 32. Kết quả chạy thuật tốn Naive Bayes của thuộc tính NGAYLLGD

Độ đo C4.5 Naive Bayes Thuật tốn nào lớn hơn?

KHONG CO KHONG CO KHONG CO

Độ hồi tưởng Recall 94.98% 33.33 % 91.05 % 55.85% C4.5 NBC Độ chính xác Precision 92.47% 43.52 % 94.06 % 44.84% NBC NBC Độ đo tổng hợp F-measure 93.71% %37.75 %92.53 49.74% C4.5 NBC Độ đo chính xác Accuracy 88.57% 86.99% C4.5 Tỷ lệ lỗi Error Rate 11.43% 13.01% NBC

Khóa luận tốt nghiệp________________________________________________________ Chúng ta thấy, KH gần đây liên lạc với NH sẽ có khả năng gửi tiền vào ngân hàng cao nhất (khoảng 76.6%). Những khách hàng đã lâu không liên lạc với ngân hàng sẽ có khả năng gửi tiền vào ngân hàng thấp nhất chiếm 6.5%

• Thuộc tính KQCD TRUOC

Hình 33. Kết quả chạy thuật tốn Naive Bayes của thuộc tính KQCD TRUOC

Khả năng gửi tiền vào ngân hàng của KH có kết quả chiến dịch trước là thành cơng là 15.9% và kết quả chiến dịch trước thất bại là 12.1%. Những KH có thuộc tính KQCD TRUOC là khơng rõ có khả năng gửi tiền vào ngân hàng cao nhất (64.7%). Tuy nhiên, nhìn vào giá trị đó, chúng ta thấy hạn chế của bài toán là chưa thu thập được kết quả tham gia những chiến dịch khác của ngân hàng.

Khóa luận tốt nghiệp

3.4.3. Đánh giá các mơ hình

Từ kết quả chạy 2 thuật tốn trên RapidMiner chúng ta có bảng so sánh kết quả của C4.5 và Naive Bayes như sau:

Theo kết quả dựa trên hơn 4500 bản ghi dữ liệu KH với công cụ Rapid Miner ta thu được:

- Thuật tốn C4.5 có độ đo chính xác = 88,57% cao hơn độ đo chính xác của thuật tốn Naive Bayes = 86.99%. Thuật tốn C4.5 có thể được sử dụng với dữ liệu đa trị, tuy nhiên, chúng ta đã sử dụng cùng một bộ dữ liệu để có thể trực quan so sánh 2 thuật toán với nhau.

- Thuật toán Naive Bayes nêu được rõ hơn xác suất về khả năng gửi tiền đối với từng thuộc

tính.

Từ kết quả thực nghiệm, chúng ta nên sử dụng thuật toán C4.5 để khai phá dữ liệu KH

của NH để dự đoán được khả năng khách hàng tham gia gửi tiền hay khơng thơng qua chiến dịch TeleMarketing vì những lý do sau: Mặc dù bộ DL trên có kích thước tương đối tuy nhiên do nguồn thu thập dữ liệu chưa đạt u cầu, vẫn cịn nhiều bản ghi có thuộc tính khơng rõ nên kết quả phân lớp DL chưa cao. Bên cạnh đó những luật sinh ra từ cây quyết định C4.5 cịn có những luật khơng phù hợp thậm chí mâu thuẫn với thực tế. Song các luật

của kết quả chạy thuật tốn C4.5 cũng đã góp phần giúp Ngân hàng nhận diện được những

KH tiềm năng tham gia gửi tiền sau chiến dịch TeleMarekting. Hơn nữa, cải tiến của thuật

Khóa luận tốt nghiệp________________________________________________________ tốn C4.5 là làm việc với thuộc tính đa trị và làm việc với giá trị bị thiếu. Mà bộ DL Khách

hàng của chúng ta đang có nhiều DL bị thiếu, hoặc khơng rõ do quá trình nhập liệu của nhân viên, có nhiều thuộc tính đa trị như tuổi, số ngày liên lạc gần đây, thời gian cuộc gọi cuối... nên nếu sử dụng thuật toán C4.5 để khai phá sẽ giúp NH tiết kiệm được thời gian, công sức trong việc chuyển đổi DL của các thuộc tính đa trị.

KẾT LUẬN

Đề tài: “Dự đoán khả năng gửi tiền của khách hàng cá nhân qua TeleMarketing tại

ngân hàng với thuật toán phân lớp C4.5 và Naive Bayes ” đã được thực hiện nhằm dự

đoán

khả năng tham gia gửi tiền của khách hàng tại ngân hàng thông qua dữ liệu của chiến dịch TeleMarketing, xác định được những đối tượng khách hàng có khả năng cao gửi tiền vào ngân hàng để từ đó giúp ngân hàng vạch ra được định hướng chăm sóc khách hàng tập trung.

Cơng việc thực hiện

• Tìm hiểu về hoạt động Marketing trong ngân hàng, sự cần thiết, vai trò của Marketing ngân hàng và đặc điểm của nó. Tìm hiểu một số phương pháp Marketing truyền

thống và hiện đại. Cùng với đó là tìm hiểu về CRM trong ngân hàng, tầm quan trọng và lợi

ích của CRM trong ngân hàng.

• Trình bày cơ bản được những vấn đề của Khai phá dữ liệu như khái niệm, mục đích, quy trình và ứng dụng của khai phá dữ liệu. Nắm được kỹ thuật KPDL phân lớp bằng

cây quyết định qua thuật toán C4.5 và thuật tốn Naive Bayes. Xây dựng được mơ hình cây quyết định C4.5 và thuật tốn Naive Bayes trên cơng cụ RapidMiner

Ket quả đạt được

KPDL khách hàng tham gia chiến dịch TeleMarketing nhằm phân tích đúng đối tượng KH sẽ gửi tiền vào ngân hàng. Cho thấy được hiệu quả của chiến dịch, phân tích được đối tượng KH mà ngân hàng nên tập trung chăm sóc hơn để có được hiệu quả huy động vốn cao hơn.

Hạn chế

Do thời gian và năng lực hạn chế nên đề tài khóa luận cịn một số vấn đề sau:

• Một số thơng tin về Khách hàng như số điện thoại, họ tên đã khơng được đưa

vào khóa luận để đảm bảo tính bảo mật của ngân hàng. • Nguồn dữ liệu cịn hạn chế và chưa chính thức

• Các dữ liệu cịn thiếu sót so với thuộc tính của ngân hàng

Hướng nghiên cứu tiếp theo:

Vì thời gian hạn chế nên đề tài khóa luận mới chỉ nghiên cứu và thực nghiệm trên hai

thuật toán C4.5 và Naive Bayes, trong tương lai mong muốn bài toán sẽ được nghiên cứu và thực hiện trên các thuật toán khác như Kmeans, hồi quy dự báo, mạng noron... Ngoài ra, cần sử dụng thêm dữ liệu cho tập huấn luyện để mơ hình cây quyết định và thuật tốn Naive Bayes có độ tin cậy cao hơn và hoạt động hiệu quả hơn.

Nguyễn Thị Hương - 19A4040076 Page | 70

TÀI LIỆU THAM KHẢO

[1]

N. T. M. H. PGS.TS, "Giáo trình Marketing ngân hàng", Hà Nội: Nhà xuất bản Lao Động, 2016.

[2]

N. T. M. Hiền, Marketing ngân hàng, Hà Nội: Nhà xuất bản lao động, 2016.

[3]

Ian H. Wrtten, Eibe Frank, Mark A.Hall, "Data Mining Practical Machine Learning Tool and Techniques", Morgan Kaufmann, 2011.

Một phần của tài liệu Dự đoán khả năng gửi tiền của khách hàng cá nhân qua telemarketing tại NH với thuật toán phân lớp naive bayes và c4 5 072 (Trang 78)

Tải bản đầy đủ (DOCX)

(92 trang)
w