.5 trên RapidMiner

Một phần của tài liệu Dự đoán khả năng gửi tiền của khách hàng cá nhân qua telemarketing tại NH với thuật toán phân lớp naive bayes và c4 5 072 (Trang 77)

b. Thuật toán Naive Bayes Bước 1: Nạp dữ liệu

*Khởi động RapidMiner

*Add Data: chọn tệp dữ liệu KH.csv trong máy tính

*Tạo một Process mới, đưa tệp dữ liệu KH.csv vào mơ hình. Bước 2: Lựa chọn làm nhãn (Set Role)

Lựa chọn các thuộc tính quyết định của mơ hình (nhãn) *Operators: Select Attributes: Names & Roles *Parameter: Attribute name: QUYET DINH * Parameter: target role: label

Bước 3: Lựa chọn các thuộc tính tham gia mơ hình

Lựa chọn các thuộc tính có ý nghĩa và phù hợp với bài tốn tham gia vào mơ hình. *Operators: Select Attributes

*Parameter: subset: chọn tất cả các thuộc tính trong tập dữ liệu KH.csv trừ thuộc tính QUYET DINH.

Bước 4: Kiểm thử mơ hình: Xây dựng bước kiểm thử hiệu quả mơ hình

Khóa luận tốt nghiệp

^Validation: Validation

^Parameter: number of validation: 10 (kiểm thử 10 folds)

*Lựa chọn phương pháp phân lớp:

- Modeling: Naive Bayes

*Ứng dụng mơ hình

-Scoring: Apply Model

*Đánh giá hiệu quả mơ hình: Đánh giá hiệu quả mơ hình bằng các độ đo hồi tưởng

và chính xác

Ta có mơ hình vừa xây dựng:

Hình 19. Mơ hình chạy thuật tốn Naive Bayes trên Rapid Miner

3.4. Kết quả

Để đánh giá độ chính xác của mơ hình phân lớp nói chung và 2 thuật tốn trên nói riêng, ta xác định các giá trị của ma trận sau:

TP + FP TP

TP + FN

accuracy: 88.57%

true KHONG true CO class precision

pred KHONG 1154 94 9247%

pred. CO 61 47 43.52%

class recall 94.98% 33.33%

Bảng 27. Bảng ma trận nhầm lẫn

- TP (True Positive): Số lượng các phân tự được dự đoán đúng lớp Positive.

- TN (True Negative): Số lượng các phân tự được dự đoán đúng lớp Negative.

- FP (False Positive): Số lượng các phân tự được dự đoán nhầm lớp Positive.

Nguyễn Thị Hương - 19A4040076 Page | 57

Khóa luận tốt nghiệp_____________________________________________________

- FN (False Negative): Số lượng các phân tự được dự đốn nhầm lớp Negative.

Độ chính xác (precision): được tính bằng số tài liệu phân lớp đúng trên tổng số tài liệu được phân vào lớp đó.

P = *100%

Độ hồi tưởng (recall): được tính bằng số tài liệu phân lớp đúng trên tổng số tài liệu thực chất thuộc về lớp đó. R = *100% Độ đo tổng hợp (F-measure) _ 2*P * R_____ F = J J *100% P + R 3.4.1. Thuật toán C4.5

Chạy thuật toán C4.5 với bộ dữ liệu truyền vào, chúng ta thu được ma trận nhầm lẫn (Confusion Matrix) như sau:

Hình 20. Ma trận nhầm lẫn của thuật tốn C4.5

- Có 1154 bản ghi thuộc lớp KHONG mà bộ phân lớp phân đúng giá trị KHONG

- Có 47 bản ghi thuộclớp CO mà bộ phân lớp phân đúng giá trị CĨ

- Có 94 bản ghi thclớp CO mà bộ phân lớp phân sai thành giá trị thuộclớp KHONG

- Có 61 bản ghi thclớp KHONG mà bộ phân lớp phân sai thành giá trịthuộc lớp CO

- Độ đo chính xác Accuracy: 88.57% (Tỷ lệ các mẫu được phân lớp đúngtrên toàn bộ tập mẫu)

- Độ hồi tưởng Class recall của lớp KHONG là 94.98% (Tỷ lệ các mẫu phân lớp KHONG đúng trên toàn bộ các mẫu thực sự thuộc phân lớp KHONG), độ hồi tưởng recall của lớp CO là 33.33% (Tỷ lệ các mẫu phân lớp CO đúng trên toàn bộ các mẫu thực sự thuộc phân lớp CO)

- Độ hiệu dụng Precision của lớp KHONG là 92.47% (Tỷ lệ các mẫu phân lớp KHONG đúng trên tồn bộ các mẫu dự đốn phân lớp KHONG), độ hiệu dụng Precision của lớp CO là 43.52% (Tỷ lệ các mẫu phân lớp CO đúng trên tồn bộ các mẫu dự đốn phân lớp CO)

Các luật của cây quyết định

T HO NHAN D THAN KHONG {KHONG=6,

T HO NHAN K HON: CO {KHONG=3, CO=3}

T

T HON NHAN = LY DI:CO {KHONG=1, CO=2}

H V = DAI HOC

Khóa luận tốt nghiệp

Cây quyết định

Hình 21. Cây quyết định của thuật tốn C4.5 trên RapidMiner

Một số luật đáng chú ý được rút ra từ kết quả thuật toán như sau:

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước khơng rõ hoặc thất

bại” thì “KH khơng gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành công” và

“Học vấn THPT” và “Số dư cao” thì “KH gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành công” và

“Học vấn THPT” và “Số dư trung bình” thì “KH gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành công” và

“Học vấn THPT” và “Số dư trung thấp” và “Tình trạng hơn nhân = Kết hơn” thì “KH khơng gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành cơng” và

“Học vấn Đại học” và “Tình trạng hơn nhân độc thân” thì “KH gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành cơng” và

“Học vấn Đại học” và “Tình trạng hôn nhân kết hôn” và “Số dư thấp hoặc trung bình” thì “KH khơng gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành cơng” và

“Học vấn Đại học” và “Tình trạng hơn nhân kết hơn” và “Số dư cao” và “Số lần liên lạc trung bình” thì “KH gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối nhiều” thì “KH gửi tiền”

- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước khác” và “Số dư

trung bình” thì “KH gửi tiền”

Nguyễn Thị Hương - 19A4040076 Page | 59

Tree

TG LLC = IT

| KQCD TRUOC = KHAC

| | SO DU = CAO

| | SO DU = THAP

| | | NHA = CO: KHONG {KHONG=13, CO=0}

| | | NHA = KHONG

| | | | SLLH = IT

| | | | | HOC VAN = DAI HOC: KHONG {KHONG=3, CO=1}

| | | | | HOC VAN = THPT: CO {KHONG=1, CO=2}

| | | | SLLH = TB: KHONG {KHONG=2, CO=0}

| | SO DU = TRUNG BINH: CO {KHONG=0, CO=7}

| KQCD TRUOC = KHONG RO: KHONG {KHONG=771, CO=83}

| T H NHAN = THAN: CO {KHONG=2, CO=5}

| T H NHAN = HON

| | S DU = CAO

| | | SL = KHONG {KHONG=1, CO=1}

| | | SL

LH = TB: CO {KHONG=0, CO=3}

| | S DU = THAP CO {KHONG=0, CO=7}

| | S DU = TRUN BINH: CO {KHONG=0, CO=3}

| T H NHAN = LY DI: KHONG {KHONG=1, CO=1}

H V = KHON RO: {KHONG=0, CO=5}

H

O VA THCS: KHONG {KHONG=3, CO=0}

H V THPT

| S D = CO {KHONG=0, CO=10}

| S D =

| | T HON NHAN DOC THAN: CO {KHONG=0, CO=2}

| | T

T HON NHAN = KET HON: KHONG {KHONG=2, CO=0}

| | T HON NHAN LY DI: CO {KHONG=0, CO=2}

| S

TG LLC = TRUNG BINH: KHONG {KHONG=218, CO=205}

3.4.2. Thuật toán Naive Bayes

Chạy thuật toán Naive Bayes với bộ dữ liệu truyền vào, chúng ta thu được ma trận nhầm lẫn (Confusion Matrix) như sau

Hình 22. Ma trận nhầm lẫn của thuật tốn Naive Bayes

- Có 3642 bản ghi thuộc lớp KHONG mà bộ phân lớp phân đúng giá trị KHONG

- Có 291 bản ghi thuộc lớp CO mà bộ phân lớp phân đúng giá trị CĨ

Khóa luận tốt nghiệp

- Có 291 bản ghi thc lớp CO mà bộ phân lớp phân sai thành giá trị thuộc lớp KHONG

- Có 358 bản ghi thuôc lớp KHONG mà bộ phân lớp phân sai thành giá trị thuộc lớp CO

- Độ đo chính xác Accuracy: 86.99% (Tỷ lệ các mẫu được phân lớp đúng trên toàn bộ tập mẫu)

- Độ hồi tưởng Class recall của lớp KHONG là 91.05% (Tỷ lệ các mẫu phân lớp KHONG

đúng trên toàn bộ các mẫu thực sự thuộc phân lớp KHONG), độ hồi tưởng recall của lớp CO là 55.85% (Tỷ lệ các mẫu phân lớp CO đúng trên toàn bộ các mẫu thực sự thuộc phân lớp CO)

- Độ hiệu dụng Precision của lớp KHONG là 94.06% (Tỷ lệ các mẫu phân lớp KHONG đúng trên toàn bộ các mẫu dự đoán phân lớp KHONG), độ hiệu dụng Precision của lớp CO

Kết quả thu được của thuật tốn Naive Bayes

Hình 24. Kết quả chạy thuật tốn Naive Bayes trên RapidMiner

Nhận xét:

NBC có hướng tiếp cận phân lớp theo mơ hình xác suất, dự đốn xác suất của một số đối tượng mới thuộc về thuộc tính của lớp đang xét.

Khóa luận tốt nghiệp • Thuộc tính TUOI

Hình 25. Kết quả chạy thuật tốn Naive Bayes của thuộc tính TUOI

Từ kết quả của thuật tốn Naive Bayes, chúng ta thấy thuộc tính TUOI ảnh hưởng tới xu hướng gửi tiền như sau: Nhóm tuổi có khả năng gửi tiền vào ngân hàng cao nhất là từ ≤ 35 tuổi chiếm khoảng 37.8%, đứng thứ hai là nhóm tuổi từ 36-49 chiếm 35.5% và nhóm tuổi ≥ 50 có khả năng gửi tiền thấp nhất chiếm 26.7%. Nhìn chung, thuộc tính TUOI khơng ảnh hưởng nhiều tới xu hướng gửi tiền, khả năng gửi tiền ở 3 nhóm tuổi khơng chênh lệch quá nhiều.

Hình 26. Kết quả chạy thuật tốn Naive Bayes của thuộc tính TT HON NHAN

Nhìn vào biểu đồ, chúng ta thấy khách hàng đã kết hơn có khả năng gửi tiền cao nhất chiếm khoảng 53,2%, khách hàng độc thân có khả năng gửi tiền được dự đốn khoảng 32,1% và khách hàng đã ly dị có khả năng gửi tiền thấp nhất là khoảng 14,8%. Tỷ lệ khách

hàng có khả năng khơng gửi tiền cao nhất thuộc về nhóm KH đã kết hơn chiếm 61.4% và thấp nhất thuộc về nhóm KH đã ly dị chiếm khoảng 11.7%.

• Thuộc tính HOC VAN

Hình 27. Kết quả chạy thuật tốn Naive Bayes của thuộc tính HOC VAN

Chúng ta thấy thuộc tính TT HOC VAN có xác suất khả năng gửi tiền và khơng gửi tiền rất rõ ràng. Những khách hàng có trình độ học vấn từ Trung học phổ thông (THPT) và Đại học có khả năng gửi tiền vào ngân hàng cao hơn, cụ thể THPT khoảng 47% và Đại học khoảng 37%. Khả năng gửi tiền vào ngân hàng của những KH có trình độ học vấn khơng rõ chỉ chiếm khoảng 3.6% và KH có trình độ học vấn Trung học cơ sở 12.3%.

• Thuộc tính NHA

Attribute: BKHONC BCO

co KHONC unknown

NHA

Hình 28. Kết quả chạy thuật tốn Naive Bayes của thuộc tính NHA

Từ biểu đồ, chúng ta thấy thuộc tính NHA có xác suất về khả năng gửi tiền của KH có nhà khoảng 42,2% và KH khơng có nhà là khoảng 57.8%. Xác suất về khả năng khơng gửi

Khóa luận tốt nghiệp________________________________________________________ tiền của KH có nhà là 56.9% và KH khơng có nhà là 43.1%. Có thể thấy, nếu KH có nhà hay khơng thì sẽ khơng ảnh hưởng nhiều tới khả năng gửi tiền và khơng gửi tiền của họ. • Thuộc tính NO

Hình 29. Kết quả chạy thuật tốn Naive Bayes của thuộc tính NO

Nhìn vào biểu đồ, rõ ràng khả năng gửi tiền vào ngân hàng của những KH khơng có khoản nợ là 91.7% cao hơn rất nhiều những KH có khoản nợ. Từ đây, ngân hàng nên tập trung thực hiện chiến dịch TeleMarketing với những KH khơng có khoản nợ ngân hàng nhiều hơn là những KH đang nợ.

• Thuộc tính TG LLC

Hình 30. Kết quả chạy thuật tốn Naive Bayes của thuộc tính TG LLC

Thời gian của cuộc gọi cuối có ảnh hưởng tới khả năng gửi tiền của KH như sau:

- Thời gian gọi ít (31.7%)

- Thời gian gọi nhiều (29%)

Tuy nhiên, những KH có thời gian cuộc gọi cuối ít cũng là những KH có khả năng khơng gửi tiền vào ngân hàng cao nhất là khoảng 76.7%

• Thuộc tính SLLH

Hình 31. Kết quả chạy thuật tốn Naive Bayes của thuộc tính SLLH

KH có số lần liên hệ ít có khả năng tham gia chiến dịch gửi tiền vào ngân hàng cao nhất (khoảng 72.6%) nhưng cũng có khả năng khơng gửi tiền vào ngân hàng cao nhất (khoảng 68.3%). Những KH có số lần liên hệ nhiều và trung bình có khả năng gửi tiền vào ngân hàng thấp hơn lần lượt là khoảng 6.5% và 20.9%.

• Thuộc tính NGAY LLGD

Hình 32. Kết quả chạy thuật tốn Naive Bayes của thuộc tính NGAYLLGD

Độ đo C4.5 Naive Bayes Thuật tốn nào lớn hơn?

KHONG CO KHONG CO KHONG CO

Độ hồi tưởng Recall 94.98% 33.33 % 91.05 % 55.85% C4.5 NBC Độ chính xác Precision 92.47% 43.52 % 94.06 % 44.84% NBC NBC Độ đo tổng hợp F-measure 93.71% %37.75 %92.53 49.74% C4.5 NBC Độ đo chính xác Accuracy 88.57% 86.99% C4.5 Tỷ lệ lỗi Error Rate 11.43% 13.01% NBC

Khóa luận tốt nghiệp________________________________________________________ Chúng ta thấy, KH gần đây liên lạc với NH sẽ có khả năng gửi tiền vào ngân hàng cao nhất (khoảng 76.6%). Những khách hàng đã lâu không liên lạc với ngân hàng sẽ có khả năng gửi tiền vào ngân hàng thấp nhất chiếm 6.5%

• Thuộc tính KQCD TRUOC

Hình 33. Kết quả chạy thuật tốn Naive Bayes của thuộc tính KQCD TRUOC

Khả năng gửi tiền vào ngân hàng của KH có kết quả chiến dịch trước là thành công là 15.9% và kết quả chiến dịch trước thất bại là 12.1%. Những KH có thuộc tính KQCD TRUOC là khơng rõ có khả năng gửi tiền vào ngân hàng cao nhất (64.7%). Tuy nhiên, nhìn vào giá trị đó, chúng ta thấy hạn chế của bài toán là chưa thu thập được kết quả tham gia những chiến dịch khác của ngân hàng.

Khóa luận tốt nghiệp

3.4.3. Đánh giá các mơ hình

Từ kết quả chạy 2 thuật tốn trên RapidMiner chúng ta có bảng so sánh kết quả của C4.5 và Naive Bayes như sau:

Theo kết quả dựa trên hơn 4500 bản ghi dữ liệu KH với công cụ Rapid Miner ta thu được:

- Thuật tốn C4.5 có độ đo chính xác = 88,57% cao hơn độ đo chính xác của thuật tốn Naive Bayes = 86.99%. Thuật toán C4.5 có thể được sử dụng với dữ liệu đa trị, tuy nhiên, chúng ta đã sử dụng cùng một bộ dữ liệu để có thể trực quan so sánh 2 thuật toán với nhau.

- Thuật toán Naive Bayes nêu được rõ hơn xác suất về khả năng gửi tiền đối với từng thuộc

tính.

Từ kết quả thực nghiệm, chúng ta nên sử dụng thuật toán C4.5 để khai phá dữ liệu KH

của NH để dự đoán được khả năng khách hàng tham gia gửi tiền hay khơng thơng qua chiến dịch TeleMarketing vì những lý do sau: Mặc dù bộ DL trên có kích thước tương đối tuy nhiên do nguồn thu thập dữ liệu chưa đạt u cầu, vẫn cịn nhiều bản ghi có thuộc tính khơng rõ nên kết quả phân lớp DL chưa cao. Bên cạnh đó những luật sinh ra từ cây quyết định C4.5 cịn có những luật khơng phù hợp thậm chí mâu thuẫn với thực tế. Song các luật

của kết quả chạy thuật tốn C4.5 cũng đã góp phần giúp Ngân hàng nhận diện được những

KH tiềm năng tham gia gửi tiền sau chiến dịch TeleMarekting. Hơn nữa, cải tiến của thuật

Khóa luận tốt nghiệp________________________________________________________ tốn C4.5 là làm việc với thuộc tính đa trị và làm việc với giá trị bị thiếu. Mà bộ DL Khách

hàng của chúng ta đang có nhiều DL bị thiếu, hoặc khơng rõ do quá trình nhập liệu của nhân viên, có nhiều thuộc tính đa trị như tuổi, số ngày liên lạc gần đây, thời gian cuộc gọi cuối... nên nếu sử dụng thuật toán C4.5 để khai phá sẽ giúp NH tiết kiệm được thời gian, công sức trong việc chuyển đổi DL của các thuộc tính đa trị.

KẾT LUẬN

Đề tài: “Dự đoán khả năng gửi tiền của khách hàng cá nhân qua TeleMarketing tại

ngân hàng với thuật toán phân lớp C4.5 và Naive Bayes ” đã được thực hiện nhằm dự

đoán

khả năng tham gia gửi tiền của khách hàng tại ngân hàng thông qua dữ liệu của chiến dịch TeleMarketing, xác định được những đối tượng khách hàng có khả năng cao gửi tiền vào ngân hàng để từ đó giúp ngân hàng vạch ra được định hướng chăm sóc khách hàng tập trung.

Cơng việc thực hiện

• Tìm hiểu về hoạt động Marketing trong ngân hàng, sự cần thiết, vai trò của Marketing ngân hàng và đặc điểm của nó. Tìm hiểu một số phương pháp Marketing truyền

thống và hiện đại. Cùng với đó là tìm hiểu về CRM trong ngân hàng, tầm quan trọng và lợi

ích của CRM trong ngân hàng.

• Trình bày cơ bản được những vấn đề của Khai phá dữ liệu như khái niệm, mục đích, quy trình và ứng dụng của khai phá dữ liệu. Nắm được kỹ thuật KPDL phân lớp bằng

cây quyết định qua thuật toán C4.5 và thuật tốn Naive Bayes. Xây dựng được mơ hình cây quyết định C4.5 và thuật tốn Naive Bayes trên cơng cụ RapidMiner

Ket quả đạt được

KPDL khách hàng tham gia chiến dịch TeleMarketing nhằm phân tích đúng đối tượng KH sẽ gửi tiền vào ngân hàng. Cho thấy được hiệu quả của chiến dịch, phân tích

Một phần của tài liệu Dự đoán khả năng gửi tiền của khách hàng cá nhân qua telemarketing tại NH với thuật toán phân lớp naive bayes và c4 5 072 (Trang 77)

Tải bản đầy đủ (DOCX)

(92 trang)
w