CHƯƠNG II: XÂY DỰNG THUẬT TOÁN PHÂN LỚP C4 .5 VÀ NAIVE BAYES
3.2. Bài toán dự đoán đăng ký gửi tiền của khách hàng
3.2.1. Chiến dịch Bank TeleMarketing khuyến khích khách hàng gửi tiền
Marketing được sử dụng rộng rãi trong các ngành sản xuất vật chất từ cuối thế kỷ XIX
và phát triển khá nhanh chóng. Đến thập kỷ 60 của thế kỷ XX, Marketing thâm nhập vào lĩnh vực ngân hàng. Hiện nay, Marketing giữ vai trị then chốt trong sự thành cơng của ngành ngân hàng. Một sản phẩm tốt, một sản phẩm chất lượng sẽ càng in sâu vào tiềm thức
của khách hàng và được KH đánh giá cao hơn nếu khâu quảng bá SPDV ngân hàng làm tốt. Ngân hàng cũng có rất nhiều sự lựa chọn khi thực hiện marketing SPDV tới khách hàng của mình. Ngồi những cách hiện đại như marketing qua internet, cũng cịn nhiều ngân hàng chọn cho mình cách giới thiệu sản phẩm tới KH của họ thông qua gọi điện thoại
(TeleMarketing). Đây là một phương pháp khơng cịn mấy xa lạ vì điện thoại là phương tiện liên lạc phổ biến trong đời sống. Hiện nay, đa số mỗi cá nhân đều sở hữu cho mình ít nhất một tới hai chiếc điện thoại để liên lạc trao đổi. Điện thoại đã trở thành vật bất ly thân
trước khi mọi người ra khỏi nhà. Vì vậy, chọn cách marketing qua điện thoại, ngân hàng sẽ có xác suất đưa thơng tin về sản phẩm dịch vụ họ đang phát triển đến với các khách hàng tiềm năng của họ cao hơn.
Chiến dịch TeleMarketing của ngân hàng là phương thức ngân hàng quảng bá, giới thiệu SPDV của ngân hàng thông qua các cuộc gọi điện thoại. Nhân viên ngân hàng sẽ thực
hiện cuộc gọi tới danh sách KH của ngân hàng để cung cấp thông tin về SPDV sắp ra mắt, ưu đãi đặc biệt khi tham gia gửi tiền từ đó khích thích khả năng gửi tiền của KH vào ngân hàng. TeleMarketing cũng là phương thức marketing có chi phí nhỏ hơn so với nhiều phương thức khác nhưng ưu điểm nổi trội hơn cả của TeleMarketing là khả năng giải đáp thắc mắc và cung cấp kịp thời câu trả lời tới khách hàng. Nếu khách hàng có băn khoăn gì về chiến dịch, về lãi suất tiền gửi, về thời hạn chi trả lãi suất thì nhân viên ngân hàng hồn tồn có thể cung cấp câu trả lời trực tiếp, nhanh chóng, kịp thời. Từ kết quả của các cuộc gọi tới từng khách hàng được ghi lại, chúng ta sẽ dùng để khai phá cho bài toán dự đốn khả năng gửi tiền của KH thơng qua chiến dịch TeleMarketing.
3.2.2. Mơ tả bài tốn
3.2.2.1. Ỷ nghĩa bài tốn
Bài tốn giải quyết câu hỏi dự đoán khả năng gửi tiền của khách hàng khi ngân hàng thực hiện chiến dịch TeleMarketing. Từ đó hỗ trợ khách hàng xác định được khách hàng tiềm năng, giúp ngân hàng có thể tập trung chăm sóc, để duy trì mối quan hệ giữa khách hàng và ngân hàng. Dựa trên CSDL lịch sử mà ngân hàng thu thập được về khách hàng, sẽ
Khóa luận tốt nghiệp________________________________________________________ phục vụ cho kỹ thuật KPDL để dự đốn được những thơng tin hữu ích, giúp ngân hàng đạt được mục tiêu về doanh thu và huy động tiền vốn.
3.2.2.2. Phạm vi bài toán
a. Mơ tả bài tốn
Đầu vào: Gồm hơn 4500 bản ghi khách hàng bao gồm các thuộc tính Họ tên, tuổi,
giới
tính, địa chỉ, điện thoại, tình trạng hơn nhân, số dư, nhà cửa, nợ, số lần liên hệ điện thoại, ngày liên hệ gần đây, kết quả chiến dịch trước đã tiếp thị tới KH, thời gian của lần liên lạc cuối.
Đầu ra: Dự đoán khả năng khách hàng gửi tiền hay khơng?
Mục tiêu của bài tốn: Hướng tới những khách hàng đang có ý định hoặc nhu cầu gửi
tiền, hoặc có khoản tiền nhàn rỗi để tư vấn, thuyết phục khách hàng chấp nhận gửi tiền vào
ngân hàng. Từ đó vừa mang lại lợi ích phục vụ về phía khách hàng, vừa đạt được mục tiêu của ngân hàng.
b. Giải quyết bài toán
Để giải quyết bài toán, chúng ta, áp dụng phương pháp phân lớp phân tích đánh giá trên từng đối tượng khách hàng, những yếu tố cần có của khách hàng phải xử lý như: • Tuổi, Tình trạng hơn nhân: Nhóm tuổi nào có xu hướng gửi tiền cao nhất, tình trạng hôn nhân của KH độc thân, KH đã kết hơn, KH ly dị có khả năng gửi tiền khác nhau như thế nào.
• Trình độ học vấn: Xác định trình độ học vấn Trung học cơ sở (THCS), Trung học phổ thơng (THPT), Đại học có ảnh hưởng tới khả năng gửi tiền của KH hay khơng.
• Nhà ở: Nhà ở là tài sản bảo đảm của KH khi vay vốn, trong bài tốn này, nhà ở là một thuộc tính tham gia vào q trình khai phá cho bài tốn KH gửi tiền.
• Nợ: Những KH có khoản nợ ngân hàng sẽ có xu hướng gửi tiền khác với những khách hàng khơng nợ như thế nào.
• Thời gian liên lạc cuối: Là thời gian thực hiện cuộc gọi lần cuối giữa ngân hàng với KH
được tính bằng giây.
• Số lần liên hệ: Dựa vào số lần thực hiện cuộc gọi thành công của khách hàng với ngân hàng, ta có thể xem xét và quan sát được khả năng sẵn sàng tiếp nhận thơng tin marketing qua điện thoại từ ngân hàng của phía khách hàng.
• Kết quả của Chiến dịch trước: Có thể là kết quả của huy động gửi tiền, kết quả của thực hiện dùng sản phẩm dịch vụ với khuyến mại kèm theo... mà ngân hàng từng tổ chức trước đó.
TT Thuộc tính Kiểu dữ liệu Giá trị Giải thích 1 TUOI Polynominal ≤^35 ≥ 50 36 - 49 3 nhóm tuổi: ≤35, ≥ 50 và [36, 49] 3.3. Thực nghiệm 3.3.1. Chuẩn bị dữ liệu 3.3.1.1. Thu thập dữ liệu
Dữ liệu về từng khách hàng được ngân hàng khai thách ngay từ khi khách hàng mở thẻ
tại ngân hàng để dùng các tiện ích của ngân hàng. Khách hàng sẽ cung cấp số điện thoại cá nhân, nhân viên ngân hàng sử dụng nguồn CSDL khách hàng cung cấp để thực hiện KPDL tìm ra những thơng tin có ích cho ngân hàng. Ngân hàng sử dụng chính SĐT khách hàng cung cấp để liên lạc với họ. Số lần thực hiện cuộc gọi sẽ được lưu vào hệ thống, và được sử dụng để phục vụ những mục đích nghiên cứu của ngân hàng.
3.3.1.2. Biến đổi dữ liệu
Với các dữ liệu đầu vào trên, cần chuyển đổi thuộc tính Thu nhập , Số lần liên hệ từ các biến rời rạc liên tục thành các nhóm.
• Thuộc tính SLLH
- Nhỏ hơn hoặc bằng 2: IT - 2 ≤ Số lần liên hệ < 5: TB - Lớn hơn hoặc bằng 5: NHIÊU • Thuộc tính NGAY LLGD
- Ngày liên lạc gần nhất ≤ 100 ngày: GAN - Ngày liên lạc gần nhất ≤ 300 ngày: XA
- Ngày liên lạc gần nhất từ 101 tới 299 ngày: TRUNG BINH • Thuộc tính TUOI
- Nhỏ hơn hoặc bằng 35 tuổi: ≤ 35 - Lớn hơn hoặc bằng 50 tuổi: ≥ 50 - Tuổi từ 36 đến 49: 36- 49
• Thuộc tính TG LLC
- Thời gian cuộc gọi cuối ≤ 300 giây: IT - Thời gian cuộc gọi cuối ≥ 700 giây: NHIEU
- Thời gian cuộc gọi cuối từ 301 tới 699 giây: TRUNG BINH
Bộ dữ liệu sử dụng để khai phá gồm 10 thuộc tính và thuộc tính QUYET DINH của việc khách hàng có gửi hay khơng gửi tiền sau khi ngân hàng thực hiện TeleMarketing.
2 TT HON NHAN Polynominal KET HON DOC THAN
LY DI
Tình trạng hôn nhân được chia làm: Ket hôn,
Độc thân và Ly dị
3 HOC VAN Polynominal THCS
THPT DAI HOC KHONG RO Học vấn gồm 4 giá trị là: Trung học cơ sở, Trung học phổ thông, Đại học, Không rõ 4 SO DU Polynominal CAO TRUNG BINH THAP
Số dư được chia thành 3 mức: Cao, Trung bình, Thấp 5 NHA Polynominal CO KHONG Có nhà ở hay khơng? 6 NO Polynominal CO KHONG Có khoản nợ hay khơng? 7 TG LLC Polynominal IT TRUNG BINH NHIEU
Thời gian liên lạc của cuộc gọi điện thoại cuối được chia thành 3 mức: Ít, Trung bình, Nhiều
8 SLLH Polynominal IT
TB NHIEU
Số lần liên hệ được chia thành 3 mức: Ít, Trung
TRUNG BINH XA
khoảng: Gần, Trung binh, Xa
10 KQ CD TRUOC Polynominal THANH CONG
THAT BAI KHONG RO
KHAC
Ket quả của chiến dịch trước gồm các giá trị: Thành công, Thất bại,
Không rõ, Khác
Nguyễn Thị Hương - 19A4040076 Page | 53
Bảng 26. Bảng thuộc tính của tập dữ liệu khách hàng
3.3.1.3. Trích chọn thuộc tính
Với các thuộc tính như Tên khách hàng, Giới tính, Địa chỉ, Điện thoại chúng ta khơng dùng để khai phá vì đây là thuộc tính mang tính đơn lẻ và cá nhân hóa, khơng được ứng dụng nhiều trong trường hợp này.
3.3.2. Thực nghiệm với thuật toán C4.5 và Naive Bayes trên Rapid miner
a. Thuật toán C4.5 Bước 1: Nạp dữ liệu
*Khởi động RapidMiner
*Add Data: chọn tệp dữ liệu KH.csv trong máy tính
Hình 17. Tập dữ liệu chạy thuật toán trên Rapidminer
Bước 2: Lựa chọn làm nhãn (Set Role)
Lựa chọn các thuộc tính quyết định của mơ hình (nhãn) *Operators: Select Attributes: Names & Roles *Parameter: Attribute name: QUYET DINH * Parameter: target role: label
Bước 3: Lựa chọn các thuộc tính tham gia mơ hình
Lựa chọn các thuộc tính có ý nghĩa và phù hợp với bài tốn tham gia vào mơ hình. *Operators: Select Attributes
*Parameter: subset: chọn tất cả các thuộc tính trong tập dữ liệu KH.csv trừ thuộc tính QUYET DINH.
Bước 4: Kiểm thử mơ hình: Xây dựng bước kiểm thử hiệu quả mơ hình
*Validation: Split-Validation
*Parameter: number of validation: 10 (kiểm thử 10 folds)
*Lựa chọn phương pháp phân lớp: Sử dụng giải thuật cây quyết định để phân lớp
dữ liệu
- Modeling: Decision Tree
- Parameter: Criterion: Gain Ratio
*Ứng dụng mơ hình
Lớp được dự đốn bởi mơ hình
_________Positive_________ _________Negative_________
Positive TP FP
Negative FN TN
Khóa luận tốt nghiệp
-Scoring: Apply Model
*Đánh giá hiệu quả mơ hình: Đánh giá hiệu quả mơ hình bằng các độ đo hồi tưởng
và chính xác
Ta có mơ hình vừa xây dựng:
Hình 18. Mơ hình chạy thuật tốn C4.5 trên RapidMiner
b. Thuật toán Naive Bayes Bước 1: Nạp dữ liệu
*Khởi động RapidMiner
*Add Data: chọn tệp dữ liệu KH.csv trong máy tính
*Tạo một Process mới, đưa tệp dữ liệu KH.csv vào mơ hình. Bước 2: Lựa chọn làm nhãn (Set Role)
Lựa chọn các thuộc tính quyết định của mơ hình (nhãn) *Operators: Select Attributes: Names & Roles *Parameter: Attribute name: QUYET DINH * Parameter: target role: label
Bước 3: Lựa chọn các thuộc tính tham gia mơ hình
Lựa chọn các thuộc tính có ý nghĩa và phù hợp với bài tốn tham gia vào mơ hình. *Operators: Select Attributes
*Parameter: subset: chọn tất cả các thuộc tính trong tập dữ liệu KH.csv trừ thuộc tính QUYET DINH.
Bước 4: Kiểm thử mơ hình: Xây dựng bước kiểm thử hiệu quả mơ hình
Khóa luận tốt nghiệp
^Validation: Validation
^Parameter: number of validation: 10 (kiểm thử 10 folds)
*Lựa chọn phương pháp phân lớp:
- Modeling: Naive Bayes
*Ứng dụng mơ hình
-Scoring: Apply Model
*Đánh giá hiệu quả mơ hình: Đánh giá hiệu quả mơ hình bằng các độ đo hồi tưởng
và chính xác
Ta có mơ hình vừa xây dựng:
Hình 19. Mơ hình chạy thuật tốn Naive Bayes trên Rapid Miner
3.4. Kết quả
Để đánh giá độ chính xác của mơ hình phân lớp nói chung và 2 thuật tốn trên nói riêng, ta xác định các giá trị của ma trận sau:
TP + FP TP
TP + FN
accuracy: 88.57%
true KHONG true CO class precision
pred KHONG 1154 94 9247%
pred. CO 61 47 43.52%
class recall 94.98% 33.33%
Bảng 27. Bảng ma trận nhầm lẫn
- TP (True Positive): Số lượng các phân tự được dự đoán đúng lớp Positive.
- TN (True Negative): Số lượng các phân tự được dự đoán đúng lớp Negative.
- FP (False Positive): Số lượng các phân tự được dự đoán nhầm lớp Positive.
Nguyễn Thị Hương - 19A4040076 Page | 57
Khóa luận tốt nghiệp_____________________________________________________
- FN (False Negative): Số lượng các phân tự được dự đốn nhầm lớp Negative.
Độ chính xác (precision): được tính bằng số tài liệu phân lớp đúng trên tổng số tài liệu được phân vào lớp đó.
P = *100%
Độ hồi tưởng (recall): được tính bằng số tài liệu phân lớp đúng trên tổng số tài liệu thực chất thuộc về lớp đó. R = *100% Độ đo tổng hợp (F-measure) _ 2*P * R_____ F = J J *100% P + R 3.4.1. Thuật toán C4.5
Chạy thuật toán C4.5 với bộ dữ liệu truyền vào, chúng ta thu được ma trận nhầm lẫn (Confusion Matrix) như sau:
Hình 20. Ma trận nhầm lẫn của thuật tốn C4.5
- Có 1154 bản ghi thuộc lớp KHONG mà bộ phân lớp phân đúng giá trị KHONG
- Có 47 bản ghi thuộclớp CO mà bộ phân lớp phân đúng giá trị CĨ
- Có 94 bản ghi thclớp CO mà bộ phân lớp phân sai thành giá trị thuộclớp KHONG
- Có 61 bản ghi thclớp KHONG mà bộ phân lớp phân sai thành giá trịthuộc lớp CO
- Độ đo chính xác Accuracy: 88.57% (Tỷ lệ các mẫu được phân lớp đúngtrên toàn bộ tập mẫu)
- Độ hồi tưởng Class recall của lớp KHONG là 94.98% (Tỷ lệ các mẫu phân lớp KHONG đúng trên toàn bộ các mẫu thực sự thuộc phân lớp KHONG), độ hồi tưởng recall của lớp CO là 33.33% (Tỷ lệ các mẫu phân lớp CO đúng trên toàn bộ các mẫu thực sự thuộc phân lớp CO)
- Độ hiệu dụng Precision của lớp KHONG là 92.47% (Tỷ lệ các mẫu phân lớp KHONG đúng trên tồn bộ các mẫu dự đốn phân lớp KHONG), độ hiệu dụng Precision của lớp CO là 43.52% (Tỷ lệ các mẫu phân lớp CO đúng trên tồn bộ các mẫu dự đốn phân lớp CO)
Các luật của cây quyết định
T HO NHAN D THAN KHONG {KHONG=6,
T HO NHAN K HON: CO {KHONG=3, CO=3}
T
T HON NHAN = LY DI:CO {KHONG=1, CO=2}
H V = DAI HOC
Khóa luận tốt nghiệp
Cây quyết định
Hình 21. Cây quyết định của thuật tốn C4.5 trên RapidMiner
Một số luật đáng chú ý được rút ra từ kết quả thuật toán như sau:
- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước khơng rõ hoặc thất
bại” thì “KH khơng gửi tiền”
- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành công” và
“Học vấn THPT” và “Số dư cao” thì “KH gửi tiền”
- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành công” và
“Học vấn THPT” và “Số dư trung bình” thì “KH gửi tiền”
- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành công” và
“Học vấn THPT” và “Số dư trung thấp” và “Tình trạng hơn nhân = Kết hơn” thì “KH khơng gửi tiền”
- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành cơng” và
“Học vấn Đại học” và “Tình trạng hơn nhân độc thân” thì “KH gửi tiền”
- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành cơng” và
“Học vấn Đại học” và “Tình trạng hôn nhân kết hôn” và “Số dư thấp hoặc trung bình” thì “KH khơng gửi tiền”
- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước thành cơng” và
“Học vấn Đại học” và “Tình trạng hơn nhân kết hơn” và “Số dư cao” và “Số lần liên lạc trung bình” thì “KH gửi tiền”
- Nếu “Thời gian liên lạc cuộc gọi cuối nhiều” thì “KH gửi tiền”
- Nếu “Thời gian liên lạc cuộc gọi cuối ít” và “Kết quả chiến dịch trước khác” và “Số dư
trung bình” thì “KH gửi tiền”
Nguyễn Thị Hương - 19A4040076 Page | 59
Tree
TG LLC = IT
| KQCD TRUOC = KHAC
| | SO DU = CAO
| | SO DU = THAP
| | | NHA = CO: KHONG {KHONG=13, CO=0}
| | | NHA = KHONG
| | | | SLLH = IT
| | | | | HOC VAN = DAI HOC: KHONG {KHONG=3, CO=1}
| | | | | HOC VAN = THPT: CO {KHONG=1, CO=2}
| | | | SLLH = TB: KHONG {KHONG=2, CO=0}
| | SO DU = TRUNG BINH: CO {KHONG=0, CO=7}
| KQCD TRUOC = KHONG RO: KHONG {KHONG=771, CO=83}
| T H NHAN = THAN: CO {KHONG=2, CO=5}
| T H NHAN = HON
| | S DU = CAO
| | | SL = KHONG {KHONG=1, CO=1}
| | | SL
LH = TB: CO {KHONG=0, CO=3}
| | S DU = THAP CO {KHONG=0, CO=7}
| | S DU = TRUN BINH: CO {KHONG=0, CO=3}
| T H NHAN = LY DI: KHONG {KHONG=1, CO=1}
H V = KHON RO: {KHONG=0, CO=5}
H
O VA THCS: KHONG {KHONG=3, CO=0}
H V THPT
| S D = CO {KHONG=0, CO=10}
| S D =
| | T HON NHAN DOC THAN: CO {KHONG=0, CO=2}
| | T