❖ Bước 3: bấm vào textbox ngay bên phải nút “Choose” và gõ vào “1” chính là index của thuộc tính ID trong file dữ liệu.
phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
Bước 4: Bấm “Apply” để tạo một dữ liệu mới với 11 thuộc tính sau khi đã loại bỏ thuộc tính
phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
Bây giờ lưu lại dữ liệu sau khi loại bỏ ID dưới dạng file .arff với tên là “dlbankl.arff”. Nội dung file“dlbank1.arff”:
©relatíon dibaπk-weka. filters. Unsupervi sed. attrlbute. Remove-Rl ©attr1 bute Vung {NOI-THANH ,THI-TRAN,NONG-THON , NGOAI-THANH} ©attribute TUOI numeric
©attribute Glol-tinh {NU,NAM} ©attribute Thunhap numeric ©attribute κet-hon {YES} ©attribute SO-CO∏ numeric ©attribute 0-t0 {NO,YEΞ}
©attribute τκτhaπh-toaπ {NO,YES} ©attribute 'Tkτ1et-k1em f {NO,YEΞ}
©attribute The-Chap {YEE,NO} ©attribute Ke_hoacn {YES}
©data
NOI-THANH,54,NU,15,YEE,4, NO , NO , NO ,YEE,YEE THI-TRAN, 29 ,NAM,7.8,YES,2, NO ,YES,YES,YES,YES NOI-THANH,5Ó,NU,20,YEE,3, NO ,YEE,YEE, NO ,YEE THI-TRAN,26,NU,13.5,YEE,2, NO , NO , NO , NO,YES NONG-THON,30,NU,20,YES,2,YES, NO ,YES,YES,YES THI-TRAN,38,NU,9.6,YES,1,NO,YES,NO,NO,YEE NONG-THON,31,NAM,6.1,YEE,2, NO , NO , NO ,YEE,YEE THI-TRAN,22,NAM,10.3, YES, O , NO ,YES,YES, NO ,YES NGOAI-THANH,25,NU,6.6, YEE,1, NO , NO ,YEE,YEE,YEE THI-TRAN, 28 ,NAM,11,YES,1, NO , NO ,YES, NO ,YES THI-TRAN,6 5^ NU,7,YES,3, NO , NO , NO ,YES,YES NOI-THANH,52,NU,30,YEE,2,YEE,YEE,YEE,YEE,YEE THI-TRAN,27,NU,7.8,YEsjl, NO ,YES, NO , NO ,YES THI-TRAN,27^ NU,21,YEE,2,YEE,YEE,YEE,YEE,YEE NONG-THON,32,NAM,14.6,YES,2,NO,NO,NO,NO,YES NOI-THANHj 60,NU,36,YES,4,YES,YES,YES,YES,YES THI-TRAN,28,NU,10,YEE,2, NO,NO , NO , NO ,YEE NGOAI-THANH,45,NU,6. 9,YES,2, NO , NO , NO ,YES,YES NOI-THANH,5 5,NU,21,YES ,3,YES , NO ,YES ,YES ,YES
Hình 19. Nội dung file "dlbank1.arff"
Khi thuộc tính ID bị loại thì tất cả các giá trị của trường ID trong các bản ghi cũng bị loại.
3.3.3. Khai phá dữ liệu với thuật toán K-Means
❖Bước 1: Chọn menu Process để vào panel lấy các nguồn thử nghiệm
❖Bước 2: Click Open file để chỉ đến vị trí nguồn dữ liệu và chọn file dlbank1.arff.
Trước khi tiến hành phân cụm, ta sẽ phải lựa chọn chế độ kiểm thử để xây dựng tập kiểm thử và tập huấn luyện. Weka hỗ trợ 4 chế độ kiểm thử:
• Sử dụng tập huấn luyện (Use training set): Các cụm học sẽ được kiểm tra đối
với tập học
• Tập hỗ trợ kiểm thử (Supplied test set): sử dụng một tập dữ liệu khác để kiểm
tra các cụm học được
• Đánh giá độ chính xác phân cụm (Classes to clusters evaluation): So sánh độ
Khóa luận tốt nghiệp phân đoạn khách hàng tạ
Nghiên cứu ứng dụng khai phá dữ liệu phân cụm trong
i NHNo& PTNT Trực Ninh Nam Định
Cluster centroids:
Cluster#
Attribute Full Data 0 1 2 3 4
(6ữC) (72) (138) (139) (83) (168)
Vung NOI THANH
NONG
THON THIjrEAN NOI THANH THI TEAN NOI THANH Iuci 38.5767 27.0972 32.1739 46.482 34.1446 44.4048 Sicí_tinh NU N U NU NA M NU NAM Ihunhap 15.0698 10.0319 12.229 18.7741 11.0337 18.4917 Ket_hon Y E 3 YE S YES YE S YES YES 3o_ccn 2.035 1.875 1.942 2.1439 1.988 2.1131 o_tc NO N O YES N O NC YES IKThanh_toan Y ES YE S NO YE S NC YES IlĩTiet_k’iem Y ES N O YES N C NC YES Ihe_chap Y ES N O YES N O NC YES
Ke_hoach Y YE YES YE YES YES
phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
• Tách theo tỉ lệ (Percentage split): Chỉ định tỷ lệ phân chia tập dữ liệu ban đầu
cho việc xây dựng tập kiểm tra
❖ Bước 3: Sử dụng chế độ kiểm thử “Use training set”. Chọn Cluster->Choose- >SimpleKMeans. Sau đó ấn vào ơ bên phải nút Choose, Thiết lập các tham số cho thuật toán K-Means về số cụm. Theo kết quả nghiên cứu “BAI Research Study: The New Dynamics of Consumer Banking Relationships” của Bank
Administration Institute để đảm bảo quy mô của các phân khúc tạo ra, thị trường bán lẻ ngân hàng nên được phân thành 4 đến 5 phân đoạn. Vì vậy ở đây lựa chọn tham số k=5 -> Start.