Lựa chọn chức năng Remove

Một phần của tài liệu Nghiên cứu ứng dụng khai phá dữ liệu phân cụm trong phân đoạn khách hàng tại NH nông nghiệp và phát triển nông thôn trực ninh nam định khoá luận tốt nghiệp 334 (Trang 61 - 66)

❖ Bước 3: bấm vào textbox ngay bên phải nút “Choose” và gõ vào “1” chính là index của thuộc tính ID trong file dữ liệu.

phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định

phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định

Bước 4: Bấm “Apply” để tạo một dữ liệu mới với 11 thuộc tính sau khi đã loại bỏ thuộc tính

phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định

phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định

Bây giờ lưu lại dữ liệu sau khi loại bỏ ID dưới dạng file .arff với tên là “dlbankl.arff”. Nội dung file“dlbank1.arff”:

©relatíon dibaπk-weka. filters. Unsupervi sed. attrlbute. Remove-Rl ©attr1 bute Vung {NOI-THANH ,THI-TRAN,NONG-THON , NGOAI-THANH} ©attribute TUOI numeric

©attribute Glol-tinh {NU,NAM} ©attribute Thunhap numeric ©attribute κet-hon {YES} ©attribute SO-CO∏ numeric ©attribute 0-t0 {NO,YEΞ}

©attribute τκτhaπh-toaπ {NO,YES} ©attribute 'Tkτ1et-k1em f {NO,YEΞ}

©attribute The-Chap {YEE,NO} ©attribute Ke_hoacn {YES}

©data

NOI-THANH,54,NU,15,YEE,4, NO , NO , NO ,YEE,YEE THI-TRAN, 29 ,NAM,7.8,YES,2, NO ,YES,YES,YES,YES NOI-THANH,5Ó,NU,20,YEE,3, NO ,YEE,YEE, NO ,YEE THI-TRAN,26,NU,13.5,YEE,2, NO , NO , NO , NO,YES NONG-THON,30,NU,20,YES,2,YES, NO ,YES,YES,YES THI-TRAN,38,NU,9.6,YES,1,NO,YES,NO,NO,YEE NONG-THON,31,NAM,6.1,YEE,2, NO , NO , NO ,YEE,YEE THI-TRAN,22,NAM,10.3, YES, O , NO ,YES,YES, NO ,YES NGOAI-THANH,25,NU,6.6, YEE,1, NO , NO ,YEE,YEE,YEE THI-TRAN, 28 ,NAM,11,YES,1, NO , NO ,YES, NO ,YES THI-TRAN,6 5^ NU,7,YES,3, NO , NO , NO ,YES,YES NOI-THANH,52,NU,30,YEE,2,YEE,YEE,YEE,YEE,YEE THI-TRAN,27,NU,7.8,YEsjl, NO ,YES, NO , NO ,YES THI-TRAN,27^ NU,21,YEE,2,YEE,YEE,YEE,YEE,YEE NONG-THON,32,NAM,14.6,YES,2,NO,NO,NO,NO,YES NOI-THANHj 60,NU,36,YES,4,YES,YES,YES,YES,YES THI-TRAN,28,NU,10,YEE,2, NO,NO , NO , NO ,YEE NGOAI-THANH,45,NU,6. 9,YES,2, NO , NO , NO ,YES,YES NOI-THANH,5 5,NU,21,YES ,3,YES , NO ,YES ,YES ,YES

Hình 19. Nội dung file "dlbank1.arff"

Khi thuộc tính ID bị loại thì tất cả các giá trị của trường ID trong các bản ghi cũng bị loại.

3.3.3. Khai phá dữ liệu với thuật toán K-Means

❖Bước 1: Chọn menu Process để vào panel lấy các nguồn thử nghiệm

❖Bước 2: Click Open file để chỉ đến vị trí nguồn dữ liệu và chọn file dlbank1.arff.

Trước khi tiến hành phân cụm, ta sẽ phải lựa chọn chế độ kiểm thử để xây dựng tập kiểm thử và tập huấn luyện. Weka hỗ trợ 4 chế độ kiểm thử:

• Sử dụng tập huấn luyện (Use training set): Các cụm học sẽ được kiểm tra đối

với tập học

• Tập hỗ trợ kiểm thử (Supplied test set): sử dụng một tập dữ liệu khác để kiểm

tra các cụm học được

• Đánh giá độ chính xác phân cụm (Classes to clusters evaluation): So sánh độ

Khóa luận tốt nghiệp phân đoạn khách hàng tạ

Nghiên cứu ứng dụng khai phá dữ liệu phân cụm trong

i NHNo& PTNT Trực Ninh Nam Định

Cluster centroids:

Cluster#

Attribute Full Data 0 1 2 3 4

(6ữC) (72) (138) (139) (83) (168)

Vung NOI THANH

NONG

THON THIjrEAN NOI THANH THI TEAN NOI THANH Iuci 38.5767 27.0972 32.1739 46.482 34.1446 44.4048 Sicí_tinh NU N U NU NA M NU NAM Ihunhap 15.0698 10.0319 12.229 18.7741 11.0337 18.4917 Ket_hon Y E 3 YE S YES YE S YES YES 3o_ccn 2.035 1.875 1.942 2.1439 1.988 2.1131 o_tc NO N O YES N O NC YES IKThanh_toan Y ES YE S NO YE S NC YES IlĩTiet_k’iem Y ES N O YES N C NC YES Ihe_chap Y ES N O YES N O NC YES

Ke_hoach Y YE YES YE YES YES

phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định

• Tách theo tỉ lệ (Percentage split): Chỉ định tỷ lệ phân chia tập dữ liệu ban đầu

cho việc xây dựng tập kiểm tra

❖ Bước 3: Sử dụng chế độ kiểm thử “Use training set”. Chọn Cluster->Choose- >SimpleKMeans. Sau đó ấn vào ơ bên phải nút Choose, Thiết lập các tham số cho thuật toán K-Means về số cụm. Theo kết quả nghiên cứu “BAI Research Study: The New Dynamics of Consumer Banking Relationships” của Bank

Administration Institute để đảm bảo quy mô của các phân khúc tạo ra, thị trường bán lẻ ngân hàng nên được phân thành 4 đến 5 phân đoạn. Vì vậy ở đây lựa chọn tham số k=5 -> Start.

Một phần của tài liệu Nghiên cứu ứng dụng khai phá dữ liệu phân cụm trong phân đoạn khách hàng tại NH nông nghiệp và phát triển nông thôn trực ninh nam định khoá luận tốt nghiệp 334 (Trang 61 - 66)