ID Vung Tuoi Gioi- tinh
Thunhap Ket-hon So_con O_to CThanh—tokTiet— kien
The_chap Ke_hoach
ID1210
1 NOITHAt 54 NU 15 YES 4 NO NO NO YES YES
ID1210
2 THITRAN 29 NAM 7.8 YES 2 NO YES YES YES YES
ID1210
3 NOITHAr 50 NU 20 YES 3 NO YES YES NO YES
Mơi trường làm việc chính của Weka là Weka Explorer. Các chức năng chính của Weka Explorer thể hiện trong các thẻ (tab) của màn hình chính bao gồm:
• Preprocess: Cho phép mở, điều chỉnh, lưu một tập tin dữ liệu. Thẻ này chứa các thuật toán áp dụng trong tiền xử lý dữ liệu.
• Classify: Cung cấp các mơ hình phân lớp dữ liệu hoặc hồi quy.
• Cluster: Cung cấp các mơ hình gom cụm.
• Associate: Khai thác tập phổ biến và luật kết hợp.
• SelectAttributes: Lựa chọn những thuộc tính tốt nhất từ tập dữ liệu.
• Visualize: Thể hiện dữ liệu dưới dạng biểu đồ.
Thông thường, định dạng chuẩn file dữ liệu của Weka là file .arff (Attribute Relation File Format), file này do phần mềm Weka tạo ra. Tuy nhiên, Weka cũng cho phép tổ chức file dữ liệu dưới dạng file .csv (comma-separated values), file này có dạng dữ liệu Excel.
Khóa luận sẽ đi cài đặt và chạy thử nghiệm phiên bản Weka 3.6.9, áp dụng với file dữ liệu dlbank.csv.
Trong bài toán phân đoạn khách hàng này, chúng ta cũng tiến hành các giai đoạn khai phá dữ liệu gồm các bước:
❖Bước 1: Phân tích bài tốn. Đối với bài tốn phân đoạn khách hàng, ở bước này
cần xác định tiêu thức phân đoạn. Sự khác biệt giữa các phân đoạn khách hàng dựa trên tiêu thức nhân khẩu học ngày càng giảm, vì vậy trong khn khổ đề tài, khóa luận lựa chọn kết hợp các tiêu thức phân đoạn theo lợi ích, hành vi địa lý và
nhân khẩu học.
❖Bước 2: Chuhn bị dữ liệu. Để phân đoạn khách hàng theo các tiêu thức nhân
khẩu học, lợi ích và địa lý thì cần thu thập dữ liệu hồ sơ khách hàng và dữ liệu giao dịch của khách hàng.
❖Bước 3: Tiền xử lý dữ liệu: Để nâng cao hiệu quả khai phá dữ liệu, bước này sẽ
trình bày một số thao tác tiền xử lý dữ liệu như trích chọn thuộc tính,...
❖Bước 4: Xây dựng mơ hình: Vì lý do ưu tiên tính hiệu quả thời gian thực hiện thuật tốn, khóa luận lựa chọn giải thuật K-means để KPDL. Các bước KPDL bằng công cụ Weka với giải thuật K-means.
❖Bước 5: Đọc và áp dụng kết quả. Trong khn khổ khóa luận sẽ chỉ ra một số
đối
tượng có thể sử dụng kết quả KPDL và đưa ra một số khuyến nghị về áp dụng kết
quả đạt được từ KPDL.
3.3. Quy trình khai phá dữ liệu 3.3.1. Thu thập dữ liệu:
Dữ liệu sử dụng để xây dựng bài tốn là một tập hợp các thơng tin về khách hàng cá nhân xin tại ngân hàng Agribank.
Dữ liệu thu thập được bao gồm 600 bản ghi, được lưu trữ dưới dạng file excel và
ID1210
5 NONGTH 30 NU 20 YES 2 YES NO YES YES YES
ID1210
6 THITRAN 38 NU 9.6 YES 1 NO YES NO NO YES
ID1210
7 NONGTH 31 NAM 6.1 YES 2 NO NO NO YES YES
ID1210 8
THITRA
N 22 NAM 10.3 YES 0 NO YES YES NO YES
ID1210
9 NGOAITh 25 NU 6.6 YES 1 NO NO YES YES YES
ID1211
0 THITRAN 28 NAM 11 YES 1 NO NO YES NO YES
ID1211
1 THITR
AN 65 NU 7 YES 3 NO NO NO YES YES
ID1211
2 NOITHAr 52 NU 30 YES 2 YES YES YES YES YES
ID1211 3
THITRA
N 27 NU 7.8 YES 1 NO YES NO NO YES
ID1211
4 THITR
AN 27 NU 21 YES 2 YES YES YES YES YES
ID1211 5
NONGT
H 32 NAM 14.6 YES 2 NO NO NO NO YES
ID1211
6 NOITHAr 60 NU 36 YES 4 YES YES YES YES YES
ID1211
7 THI-TRAN 28 NU 10 YES 2 NO NO NO NO YES
ID1211
8 NGOAITh 45 NU 6.9 YES 2 NO NO NO YES YES
ID1211
9 NOITHAr 55 NU 21 YES 3 YES NO YES YES YES
ID1212 0
THITRA
N 26 NAM 18 YES 1 YES YES YES YES YES
ID1212
1 NOITHAr 55 NAM 17.2 YES 2 YES NO YES YES YES
ID1212
2 THITRAN 46 NAM 9.3 YES 2 NO YES NO NO YES
ID1212
3 NOITHAr 54 NAM 24.5 YES 3 NO YES NO NO YES
ID1212
4 THITRAN 26 NU 15 YES 2 YES NO YES YES YES
ID1212 5
NOITH
TT TÍNH LIỆU
1 ID Nominal ID12101, ID12102... Khóa định
danh khách hàng
2 Tuoi Numberic 20, 21,. Tuổi KH
3 Gioi_tinh Nominal Male, Female Giới tính của
KH
4 Vung Nominal Nội thành, thị trấn, nơng
thơn, ngoại thành)
Nơi cư trú của KH
5 Thu_nhap Numberic 3.5,4.5... Thu nhập của
KH
6 Ket_hon Nominal Yes, No Đã kết hôn
chưa
7 So_con Numberic 0,1,2,3,4 Số con