Các chức năng của Weka Explorer

Một phần của tài liệu Nghiên cứu ứng dụng khai phá dữ liệu phân cụm trong phân đoạn khách hàng tại NH nông nghiệp và phát triển nông thôn trực ninh nam định khoá luận tốt nghiệp 334 (Trang 53 - 56)

ID Vung Tuoi Gioi- tinh

Thunhap Ket-hon So_con O_to CThanh—tokTiet— kien

The_chap Ke_hoach

ID1210

1 NOITHAt 54 NU 15 YES 4 NO NO NO YES YES

ID1210

2 THITRAN 29 NAM 7.8 YES 2 NO YES YES YES YES

ID1210

3 NOITHAr 50 NU 20 YES 3 NO YES YES NO YES

Mơi trường làm việc chính của Weka là Weka Explorer. Các chức năng chính của Weka Explorer thể hiện trong các thẻ (tab) của màn hình chính bao gồm:

Preprocess: Cho phép mở, điều chỉnh, lưu một tập tin dữ liệu. Thẻ này chứa các thuật toán áp dụng trong tiền xử lý dữ liệu.

Classify: Cung cấp các mơ hình phân lớp dữ liệu hoặc hồi quy.

Cluster: Cung cấp các mơ hình gom cụm.

Associate: Khai thác tập phổ biến và luật kết hợp.

SelectAttributes: Lựa chọn những thuộc tính tốt nhất từ tập dữ liệu.

Visualize: Thể hiện dữ liệu dưới dạng biểu đồ.

Thông thường, định dạng chuẩn file dữ liệu của Weka là file .arff (Attribute Relation File Format), file này do phần mềm Weka tạo ra. Tuy nhiên, Weka cũng cho phép tổ chức file dữ liệu dưới dạng file .csv (comma-separated values), file này có dạng dữ liệu Excel.

Khóa luận sẽ đi cài đặt và chạy thử nghiệm phiên bản Weka 3.6.9, áp dụng với file dữ liệu dlbank.csv.

Trong bài toán phân đoạn khách hàng này, chúng ta cũng tiến hành các giai đoạn khai phá dữ liệu gồm các bước:

Bước 1: Phân tích bài tốn. Đối với bài tốn phân đoạn khách hàng, ở bước này

cần xác định tiêu thức phân đoạn. Sự khác biệt giữa các phân đoạn khách hàng dựa trên tiêu thức nhân khẩu học ngày càng giảm, vì vậy trong khn khổ đề tài, khóa luận lựa chọn kết hợp các tiêu thức phân đoạn theo lợi ích, hành vi địa lý và

nhân khẩu học.

Bước 2: Chuhn bị dữ liệu. Để phân đoạn khách hàng theo các tiêu thức nhân

khẩu học, lợi ích và địa lý thì cần thu thập dữ liệu hồ sơ khách hàng và dữ liệu giao dịch của khách hàng.

❖Bước 3: Tiền xử lý dữ liệu: Để nâng cao hiệu quả khai phá dữ liệu, bước này sẽ

trình bày một số thao tác tiền xử lý dữ liệu như trích chọn thuộc tính,...

Bước 4: Xây dựng mơ hình: Vì lý do ưu tiên tính hiệu quả thời gian thực hiện thuật tốn, khóa luận lựa chọn giải thuật K-means để KPDL. Các bước KPDL bằng công cụ Weka với giải thuật K-means.

❖Bước 5: Đọc và áp dụng kết quả. Trong khn khổ khóa luận sẽ chỉ ra một số

đối

tượng có thể sử dụng kết quả KPDL và đưa ra một số khuyến nghị về áp dụng kết

quả đạt được từ KPDL.

3.3. Quy trình khai phá dữ liệu 3.3.1. Thu thập dữ liệu:

Dữ liệu sử dụng để xây dựng bài tốn là một tập hợp các thơng tin về khách hàng cá nhân xin tại ngân hàng Agribank.

Dữ liệu thu thập được bao gồm 600 bản ghi, được lưu trữ dưới dạng file excel và

ID1210

5 NONGTH 30 NU 20 YES 2 YES NO YES YES YES

ID1210

6 THITRAN 38 NU 9.6 YES 1 NO YES NO NO YES

ID1210

7 NONGTH 31 NAM 6.1 YES 2 NO NO NO YES YES

ID1210 8

THITRA

N 22 NAM 10.3 YES 0 NO YES YES NO YES

ID1210

9 NGOAITh 25 NU 6.6 YES 1 NO NO YES YES YES

ID1211

0 THITRAN 28 NAM 11 YES 1 NO NO YES NO YES

ID1211

1 THITR

AN 65 NU 7 YES 3 NO NO NO YES YES

ID1211

2 NOITHAr 52 NU 30 YES 2 YES YES YES YES YES

ID1211 3

THITRA

N 27 NU 7.8 YES 1 NO YES NO NO YES

ID1211

4 THITR

AN 27 NU 21 YES 2 YES YES YES YES YES

ID1211 5

NONGT

H 32 NAM 14.6 YES 2 NO NO NO NO YES

ID1211

6 NOITHAr 60 NU 36 YES 4 YES YES YES YES YES

ID1211

7 THI-TRAN 28 NU 10 YES 2 NO NO NO NO YES

ID1211

8 NGOAITh 45 NU 6.9 YES 2 NO NO NO YES YES

ID1211

9 NOITHAr 55 NU 21 YES 3 YES NO YES YES YES

ID1212 0

THITRA

N 26 NAM 18 YES 1 YES YES YES YES YES

ID1212

1 NOITHAr 55 NAM 17.2 YES 2 YES NO YES YES YES

ID1212

2 THITRAN 46 NAM 9.3 YES 2 NO YES NO NO YES

ID1212

3 NOITHAr 54 NAM 24.5 YES 3 NO YES NO NO YES

ID1212

4 THITRAN 26 NU 15 YES 2 YES NO YES YES YES

ID1212 5

NOITH

TT TÍNH LIỆU

1 ID Nominal ID12101, ID12102... Khóa định

danh khách hàng

2 Tuoi Numberic 20, 21,. Tuổi KH

3 Gioi_tinh Nominal Male, Female Giới tính của

KH

4 Vung Nominal Nội thành, thị trấn, nơng

thơn, ngoại thành)

Nơi cư trú của KH

5 Thu_nhap Numberic 3.5,4.5... Thu nhập của

KH

6 Ket_hon Nominal Yes, No Đã kết hôn

chưa

7 So_con Numberic 0,1,2,3,4 Số con

Một phần của tài liệu Nghiên cứu ứng dụng khai phá dữ liệu phân cụm trong phân đoạn khách hàng tại NH nông nghiệp và phát triển nông thôn trực ninh nam định khoá luận tốt nghiệp 334 (Trang 53 - 56)