IV. CÀI ĐẶT THUẬT TOÁN:
2. Download, Cài đặt và giao diện WEKA:
Download Weka từ http://www.cs.waikato.ac.nz/ml/weka. 3. Giao diện WEKA
Khi lam việc với Weka, chúng ta có thể chọn giữa 4 giao diện : Explorer, Knowledge Flow, Experimenter, va giao diện dòng lệnh.
- Simple CL: Chạy Weka ở chế độ dòng lệnh.
- Explorer: Một môi trường khám phá dữ liệu với Weka.
- Experimenter: Một môi trường để thực hiện các thí nghiệm va tiến hanh
kiểm tra thống kê giữa các phương pháp khác nhau. Giao diện Experimenter, được thiết kế để giúp người sử dụng trả lời những câu hỏi cơ bản khi áp dụng kỹ thuật phân lớp va kỹ thuật regression : phương pháp va giá trị tham số nao sẽ tốt nhất cho vấn đề đang xét ? Thông thường không có cách nao trả lời câu hỏi nay một cách chính xác, vì vậy Weka đưa ra một môi trường cho phép người sử dụng có thể so sánh sự khác nhau giữa các phương pháp.
- Knowledge Flow. Môi trường nay hỗ trợ các chức năng cơ bản giống như
Explorer nhưng với một giao diện kéo-thả. Giao diện Knowledge Flow cho phép chúng ta kéo những hộp mô tả nguồn dữ liệu, va các giải thuật quanh man hình va ghép chúng lại với nhau thanh cấu hình mong muốn. Nó cho phép chúng ta xác định dòng dữ liệu bằng cách kết nối các component mô tả công cụ tiền xử lý, các giải thuật, phương pháp tính toán va các module visualization.
Giao diện Knowledge Flow cho phép chúng ta cấu hình cho xử lý dữ liệu theo dòng dữ liệu (stream). Một bất lợi cơ bản của giao diện Explorer la nó lưu giữ tất cả trong main memory- khi chúng ta mở ra một tập dữ liệu, tất cả sẽ được đưa vao main memory. Do đó trong giao diện Explorer sẽ chỉ giải quyết những bai toán
kích thước từ nhỏ đến vừa. Giao diện Knowledge Flow cho phép thực hiện một số giải thuật tăng cường có thể sử dụng để xử lý những tập dữ liệu rất lớn.
4. Thực hiện gom cụm với Weka
Thực hiện gom cụm khách hang trên Dataset bank.arff. Dataset nay có 600 mẫu dữ liệu với 11 thuộc tính. Sau khi load dữ liệu vao Weka, ta sẽ thấy thông tin như sau:
Hình : Chuẩn bị dữ liệu cho bài toán gom cụm
Mặc dù Weka cung cấp các bộ lọc (filter) để tiền xử lý dữ liệu, nhưng khi clustering với thuật toán K-mean trong Weka, chúng ta không cần phải thực hiện bước nay. Thuật toán SimpleKMeans trong Weka tự động xử lý dữ liệu hỗn hợp.
Để thực hiện gom cụm, chọn "Cluster" tab trong Explorer va click vao nút "Chọn". Sẽ mở ra một danh sách thả xuống của các thuật toán clustering. Trong trường hợp nay ta chọn "SimpleKMeans". Tiếp theo, nhấp vao hộp văn bản bên phải của "Chọn" để có được cửa sổ pop- up được hiển thị trong Hình 12, để chỉnh sửa các thông số clustering.
Hình 12. Thực hiện bài toán gom cụm
Trong cửa sổ pop-up ta nhập numcluster(số nhóm)=6 (thay vì các giá trị mặc định la 2).Giá trị seed được sử dụng để tạo ra một số ngẫu nhiên, thuật toán K-mean sẽ cho kết quả phần nao phụ thuộc vao tham số nay. Vì vậy, thường cần thiết để thử giá trị nhiều giá trị seed khác nhau va đánh giá kết quả.
Nhấn Start để chạy thuật toán. Kết quả như sau: