TRIỂN KHAI ỨNG DỤNG PHÂN CỤM VỚI PHẦN MỀM WEKA:

Một phần của tài liệu K-MEANS CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE (Trang 47)

1. Giới thiệu Weka

Weka la một tập hợp các giải thuật Data mining va những công cụ xử lý dữ liệu. Được thiết kế sao cho người dùng có thể nhanh chóng thử nghiệm những phương pháp hiện hữu trên những tập dữ liệu mới một cách linh hoạt.

Weka cũng hỗ trợ mạnh cho toan bộ quá trình data mining, bao gồm chuẩn bị dữ liệu đầu vao, tính toán một cách chi tiết, va trực quan hóa dữ liệu đầu vao cũng như kết quả đầu ra.

Ngoai việc đưa ra rất nhiều giải thuật machine learning, nó cũng cung cấp một số lượng lớn các công cụ tiền xử lý. Bộ công cụ đa dạng va toan diện nay được truy cập qua một giao diện chung sao cho người sử dụng có thể so sánh những phương pháp khác nhau va nhận ra phương pháp nao la thích hợp nhất với bai toán đang xét.

Weka được phát triển tại Trường Đại học Waikato ở New Zealand, va được đặt tên la Waikato Environment for Knowledge Analysis (WEKA). Hệ thống nay được viết trên Java va phân phối theo các điều khoản của GNU General Public License. Nó chạy trên hầu hết các flatform, đã được test trên Linux, Windows, Macintosh.

2. Download, Cài đặt và giao diện WEKA:

Download Weka từ http://www.cs.waikato.ac.nz/ml/weka. 3. Giao diện WEKA

Khi lam việc với Weka, chúng ta có thể chọn giữa 4 giao diện : Explorer, Knowledge Flow, Experimenter, va giao diện dòng lệnh.

- Simple CL: Chạy Weka ở chế độ dòng lệnh.

- Explorer: Một môi trường khám phá dữ liệu với Weka.

- Experimenter: Một môi trường để thực hiện các thí nghiệm va tiến hanh kiểm tra thống kê giữa các phương pháp khác nhau. Giao diện Experimenter,

được thiết kế để giúp người sử dụng trả lời những câu hỏi cơ bản khi áp dụng kỹ thuật phân lớp va kỹ thuật regression : phương pháp va giá trị tham số nao sẽ tốt nhất cho vấn đề đang xét ? Thông thường không có cách nao trả lời câu hỏi nay một cách chính xác, vì vậy Weka đưa ra một môi trường cho phép người sử dụng có thể so sánh sự khác nhau giữa các phương pháp.

- Knowledge Flow. Môi trường nay hỗ trợ các chức năng cơ bản giống như Explorer nhưng với một giao diện kéo-thả. Giao diện Knowledge Flow cho phép chúng ta kéo những hộp mô tả nguồn dữ liệu, va các giải thuật quanh man hình va ghép chúng lại với nhau thanh cấu hình mong muốn. Nó cho phép chúng ta xác định dòng dữ liệu bằng cách kết nối các component mô tả công cụ tiền xử lý, các giải thuật, phương pháp tính toán va các module visualization.

Giao diện Knowledge Flow cho phép chúng ta cấu hình cho xử lý dữ liệu theo dòng dữ liệu (stream). Một bất lợi cơ bản của giao diện Explorer la nó lưu giữ tất cả trong main memory- khi chúng ta mở ra một tập dữ liệu, tất cả sẽ được đưa vao main memory. Do đó trong giao diện Explorer sẽ chỉ giải quyết những bai toán

kích thước từ nhỏ đến vừa. Giao diện Knowledge Flow cho phép thực hiệnmột số giải thuật tăng cường có thể sử dụng để xử lý những tập dữ liệu rất lớn.

4. Thực hiện gom cụm với Weka

Thực hiện gom cụm khách hang trên Dataset bank.arff. Dataset nay có 600 mẫu dữ liệu với 11 thuộc tính. Sau khi load dữ liệu vao Weka, ta sẽ thấy thông tin như sau:

Hình : Chuẩn bị dữ liệu cho bài toán gom cụm

Mặc dù Weka cung cấp các bộ lọc (filter) để tiền xử lý dữ liệu, nhưng khi clustering với thuật toán K-mean trong Weka, chúng ta không cần phải thực hiện bước nay. Thuật toán SimpleKMeans trong Weka tự động xử lý dữ liệu hỗn hợp.

Để thực hiện gom cụm, chọn "Cluster" tab trong Explorer va click vao nút "Chọn". Sẽ mở ra một danh sách thả xuống của các thuật toán clustering. Trong trường hợp nay ta chọn "SimpleKMeans". Tiếp theo, nhấp vao hộp văn bản bên phải của "Chọn" để có được cửa sổ pop- up được hiển thị trong Hình 12, để chỉnh sửa các thông số clustering.

Hình 12. Thực hiện bài toán gom cụm

Trong cửa sổ pop-up ta nhập numcluster(số nhóm)=6 (thay vì các giá trị mặc định la 2).Giá trị seed được sử dụng để tạo ra một số ngẫu nhiên, thuật toán K-mean sẽ cho kết quả phần nao phụ thuộc vao tham số nay. Vì vậy, thường cần thiết để thử giá trị nhiều giá trị seed khác nhau va đánh giá kết quả.

Nhấn Start để chạy thuật toán. Kết quả như sau:

Một phần của tài liệu K-MEANS CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE (Trang 47)