Những tính năng vượt trội của Weka

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp dữ liệu hoa iris sử dụng thuật toán naive bayes, randomforest và KNN (k NEAREST NEIGHBORS)​ (Trang 56 - 57)

Như đã nĩi ở trên, Weka được đánh giá là sản phẩm khai thác dữ liệu nổi bật là bởi những tính năng đặc biệt sau:

- Hỗ trợ nhiều thuật tốn máy học và khai phá dữ liệu

- Được tổ chức theo dạng mã nguồn mở để người dùng dễ dàng download và sử dụng

- Độc lập với mơi trường do sử dụng các máy ảo Java (JVM –Java virtual machine)

- Dễ sử dụng, kiến trúc dạng thư viện dễ dàng cho việc xây dựng các ứng dụng thực nghiệm

-Giao diện đồ họa (gồm cả tính năng hiển thị hĩa dữ liệu)

- Mơi trường cho phép so sánh các giải thuật học máy và khai phá dữ liệu.

3.3.4 Kiến trúc thư viện Weka

Để thuận tiện cho việc sử dụng của người dùng, kiến trúc thư viện của Weka được xây dựng với hơn 600 lớp và được tổ chức thành 10 gĩi (package), trong đĩ, mỗi package sẽ thực hiện một nhiệm vụ chức năng riêng biệt trong quá trình khai thác dữ liệu. Để người dùng cĩ thể tự xây dựng ứng dụng của bản thân mình thì người dùng cĩ thể trực tiếp sử dụng những package này để xây dựng các chương trình.

Weka cĩ một số lượng lớn các cơng cụ hồi quy và phân loại. Các gĩi bản địa là các gĩi được bao gồm trong phần mềm Weka thực thi, trong khi các gĩi khơng phải gốc khác cĩ thể được tải xuống và sử dụng trong mơi trường R. Weka. Trong số các gĩi bản địa, cơng cụ nổi tiếng nhất là gĩi cây mơ hình M5p. Một số cơng cụ hồi quy phổ biến là:

 M5Rules (thuật tốn M5' được trình bày dưới dạng hàm tốn học khơng cĩ cây)

 DecisionStump (giống như M5' nhưng với một đầu ra số duy nhất trong mỗi nút)

 M5P (tách miền thành các vùng nhị phân kế tiếp và sau đĩ phù hợp với các mơ hình tuyến tính cho mỗi nút cây)

 RandomForest (một số cây mơ hình kết hợp)

 RepTree (một số cây mơ hình kết hợp)

 ZeroR (giá trị trung bình của kết quả đầu ra)

 DecisionRules (chia tách dữ liệu thành nhiều vùng dựa trên một biến độc lập và cung cấp một giá trị đầu ra cho mỗi phạm vi)

 LinearRegression

 Sự hồi quy vector hỗ trợ

 SimpleLinearRegression (sử dụng một biến chặn và chỉ 1 biến đầu vào cho dữ liệu đa biến)

 MultiLayerPerceptron (mạng nơron)

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp dữ liệu hoa iris sử dụng thuật toán naive bayes, randomforest và KNN (k NEAREST NEIGHBORS)​ (Trang 56 - 57)

Tải bản đầy đủ (PDF)

(73 trang)