Weka bao gồm ba công cụ khác nhau, mỗi công cụ trong số đó có thể được sử dụng độc lập, nhưng khi kết hợp với nhau tạo ra một nền tảng khai thác dữ liệu rất mạnh mẽ. Các chức năng chính như sau:
Explorer – Điểm khởi đầu cho làm quen với Weka và khai thác dữ liệu. Explorer cho phép dễ dàng làm việc với các bộ dữ liệu. Nó cũng cung cấp một loạt các chức năng.
Experimenter – làm việc, thiết lập và thực hiện các thí nghiệm lớn, nơi tập hợp nhiều dữ liệu và nhiều thuật toán có thể được thêm vào cùng một lúc. Kết quả của thí nghiệm sau đó có thể được so sánh với nhau để xác định các kết quả đã được (thống kê) tốt hơn so với những người khác.
KnowledgeFlow – Sự bổ sung mới nhất cho các bộ công cụ Weka có thể được sử dụng để xây dựng hoàn chỉnh quy trình công việc khai thác dữ liệu tương tự như các quy trình bạn đã quen thuộc với trong Pentaho tích hợp dữ liệu hoặc các studio thiết kế.
Định dạng đầu vào của Weka: Trước khi bạn có thể phân tích dữ liệu, nó phải được chuẩn bị để sử dụng trong Weka. Weka có thể đọc dữ liệu từ nhiều nguồn khác nhau, bao gồm cả trực tiếp từ một cơ sở dữ liệu JDBC và các tập tin CSV. Weka cũng có riêng, định dạng file gốc của nó. Việc đầu tiên được gọi ARFF (Attribute Relation File Format) là một định dạng tập tin dựa trên văn bản nhưng với siêu dữ liệu thêm vào để Weka biết loại dữ liệu trong tập tin. Như bạn có thể thấy, nó có chứa các mối quan hệ (chủ đề của sự phân tích), tất cả các thuộc tính được sử dụng bao gồm cả các giá trị có thể hoặc các kiểu dữ liệu, và các dữ liệu chính nó.
Định dạng thứ hai được gọi là XRFF (eXtensible attribute-Relation File Format) và là một phần mở rộng dựa trên XML của các định dạng ARFF. Cả hai tập tin ARFF và XRFF có thể được mở trong một hình thức lưu trữ là tốt. XRFF có lợi thế hơn ARFF
16
chuẩn ở chỗ nó cho phép các thuộc tính lớp được xác định trong tập tin. Các tập tin chuẩn ARFF không chỉ định một thuộc tính lớp và để lại nó cho người dùng lựa chọn một thông qua giao diện người dùng đồ họa hoặc thông qua một lựa chọn nếu sử dụng giao diện dòng lệnh Weka của. XRFF mặt khác cho phép một thuộc tính lớp mặc định được xác định trong tập tin. Thuộc tính này sau đó được chọn tự động trong giao diện dòng lệnh hoặc giao diện Weka. Tất nhiên, điều này không ngăn chặn người dùng tự chọn thuộc tính khác như các lớp nếu họ mong muốn. Cuối cùng, XRFF cho phép thêm cả thuộc tính và khởi tạo, cho phép cân bằng tầm quan trọng của mỗi thuộc tính trong một kết quả.
2.4.2. Giới thiệu về SPSS (Statistical Product and Services Solutions)
SPSS là phần mềm phục vụ thống kê, với một bộ thư viện lớn các thuật toán học máy, phân tích văn bản, nguồn mở, tích hợp dễ dàng với những dữ liệu lớn [13]. SPSS dễ sử dụng, linh hoạt và thường được dùng trong nghiên cứu xã hội, kinh tế học.