Kịch bản 1: thực nghiệm huấn luyện trong chế độ phân lớp Percentage split
để xác định tỉ lệ phân chia, Trong tập dữ liệu trên ta chia tập train (luyện tập) và tập test (kiểm chứng) theo nguyên tắc như sau:
- Tập luyện tập: Là tập chứa 66% số liệu của bộ dữ liệu đầu vào.
- Tập kiểm chứng: Là tập chứa 34% số liệu của bộ dữ liệu đầu vào cịn lại. 1) Nhấp vào nút “Choose” Lựa chọn và chọn Tập tin “Nạve Bayes” trực tuyến
trong nhĩm “Bay Bayes”.
Hình 3. 5:Cấu hình tham số cho thuật tốn Naive Bayes
Theo mặc định, một phân phối Gaussian được giả sử cho từng thuộc tính số. Các phân phối này cĩ thể thay đổi thuật tốn để sử dụng cơng cụ ước tính Kernel với đối số sử dụng Kernel Estimator cĩ thể phù hợp hơn với phân phối thực tế của các thuộc tính trong tập dữ liệu của bạn. Tuy nhiên, các thơng số này cĩ thể tự động chuyển đổi các thuộc tính số thành thuộc tính danh nghĩa với tham số sử dụng Supervised Discretization.
3) Nhấn vào “Ok” đây để đĩng cấu hình thuật tốn.
4) Ta chọn thuộc tính phân lớp là “class”, chọn các Classifer tương ứng, sau đĩ bấm Start để tiến hành xây dựng mơ hình và đánh giá độ chính xác. Sau chạy thuật tốn trên bộ dữ liệu Iris. Cĩ thể thấy rằng với cấu hình mặc định, thuật tốn Nạve Bayes đạt được độ chính xác 94.1176%.
Hình 3. 6: Kết quả phân lớp dữ liệu cho thuật tốn Naive Bayes Tập luyện tập 66% (Tập kiểm chứng 34%)
Kết quả:
- Tỷ lệ phân lớp đúng là 94.1176% (48 mẫu)
- Tỷ lệ phân lớp sai là 5.8824% (3 mẫu)
- Mức độ chính của bộ phân lớp đối với mỗi lớp a (Iris-setosa), lớp b (Iris- versicolor) và lớp c (Iris-virginica) là:
- Ma trận Confusion thể hiện các mẫu Iris-setosa (a) phân đúng là 15, phân sai là 0. mẫu Iris-versicolor (b) phân đúng là 18, phân sai là 1 và Iris-virginica phân đúng là 15, phân sai là 2.
- Kịch bản 2: thực nghiệm huấn luyện trong chế độ phân Cross-validation. Tập dữ
liệu sẽ được chia đều k tập (folds) cĩ kích thước xấp xỉ nhau, và bộ phân loại học được sẽ được dánh giá bởi phướng pháp cross-validation. Trong thực nghiệm này tơi xác định chọn fold=10, để đạt hiệu quả phân lớp như sau:
Sau chạy thuật tốn trên bộ dữ liệu Iris. Cĩ thể thấy rằng với cấu hình mặc định, thuật tốn cây quyết định đạt được độ chính xác 96%.
Hình 3. 7:Kết quả phân lớp dữ liệu cho thuật tốn Naive Bayes chia tập dữ liệu thành 10 phần (chọn fold=10)
Kết quả:
- Tỷ lệ phân lớp đúng là 96% (144 mẫu)
- Tỷ lệ phân lớp sai là 4% (6 mẫu)
- Ma trận Confusion thể hiện các mẫu Iris-setosa (a) phân đúng là 50, phân sai là 0. mẫu Iris-versicolor (b) phân đúng là 48, phân sai là 2 và Iris-virginica phân đúng là 46, phân sai là 4.