Để đánh giá kết quả phân loại, tùy thuộc vào bộ dữ liệu với các cấu trúc khác nhau em thực hiện các phương pháp đánh giá riêng.
a)Bộ dữ liệu 20 newsgroups
Sử dụng 3 giải thuật phân loại MNB. TWCNB, và SVM để thực hiện đánh giá.
Với cấu trúc của bộ dữ liệu, chưa cĩ phân tách tập dữ liệu train và test, em thực hiện chạy với phân chia tập dữ liệu đầu vào theo tỉ lệ 70% dữ liệu training và 30% dữ liệu phục vụ cho quá trình test. Quá trình thực hiện lựa chọn phân chia được thực hiện Random vì vậy sẽ thực hiện chạy 03 lần cho mỗi giải thuật và lấy kết quả
phân loại trung bình.
b)Bộ dữ liệu WebKB
Bộ dữ liệu sẽ được thực hiện phân loại qua cả 3 giải thuật phân loại MNB, TWCNB, và SVM. Cấu thúc của bộ dữ liệu đã được ghi rõ ở trên, sẽ thực hiện 04 lần chạy và mỗi lần sẽ sử dụng dữ liệu của 01 trường làm kết quả và phần dữ liệu cịn lại làm dữ liệu training. Kết quả thu được sẽ là kết quả trung bình của 04 lần chạy.
c)Bộ dữ liệu Reuters-21578
Đây là một bộ dữ liệu lớn và chuẩn với số lượng phân lớp là khá lớn. Theo cách phân loại đã nêu trong phần mơ tả về bộ dữ liệu được sử dụng, em thực hiện chạy 90 lần, mỗi lần sẽ thực hiện chạy phân loại cho 01 phân lớp (cĩ thuộc phân lớp đĩ hay khơng). Quá trình thực hiện như vậy sẽ được chạy trên cả 03 giải thuật. Kết quả để thực hiện đánh giá cho mỗi giải thuật sẽ là trung bình của 90 lần thực hiện.
Luận văn tốt nghiệp Nghiên cứu giải thuật NB trong bài tốn TC
Trang 61