Phương pháp đánh giá kết quả thử nghiệm

Một phần của tài liệu Nghiên cứu giải thuật naїve bayes trong bài toán phân loại văn bản (Trang 65 - 66)

Để đánh giá kết quả phân loại, tùy thuộc vào bộ dữ liệu với các cấu trúc khác nhau em thực hiện các phương pháp đánh giá riêng.

a)B d liu 20 newsgroups

Sử dụng 3 giải thuật phân loại MNB. TWCNB, và SVM để thực hiện đánh giá.

Với cấu trúc của bộ dữ liệu, chưa cĩ phân tách tập dữ liệu train và test, em thực hiện chạy với phân chia tập dữ liệu đầu vào theo tỉ lệ 70% dữ liệu training và 30% dữ liệu phục vụ cho quá trình test. Quá trình thực hiện lựa chọn phân chia được thực hiện Random vì vậy sẽ thực hiện chạy 03 lần cho mỗi giải thuật và lấy kết quả

phân loại trung bình.

b)B d liu WebKB

Bộ dữ liệu sẽ được thực hiện phân loại qua cả 3 giải thuật phân loại MNB, TWCNB, và SVM. Cấu thúc của bộ dữ liệu đã được ghi rõ ở trên, sẽ thực hiện 04 lần chạy và mỗi lần sẽ sử dụng dữ liệu của 01 trường làm kết quả và phần dữ liệu cịn lại làm dữ liệu training. Kết quả thu được sẽ là kết quả trung bình của 04 lần chạy.

c)B d liu Reuters-21578

Đây là một bộ dữ liệu lớn và chuẩn với số lượng phân lớp là khá lớn. Theo cách phân loại đã nêu trong phần mơ tả về bộ dữ liệu được sử dụng, em thực hiện chạy 90 lần, mỗi lần sẽ thực hiện chạy phân loại cho 01 phân lớp (cĩ thuộc phân lớp đĩ hay khơng). Quá trình thực hiện như vậy sẽ được chạy trên cả 03 giải thuật. Kết quả để thực hiện đánh giá cho mỗi giải thuật sẽ là trung bình của 90 lần thực hiện.

Luận văn tốt nghiệp Nghiên cu gii thut NB trong bài tốn TC

Trang 61

Một phần của tài liệu Nghiên cứu giải thuật naїve bayes trong bài toán phân loại văn bản (Trang 65 - 66)