Thực nghiệm đánh giá hiệu năng phân loại đa lớp

Một phần của tài liệu phân loại văn bản tiếng việt sử dụng phương pháp máy hỗ trợ vector (support vector machine – svms) (Trang 68 - 71)

Trong các phần trước đã chỉ ra các bộ tham số huấn luyện tối ưu đạt được với chương trình. Sau đây ta sẽ tiến hành kiểm thử đánh giá một cách tổng quan đối với chương trình phân loại theo phương pháp SVMs trên các tập dữ liệu văn bản tiếng Việt.

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 57/67

Để đánh giá hiệu năng của chương trình phân loại SVMs một cách đúng đắn, quá trình thực nghiệm phân loại đa lớp sẽ được kiểm tra theo chiến thuật sau:

 Ta chia bộ dữ liệu kiểm tra thành 10 tập con có kích thước tương đương.  Tiến hành lặp 10 lần huấn luyện và đánh giá hiệu năng trên các tập con.  Mỗi lần thực hiện ta sẽ lấy 9 phần làm dữ liệu huấn luyện, 1 phần sẽ làm dữ

liệu kiểm tra.

 Ghi nhận kết quả thực hiện phân loại trong mỗi lần.

 Sau đó, đưa ra kết quả đánh giá hiệu năng trung bình của chương trình.

Trƣờng hợp 1: test với CSDL báo Vietnamnet với dung lƣợng 1.46 MB gồm các chủ đề.

 Chính trị: 54 bài.  Khoa học: 46 bài.  Kinh tế: 66 bài.  Thể thao: 70 bài.

Tiến hành huấn luyện với bộ tham số: Chi-squares (LO = 3, LI = 0.005). Bảng 4-4: Kết quả thực nghiệm phân loại đa lớp trên bộ dữ liệu báo Vietnamnet

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Trung bình Pre 0.844 0.902 0.969 0.894 0.894 0.944 0.964 0.933 0.85 0.933 0.913 Re 0.779 0.864 0.95 0.867 0.867 0.917 0.964 0.914 0.764 0.914 0.88 Thời gian 8’ 8’ 8’ 8’ 8’ 8’ 8’ 8’ 8’ 8’ 8’ Trƣờng hợp 2: test với CSDL báo VnExpress với dung lƣợng 1.49 MB, gồm các chủ đề.

 Công nghệ thông tin: 49 bài.  Khoa học: 49 bài.

 Thể thao: 50 bài.  Y tế: 50 bài.

Tiến hành huấn luyện với bộ tham số: Chi-squares (LO = 3, LI = 0.01). Bảng 4-5: Kết quả thực nghiệm phân loại đa lớp trên bộ dữ liệu báo VnExpress

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Trung bình Pre 0.94 0.804 0.828 0.889 0.894 0.847 0.927 0.888 0.906 0.911 0.883 Re 0.925 0.796 0.825 0.871 0.879 0.846 0.925 0.9 0.913 0.925 0.881 Thời gian 5’ 5’ 5’ 4’ 4’ 4’ 4’ 4’ 4’ 4’ 4.3’ Trƣờng hợp 3: test với CSDL báo Hanoimoi với dung lƣợng 898 KB gồm các chủ đề.

 Chính trị xã hội: 35 bài.  Khoa học công nghệ: 40 bài.  Kinh tế: 30 bài.

 Sức khoẻ: 30 bài.  Thể thao: 30 bài.

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 58/67

Tiến hành huấn luyện với bộ tham số: Chi-squares (LO = 3, LI = 0.01). Bảng 4-6: Kết quả thực nghiệm phân loại đa lớp trên bộ dữ liệu báo Hanoimoi

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Trung bình Pre 0.94 0.95 0.86 0.86 0.91 0.848 0.914 0.895 0.81 0.92 0.891 Re 0.92 0.92 0.85 0.84 0.87 0.827 0.887 0.88 0.76 0.867 0.862 Thời gian 2’ 2’ 2’ 2’ 2’ 2’ 2’ 2’ 2’ 2’ 2’ Trƣờng hợp 4: test với CSDL báo Laodong với dung lƣợng 785 KB gồm các chủ đề.

 Khoa học: 35 bài.  Kinh tế: 40 bài.  Thể thao: 35 bài.  Văn hoá: 40 bài.

Tiến hành huấn luyện với bộ tham số: Chi-squares, (LO = 3, LI = 0.01). Bảng 4-7: Kết quả thực nghiệm phân loại đa lớp trên bộ dữ liệu báo Laodong

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Trung bình Pre 0.906 0.85 0.938 0.929 0.92 0.838 0.917 0.958 0.95 0.905 0.911 Re 0.825 0.8 0.9 0.875 0.9 0.825 0.9 0.938 0.938 0.874 0.878 Thời gian 2’ 2’ 2’ 1’ 1’ 2’ 2’ 2’ 2’ 2’ 1.8’

Từ các kết quả thu được bên trên, ta có bảng kết quả tổng hợp đánh giá hiệu năng chương trình như sau:

Bảng 4-8: Tổng hợp kết quả phân loại đa lớp trên các bộ dữ liệu (báo Vietnamnet, VnExpress, Hanoimoi, Laodong)

Tên CSDL Tổng số bài Số lớp Kích thƣớc Thời gian Độ chính xác Độ bao

Báo Vietnamnet 236 4 1.46 (MB) 8’ 0.913 0.88

Báo VnExpress 198 4 1.49 (MB) 4.3’ 0.883 0.881

Báo Hanoimoi 165 5 898 (KB) 2’ 0.891 0.862

Báo Laodong 150 4 785 (KB) 1.8’ 0.911 0.878

Nhận xét:

Từ các kết quả thử nghiệm thu được trong Bảng 4-8, ta có một số nhận xét đối với chương trình SVMs phân loại trên tập văn bản tiếng Việt như sau:

 Hiệu năng phân loại SVMs:

Pre ≈ 0.883 – 0.913, Re ≈ 0.862 – 0.88.

Đây là một kết quả phân loại tương đối cao đối với văn bản tiếng Việt, kết quả này cũng rất sát thực với kết quả thực nghiệm của Thorsten Joachims

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 59/67

kiểm tra trên tập văn bản tiếng Anh: với RBF – gamma = 1, độ chính xác trung bình = 0.863 (Bảng 4-5).

 Thời gian huấn luyện là gia tăng tuyến tính theo kích thước dữ liệu, nếu số lượng mẫu lớn thì chi phí thời gian sẽ lớn (hoàn toàn đúng với lý thuyết đánh giá độ phức tạp của giải thuật SVMs).

Một phần của tài liệu phân loại văn bản tiếng việt sử dụng phương pháp máy hỗ trợ vector (support vector machine – svms) (Trang 68 - 71)