b. Kịch bản 2
3.4. Kết quả thực nghiệm
3.4.1. Thực nghiệm trên 1 miền dữ liệu
Sau khi thực hiện thực nghiệm trên 1 miền dữ liệu ta thu được kết quả gán nhãn khá chính xác và được thống kê lại trong bảng dưới đây:
Bảng 3.3: Độ chính xác trung bình khi thực nghiệm dữ liệu cùng miền
Chủ đề
NẠVE BAYES SVM
TFIDF N1Gram N2Gram N3Gram TFIDF N1Gram N2Gram N3Gram
Điện thoại 67.8 68.7 72.1 69.9 70.1 63.7 65.5 66.4 Điện tử 64.3 66.5 68.1 68.5 68.8 66.5 63.5 66.6 TV 69.1 66.7 68.3 66.4 67.3 67.8 65.6 69.6 Camera 67.8 68.5 70.3 70.2 69.6 65.9 69.9 65.4
Khi thực nghiệm với 1 miền dữ liệu, với kết quả thu được trong bảng, ta nhận thấy:
- Độ chính xác khi áp dụng các thuật tốn gán nhãn dữ liệu rơi vào khoảng 63-72%, ở mức tương đối chính xác đối với cả 4 miền dữ liệu.
- Trong đĩ với chủ đề “Điện tử” thuật tốn cĩ độ chính xác trung bình là thấp nhất, và chủ đề “TV” cĩ độ chính xác là cao nhất.
- Dựa vào bảng dữ liệu thu được, ta nhận thấy khi sử dụng thuật tốn SVM để phân lớp dữ liệu sẽ đưa ra kết quả kém chính xác hơn so với thuật tốn phân lớp và trong đĩ, thuật tốn trích chọn đặc trưng N2- Gram kết hợp với thuật tốn Nạve Bayes là đưa lại kết quả chính xác cao nhất.
3.4.2. Thực nghiệm trên 2 miền dữ liệu
a. Kịch bản 1
Sau khi thực hiện thực nghiệm trên 2 miền dữ liệu với kịch bản 1, lấy dữ liệu của 3 miền làm dữ liệu học và dữ liệu của miền cịn lại làm dữ liệu chưa gán nhãn ta thu được kết quả được thống kê lại trong bảng dưới đây:
Bảng 3.4: Độ chính xác khi thực nghiệm dữ liệu khác miền kịch bản 1
Chủ đề
NẠVE BAYES SVM
TFIDF N1Gram N2Gram N3Gram TFIDF N1Gram N2Gram N3Gram Điện thoại 64.32 69.95 71.94 68.33 65.36 72.24 71.51 72.54
Điện tử 64.23 65.24 64.68 65.82 67.17 66.32 66.52 69.02
TV 66.04 68.83 70.75 70.75 65.98 67.74 65.23 74.73
Camera 68.66 69.48 67.52 67.74 70.49 70.59 68.90 75.73
Khi thực nghiệm với 2 miền dữ liệu với kịch bản 1 đã nêu ở phần trước, với kết quả thu được trong bảng, ta nhận thấy:
- Độ chính xác khi áp dụng các thuật tốn gán nhãn dữ liệu rơi vào khoảng c61-76%, vẫn ở mức tương đối chính xác.
- Trong đĩ, khi thực nghiệm dữ liệu học từ các chủ đề “Điện thoại”, “TV”, “Camera” để áp dụng cho dữ liệu kiểm tra là chủ đề “Điện tử” là đem lại kết quả chính xác thấp nhất.
- Kết quả thực nghiệm với thuật tốn phân lớp SVM đưa ra độ chính xác trung bình cao hơn so với thuật tốn Nạve Bayes, và khi áp dụng thuật tốn trích chọn đặc trưng N3-Gram kết hợp với thuật tốn phân lớp SVM cĩ kết quả chính xác là cao nhất.
b. Kịch bản 2
Sau khi thực hiện thực nghiệm trên 2 miền dữ liệu với kịch bản 2, lấy dữ liệu của 1 miền làm dữ liệu học và dữ liệu của miền cịn lại làm dữ liệu chưa gán nhãn ta thu được kết quả được thống kê lại trong bảng dưới đây:
Bảng 3.5: Độ chính xác khi thực nghiệm chủ đề “Điện thoại”, “Điện tử”
Dữ liệu kiểm thử
ĐIỆN THOẠI ĐIỆN TỬ
Dữ liệu học Điện tử Camera TV Điện thoại Camera TV
NẠVE BAYES TFIDF 67.36 71.63 70.06 63.84 64.36 61.65 N1Gram 65.27 70.54 65.86 62.64 64.07 62.67 N2Gram 70.43 69.14 67.59 63.86 62.98 64.38 N3Gram 66.94 69.22 68.83 62.57 63.70 64.19 SVM TFIDF 71.41 71.26 66.15 62.48 63.76 61.72 N1Gram 70.73 66.18 69.48 64.74 62.43 64.99 N2Gram 69.68 66.99 65.69 64.52 64.95 62.40 N3Gram 72.39 73.02 68.30 64.19 64.27 65.20
Bảng 3.6: Độ chính xác khi thực nghiệm chủ đề “Camera”, “TV”
Dữ liệu kiểm thử CAMERA TV
Dữ liệu học Điện tử Điện thoại TV Điện thoại Camera Điện tử
NẠVE BAYES TFIDF 71.65 69.34 67.02 69.54 68.03 70.35 N1Gram 71.95 66.96 70.15 70.05 70.24 66.28 N2Gram 71.58 71.74 65.87 71.96 70.45 69.32 N3Gram 70.61 67.03 71.88 65.47 68.16 66.03 SVM TFIDF 68.83 69.18 71.99 65.31 68.97 67.27 N1Gram 66.19 68.21 69.02 65.66 70.28 65.44 N2Gram 66.82 71.98 66.04 69.08 66.42 68.86 N3Gram 70.14 67.24 71.35 70.99 69.83 72.43
Khi thực nghiệm với 2 miền dữ liệu với kịch bản 2 đã nêu ở phần trước, với kết quả thu được trong bảng, ta nhận thấy:
- Độ chính xác khi áp dụng các thuật tốn gán nhãn dữ liệu rơi vào khoảng 59-71%, ở mức khá chính xác.
- Trong đĩ khi áp dụng lần lượt từng chủ đề trong 3 chủ đề “Điện thoại”, “TV”, “Camera” làm dữ liệu học, và sử dụng dữ liệu chủ đề “Điện tử” làm dữ liệu kiểm thử, thì độ chính xác khi áp dụng với chủ đề “Điện tử” là đem lại kết quả chính xác thấp nhất.
- Thuật tốn phân lớp dữ liệu SVM vẫn đem lại độ chính xác gán nhãn cao hơn so với thuật tốn Nạve Bayes khi áp dụng với kịch bản dữ liệu chéo miền.
- Khi áp dụng thực nghiệm trên 2 miền dữ liệu khác nhau, với các thuật tốn trích chọn đặc trưng thì thuật tốn N3-Gram kết hợp với thuật tốn phân lớp văn bản SVM đưa lại kết quả gán nhãn cao nhất.