Do số lượng câu hỏi gán nhãn cịn hạn chế nên ban đầu chúng tơi mới chỉ tiến hành thực nghiệm xây dựng bộ phân lớp cho 6 lớp cha.
4.1.2.1. Với MEM
Kết quả thu được khá khả quan, đạt độ chính xác cao nhất là 81.14 % khi sử dụng
đặc trưng là bag-of-word cĩ sử dụng tách từ. Kết quả chi tiết cho từng lớp được liệt kê trong Bảng 4 và Bảng 5.
Bảng 4. Kết quả bộ phân lớp MEM khi sử dụng unigram
Class human model match Pre Rec F1
ENTY 112 104 71 68.27 63.39 65.74 DESC 127 133 107 80.45 84.25 82.31 ABBR 10 11 8 72.73 80.00 76.19 HUM 131 132 112 84.85 85.50 85.17 NUM 97 101 90 89.11 92.78 90.91 LOC 85 81 66 81.48 77.65 79.52 Avg.1 79.48 80.60 80.03 Avg.2 562 562 454 80.78 80.78 80.78
Bảng 5. Kết quả bộ phân lớp MEM khi sử dụng tách từ
class human model match Pre Rec F1
ENTY 112 109 72 66.06 64.29 65.16 DESC 127 137 107 78.10 84.25 81.06 ABBR 10 8 7 87.50 70.00 77.78 HUM 131 116 104 89.66 79.39 84.21 NUM 97 104 92 88.46 94.85 91.54 LOC 85 88 74 84.09 87.06 85.55
4.1.2.2. Với SVM
Thiết lập tham số: Sau khi thử nghiệm với nhiều giá trị khác nhau, chúng tơi đặt giá trị c = 10000 (c là tham số trade off giữa tỉ lệ sai của dữ liệu học và kích thước biên của bộ phân lớp SVM).Kết quả tốt nhất với SVM khi sử dụng đặc trưng unigram kết hợp từ để hỏi với độ chính xác là 81.49%. Kết quả chi tiết được liệt kê trong Bảng 6.
Bảng 6. Kết quả bộ phân lớp SVM sử dụng các đặc trưng khác nhau Đặc trưng Độ chính xác Tỉ lệ lỗi Unigram 80.78% 108/562 = 19.22% Tách từ 79.72% 121/562 = 20.28% Unigram + từ hỏi 81.49% 104/562 = 18.51% Tách từ + từ hỏi 80.60% 109/562 = 19.40% Bảng 7. Danh sách các từ hỏi tại sao thế nào định nghĩa ra sao cĩ cách nào cái gì vì sao bằng cách nào là gì
làm sao chỗ nào gì
nghĩ sao nơi nào ởđâu thì sao lúc nào đi đâu thấy sao lý do nào nơi đâu sao nguyên nhân nào từđâu
bao nhiêu khi nào đâu
bao giờ thời gian nào cĩ phải
bao người nào là ai
cĩ mấy nào ai
mấy nguyên nhân thật khơng như thế nào lý do phải khơng
Nhận xét:
- Hai thuật tốn SVM và MEM cĩ kết quả xấp xỉ nhau trong phân lớp câu hỏi tiếng Việt. Kết quả tốt nhất với SVM là 81.49% và với MEM là 81.14%.
- Đặc trưng từ để hỏi cĩ tác dụng nâng cao độ chính xác của phân lớp câu hỏi. Khi áp dụng với SVM, đặc trưng từđể hỏi giúp tăng độ chính xác 0.71% và 0.88% tương ứng khi kết hợp với đặc trưng unigram và tách từ. Độ tăng này khơng lớn cĩ thể được giải thích như sau: Trong các đặc trưng bag-of-unigram và bag-of-word cũng đã xét đến các từ
hỏi này với vai trị giống với các từ khác trong câu hỏi. Việc xuất hiện các từ hỏi này với tần suất lớn theo từng loại câu hỏi khác nhau cũng đã giúp SVM ngầm nhận diện được các từ này là từ quan trọng trong phân lớp.
- Ảnh hưởng của tách từ trong phân lớp câu hỏi: Với MEM, tách từ giúp tăng độ
chính xác của phân lớp, trong khi với SVM đặc trưng tách từ lại khơng tốt bằng việc dùng unigram. Cĩ thể giải thích như sau: theo nguyên lý cực đại Entropy, mơ hình tự tìm ra trong dữ liệu (tập câu hỏi mẫu) những ràng buộc và đặc trưng riêng cho từng phân lớp. Với SVM, dữ liệu được biểu diễn dưới dạng các điểm trong khơng gian đặc trưng, SVM cố gắng tìm ra các siêu phẳng ngăn cách dữ liệu của từng lớp câu hỏi. Việc tách từ cĩ thể đã ảnh hưởng tích cực với việc tìm các ràng buộc của mơ hình MEM, trong khi lại ảnh hưởng tiêu cực đến sự phân bố dữ liệu trong khơng gian, dẫn đến siêu phẳng phân cách các lớp khơng tốt như siêu phẳng tìm được khi dùng unigram.