Kết quả bộ phân lớp sử dụng SVM và MEM

Do số lượng câu hỏi gán nhãn còn hạn chế nên ban đầu chúng tôi mới chỉ tiến hành thực nghiệm xây dựng bộ phân lớp cho 6 lớp cha.

4.1.2.1. Với MEM

Kết quả thu được khá khả quan, đạt độ chính xác cao nhất là 81.14 % khi sử dụng

đặc trưng là bag-of-word có sử dụng tách từ. Kết quả chi tiết cho từng lớp được liệt kê trong Bảng 4 và Bảng 5.

Bảng 4. Kết quả bộ phân lớp MEM khi sử dụng unigram

Class human model match Pre Rec F1

ENTY 112 104 71 68.27 63.39 65.74 DESC 127 133 107 80.45 84.25 82.31 ABBR 10 11 8 72.73 80.00 76.19 HUM 131 132 112 84.85 85.50 85.17 NUM 97 101 90 89.11 92.78 90.91 LOC 85 81 66 81.48 77.65 79.52 Avg.1 79.48 80.60 80.03 Avg.2 562 562 454 80.78 80.78 80.78

Bảng 5. Kết quả bộ phân lớp MEM khi sử dụng tách từ

class human model match Pre Rec F1

ENTY 112 109 72 66.06 64.29 65.16 DESC 127 137 107 78.10 84.25 81.06 ABBR 10 8 7 87.50 70.00 77.78 HUM 131 116 104 89.66 79.39 84.21 NUM 97 104 92 88.46 94.85 91.54 LOC 85 88 74 84.09 87.06 85.55

4.1.2.2. Với SVM

Thiết lập tham số: Sau khi thử nghiệm với nhiều giá trị khác nhau, chúng tôi đặt giá trị c = 10000 (c là tham số trade off giữa tỉ lệ sai của dữ liệu học và kích thước biên của bộ phân lớp SVM).Kết quả tốt nhất với SVM khi sử dụng đặc trưng unigram kết hợp từ để hỏi với độ chính xác là 81.49%. Kết quả chi tiết được liệt kê trong Bảng 6.

Bảng 6. Kết quả bộ phân lớp SVM sử dụng các đặc trưng khác nhau Đặc trưng Độ chính xác Tỉ lệ lỗi Unigram 80.78% 108/562 = 19.22% Tách từ 79.72% 121/562 = 20.28% Unigram + từ hỏi 81.49% 104/562 = 18.51% Tách từ + từ hỏi 80.60% 109/562 = 19.40% Bảng 7. Danh sách các từ hỏi tại sao thế nào định nghĩa ra sao có cách nào cái gì vì sao bằng cách nào là gì

làm sao chỗ nào gì

nghĩ sao nơi nào ởđâu thì sao lúc nào đi đâu thấy sao lý do nào nơi đâu sao nguyên nhân nào từđâu

bao nhiêu khi nào đâu

bao giờ thời gian nào có phải

bao người nào là ai

có mấy nào ai

mấy nguyên nhân thật không như thế nào lý do phải không

Nhận xét:

- Hai thuật toán SVM và MEM có kết quả xấp xỉ nhau trong phân lớp câu hỏi tiếng Việt. Kết quả tốt nhất với SVM là 81.49% và với MEM là 81.14%.

- Đặc trưng từ để hỏi có tác dụng nâng cao độ chính xác của phân lớp câu hỏi. Khi áp dụng với SVM, đặc trưng từđể hỏi giúp tăng độ chính xác 0.71% và 0.88% tương ứng khi kết hợp với đặc trưng unigram và tách từ. Độ tăng này không lớn có thể được giải thích như sau: Trong các đặc trưng bag-of-unigram và bag-of-word cũng đã xét đến các từ

hỏi này với vai trò giống với các từ khác trong câu hỏi. Việc xuất hiện các từ hỏi này với tần suất lớn theo từng loại câu hỏi khác nhau cũng đã giúp SVM ngầm nhận diện được các từ này là từ quan trọng trong phân lớp.

- Ảnh hưởng của tách từ trong phân lớp câu hỏi: Với MEM, tách từ giúp tăng độ

chính xác của phân lớp, trong khi với SVM đặc trưng tách từ lại không tốt bằng việc dùng unigram. Có thể giải thích như sau: theo nguyên lý cực đại Entropy, mô hình tự tìm ra trong dữ liệu (tập câu hỏi mẫu) những ràng buộc và đặc trưng riêng cho từng phân lớp. Với SVM, dữ liệu được biểu diễn dưới dạng các điểm trong không gian đặc trưng, SVM cố gắng tìm ra các siêu phẳng ngăn cách dữ liệu của từng lớp câu hỏi. Việc tách từ có thể đã ảnh hưởng tích cực với việc tìm các ràng buộc của mô hình MEM, trong khi lại ảnh hưởng tiêu cực đến sự phân bố dữ liệu trong không gian, dẫn đến siêu phẳng phân cách các lớp không tốt như siêu phẳng tìm được khi dùng unigram.

Kết quả bộ phân lớp sử dụng SVM và MEM

Câu hỏi đơn giản (factual-base)