Ta có thể kiểm tra đồng thời tạo ra file kết quả theo cú pháp sau: make test PREFIX=<test_set_name>
Trong đó: test_set_name là tên bộ test – có thể đặt tùy ý.
Chương trình sẽ tự động đọc các tệp <test_set_name>.words,
<test_set_name>.ne, <test_set_name>.props trong thư mục copus (tại đường
dẫn hiện hành) và tạo ra các tệp <test_set_name>.input,
<test_set_name>.output và <test_set_name>.score trong thư mục testing (tại
đường dẫn hiện hành), trong đó:
h. Tệp <test_set_name>.words: là tệp chứa từ kiểm tra.
i. Tệp <test_set_name>.ne: là tệp chứa nhãn danh từ riêng kiểm tra. j. Tệp <test_set_name>.props: là tệp chứa nhãn mệnh đề kiểm tra .
k. Tệp <test_set_name>.input: là tệp được tự động tạo chứa dữ liệu kiểm
l. Tệp <test_set_name>.output: là tệp được tự động tạo chứa dữ liệu kết quả.
m. Tệp <test_set_name>.score: là tệp được tự động tạo chứa dữ liệu kết quả tổng hợp.
Đánh giá
Để đánh giá hiệu suất mơ hình, chúng tơi sử dụng độ chính xác trung bình accuracy và 3 tiêu chuẩn: Precision, Recall và F-score, được tính tốn như sau:
Precision = !ố $ượ'( )á) +,(-./'0 đượ) (á' '2ã' đú'( !ố $ượ'( )á) +,(-./'0! đượ) (á' '2ã' Recall = !ố $ượ'( )á) +,(-./'0 đượ) (á' '2ã' đú'(!ố $ượ'( )á) (5$6 +,(-./'0 F-score = 7 ∗ 9,/):!:5' ∗ ,/)+$$9,/):!:5' ; ,/)+$$
3.4. Kết quả và thảo luận
3.4.1. Với ngôn ngữ tiếng Anh:
Để đánh giá mơ hình AdaBoost với bài tốn gán nhãn vai trị ngữ nghĩa, tơi đã tiến hành thử nghiệm với ngôn ngữ tiếng Anh: gán nhãn ngữ nghĩa sử dụng mơ hình AdaBoost, sử dụng template NE (Named Entity), huấn luyện khoảng 40 000 câu đầu vào. Kết quả thử nghiệm như sau: độ chính xác 80.15%, với Precision đạt 75.36% và F-score đạt 77.68% với bộ test chứa 2416 câu, 5267 mệnh đề. Các nhãn A0 và A1 là hai nhãn thường xuyên xuất hiện trong các câu, vì vậy, ở đây chúng tơi đánh giá cụ thể chất lượng gán nhãn hai nhãn này như sau: