Đánh giá với con người

Bên cạnh phương pháp đánh giá tự động, đánh giá bằng con người được sử dụng để đo lường tính hợp lý và khả thi của các mô hình. Tôi đã tiến hành đánh giá thủ công với sự giúp đỡ của 11 tình nguyện viên đã tốt nghiệp. Tôi sử dụng 2 tiêu chí để đánh giá tiêu đề tự động. Đầu tiên, tính hợp lý được tính bằng tỷ lệ tiêu đề đúng ngữ pháp và có ý nghĩa đúng với nội dung văn bản gốc. Thứ hai, tính khả thi được tính bằng tỷ lệ tiêu đề dễ đọc và truyền tải được hết nội dung tiêu đề gốc. Để tiến hành đánh giá, tôi chọn ngẫu nhiên 200 văn bản từ bộ dữ liệu đầu vào và yêu cầu các tình nguyện viên đánh giá một cách chủ quan. Mỗi ví dụ bao gồm một văn bản gốc, tiêu đề gốc và ba tiêu đề tự động được tạo, bao gồm tiêu đề từ mô hình Base−Seq2Seq, tiêu đề từ mô hình Smooth−Seq2Seq Model và tiêu đề từ mô hình F orcing−Seq2Seq. Các tình nguyện viên đã chọn tiêu đề tự động thoả yêu cầu cho mỗi văn bản gốc theo các tiêu chí trên (có thể có nhiều lựa chọn). Điểm cho mỗi mô hình được tính bằng tỷ lệ các câu thí sinh lựa chọn chia tổng cho số câu đưa ra đánh giá.

Bảng 3 và 4 cho thấy kết quả cuối cùng được tổng hợp từ đánh giá của 11 tình nguyện viên. Kết quả cho thấy cả 3 tiêu đề tự động đều tương đối hợp lý và khả thi, thể hiện được thông điệp của văn bản gốc. Mô hình F orcing −Seq2Seq hoạt động tốt hơn so với mô hình Base−Seq2Seq và Smooth−Seq2Seq, với tính hợp lý textbf 82.10 % và tính khả thi là textbf 69.57 %.

Bảng 3: Kết quả đánh giá bằng con người - Điểm hợp lý

Base−Seq2Seq Smooth−Seq2Seq F orcing−Seq2Seq

64,73% 79,02% 82,10%

Bảng 4: Kết quả đánh giá bằng con người - Điểm khả thi

Base−Seq2Seq Smooth−Seq2Seq F orcing−Seq2Seq

Chương 6 Tổng kết

Mô hình TF-IDF và cơ chế Teacher forcing