Hình 5.6. Running Avarage Loss với bộ dữ liệu 4000 bài báo tiếng Việt
Độ chính xác của mô hình đánh giá bằng tập thử nghiệm 500 bài báo tiếng Việt đƣợc thể hiện trong bảng 5.4.
Bảng 5.4. Đánh giá độ chính xác trên tập 500 bài báo tiếng Việt
ROUGE-1 ROUGE-2 ROUGE-L
Precision 50.93 17.44 34.00
Recall 55.45 19.01 36.89
F-score 51.32 17.57 34.17
Từ kết quả tính toán điểm ROUGE-L F-score của mô hình trong bảng 5.4 có thể thấy rằng, chất lƣợng của mô hình đƣợc cải thiện khi đƣợc huấn luyện với nhiều mẫu hơn và sử dụng tập từ vựng với nhiều từ hơn.
5.2.2.4. Thử nghiệm 4.
Từ hai thử nghiệm trƣớc với tiếng Việt, chúng tôi nhận thấy rằng mô hình cho kết quả tốt hơn ở thử nghiệm số 3 khi đƣợc huấn luyện với số lƣợng mẫu nhiều hơn và số lƣợng từ trong tập từ vựng nhiều hơn. Để kiểm chứng điều này, chúng tôi thử nghiệm mô hình với bốn tập dữ liệu có số lƣợng mẫu huấn luyện và số từ sử dụng trong tập từ vựng tăng dần nhƣ thể hiện trong bảng 5.5.
Bảng 5.5. Thử nghiệm chất lƣợng mô hình trên các tập dữ liệu tiếng Việt
Tham số Dataset 1 Dataset 2 Dataset 3 Dataset 4
Mẫu huấn luyện 1120 2000 3000 4000
Mẫu kiểm thử 500 500 500 500
Số lƣợng từ vựng 10000 15000 20000 25000
Số đặc trƣng
Số nơ ron ẩn
LSTM 256 256 256 256
Thuật toán tối ƣu Adam Adam Adam Adam
Tốc độ học 0.001 0.001 0.001 0.001
Beam size 5 5 5 5
Tập dữ liệu kiểm thử là giống nhau trong cả bốn bộ dữ liệu dùng để so sánh chất lƣợng mô hình.
Hình 5.7 thể hiện điểm F-score đƣợc tính theo phƣơng pháp ROUGE của mô hình trên các tập dữ liệu test gồm 500 bài báo tiếng Việt.