Running Avarage Loss với bộ dữ liệu 4000 bài báo t- 123docz.net

Hình 5.6. Running Avarage Loss với bộ dữ liệu 4000 bài báo tiếng Việt

Độ chính xác của mô hình đánh giá bằng tập thử nghiệm 500 bài báo tiếng Việt đƣợc thể hiện trong bảng 5.4.

Bảng 5.4. Đánh giá độ chính xác trên tập 500 bài báo tiếng Việt

ROUGE-1 ROUGE-2 ROUGE-L

Precision 50.93 17.44 34.00

Recall 55.45 19.01 36.89

F-score 51.32 17.57 34.17

Từ kết quả tính toán điểm ROUGE-L F-score của mô hình trong bảng 5.4 có thể thấy rằng, chất lƣợng của mô hình đƣợc cải thiện khi đƣợc huấn luyện với nhiều mẫu hơn và sử dụng tập từ vựng với nhiều từ hơn.

5.2.2.4. Thử nghiệm 4.

Từ hai thử nghiệm trƣớc với tiếng Việt, chúng tôi nhận thấy rằng mô hình cho kết quả tốt hơn ở thử nghiệm số 3 khi đƣợc huấn luyện với số lƣợng mẫu nhiều hơn và số lƣợng từ trong tập từ vựng nhiều hơn. Để kiểm chứng điều này, chúng tôi thử nghiệm mô hình với bốn tập dữ liệu có số lƣợng mẫu huấn luyện và số từ sử dụng trong tập từ vựng tăng dần nhƣ thể hiện trong bảng 5.5.

Bảng 5.5. Thử nghiệm chất lƣợng mô hình trên các tập dữ liệu tiếng Việt

Tham số Dataset 1 Dataset 2 Dataset 3 Dataset 4

Mẫu huấn luyện 1120 2000 3000 4000

Mẫu kiểm thử 500 500 500 500

Số lƣợng từ vựng 10000 15000 20000 25000

Số đặc trƣng

Số nơ ron ẩn

LSTM 256 256 256 256

Thuật toán tối ƣu Adam Adam Adam Adam

Tốc độ học 0.001 0.001 0.001 0.001

Beam size 5 5 5 5

Tập dữ liệu kiểm thử là giống nhau trong cả bốn bộ dữ liệu dùng để so sánh chất lƣợng mô hình.

Hình 5.7 thể hiện điểm F-score đƣợc tính theo phƣơng pháp ROUGE của mô hình trên các tập dữ liệu test gồm 500 bài báo tiếng Việt.

Running Avarage Loss với bộ dữ liệu 4000 bài báo tiếng Việt

Cách hoạt động của CBOW