Kết quả thực nghiệm

Tôi hiển thị ngẫu nhiên một số ví dụ về dữ liệu đầu vào và 3 tiêu đề tự động được tạo bởi 3 mô hình của tôi trong Bảng 1. Như đã giới thiệu trong phần các công trình liên quan, Tiêu đề Base−Seq2Seq là tiêu đề tự động được tạo bởi mô hình Base−Seq2Seq với mô hình Seq2Seq kết hợp cơ chế Attention. Tiêu đề Smooth−Seq2Seq là tiêu đề tự động được tạo bởi mô hìnhBase−Seq2Seq và sử dụngMô hình ngôn ngữ để sửa lỗi ngữ pháp .Cuối cùng, tiêu đềF orcing−Seq2Seq là tiêu đề tự động được tạo bằng cách sử dụng mô hình tôi đề xuất, bao gồm cả Mô hình Base−Seq2Seq, sử dụng mô hình TF-IDF với cơ chế Teacher-Forcing và Mô hình ngôn ngữ để sửa lỗi ngữ pháp.

Bảng 1: Các tiêu đề tự động tạo ra từ mô hình đề xuấtVăn bản gốc Tiêu đề Văn bản gốc Tiêu đề gốc Tiêu đềBase− Seq2Seq Tiêu đề Smooth− Seq2Seq Tiêu đề F orcing− Seq2Seq I think I like these chips

better than the real thing very good potato

flavor

Very

good goodVery good potato

Very good

potato Potato chips are great and very healthy too This is my family

favorite hot cocoa

brand the kids favorite flavor if mint chocolate

The best hot chocolate

Great hot

chocolate Great hotchocolate Favorite cocoa

I prefer thespectrum coconut oils because they are flavorless they have more potential uses

Coconut taste too pro- nounced Good good product

Good product Spectrum is the best coconut

oil i have ever Although slightly acidic

this coffee was very good and we would consider

purchasing it again

Mexican

coffee Goodstuff Good stuff Acidic but not too strong for

the stronger coffee

Metromint lemon is

great by itself or with a shot of vodka i do not

know how i lived without it

Excellent Lemon

juice Lemon juice Metromint is the greatest i

have tried

Theo kết quả bảng 1, chúng ta có thể thấy cả 3 tiêu đề tự động được tạo ra từ mô hình của tôi đều tương đối hợp lý và có tính khả thi cao, thậm chí bằng hoặc vượt trội hơn so với tiêu đề gốc. Kết quả cũng thể hiện tiêu đề sinh ra từ mô hình Smooth−Seq2Seq thường tốt hơn hoặc bằng tiêu đề sinh ra từ mô hình Base−Seq2Seq, và tiêu đề sinh ra từ mô hình F orcing−Seq2Seq thể hiện sự vượt trội hơn so với 2 tiêu đề tự động còn lại về cả từ ngữ và ý nghĩa diễn đạt.

Chương 5 Đánh giá

Tôi tiến hành đo đạc độ chính xác và hợp lý của mô hình theo cả 2 phương pháp đánh giá tự động và đánh giá bằng con người.

1 Đánh giá tự động

Tôi tính điểm BLEU giữa văn bản gốc và tiêu đề tự động được sinh ra từ 3 mô hình được đề xuất. Mô hình của tôi được huấn luyện nhằm nắm bắt nội dung của văn bản gốc và tạo ra một tiêu đề mới thể hiện ý tưởng chính của văn bản gốc với các từ ngữ không chỉ phụ thuộc hoàn toàn vào từ ngữ của văn bản gốc. Do đó điểm BLEU thường thấp và không thể hiện được độ chính xác của mô hình. Đó cũng là lý do tại sao chúng ta cần thêm phương pháp đánh giá của con người. Tuy nhiên, với Điểm BLEU,F orcing−Seq2Seqvẫn cho kết quả khả quan và cao hơn mô hình Base−Seq2Seq và mô hình Smooth−Seq2Seq.

Bảng sau thể hiện kết quả đánh giá tự động của mô hình:

Bảng 2: Bảng kết quả đánh giá - điểm BLEU

Base−Seq2Seq Smooth−Seq2Seq F orcing−Seq2Seq

35,23% 35,97% 49,73%

Mô hình TF-IDF và cơ chế Teacher forcing

Đánh giá với con người