Mẫu đánh giá kết quả mô hình đề xuất của tình nguyện viên

Một phần của tài liệu Tóm tắt văn bản tiếng việt sử dụng hệ thống học sâu nguyễn thị hiệp thuận tp hồ chí minh đại học bách khoa, 2021 b (Trang 33 - 34)

Sau khi có kết quả đánh giá đầy đủ của 600 tiêu đề tự động từ 11 tình nguyện viên, tôi tiến hành đo đạc 2 chỉ số sau để đánh giá mô hình.

• Chỉ số thứ nhất: Điểm hợp lý là tỷ lệ các tiêu đề sinh ra có nội dung thể hiện đúng

với nội dung của văn bản gốc. Công thức như sau:

Rationality score= Count T itles make sense

T otal titles (12)

• Chỉ số thứ hai: Điểm khả thi hay còn là chỉ số đo tính thực nghiệm của mô hình,

đây là tỷ lệ các tiêu đề không chỉ đúng về nội dung mà còn đảm bảo ngữ pháp, có thể so sánh hay hơn tiêu đề gốc và thay thế được tiêu đề gốc . Công thức như sau:

Rationality score= Count T itle is better or equal to the original title

T otal titles (13)

Kết quả thực tế của 2 phương pháp đánh giá sẽ được trình bày ở phần hiện thực mô hình.

Chương 4 Hiện thực

1 Dữ liệu

F orcing−Seq2Seq sử dụng 2 tập dữ liệu huấn luyện.

Tập dữ liệu đầu tiên là văn bản đầu vào cần được tạo tiêu đề. Tôi lấy tập dữ liệu đầu vào cho mô hình của mình từ Kaggle:https://www.kaggle.com/snap/amazon-fine-food-reviews. Bộ dữ liệu này là các đánh giá của các loại thực phẩm tốt từ amazon. Mỗi đánh giá bao gồm nội dung, tóm tắt và tiêu đề . Dữ liệu kéo dài trong khoảng thời gian hơn 10 năm, bao gồm tất cả 500.000 đánh giá tính đến tháng 10 năm 2012. Mô hìnhF orcing−Seq2Seq sẽ được huấn luyện để nắm bắt văn phong của văn bản gốc và độ dài của tiêu đề từ tập dữ liệu đầu vào để tạo ra tiêu đề tự động.

Tập dữ liệu thứ hai là extra corpus dùng để huấn luyện mô hình TF-IDF và Mô hình ngôn ngữ. Tập dữ liệu này cần rất lớn và tổng quát, vì vậy tôi quyết định sử dụng các bài đánh giá của Amazon:https://snap.stanford.edu/data/web-Amazon.html. Kho tài liệu này bao gồm các bài đánh giá từ amazon. Dữ liệu kéo dài trong khoảng thời gian 18 năm, bao gồm 35 triệu bài đánh giá tính đến tháng 3 năm 2013. Các bài đánh giá bao gồm thông tin sản phẩm và người dùng, xếp hạng và bài viết đánh giá.

2 Kết quả huấn luyện trên mô hình Forcing-Seq2Seq

Dưới đây tôi sẽ trình bày 1 ví dụ cụ thể về 1 văn bản ngắn đi qua mô hình đào tạo và tạo ra tiêu đề tương ứng.

Hình 13 cho thấy một ví dụ với mô hình Base−Seq2Seq đã đề cập trong phần các công trình liên quan. Bằng mô hình Seq2Seq với cơ chế Attention, từ văn bản gốc:“I prefer the spectrum coconut oils because they are flavorless they have more potential uses”, tôi đã tạo câu tiêu đề tự động tương ứng: “Very good potato". Có thể thấy cách làm này không hiệu quả lắm, vì vẫn chưa làm nổi bật nội dung văn bản gốc.

Một phần của tài liệu Tóm tắt văn bản tiếng việt sử dụng hệ thống học sâu nguyễn thị hiệp thuận tp hồ chí minh đại học bách khoa, 2021 b (Trang 33 - 34)

Tải bản đầy đủ (PDF)

(61 trang)