Phương pháp đánh giá

Tóm tắt văn bản tự động là một nhiệm vụ rất khó khăn, vì khi con người tóm tắt một đoạn văn bản, chúng ta thường đọc toàn bộ nội dung để nắm bắt toàn bộ ý tứ và thông điệp của văn bản đó, và sau đó viết bài tóm tắt ngắn gọn, xúc tích từ nội dung gốc. Vì vậy việc xác định tính chính xác và hợp lý của mô hình tóm tắt cũng là một thách thức lớn, bởi vì chúng ta sẽ có nhiều hướng tóm tắt khác nhau từ đó có nhiều bài tóm tắt cho 1 bài viết bất kì. Các bài tóm tắt này thường khác nhau và khác cả bài viết gốc về câu từ tuỳ thuộc người biên tập nhưng đều có chung mục đích truyền tải thông điệp chính của bài viết gốc. Như vậy, bài toán này là bài toán không có nhãn rõ ràng và cũng không có cách nào xác định nhãn đúng và duy nhất. Vì vậy, tôi quyết định sử dụng 2 phương pháp khác nhau để đo độ chính xác và hợp lý của mô hình: đánh giá tự động và đánh giá bằng con người.

3.1 Phương pháp đánh giá tự động

Có nhiều phương pháp tự động đánh giá kết qủa mô hình tóm tắt. Các phương pháp này chủ yếu dựa trên đo lường sự tương đồng và trùng lắp về mặt từ ngữ của các bản tóm tắt do mô hình tạo ra so với các bản tóm tắt do người viết taọ ra trước đó để làm nhãn [?]

hoặc đôi khi là so sánh với cả văn bản gốc. Một số chỉ số đánh giá tự động được nhiều mô hình sử dụng là Recall-Oriented Understudy for Gisting Evaluation (ROUGE), Summary Assessment by Relevancy Analysis (SERA),Bilingual Evaluation Understudy (BLEU), v.v. Với mô hình F orcing−Seq2Seq, tôi lựa chọn phương pháp đánh gía độ chính xác tự động là BLEU. BLEU là một thuật toán để đánh giá chất lượng của văn bản trong các bài toán dịch máy, có thể là bài toán dịch từ ngôn ngữ này sang ngôn ngữ khác hoặc bài toán tóm tắt văn bản, v.v. Công thức này đo sự tương đồng về từ ngữ giữa đầu ra của mô hình và phần tóm tắt của con người. Ý tưởng của BLEU là kết quả của mô hình càng gần với bản dịch chuyên nghiệp của con người thì càng tốt [22]. BLEU cũng là một trong những chỉ số đầu tiên tương quan với các đánh giá của con người về chất lượng và là một trong những chỉ số đánh giá tự động phổ biến nhất với chi phí thấp, dể hiểu và độ tin tưởng cao [23] [24].

Công thức của BLEU như sau:

BLEUscore = Covered

T otal (11)

Tuy nhiên, đối với tóm tắt văn bản, đặt biệt là bài toán đặt tiêu đề, từ ngữ xuất hiện trong tiêu đề không nhất thiết phải là các từ lựa chọn từ văn bản gốc, miễn sao nội dung của nó thể hiện được ý đồ của văn bản gốc. Và như đã trình bày từ đầu, mỗi biên tập viên sẽ có 1 văn phong và cách dùng từ khác nhau, nên phần tiêu đề tự động cũng không nhất thiết phải trùng lắp từ ngữ với phần tiêu đề được tạo bởi con người. Vì vậy, phương pháp BLUE và các phương pháp đo độ chính xác truyền thống lộ nhiều khuyết điểm, khó lòng đánh giá được độ chính xác, tính hợp lý và thực tiễn của mô hình. Từ đó, tôi quyết định nhờ thêm tình nguyện viên tiến hành đánh giá kết quả đầu ra của mô hình bằng sức người nhằm đảm bảo đo đạc chính xác nhất kết quả của mô hình đề xuất.

3.2 Phương pháp đánh giá bằng con người

Để có thể đánh giá khách quan kết quả mô hình, tôi đã nhờ sợ trợ giúp của 11 tình nguyện viên trong nhóm nghiên cứu sau đại học. Các bạn tình nguyện viên sẽ thực hiện khảo sát trên 1 bộ 600 câu tiêu đề được sinh ra từ 200 văn bản gốc được chọn ngẫu nhiên theo 3 mô hình đề xuất lần lượt là:

• Mô hình 1: Base−Seq2Seq

• Mô hình 2: Smooth−Seq2Seq

• Mô hình 3: F orcing−Seq2Seq

Các tình nguyện viên sẽ lần lượt đánh giá từng tiêu đề tạo ra theo 2 tiêu chí:

• Titles make sense: tiêu đề hợp lý, có thể hiện được nội dung của bài viết gốc.

• Title is better or equal to the original title: tiêu đề có nội dung bằng hoặc tốt

Hình 12 thể hiện 1 phần bảng đánh giá kết quả mô hình đề xuất của 11 tình nguyện viên tham gia khảo sát.

Hình 12: Mẫu đánh giá kết quả mô hình đề xuất của tình nguyện viên

Sau khi có kết quả đánh giá đầy đủ của 600 tiêu đề tự động từ 11 tình nguyện viên, tôi tiến hành đo đạc 2 chỉ số sau để đánh giá mô hình.

• Chỉ số thứ nhất: Điểm hợp lý là tỷ lệ các tiêu đề sinh ra có nội dung thể hiện đúng

với nội dung của văn bản gốc. Công thức như sau:

Rationality score= Count T itles make sense

T otal titles (12)

• Chỉ số thứ hai: Điểm khả thi hay còn là chỉ số đo tính thực nghiệm của mô hình,

đây là tỷ lệ các tiêu đề không chỉ đúng về nội dung mà còn đảm bảo ngữ pháp, có thể so sánh hay hơn tiêu đề gốc và thay thế được tiêu đề gốc . Công thức như sau:

Rationality score= Count T itle is better or equal to the original title

T otal titles (13)

Kết quả thực tế của 2 phương pháp đánh giá sẽ được trình bày ở phần hiện thực mô hình.

Chương 4 Hiện thực

1 Dữ liệu

F orcing−Seq2Seq sử dụng 2 tập dữ liệu huấn luyện.

Tập dữ liệu đầu tiên là văn bản đầu vào cần được tạo tiêu đề. Tôi lấy tập dữ liệu đầu vào cho mô hình của mình từ Kaggle:https://www.kaggle.com/snap/amazon-fine-food-reviews. Bộ dữ liệu này là các đánh giá của các loại thực phẩm tốt từ amazon. Mỗi đánh giá bao gồm nội dung, tóm tắt và tiêu đề . Dữ liệu kéo dài trong khoảng thời gian hơn 10 năm, bao gồm tất cả 500.000 đánh giá tính đến tháng 10 năm 2012. Mô hìnhF orcing−Seq2Seq sẽ được huấn luyện để nắm bắt văn phong của văn bản gốc và độ dài của tiêu đề từ tập dữ liệu đầu vào để tạo ra tiêu đề tự động.

Tập dữ liệu thứ hai là extra corpus dùng để huấn luyện mô hình TF-IDF và Mô hình ngôn ngữ. Tập dữ liệu này cần rất lớn và tổng quát, vì vậy tôi quyết định sử dụng các bài đánh giá của Amazon:https://snap.stanford.edu/data/web-Amazon.html. Kho tài liệu này bao gồm các bài đánh giá từ amazon. Dữ liệu kéo dài trong khoảng thời gian 18 năm, bao gồm 35 triệu bài đánh giá tính đến tháng 3 năm 2013. Các bài đánh giá bao gồm thông tin sản phẩm và người dùng, xếp hạng và bài viết đánh giá.

2 Kết quả huấn luyện trên mô hình Forcing-Seq2Seq

Dưới đây tôi sẽ trình bày 1 ví dụ cụ thể về 1 văn bản ngắn đi qua mô hình đào tạo và tạo ra tiêu đề tương ứng.

Hình 13 cho thấy một ví dụ với mô hình Base−Seq2Seq đã đề cập trong phần các công trình liên quan. Bằng mô hình Seq2Seq với cơ chế Attention, từ văn bản gốc:“I prefer the spectrum coconut oils because they are flavorless they have more potential uses”, tôi đã tạo câu tiêu đề tự động tương ứng: “Very good potato". Có thể thấy cách làm này không hiệu quả lắm, vì vẫn chưa làm nổi bật nội dung văn bản gốc.

Hình 13: Ví dụ tiêu đề được sinh ra từ mô hình Base−Seq2Seq

Tiếp theo, Hình 14 cho thấy cách xác định từ quan trọng nhất trong văn bản gốc bằng cách sử dụng mô hình TF-IDF. Ở ví dụ này, từ văn bản gốc“I prefer the spectrum coconut oils because they are flavorless they have more potential uses”, tôi đã xác định được từ quan trọng nhất của văn bản gốc là spectrum bằng cách sử dụng mô hình TD-IDF .

Cuối cùng, Hình 14 cho thấy toàn bộ quy trình của Mô hình F orcing−Seq2Seq mà tôi đề xuất. Đầu tiên, từ văn bản ban đầu, chúng ta sẽ sử dụng mô hình TF-IDF để xác định từ quan trọng nhất (trong ví dụ này là thuật ngữ “spectrum”), sau đó chúng ta sẽ

Hình 14: Mô hình TF-IDF xác định từ quan trọng nhất trong văn bản gốc

sử dụng mô hình Seq2Seq với cơ chế Atention để tạo câu tiêu đề tương ứng bằng cách sử dụng cơ chế Teacher-Forcing. Như chúng ta thấy, bộ giải mã sẽ nhận ký tự đầu tiên là từ “spectrum”, thay vì ký tự bắt đầu (ví dụ: ký tự < start >) như bình thường. Kết quả câu tiêu đề được tạo tự động sẽ là: “spectrum is the best coconut oil i have ever”. Chúng ta có thể thấy tiêu đề này có ý nghĩa hơn nhiều so với mô hình Base−Seq2Seq, thậm chí còn hay hơn cả tiêu đề gốc.

Hình 15: Tạo tiêu đề tự động với mô hình Forcing- Seq2Seq

3 Kết quả thực nghiệm

Tôi hiển thị ngẫu nhiên một số ví dụ về dữ liệu đầu vào và 3 tiêu đề tự động được tạo bởi 3 mô hình của tôi trong Bảng 1. Như đã giới thiệu trong phần các công trình liên quan, Tiêu đề Base−Seq2Seq là tiêu đề tự động được tạo bởi mô hình Base−Seq2Seq với mô hình Seq2Seq kết hợp cơ chế Attention. Tiêu đề Smooth−Seq2Seq là tiêu đề tự động được tạo bởi mô hìnhBase−Seq2Seq và sử dụngMô hình ngôn ngữ để sửa lỗi ngữ pháp .Cuối cùng, tiêu đềF orcing−Seq2Seq là tiêu đề tự động được tạo bằng cách sử dụng mô hình tôi đề xuất, bao gồm cả Mô hình Base−Seq2Seq, sử dụng mô hình TF-IDF với cơ chế Teacher-Forcing và Mô hình ngôn ngữ để sửa lỗi ngữ pháp.

Bảng 1: Các tiêu đề tự động tạo ra từ mô hình đề xuấtVăn bản gốc Tiêu đề Văn bản gốc Tiêu đề gốc Tiêu đềBase− Seq2Seq Tiêu đề Smooth− Seq2Seq Tiêu đề F orcing− Seq2Seq I think I like these chips

better than the real thing very good potato

flavor

Very

good goodVery good potato

Very good

potato Potato chips are great and very healthy too This is my family

favorite hot cocoa

brand the kids favorite flavor if mint chocolate

The best hot chocolate

Great hot

chocolate Great hotchocolate Favorite cocoa

I prefer thespectrum coconut oils because they are flavorless they have more potential uses

Coconut taste too pro- nounced Good good product

Good product Spectrum is the best coconut

oil i have ever Although slightly acidic

this coffee was very good and we would consider

purchasing it again

Mexican

coffee Goodstuff Good stuff Acidic but not too strong for

the stronger coffee

Metromint lemon is

great by itself or with a shot of vodka i do not

know how i lived without it

Excellent Lemon

juice Lemon juice Metromint is the greatest i

have tried

Theo kết quả bảng 1, chúng ta có thể thấy cả 3 tiêu đề tự động được tạo ra từ mô hình của tôi đều tương đối hợp lý và có tính khả thi cao, thậm chí bằng hoặc vượt trội hơn so với tiêu đề gốc. Kết quả cũng thể hiện tiêu đề sinh ra từ mô hình Smooth−Seq2Seq thường tốt hơn hoặc bằng tiêu đề sinh ra từ mô hình Base−Seq2Seq, và tiêu đề sinh ra từ mô hình F orcing−Seq2Seq thể hiện sự vượt trội hơn so với 2 tiêu đề tự động còn lại về cả từ ngữ và ý nghĩa diễn đạt.

Chương 5 Đánh giá

Tôi tiến hành đo đạc độ chính xác và hợp lý của mô hình theo cả 2 phương pháp đánh giá tự động và đánh giá bằng con người.

1 Đánh giá tự động

Tôi tính điểm BLEU giữa văn bản gốc và tiêu đề tự động được sinh ra từ 3 mô hình được đề xuất. Mô hình của tôi được huấn luyện nhằm nắm bắt nội dung của văn bản gốc và tạo ra một tiêu đề mới thể hiện ý tưởng chính của văn bản gốc với các từ ngữ không chỉ phụ thuộc hoàn toàn vào từ ngữ của văn bản gốc. Do đó điểm BLEU thường thấp và không thể hiện được độ chính xác của mô hình. Đó cũng là lý do tại sao chúng ta cần thêm phương pháp đánh giá của con người. Tuy nhiên, với Điểm BLEU,F orcing−Seq2Seqvẫn cho kết quả khả quan và cao hơn mô hình Base−Seq2Seq và mô hình Smooth−Seq2Seq.

Bảng sau thể hiện kết quả đánh giá tự động của mô hình:

Bảng 2: Bảng kết quả đánh giá - điểm BLEU

Base−Seq2Seq Smooth−Seq2Seq F orcing−Seq2Seq

35,23% 35,97% 49,73%

2 Đánh giá với con người

Bên cạnh phương pháp đánh giá tự động, đánh giá bằng con người được sử dụng để đo lường tính hợp lý và khả thi của các mô hình. Tôi đã tiến hành đánh giá thủ công với sự giúp đỡ của 11 tình nguyện viên đã tốt nghiệp. Tôi sử dụng 2 tiêu chí để đánh giá tiêu đề tự động. Đầu tiên, tính hợp lý được tính bằng tỷ lệ tiêu đề đúng ngữ pháp và có ý nghĩa đúng với nội dung văn bản gốc. Thứ hai, tính khả thi được tính bằng tỷ lệ tiêu đề dễ đọc và truyền tải được hết nội dung tiêu đề gốc. Để tiến hành đánh giá, tôi chọn ngẫu nhiên 200 văn bản từ bộ dữ liệu đầu vào và yêu cầu các tình nguyện viên đánh giá một cách chủ quan. Mỗi ví dụ bao gồm một văn bản gốc, tiêu đề gốc và ba tiêu đề tự động được tạo, bao gồm tiêu đề từ mô hình Base−Seq2Seq, tiêu đề từ mô hình Smooth−Seq2Seq Model và tiêu đề từ mô hình F orcing−Seq2Seq. Các tình nguyện viên đã chọn tiêu đề tự động thoả yêu cầu cho mỗi văn bản gốc theo các tiêu chí trên (có thể có nhiều lựa chọn). Điểm cho mỗi mô hình được tính bằng tỷ lệ các câu thí sinh lựa chọn chia tổng cho số câu đưa ra đánh giá.

Bảng 3 và 4 cho thấy kết quả cuối cùng được tổng hợp từ đánh giá của 11 tình nguyện viên. Kết quả cho thấy cả 3 tiêu đề tự động đều tương đối hợp lý và khả thi, thể hiện được thông điệp của văn bản gốc. Mô hình F orcing −Seq2Seq hoạt động tốt hơn so với mô hình Base−Seq2Seq và Smooth−Seq2Seq, với tính hợp lý textbf 82.10 % và tính khả thi là textbf 69.57 %.

Bảng 3: Kết quả đánh giá bằng con người - Điểm hợp lý

Base−Seq2Seq Smooth−Seq2Seq F orcing−Seq2Seq

64,73% 79,02% 82,10%

Bảng 4: Kết quả đánh giá bằng con người - Điểm khả thi

Base−Seq2Seq Smooth−Seq2Seq F orcing−Seq2Seq

Chương 6 Tổng kết

1 Kết luận

Mô hình đề xuất trong bài luận văn này đã tập trung vào việc cải thiện phương pháp tóm tắt văn bản dựa trên phương pháp tóm lược bằng mô hình Seq2Seq với cơ chế Attention, sử dụng cơ chế Teacher-Forcing với điểm TF-IDF và ứng dụng Mô hình ngôn ngữ để cải thiện kết quả đầu ra, giải quyết các hạn chế của các mô hình trước đây và giải quyết được mục tiêu đề ra làm tạo tiêu đề tự động cho bài viết. Mô hình đề xuất giải quyết được hai hạn chế lớn nhất của các mô hình trước đây là sai sót về ngữ nghĩa và ngữ pháp của văn bản tóm tắt. Phương pháp này tạo ra kết quả khả quan trên tập dữ liệu đầu vào với độ chính xác cao, ngắn gọn, mạch lạc, đúng ngữ pháp và được con người xác nhận.

2 Đánh giá ưu, nhược điểm

2.1 Ưu điểm

• Mô hình đề xuất có tính hợp lý và khả thi cao hơn so với mô hình nền tảng.

• Mô hình đề xuất giải quyết được 2 hạn chế đề ra của mô hình nền tảng: Thứ nhất là đảm bảo nội dung sát với văn bản gốc nhờ áp dụng cơ chế Teacher Forcing. Thứ hai là sửa được lỗi ngữ pháp lặp từ thường xảy ra ở mô hình nền tảng.

• Mô hình tóm tắt đề xuất giải quyết được bài tóm tạo tiêu đề tự động, với tiêu đề tạo ra có độ dài hợp lý và nội dung thể hiện được ý đồ chính văn bản gốc muốn truyền tải.

2.2 Nhược điểm

• Mô hình hiện đang được xây dựng trên một bộ dữ liệu duy nhất là dữ liệu đánh giá thực phẩm. Điều này dẫn đến mô hình chưa được học các ngữ cảnh khác, khó dự

Mô hình TF-IDF và cơ chế Teacher forcing

Đánh giá với con người