Kết hợp giữa mô hình chủ đề và mô hình được huấn luyện trước cho bài toán tóm tắt văn bản

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Kết hợp mơ hình chủ đề mơ hình huấn luyện trước cho tốn tóm tắt văn TRỊNH TIẾN ĐẠT dat.tt202653m@sis.hust.edu.vn Ngành Khoa học máy tính Giảng viên hướng dẫn: PGS TS Phạm Văn Hải Trường: Công nghệ thông tin truyền thông HÀ NỘI, 10/2022 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Trịnh Tiến Đạt Đề tài luận văn: Kết hợp mơ hình chủ đề mơ hình huấn luyện trước cho tốn tóm tắt văn Chun ngành: Khoa học máy tính Mã số SV: 20202653M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 29/10/2022 với nội dung sau: Cấu trúc lại mục luận văn: bỏ tên chương phần GIỚI THIỆU KẾT LUẬN; chỉnh sửa cách đánh mục phần 3.3 Bổ sung chỉnh sửa nội dung CHƯƠNG GIỚI THIỆU: - Thêm trích dẫn cần thiết phần Bổ sung chỉnh sửa nội dung CHƯƠNG CƠ SỞ LÝ THUYẾT: - Cấu trúc lại hướng tiếp cận - Giải thích chi tiết vai trị TF-IDF tóm tắt văn - Bổ sung lý thuyết Cơ chế Tập trung Cơ chế Tự Tập trung (Self Attention) - Bổ sung lý thuyết Transformer Bổ sung chỉnh sửa nội dung CHƯƠNG MƠ HÌNH ĐỀ XUẤT: - Bổ sung lý thuyết minh họa PEGASUS - Bổ sung lý thuyết mơ tả chi tiết hình minh họa CombinedTM - Mô tả chi tiết cách kết hợp tinh chỉnh PEGASUS - Vẽ lại kiến trúc mơ hình đề xuất, bổ sung thành phần kết hợp trước sinh tóm tắt - Cấu trúc lại phần 3.3.3 Mơ hình chủ đề hàm mát mơ hình chủ đề - Bổ sung giải thích phép biến đổi tuyến tính - Bổ sung thông tin hàm mát tổng thể mơ hình đề xuất Bổ sung chỉnh sửa nội dung CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ: - Bổ sung mô tả tập liệu 4.1 - Bổ sung thêm tham số quan trọng 4.2 Giải thích tường minh phần 4.3.4 Bổ sung thêm lý tinh chỉnh siêu tham số 𝐾 𝛼 Ngày 16 tháng 11 năm 2022 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG ĐỀ TÀI LUẬN VĂN Biểu mẫu Đề tài/Luận văn tốt nghiệp theo qui định Viện, nhiên cần đảm bảo giáo viên giao đề tài ký ghi rõ họ tên Trường hợp có giáo viên hướng dẫn ký tên Giáo viên hướng dẫn Ký ghi rõ họ tên LỜI CAM ĐOAN Tôi – Trịnh Tiến Đạt - cam kết luận văn cơng trình nghiên cứu thân tôi, hướng dẫn PGS.TS Phạm Văn Hải Các kết công bố báo cáo trung thực, chép cá nhân, tổ chức cơng bố khác Tất trích dẫn tham chiếu rõ ràng Ngày 12 tháng 10 năm 2022 Tác giả luận văn Trịnh Tiến Đạt Xác nhận người hướng dẫn LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc Trường Công nghệ Thông tin Truyền thơng nói riêng thầy giáo, giáo thuộc trường Đại học Bách khoa Hà Nội nói chung dạy dỗ, truyền đạt kiến thức tạo điều kiện cho em suốt trình học tập trường Đặc biệt, em xin gửi lời cảm ơn sâu sắc đến thầy hướng dẫn PGS TS Phạm Văn Hải, giảng viên môn Hệ thống Thông Tin, quan tâm, giúp đỡ, hướng dẫn tận tình thầy em tích lũy nhiều kiến thức chuyên môn, đồng thời thầy tạo điều kiện cho em suốt trình làm luận văn Những thời điểm khó khăn nhất, thầy ln giúp đỡ động viên để em hoàn thiện nghiên cứu luận văn Em xin gửi lời cảm ơn đến gia đình, người thân, bạn bè đồng nghiệp động viên tinh thần, chia sẻ giúp đỡ em nhiều học tập sống Do vốn kiến thức hạn chế, luận văn khơng thể tránh khỏi thiếu sót, khiếm khuyết, kính mong q thầy xem xét góp ý để luận văn em hoàn thiện Em xin chân thành cảm ơn! Học viên: Trịnh Tiến Đạt, 20202653M, khố 2020B, lớp 20BKHMT TĨM TẮT NỘI DUNG LUẬN VĂN Ngày nay, với phát triển mạnh mẽ công nghệ thông tin mạng internet, phải đối mặt với bùng nổ liệu, phần không nhỏ liệu dạng văn tạo với mục đích khác Dữ liệu văn ngày lớn cập nhật liên tục, nhiên khả tiếp thu người lại có hạn Do đó, nhu cầu việc tổng hợp, rút gọn thông tin cốt lõi với văn vô cấp thiết Bài tốn Tóm tắt văn nghiên cứu để giải vấn đề này, q trình tóm lược thơng tin quan trọng sau tạo tóm tắt ngắn gọn cho một tập văn Trong Tóm tắt văn bản, tóm tắt hướng tóm lược cho kỹ thuật khó khơng địi hỏi phải hiểu ngơn ngữ nói chung mà cịn phải hiểu ngữ nghĩa bên văn sau sinh tóm tắt gần gũi với văn mà người tạo ra, tóm tắt chứa từ không xuất văn gốc Việc kết hợp kỹ thuật xử lý ngôn ngữ tự nhiên khác cho tốn tóm tắt hướng tóm lược giúp cho mơ hình hiểu văn nhiều khía cạnh khác nhau, từ đưa tóm tắt vừa phù hợp với ngữ pháp vừa phù hợp với ngữ cảnh văn Từ ý tưởng trên, luận văn đề xuất phương pháp kết hợp mơ hình chủ đề mơ hình đào tạo trước cho tốn Tóm tắt văn Để kiểm chứng hiệu phương pháp này, luận văn thực số thực nghiệm sử dụng độ đo ROUGE để đánh giá Trong thực nghiệm đó, phương pháp kết hợp có điểm ROUGE vượt trội mơ hình đào tạo trước mơ hình theo hướng kết hợp mơ hình chủ đề mơ hình đào tạo trước khác Điều cho thấy cách kết hợp đề xuất luận văn hoạt động hiệu bổ sung ngữ nghĩa cho mơ hình đào tạo trước cách đầy đủ so với phương pháp kết hợp trước HỌC VIÊN Ký ghi rõ họ tên MỤC LỤC GIỚI THIỆU CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 Bài tốn tóm tắt văn Tổng quan tốn tóm tắt văn Phân loại tốn tóm tắt văn Các hướng tiếp cận tốn tóm tắt văn 11 1.2 Phương pháp tóm tắt văn hướng tóm lược 24 1.3 Mơ hình chủ đề tóm tắt văn hướng tóm lược 25 1.4 Phương pháp đánh giá mơ hình 27 Phương pháp đánh giá bên 27 Phương pháp đánh giá bên 30 CHƯƠNG MƠ HÌNH ĐỀ XUẤT 32 2.1 Phát biểu toán 32 2.2 Hướng tiếp cận toán 32 Mơ hình đào tạo trước PEGASUS 32 Mơ hình chủ đề CombinedTM 33 Phương pháp kết hợp 35 2.3 Mơ hình đề xuất 35 Biểu diễn liệu đầu vào 36 Phần mã hóa 36 Mơ hình chủ đề 36 Phần giải mã (Decoder) 36 Các biến đổi tuyến tính 37 Quá trình huấn luyện suy diễn 37 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 38 3.1 Bộ liệu thực nghiệm 38 Bộ liệu CNN/DM 38 Bộ liệu XSum 39 3.2 Môi trường tham số cài đặt mơ hình 39 3.3 Quá trình thực nghiệm 40 Thực nghiệm mô hình 40 Thực nghiệm đánh giá siêu tham số 41 Thực nghiệm với lượng liệu hạn chế 42 Thực nghiệm đánh giá cấu trúc đầu vào TM 42 Đánh giá ảnh hưởng mơ hình huấn luyện trước 42 Thực nghiệm mơ kết tóm tắt 43 3.4 Đánh giá kết thực nghiệm 44 KẾT LUẬN 45 DANH MỤC HÌNH VẼ Hình 1.1 Tổng quan cách phân loại tốn tóm tắt văn Hình 1.2 Kiến trúc hệ thống tóm tắt hướng trích chọn Hình 1.3 Kiến trúc hệ thống tóm tắt hướng tóm lược Hình 1.4 Kiến trúc hệ thống tóm tắt hướng kết hợp 10 Hình 1.5 Đường phân tách tuyến tính sử dụng Máy vectơ hỗ trợ 15 Hình 1.6 Minh họa mơ hình chuỗi sang chuỗi 16 Hình 1.7 Kiến trúc RNN 17 Hình 1.8 Kiến trúc ô nhớ LSTM 18 Hình 1.9 Cơ chế Tập trung giới thiệu [34] 20 Hình 1.10 Kiến trúc tổng quan mơ hình Transformer 21 Hình 1.11 Tầng Tập trung đa đầu Transformer 22 Hình 1.12 Tổng quan phân loại đánh giá mơ hình 27 Hình 2.1 Kiến trúc mơ hình PEGASUS 33 Hình 2.2 Cấu trúc mơ hình chủ đề CombinedTM 34 Hình 2.3 Kiến trúc tổng thể mơ hình đề xuất 35 Biểu diễn liệu đầu vào Về mặt hình thức, văn đầu vào biểu diễn dạng chuỗi vector 𝑋 = [𝑥0 , 𝑥5 , … , 𝑥/ ], 𝑥& ∈ ℝ) vector biểu diễn dạng BOW từ, 𝑉 kích thước tập từ vựng Ngồi ra, đầu vào thêm số ký hiệu đặc biệt Ký hiệu đặt đầu chuỗi nhằm đánh dấu bắt đầu chuỗi, đặt cuối chuỗi nhằm đánh dấu kết thúc chuỗi, ký hiệu ký hiệu sử dụng để làm bước đệm trường hợp chuỗi có độ dài khác Phần mã hóa Phần mã hóa có vai trị tìm hiểu trích xuất thơng tin từ liệu đầu vào, sau mã hóa liệu đầu vào thành chuỗi trạng thái ẩn H biểu diễn PT 2.2 Phần mã hóa sử dụng mơ hình đề xuất phần mã hóa mơ hình huấn luyện trước PEGASUS PT 2.2 𝐻 = 𝐸𝑛𝑐𝑜𝑑𝑒𝑟(𝑥0 , 𝑥5 , … , 𝑥/ ) Mơ hình chủ đề Cấu trúc dựa VAE, bao gồm hai phần: mã hóa giải mã a) Phần mã hóa 𝑞N (ℎ|𝑋‡) Với 𝑋‡ đầu vào TM tạo thành từ việc kết hợp đầu vào 𝑋 chuỗi trạng thái ẩn 𝐻 Sau đưa 𝑋‡ qua lớp tuyến tính, mơ hình tính tốn hai đại lượng 𝜇(𝑋‡) 𝜎(𝑋‡) từ sinh đại lượng ℎ = 𝜇 + 𝜎 ∙ 𝜀 Tiếp theo, cho mơ hình học biến chủ đề ẩn 𝑧 = 𝑓(ℎ), 𝑧 ∈ ℝE×0 với K biểu diễn số lượng chủ đề mơ hình b) Phần giải mã 𝑝O (𝑋‡|𝑧) Phần có vai trị ánh xạ 𝑧 đến xác suất dự đoán từ tập từ vựng 𝑌 thông qua ma trận 𝑊!?@&H Hàm mát TM (ℒ!B ) có mục tiêu cực đại hóa ELBO giải thích [2], cụ thể PT 2.3 ℒ!B = 𝐷EP (𝑞N (ℎ|𝑋‡ ) || 𝑝O (ℎ)) |M| − @ 𝑙𝑜𝑔 𝑝O (𝑥̅ & |𝑧 &,7 ) |𝑌| PT 2.3 760 𝑞N (ℎ|𝑋‡) phân phối biến thiên xấp xỉ hậu nghiệm thực 𝑝O (𝑋‡|𝑧) Phần giải mã Phần giải mã nhận trạng thái ẩn 𝐻 từ phần mã hóa để khởi tạo trạng thái, sau kết hợp với thơng tin từ từ trước mơ hình dự đoán từ 𝑦&= 𝑦&= = 𝐷𝑒𝑐𝑜𝑑𝑒𝑟(𝐻, 𝑌 = R:&40 ) PT 2.4 36 Các biến đổi tuyến tính Luận văn đề xuất hàm để tổng hợp thông tin từ 𝑦&= 𝑊!?@&H để dự đoán từ 𝑦‡& biểu diễn PT 2.5 Từ cách kết hợp này, đầu mơ hình bổ sung thêm thơng tin ngữ nghĩa tồn cục văn trích xuất thơng qua TM Trong đó, 𝐿𝑀𝐻𝑒𝑎𝑑, 𝐷𝑖𝑚𝐻𝑒𝑎𝑑, 𝑇𝑀𝐻𝑒𝑎𝑑 lớp tuyến tính có vai trị chuyển đổi chiều ma trận 𝑦‡& = 𝐿𝑀𝐻𝑒𝑎𝑑(𝑦&= ) + 𝐷𝑖𝑚𝐻𝑒𝑎𝑑(𝑦&= ) PT 2.5 ∙ 𝑇𝑀𝐻𝑒𝑎𝑑(𝑊!?@&H ) PT 2.6 biểu diễn xác định vector phân phối tương ứng với từ sinh ra: PT 2.6 𝐥& = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑊 ∙ 𝑦‡& ) Quá trình huấn luyện suy diễn Hàm mát mơ hình đề xuất có cấu trúc gồm hai phần: hàm mát Mơ hình chủ đề ℒ!B hàm mát q trình tóm tắt văn ℒ>+B , định nghĩa theo PT 2.7 Hệ số 𝛼 sử dụng để cân hai hàm lỗi ℒ = 𝛼ℒ!B + ℒ>+B PT 2.7 Trong ℒ:&/C!+/C định nghĩa sau: U ℒ>+B = − @ log 𝑝(𝑦' |{𝑥& }2 &60 , 𝑦&T' ) PT 2.8 '60 với 𝑁 𝑀 độ dài văn X tóm tắt Y tương ứng Trong q trình suy diễn, mơ hình sử dụng thuật tốn tìm kiếm chùm để đưa tóm tắt hợp lý Tại bước sinh từ, thuật tốn tìm kiếm chùm tìm kiếm tồn khơng gian tập từ vựng lấy 𝑘 kết có xác suất cao nhất, với kết lại tiếp tục bước lặp để lấy 𝑘 kết có xác suất cao Đến kết thúc việc sinh từ, mơ hình chọn chuỗi kết có xác suất cao để đưa làm tóm tắt hợp lý 37 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Bộ liệu thực nghiệm Trong trình thực nghiệm, luận văn sử dụng hai liệu CNN/Daily Mail (CNN/DM) [55] Extreme Summarization (XSum) [41] để đánh giá mơ hình Bảng 3.1 thống kê chi tiết hai liệu Trong Huấn luyện, Tối ưu, Kiểm thử số lượng liệu tập huấn luyện, tập tối ưu tập kiểm thử; Từ/văn Từ/bản tóm tắt độ dài trung bình văn gốc tóm tắt liệu Bảng 3.1 Thống kê chi tiết lượng liệu liệu Bộ liệu CNN/ DM XSum Huấn luyện 286,817 Tối ưu 13,368 Kiểm thử 11,487 Từ/văn Từ/bản tóm tắt 766.00 53.00 204,045 11,332 11,334 431.07 23.26 Bộ liệu CNN/DM CNN/DM tập liệu để tóm tắt văn Trong [55] ban đầu mục tiêu liệu dành cho toán trả lời câu hỏi dựa đoạn văn, cụ thể tác giả sử dụng phần tóm tắt người tạo cho báo, đoạn tin tức trang web CNN Daily Mail làm câu hỏi (với thực thể bị ẩn) đoạn văn tương ứng mà hệ thống dự kiến trả lời câu hỏi điền vào chỗ trống Các tác giả phát hành tập lệnh thu thập thơng tin, trích xuất tạo cặp đoạn văn câu hỏi từ trang web Sau này, [56] có sửa đổi để khôi phục tất câu phần tóm tắt ghép lại theo thứ tự để trở thành tóm tắt gồm nhiều câu, liệu biết đến để dành cho tốn tóm tắt văn Tập liệu tồn hai phiên bản: phiên gốc phiên ẩn danh (thay thực thể đặt tên định danh ẩn danh) Luận văn sử dụng phiên liệu gốc muốn có tóm tắt tốt mơ hình phải có khả chép thực thể đặt tên chưa có tập từ vựng văn gốc vào tóm tắt Bộ liệu gồm tập: - Tập huấn luyện bao gồm 286,817 cặp liệu chứa 936,496 từ 94,291 từ vựng - Tập tối ưu gồm 13,368 cặp liệu chứa 157,423 từ 75,632 từ vựng - Tập kiểm thử gồm 11,487 cặp liệu chứa 149,766 từ 74,741 từ vựng Độ dài trung bình báo tóm tắt liệu 766 từ 53 từ 38 Trong khuôn khổ nghiên cứu, luận văn sử dụng liệu CNN/DM tiền xử lý công khai [40] Bộ liệu XSum Tập liệu XSum tập liệu gồm báo thường sử dụng để đánh giá hệ thống tóm tắt đơn văn theo hướng tóm lược Mục tiêu tạo tóm tắt ngắn trả lời cho câu hỏi “Bài báo nói điều gì?” Các báo thu thập từ trang báo BBC (2010 đến 2017) bao gồm nhiều lĩnh vực khác (ví dụ: Tin tức, Chính trị, Thể thao, Thời tiết, Kinh doanh, Cơng nghệ, Khoa học, Sức khỏe, Gia đình, Giáo dục, Giải trí Nghệ thuật) Bộ liệu bồm tập: - Tập huấn luyện bao gồm 204,045 cặp liệu chứa 921,767 từ 93,712 từ vựng - Tập tối ưu gồm 11,332 cặp liệu chứa 184,843 từ 64,441 từ vựng - Tập kiểm thử gồm 11,334 cặp liệu chứa 188,491 từ 65,055 từ vựng Độ dài trung bình báo tóm tắt liệu 431.07 từ 23.26 từ Các quy trình tiền xử lý liệu áp dụng công khai [41] 3.2 Môi trường tham số cài đặt mô hình Trong trình thực nghiệm, luận văn thực mơi trường Google Colab3 Cấu sau: • • • • Chip Intel Xeon 2.2GHz x CPUs RAM: 32GB Hệ điều hành: Ubuntu 18.04 LTS GPU: Tesla P100 – 16GB VRAM Các cơng cụ sử dụng: • Framework pytorch • Thư viện transformer Trong trình huấn luyện, luận văn sử dụng phiên huấn luyện trước “PEGASUS-large” công khai thư viện mơ hình Transformer4 Luận văn huấn luyện mơ hình 20 epochs với kích thước lơ Luận văn có sử dụng phương pháp AdamW để tối ưu mơ hình với 𝛽0 = 0.9, 𝛽5 = 0.999 trọng số phân rã (weight decay) 0.01 Hệ số học cho phần mã hóa phần giải mã 3𝑒 4V Độ dài tối đa văn đầu vào 1024 ký tự, độ dài tối đa tóm tắt đầu 128 ký tự Với phần TM, kích thước đầu lớp tuyến tính 100, hàm kích hoạt sử dụng Softplus Môi trường lập trình với GPU cloud phát triển Google https://huggingface.co/google/pegasus-large 39 Ngoài ra, luận văn sử dụng tham số mặc định mơ hình huấn luyện trước “PEGASUS-large”, số tham số bật sau: Bảng 3.2 Một số tham số quan trọng mô hình huấn luyện trước Tên tham số Số chiều trạng thái ẩn Số khối Transformer phần mã hóa giải mã Số đầu lớp Tập trung đa đầu Số chiều Mạng truyền thẳng Số chùm tìm kiếm chùm Kích thước tập từ vựng Hệ số dropout Giá trị 1024 16 16 4096 96103 0.1 3.3 Q trình thực nghiệm Thực nghiệm mơ hình Mơ hình xem xét so sánh với số mơ hình tiêu biểu sau: • Các mơ hình huấn luyện trước: o BERTSUM [42]: mơ hình tinh chỉnh từ mơ hình BERT [36] cho tốn tóm tắt văn bản, sử dụng kết mơ hình ứng dụng tóm tắt hướng tóm lược o BART [38]: mơ hình đào tạo trước với chế tạo nhiễu cho liệu huấn luyện o PEGASUS [37]: mơ hình đào tạo trước với chế dự đoán từ câu bị che giấu • Các phương pháp kết hợp TM mơ hình huấn luyện trước: o BERTSUM-TA [46]: phiên sử dụng mơ hình huấn luyện trước BERTSUM [46] o BART-TA [46]: phiên sử dụng mơ hình huấn luyện trước BART [46] o T-BERTSUM [47]: mơ hình dựa BERT tập trung vào khai thác chủ đề kết hợp mô hình đào tạo trước để nắm bắt biểu diễn ngữ cảnh Bảng 3.3 Bảng 3.4 biểu diễn kết thực nghiệm thu mơ hình đề xuất, với RG biểu diễn điểm số theo phương pháp đánh giá ROUGE Bảng 3.3 Kết thực nghiệm liệu CNN/DM Mơ hình BART RG-1 RG-2 RG-L 44.16 21.28 40.90 40 BERTSum PEGASUS BERTSum-TA BART-TA T-BERTSum Mô hình đề xuất 43.85 44.17 43.06 44.47 43.06 44.76 20.34 21.47 20.58 21.39 19.76 21.86 39.90 41.11 39.67 41.32 39.43 40.89 Bảng 3.4 Kết thực nghiệm liệu XSum Mơ hình BART BERTSum PEGASUS BERTSum-TA BART-TA T-BERTSum Mơ hình đề xuất RG-1 45.14 38.81 47.21 39.77 45.76 39.90 47.34 RG-2 22.27 16.50 24.56 17.39 22.68 17.48 25.42 RG-L 37.25 31.27 39.25 32.39 38.03 32.18 39.33 Thực nghiệm đánh giá siêu tham số Các siêu tham số tham khảo kế thừa từ mơ hình đào tạo trước, phạm vị nghiên cứu, luận văn thực đánh giá hai tham số TM 𝐾 𝛼 Luận văn thực nghiệm liệu CNN/DM để tìm hệ số 𝛼 phù hợp cho mơ hình, kết biểu diễn Bảng 3.5 Bảng 3.5 Kết thực nghiệm đánh giá hệ số 𝛼 a 0.1 ROUGE-1 ROUGE-2 ROUGE-L 44.57 21.60 36.71 44.76 21.86 40.89 44.28 21.06 35.97 Luận văn thực thực nghiệm để tìm hệ số 𝐾 số lượng chủ đề TM phù hợp với mô hình liệu XSum, kết biểu diễn Bảng 3.6 Bảng 3.6 Thực nghiệm đánh giá hệ số K 𝐾 64 256 512 1024 ROUGE-1 47.27 47.31 47.18 47.34 ROUGE-2 24.90 24.82 25.16 25.42 ROUGE-L 38.91 39.27 38.87 39.33 41 Thực nghiệm với lượng liệu hạn chế Trong thực tế, khó thu thập lượng lớn liệu để huấn luyện mơ hình tóm tắt Do đó, luận văn thực thực nghiệm mơ hình với liệu bị hạn chế số lượng để đánh giá độ thích nghi mơ hình với liệu Luận văn thực phép thử với số lượng liệu khác 0, 10, 100, 10000 liệu CNN/DM Bảng 3.7 biểu diễn kết đánh giá mơ hình với liệu bị hạn chế Bảng 3.7 Kết thực nghiệm kích thước tập huấn luyện CNN/DM Kích thước ROUGE- ROUGE- ROUGEtập huấn L luyện 41.17 21.47 41.11 10 41.32 21.67 41.31 100 42.67 22.06 42.12 10000 43.63 22.57 42.11 Có thể thấy, kế thừa tồn trọng số mơ hình đào tạo trước PEGASUS chưa thực bước huấn luyện với liệu mới, mơ hình đề xuất cho kết mơ hình PEGASUS đơn Thực nghiệm đánh giá cấu trúc đầu vào TM Luận văn thực thử nghiệm cắt bỏ liệu XSum để phân tích mức độ ảnh hưởng phần đầu vào TM Có thể thấy rằng, việc sử dụng phần đầu H mã hoá PEGASUS kết hợp với BOW giúp mơ hình đề xuất cải thiện hiệu cách rõ rệt so với hướng tiếp cận trước dùng biểu diễn BOW văn đầu vào Bảng 3.8 biểu diễn kết thực nghiệm Trong đó, Mơ hình/H Mơ hình/BOW mơ hình đề xuất lược bỏ phần trạng thái ẩn H phần biểu diễn BOW đầu vào Có thể thấy rằng, việc sử dụng phần đầu H mã hố PEGASUS kết hợp với BOW giúp mơ hình đề xuất cải thiện hiệu cách rõ rệt so với hướng tiếp cận trước dùng biểu diễn BOW văn đầu vào Bảng 3.8 Kết thực nghiệm cắt bỏ đầu vào TM Mơ hình ROUGE1 Mơ hình/H 45.4 Mơ hình/BOW 47.14 Mơ hình đề 47.34 xuất ROUGE2 22.84 24.56 25.42 ROUGEL 37.86 38.85 39.33 42 Đánh giá ảnh hưởng mơ hình huấn luyện trước Xương sống mơ hình đề xuất mơ hình huấn luyện trước PEGASUS Luận văn thực thực nghiệm liệu XSum để kiểm chứng xem phương pháp kết hợp mơ hình chủ đề có hoạt động với mơ hình huấn luyện trước khác hay không Luận văn thay PEGASUS BART đánh giá kết mơ hình Bảng 3.9 Thực nghiệm đánh giá ảnh hưởng mơ hình đào tạo trước Mơ hình ROUGE-1 ROUGE-2 ROUGE-L BART 45.14 22.17 37.25 BART+TM 45.44 23.00 37.99 PEGASUS 47.21 24.56 39.25 PEGASUS+TM 47.34 25.42 39.33 Kết cho ta thấy, việc thêm kiến trúc CombinedTM để tinh chỉnh mơ hình đào tạo trước có hiểu rõ rết việc cải thiện chất lượng tóm tắt sinh Thực nghiệm mơ kết tóm tắt Luận văn thực việc so sánh kết đầu thực tế mơ hình đề xuất, PEGASUS tóm tắt người Kết biểu diễn Bảng 3.10 Bảng 3.10 Kết thực nghiệm tóm tắt thực tế Bản tóm tắt Mơ hình đề GP practices in England are being xuất paid to reduce the number of patients they refer to hospital, an investigation has found PEGASUS Thousands of pounds are being Ví paid to GPs in England to avoid dụ sending patients to hospital, an investigation has found Con người According to an investigation, some doctors in England are being paid thousands of pounds to reduce the number of patients admitted to hospitals Mơ hình đề A light aircraft has crashed in a xuất field in Stoke-on-Trent PEGASUS A Yorkshire terrier worth 100,000 Ví has been stolen from a pet shop in dụ Stoke-on-Trent Con người A 900-pound African Grey parrot was taken from a Caerphilly pet store 43 Trong ví dụ 1, thấy ba tóm tắt tương đối giống Tuy nhiên, phần tóm tắt mơ hình đề xuất tạo nhiều từ ngữ cảnh so với PEGASUS (“reduce the number of patients” – “giảm số lượng bệnh nhân” thay “avoid sending patients”-“tránh gửi bệnh nhân”) Tuy nhiên, ví dụ thứ hai, mơ hình đề xuất lại tạo tóm tắt hồn tồn khác với tóm tắt người tạo mặt ý nghĩa, tóm tắt PEGASUS người có vài từ giống nhiên mặt ngữ nghĩa khác hồn tồn 3.4 Đánh giá kết thực nghiệm Qua thực nghiệm đánh giá trình bày trên, luận văn rút số nhận xét mơ hình đề xuất: • Mơ hình có kết cho thấy cải tiến rõ ràng so với mơ hình gốc (PEGASUS) cho thấy phương pháp kết hợp có hiệu việc cải tiến mơ hình huấn trước, hay nói cách khác, việc kết hợp mơ hình chủ đề giúp mơ hình huấn luyện trước thu nhiều ngữ cảnh toàn cục sinh văn hợp với ngữ cảnh văn • Mơ hình đề xuất hoạt động chưa tốt với lượng liệu nhỏ, nhiên, có liệu đủ nhiều, mơ hình học nhanh cho kết đánh giá tốt • Việc bổ sung phần đầu H mã hoá PEGASUS giúp mơ hình cải thiện hiệu cách rõ rệt, điều chứng tỏ • Thực nghiệm đánh giá ảnh hưởng mơ hình huấn luyện trước cho thấy, phương pháp kết hợp cải thiện hiệu mơ hình huấn luyện trước khơng tốn ATS mà tốn khác mà cần bổ thêm sung ngữ cảnh tồn cục cho mơ hình • Trong thực nghiệm tóm tắt thực tế, thấy mơ hình đề xuất có tóm tắt sử dụng từ ngữ ngữ cảnh so với PEGASUS, điều chứng tỏ phương pháp bổ sung ngữ nghĩa toàn cục văn hoạt động hiệu giúp cải thiện mơ hình huấn luyện trước • Tuy nhiên, mơ hình đề xuất có tóm tắt tệ so với PEGASUS, điều lý giải mơ hình nhạy cảm với thơng tin nhiễu so với mơ hình gốc, điểm yếu cần cải thiện mơ hình 44 KẾT LUẬN Kết luận Sau nghiên cứu phương pháp giải tốn tóm tắt văn nói chung tóm tắt hướng tóm lược nói riêng, luận văn xác định ý nghĩa ứng dụng thực tiễn mà tốn mang lại tìm hiểu, khảo sát hướng nghiên cứu liên quan Từ phân tích trên, luận văn đề xuất mơ hình kết hợp mơ hình chủ đề mơ hình đào tạo trước để giải tốn tóm tắt văn hướng tóm lược Cụ thể, kết luận văn đạt được, bao gồm: • Đưa nhìn tổng quan tốn tóm tắt văn • Tìm hiểu kỹ tóm tắt văn hướng tóm lược phương pháp kết hợp mơ hình chủ đề để cải thiện mơ hình huấn luyện trước cho tốn • Đề xuất mơ hình kết hợp mơ hình chủ đề mơ hình đào tạo trước để giải tốn tóm tắt văn hướng tóm lược • Thực nghiệm kiểm chứng ảnh hưởng mô hình chủ đề yếu tố liên quan việc cải thiện hiệu mơ hình huấn luyện trước Các kết thực nghiệm liệu chứng minh hiệu phương pháp đề xuất so với mơ hình nghiên cứu trước qua phương pháp đánh giá độ đo ROUGE Định hướng phát triển Mặc dù có kết tốt hai liệu CNN/DM XSum, nhiên mơ hình đề xuất cần phải có cải tiến thêm cụ thể sau: • Thực thực nghiệm đánh giá nhiều liệu khác để có nhìn khách quan hiệu phương pháp đề xuất luận văn • Thực nghiệm thay thêm mơ hình huấn luyện trước khác để đánh giá khách quan phương pháp có hiệu trường hợp hay khơng, thay mơ hình huấn luyện trước kiểu mơ hình khác để đánh giá khả thích nghi phương pháp đề xuất • Xem xét để tối ưu hóa chi phí tính tốn mơ hình PEGASUS mơ hình lớn, kết hợp thêm với mơ hình chủ đề dẫn đến chi phí tính tốn tăng thêm đáng kể • Sử dụng phương pháp xây dựng mơ hình chủ đề khác để có nhìn tổng quan ảnh hưởng mơ hình chủ đề tốn • Cải tiến mơ hình để khắc phục nhược điểm nhạy cảm với thông tin nhiễu trình bày trình thực nghiệm 45 TÀI LIỆU THAM KHẢO [1] Wafaa S El-Kassas, Cherif R Salama, Ahmed A Rafea, Hoda K Mohamed, "Automatic text summarization: A comprehensive survey," Expert Systems with Applications, vol 165, no 0957-4174, p 113679, 2021 [2] W Yu and Wenhao Yu and Chenguang Zhu and Zaitang Li and Zhiting Hu and Qingyun Wang and Heng Ji and Meng Jiang, "A Survey of KnowledgeEnhanced Text Generation," ACM Computing Surveys (CSUR), 2022 [3] H P Luhn, "The Automatic Creation of Literature Abstracts," IBM Journal of Research and Development, vol 2, no 2, pp 159-165, 1958 [4] Mihalcea, Rada and Tarau, Paul, "TextRank: Bringing Order into Text," in Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 2004, pp 404-411 [5] G Erkan and D.G Radev, "Lexrank: Graph-based lexical centrality as salience in," Journal of Artificial Intelligence Research, p 457–479, 2004 [6] López Espejel, Jessica, "Automatic abstractive summarization of long medical texts with multi-encoders Transformer and general-domain summary evaluation with wikiSERA," 2021 [7] McKeown, Kathleen and Barzilay, Regina and Evans, David and Hatzivassiloglou, Vasileios and Klavans, Judith and Nenkova, Ani and Sable, Carl and Schiffman, Barry and Sigelman, Sergey, "Tracking and Summarizing News on a Daily Basis with Columbia's Newsblaster," Morgan Kaufmann Publishers Inc, 2003 [8] Rada Mihalcea and Hakan Ceylan, "Explorations in Automatic Book Summarization," in EMNLP, 2007 [9] Muresan, Smaranda and Tzoukermann, Evelyne and Klavans, Judith L., "Combining linguistic and machine learning techniques for email summarization," in Proceedings of the {ACL} 2001 Workshop on Computational Natural Language Learning (ConLL), 2001 [10] Kavila, S.D., Puli, V., Prasada Raju, G.S.V., Bandaru, R., "An Automatic Legal Document Summarization and Search Using Hybrid System," in Proceedings of the International Conference on Frontiers of Intelligent Computing: Theory and Applications (FICTA), Berlin, Heidelberg, Springer Berlin Heidelberg, 2013, pp 229-236 [11] Alampalli Ramu, Nikhil and Bandarupalli, Mohana Sai and Nekkanti, Manoj Sri Surya and Ramesh, Gowtham, "Summarization of Research Publications Using Automatic Extraction," in Intelligent Data Communication 46 Technologies and Internet of Things, Cham, Springer International Publishing, 2020, pp 1-10 [12] Joshi, M., Wang, H., McClean, S., "Dense Semantic Graph and Its Application in Single Document Summarisation," pp 55-67, 01 2018 [13] Khurshid Bhat, Iram and mohd, Mudasir and Hashmy, Rana, "SumItUp: A Hybrid Single-Document Text Summarizer," 2018, pp 619-634 [14] Wang, Shuai and Zhao, Xiang and Li, Bo and Ge, Bin and Tang, Daquan, "Integrating Extractive and Abstractive Models for Long Text Summarization," in 2017 IEEE International Congress on Big Data (BigData Congress), 2017, pp 305-312 [15] TRẦN MAI VŨ, "TÓM TẮT ĐA VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU," HÀ NỘI, 2009 [16] K Sparck, "A statistical interpretation of term specificity and its application in retrieval," Journal of Documentation, p 11–21, 1972 [17] G Salton and C S Yang, "On the specification of term values in automatic indexing," Journal of Documentation, p 351–372, 1973 [18] M Yousefi-Azar and L Hamey, "Text summarization using unsupervised deep learning," Expert Systems with Applications, vol 68, no 0957-4174, pp 93-105, 2017 [19] Sergey Brin and Lawrence Page, "The anatomy of a large-scale hypertextual Web search engine," Computer Networks and ISDN Systems, vol 30, no 1, pp 107-117, 1998 [20] Wan, Xiaojun, "An Exploration of Document Impact on Graph-Based MultiDocument Summarization," in Proceedings of the Conference on Empirical Methods in Natural Language Processing, Honolulu, Hawaii, Association for Computational Linguistics, 2008, p 755–762 [21] Baoyu Jing and Zeyu You and Tao Yang and Wei Fan and Hanghang Tong, "Multiplex Graph Neural Network for Extractive Text Summarization," CoRR, 2021 [22] Jing, Hongyan and McKeown, Kathleen, "The Decomposition of HumanWritten Summary Sentences," 2000 [23] Conroy, John M and O'leary, Dianne P., "Text Summarization via Hidden Markov Models," in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York, NY, USA, Association for Computing Machinery, 2001, p 406– 407 [24] Russell, Stuart and Norvig, Peter, "Artificial Intelligence (A Modern Approach)," Prentice Hall, 2010 47 [25] Y.J Kumar, O.S Goh, H Basiron, N.H Choon, and P Suppiah, "A review on automatic text summarization approaches," Journal of Computer Science, p 178–190, 2016 [26] Kupiec, Julian and Pedersen, Jan and Chen, Francine, "A Trainable Document Summarizer," in Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York, NY, USA, Association for Computing Machinery, 1995, p 68–73 [27] Ramiz M Aliguliyev, "A new sentence similarity measure and sentence based extractive technique for automatic text summarization," Expert Systems with Applications, vol 36, no 4, pp 7764-7772, 2009 [28] Km, Shivakumar and Soumya, R., "Text summarization using clustering technique and SVM technique," vol 10, pp 25511-25519, 2015 [29] Kecman, V., "Support Vector Machines - An Introduction," in Support Vector Machines: Theory and Applications, Berlin, Heidelberg, Springer Berlin Heidelberg, 2005, pp 1-47 [30] Schilder, Frank and Kondadadi, Ravikumar, "FastSum: Fast and Accurate Query-based Multi-document Summarization," in Proceedings of ACL-08: HLT, Short Papers, Association for Computational Linguistics, 2008, pp 205-208 [31] Begum, Nadira and Fattah, Mohamed and Ren, Fuji, "Automatic text summarization using support vector machine," nternational Journal of Innovative Computing, Information and Control, vol 5, pp 1987-1996, 2009 [32] Ilya Sutskever and Oriol Vinyals and Quoc V Le, "Sequence to Sequence Learning with Neural Networks," CoRR, 2014 [33] Hochreiter, Sepp and Schmidhuber, Jürgen, "Long Short-term Memory," Neural computation, vol 9, pp 1735-80, 1997 [34] Dzmitry Bahdanau and Kyunghyun Cho and Yoshua Bengio, "Neural Machine Translation by Jointly Learning to Align and Translate," CoRR, 2015 [35] Ashish Vaswani and Noam Shazeer and Niki Parmar and Jakob Uszkoreit and Llion Jones and Aidan N Gomez and Lukasz Kaiser and Illia Polosukhin, "Attention Is All You Need," CoRR, 2017 [36] Devlin, Jacob and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," in Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: 48 Human Language Technologies, Volume (Long and Short Papers), Association for Computational Linguistics, 2019, pp 4171-4186 [37] Jingqing Zhang and Yao Zhao and Mohammad Saleh and Peter J Liu, "PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization," CoRR, 2019 [38] Mike Lewis and Yinhan Liu and Naman Goyal and Marjan Ghazvininejad and Abdelrahman Mohamed and Omer Levy and Veselin Stoyanov and Luke Zettlemoyer, "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension," CoRR, 2019 [39] Alexander M Rush and Sumit Chopra and Jason Weston, "A Neural Attention Model for Abstractive Sentence Summarization," CoRR, 2015 [40] Abigail See and Peter J Liu and Christopher D Manning, "Get To The Point: Summarization with Pointer-Generator Networks," CoRR, 2017 [41] Narayan, Shashi and Cohen, Shay B and Lapata, Mirella, "Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization," in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, Association for Computational Linguistics, 2018, pp 1797-1807 [42] Yang Liu and Mirella Lapata, "Text Summarization with Pretrained Encoders," CoRR, 2019 [43] David M Blei, and Andrew Y Ng, and Michael I Jordan, "Latent dirichlet allocation," ournal of Machine Learning Research (JMLR), 2003 [44] Bianchi, Federico and Terragni, Silvia and Hovy, Dirk, "Pre-training is a Hot Topic: Contextualized Document Embeddings Improve Topic Coherence," in Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), Association for Computational Linguistics, 2021, pp 759-766 [45] Xiyan Fu and Jun Wang and Jinghan Zhang and Jinmao Wei and Zhenglu Yang, "Document Summarization with VHTM: Variational Hierarchical Topic-Aware Mechanism," in AAAI, 2020 [46] Wang, Zhengjue and Duan, Zhibin and Zhang, Hao and Wang, Chaojie and Tian, Long and Chen, Bo and Zhou, Mingyuan, "Friendly Topic Assistant for Transformer Based Abstractive Summarization," in Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Online, Association for Computational Linguistics, 2020, pp 485-497 49 [47] Ma, Tinghuai and Pan, Qian and Rong, Huan and Qian, Yurong and Tian, Yuan and Al-Nabhan, Najla, "T-BERTSum: Topic-Aware Text Summarization Based on BERT," IEEE Transactions on Computational Social Systems, vol 9, no 3, pp 879-890, 2022 [48] J Steinberger and K Ježek, "Evaluation Measures for Text Summarization," COMPUTING AND INFORMATICS, p 1001–1026, 2012 [49] Ani Nenkova, "Summarization evaluation for text and speech: Issues and approaches," ICSLP, p 1527–1530, 2006 [50] Sasaki, Yutaka, "The truth of the F-measure," Teach Tutor Mater, 2007 [51] D.R Radev, D Tam, and G Erkan, "Single-document and multi-document summary evaluation using relative utility," CIKM’03, p 52, 2003 [52] Chin-Yew Lin, "Rouge: A package for automatic evaluation of summaries," Text Summarization Branches Out: Proceedings of the ACL-04 Workshop, p 74–81, 2004 [53] Darshna Patel, "Feature based Extractive Text Summarization for News," Wadhwancity, 2019 [54] Akash Srivastava and Charles Sutton, "Autoencoding Variational Inference For Topic Models," in International Conference on Learning Representations, 2017 [55] Karl Moritz Hermann and Tomas Kocisky and Edward Grefenstette and Lasse Espeholt and Will Kay and Mustafa Suleyman and Phil Blunsom, "Teaching Machines to Read and Comprehend," in NIPS, 2015 [56] Ramesh Nallapati and Bing Xiang and Bowen Zhou, "Sequence-to-Sequence RNNs for Text Summarization," CoRR, 2016 50 ... lượng mơ hình tóm tắt văn theo hướng tóm lược, đề xuất mơ hình kế thừa cải tiến từ phương pháp kể Mơ hình đề xuất luận văn kết hợp mô hình chủ đề mơ hình đào tạo trước giải tốn tóm tắt văn theo... tóm lược • Đề xuất mơ hình tóm tắt văn theo hướng tóm lược dựa việc kết hợp mơ hình chủ đề mơ hình huấn luyện trước • Thực nghiệm mơ hình hai liệu tiếng cho tốn tóm tắt văn • Đánh giá kết thực... hình chủ đề mơ hình huấn luyện trước để giải tốn tóm tắt theo hướng tóm lược Mơ hình chủ đề nhận đầu vào kết hợp liệu gốc thành phần đầu mã hóa từ mơ hình huấn luyện trước, sau đó, kết hợp đầu

Định dạng
Số trang	62
Dung lượng	1,41 MB