1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt văn bản theo hướng chủ đề sử dụng deep learning

60 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 60
Dung lượng 1,77 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ TÓM TẮT VĂN BẢN THEO HƯỚNG CHỦ ĐỀ SỬ DỤNG DEEP LEARNING BÙI VĂN TÀI taibk59@gmail.com Ngành Hệ Thống Thông Tin Giảng viên hướng dẫn: PGS.TS Nguyễn Thị Kim Anh Chữ ký GVHD Viện: Công Nghệ Thông Tin Truyền Thơng Hà Nội, 10/2020 CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Bùi Văn Tài Đề tài luận văn: Tóm tắt văn theo hướng chủ đề sử dụng deep learning Chuyên ngành: Hệ thống thông tin Mã số SV: CBC19011 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 30/10/2020 với nội dung sau: Ngày Giáo viên hướng dẫn tháng năm Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Lời cảm ơn Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy, cô giáo Viện Công nghệ Thông tin Truyền thông, trường đại học Bách Khoa Hà Nội Chính thầy giáo giảng dạy cho em nhiều kiến thức quan trọng trình em học tập nghiên cứu trường Đồng thời em xin gửi lời cảm ơn đặc biệt đến cô PSG.TS Nguyễn Kim Anh người hướng dẫn tận tình, cho em kinh nghiệm q giá giúp em hồn thành luận văn tốt nghiệp Em xin gửi lời cảm ơn chân thành tới gia đình bạn bè Những động viên tinh thần to lớn từ người động lực để em vượt qua khó khăn Học viên: Bùi Văn Tài, CBC19011, khố CLC2019B, lớp Hệ thống thơng tin (Khoa Học) Tóm tắt nội dung Tóm tắt văn ln tốn thách thức cho lĩnh vực xử lý ngơn ngữ tự nhiên, địi hỏi mơ hình phải hiểu ngữ nghĩa, ngữ pháp, tính diễn ngôn ngôn ngữ Tuy vấn đề khó lại có nhiều ứng dụng thực tế, giúp người tiết kiệm thời gian đọc hết văn dài, mà nắm ý văn Tuy nhiên nghiên cứu chủ yếu tập trung đơn tóm tắt, nghĩa văn sinh tóm tắt Nhưng thực tế, văn bao gồm nhiều lĩnh vực, chủ đề khác nội dung cần có nhiều tóm tắt cho chủ đề Nhận thấy điều nên luận văn trình bày đề tài "Tóm tắt văn theo hướng chủ đề sử dụng deep learning" Luận văn tổng hợp nghiên cứu liên quan, đánh giá khó khăn với tốn sinh nhiều tóm tắt cho chủ đề riêng biệt Ngoài luận văn tập trung vào vấn đề tạo tập liệu phù hợp với toán tóm tắt đề ra, từ nghiên cứu mơ hình thử nghiệm, giải pháp để xử lý nhằm nâng cao kết tốn tóm tắt theo chủ đề Mục lục Tổng quan 1.1 Động lực nghiên cứu 1.2 Mục tiêu nghiên cứu 10 1.3 Đóng góp nghiên cứu 10 1.4 Cấu trúc luận văn 10 Cơ sở lý thuyết 12 2.1 Mạng neural nhân tạo 12 2.2 Kiến trúc mạng neural [2] 13 2.3 Hàm tác động 14 2.3.1 Hàm tác động Sigmoid [2] 14 2.3.2 Hàm tác động ReLU [2] 14 2.4 Quy tắc học trọng số [1] 15 2.5 Mạng neural hồi quy 17 2.6 Long-short term memory 18 2.7 Mơ hình encoder-decoder (seq2seq) 19 2.8 2.9 2.7.1 Bộ Mã Hóa (Encoder) 19 2.7.2 Bộ Giải Mã (Decoder) 20 2.7.3 Cơ chế Attention 20 Mơ hình Transformer 24 2.8.1 Bộ mã hóa 24 2.8.2 Multi-Head Attention 26 2.8.3 Bộ giải mã 29 Các nghiên cứu liên quan 30 2.9.1 Tóm tắt trích chọn (extractive) 30 2.9.2 Tóm tắt tóm lược(abstractive) 34 Mơ hình đề xuất 38 3.1 Vấn đề cần giải 38 3.2 Mơ hình tóm tắt hai pha 39 3.3 3.2.1 Mơ hình trích chọn hướng chủ đề 39 3.2.2 Mơ hình tóm lược hướng chủ đề 40 Mơ hình tóm tắt kết hợp 44 4 Dữ liệu huấn luyện 47 4.1 Bộ liệu thử nghiệm 47 4.2 Phương pháp đánh giá 51 4.3 Kết đánh giá 53 Kết luận 57 Danh sách hình vẽ Cấu trúc mạng neural [1] 13 Kiến trúc mạng neural [2] 13 Hàm Sigmoid [2] 14 Hàm ReLU [2] 15 Kiến trúc mạng LSTM [5] 18 Mơ hình encoder-decoder (seq2seq) [8] 19 Cơ chế attention[11] Mô tả mối liên hệ từ dịch từ tiếng Pháp sang tiếng 21 Anh sử dụng thêm chế ’chú ý’ [11] 23 Mơ hình Transformer [13] 24 10 Bộ mã hóa mơ hình Transformer [13] 25 11 Cơ chế Scaled Dot-Product Attention Multi-Head Attention [14] 26 12 Cơ chế self-attention [14] 27 13 Cơ chế self-attention [14] 27 14 Cơ chế Multi-Head Attention [14] 28 15 Bộ giải mã mơ hình Transformer [13] 29 16 Minh họa mơ hình LDA với giá trị tham số [30] 31 17 Mơ hình SummaRuNNer cho tốn tóm tắt trích rút [15] 32 18 Mô hình BERTSUM [16] 33 19 Mơ hình Seq2Seq với chế ’chú ý’ [17] 35 20 Mơ hình Pointer-Generator [17] 36 21 Mơ hình trích chọn hướng chủ đề 39 22 Pointer-Generator kết hợp Transformer [21] 23 Mơ hình tóm tắt kết hợp 44 24 Dữ liệu tóm tắt 47 25 Mô hình tạo liệu tóm tắt 48 26 Thống kê số lượng từ tóm tắt 50 27 Thống kê số lượng từ văn đầu vào 51 42 Danh sách bảng Từ khóa chủ đề khác 30 Bộ liệu BBC News qua xử lý 48 Bộ liệu thử nghiệm 50 Kết thử nghiệm bước trích rút mơ hình hai pha 54 So sánh kết thử nghiệm ROUGE F1 bước trích rút mơ hình hai pha 54 Kết so sánh thử nghiệm bước tóm lược mơ hình hai pha 54 Kết thử nghiệm mơ hình hai pha 55 Kết thử nghiệm mơ hình kết hợp 55 Danh sách từ viết tắt ANN Artificial Neural Network LSTM Long Short-Term Memory RNN Recurrent Neural Network Seq2seq Sequence to Sequence Tổng quan 1.1 Động lực nghiên cứu Tóm tắt văn toán nghiên cứu quan trọng lĩnh vực xử lý ngơn ngữ tự nhiên, có tính ứng dụng lớn đời sống đại Tóm tắt văn giúp người nhanh chóng tiếp cận ý chính, nội dung bật tài liệu mà không cần phải đọc tồn bộ, từ tiết kiệm nhiều thời gian, cơng sức Ứng dụng tóm tắt văn thể nhiều lĩnh vực thực tế : • Lĩnh vực báo chí: Trên trang báo điện tử, ta hiển thị đoạn tóm tắt báo bên ngồi, để người đọc nắm nội dung định bấm vào đọc chi tiết báo hay khơng Điều tạo nhiều thuận tiện cho độc giả tìm nội dung phù hợp với • Lĩnh vực phân tích: Ta ln cần tóm tắt cho chủ đề, lĩnh vực báo cáo lớn, giúp người đọc có nhìn tổng qt, nhanh chóng vấn đề trình bày • Lĩnh vực giáo dục: Trong tác phẩm văn học, hay lịch sử tạo tóm lược nội dung, điều giúp ích cho học sinh nắm nội dung học, tiếp thu kiến thức dễ dàng Với mơ hình tóm tắt, đem lại nhiều lợi ích: • Khả nắm bắt thông tin: ta phải đọc văn ngắn, súc tích nội dung đương nhiên giúp ta nhớ nắm ý nhanh • Khả tìm kiếm: Thay phải tìm đọc qua văn dài nhiều ý, hệ thống dựa vào tóm tắt ngắn để tìm kiếm văn này, giúp tiết kiệm tài nguyên thời gian Những điều nêu thể giá trị tính ứng dụng lớn tóm tắt văn thực tế Tuy nhiên nhiều thách thức phải xử lý văn có độ dài lớn, tóm tắt sinh chưa đủ nội dung chính, bị khó đọc sinh sai ngữ nghĩa, ngữ pháp Những khó khăn đặt nhiều vấn đề cần nghiên cứu, giải cho tốn tóm tắt văn 1.2 Mục tiêu nghiên cứu Khi đọc văn hay tài liệu, hành vi phổ biến người đọc lướt để chọn lọc thông tin quan trọng đáng ý hay phần thơng tin mà quan tâm Trong tài liệu bao gồm nhiều phần nội dung khác chủ đề khác nhau, mà người quan tâm đến chủ đề Điều nảy sinh vấn đề ta cần phải tạo nhiều tóm tắt cho chủ đề văn bản, giúp tóm tắt tập trung, thể phần thông tin riêng biệt Xuất phát từ vấn đề đó, luận văn tập trung nghiên cứu tốn sinh tóm tắt theo chủ đề văn Thay có tóm tắt nhất, ta thu tóm tắt theo chủ đề riêng biệt với nội dung chuyên biệt Điều giúp người đọc dễ dàng tập trung vào phần thơng tin mà quan tâm Luận văn hướng tới kết hợp mơ hình tóm tắt trích rút tóm tắt tóm lược theo chủ đề nhằm nâng cao chất lượng tóm tắt 1.3 Đóng góp nghiên cứu Luận văn tập trung vào nhiệm vụ chính: • Xây dựng tập liệu bao gồm văn tóm tắt riêng biệt theo chủ đề Do hạn chế liệu, ta phải tự tạo tập liệu phù hợp với toán đề từ tập liệu cơng bố có sẵn • Xây dựng mơ hình tóm tắt theo chủ đề kết hợp tóm tắt trích rút tóm tắt tóm lược Thực huấn luyện mơ hình theo chiến lược khác nhằm tìm phương pháp nâng cao chất lượng tóm tắt 1.4 Cấu trúc luận văn • Phần mở đầu luận văn trình bày động lực, mục tiêu nghiên cứu luận văn • Phần thứ hai khái niệm bản, sở lý thuyết học máy, mạng học sâu lý thuyết xử lý ngôn ngữ tự nhiên Phần tập trung vào kiến thức bản, mơ hình tảng phục vụ cho phần Trong mục ta cịn trình bày nghiên cứu liên quan đến tốn tóm tắt với hai phương pháp tóm tắt chính: trích rút tóm lược • Phần thứ ba trình bày mơ hình giải tốn sinh nhiều tóm tắt theo chủ đề, mơ hình kết hợp mơ hình tóm tắt trích rút mơ hình tóm tắt tóm lược 10 Việc dự đốn từ yˆt+1 , ta sử dụng trạng thái ẩn st bước này, vector biểu diễn từ - e(yt ) vector ngữ cảnh z từ bên mã hóa: yˆt+1 = sof tmax(f (e(yt ), st , z)) Ta tối ưu hàm lỗi negative log-likelihood từ sinh ra: lossw = −logP (ˆ yt ) Ở mơ hình tóm tắt kết hợp hướng chủ đề ta sử dụng vector d - biểu diễn văn bước mã hóa, để truyền sang bên giải mã Như trình bày phía trên, điều giúp mơ hình lưu giữ thêm thơng tin văn gốc, từ giúp giải mã có thêm đặc trưng để sinh tóm tắt tốt Mơ hình tóm tắt kết hợp hướng tới tối ưu xác suất sinh từ cho tóm tắt tóm lược, đồng thời địi hỏi mã hóa mơ hình học biểu diễn tốt văn gốc đầu vào mã hóa nhiều thơng tin hơn, từ cải thiện kết pha trích rút câu, điều giúp tăng độ xác cho tóm tắt trích rút sinh Mơ hình tóm tắt kết hợp mơ hình đầu cuối (end to end) nên ta cần huấn luyện mô hình nhất, điều đơn giản mơ hình hai pha ta phải huấn luyện hai mơ hình tóm tắt riêng biệt Việc kết hợp thêm giải mã mơ hình kết hợp rõ ràng giải vấn đề mát thơng tin mã hóa tồn mơ hình hai pha độc lập 46 Dữ liệu huấn luyện 4.1 Bộ liệu thử nghiệm Dữ liệu tóm tắt văn khó để tạo ra, phải địi hỏi người tạo liệu phải có chun mơn ngơn ngữ, đọc hiểu khả tóm lược lại ý Ta ln gặp khó khăn với việc có liệu tóm tắt đủ chất lượng Bài toán muốn hướng đến tóm tắt theo chủ đề văn bản, với văn (a) (st ) tóm tắt a theo chủ đề t, ta mong muốn văn có nhiều tóm tắt, tóm tắt theo chủ đề khác Hình 24: Dữ liệu tóm tắt Các liệu cơng bố đơn tóm tắt, văn có mơt tóm tắt Trên giới liệu tiếng CNN/Dailymail bao gồm báo tóm tắt tóm lược Tuy nhiên liệu chứa tóm tắt cho văn bản, văn khơng có nhãn thể báo thuộc chủ đề Điều gây khó khăn ta cần thêm mơt bước để xác định chủ đề tạo tóm tắt khác theo chủ đề riêng biệt, điều làm giảm độ khách quan tập liệu Với liệu BBC News Summary [22], chứa 2225 báo từ trang tin tức BBC News theo chủ đề riêng biệt: thể thao, kinh tế, trị, giải trí, cơng nghệ 47 Sau lọc có số lượng câu lớn 50, số lượng lại 2204 Bộ liệu bao gồm báo gốc tóm tắt tóm lược Thể thao 510 Kinh tế 510 Chính trị 412 Giải trí 380 Cơng nghệ 392 Bảng 2: Bộ liệu BBC News qua xử lý Tại đây, ta coi nhãn báo chủ đề cần tóm tắt, tóm tắt tóm lược báo tóm tắt theo chủ đề Vấn đề ta phải tạo văn mà nội dung bao gồm nhiều chủ đề Giải vấn đề cần nhiều tóm tắt theo chủ đề văn bản, ta sử dụng phương pháp sinh liệu tự động phù hợp [19], tiến hành ghép văn thuộc chủ đề khác thành văn đầu vào, coi tóm tắt tóm tắt theo chủ đề riêng biệt: Hình 25: Mơ hình tạo liệu tóm tắt Ta tạo cặp liệu (a, ut , s) với ut vector one-hot để biểu diễn cho chủ đề t tóm tắt s Vector có chiều có giá trị ứng với chủ đề biểu diễn, vị trí khác có giá trị Ví dụ [0, 0, 1, 0, 0] biểu diễn thể văn thuộc chủ đề thứ Ta chọn ngẫu nhiên cặp (a1 , ut1 , s1 ) (a2 , ut2 , s2 ) với t1 t2 khác nhau, hay nói cách khác ta chọn văn thuộc chủ đề khác Ta tạo văn a cách lấy ngẫu nhiên câu văn a1 a2 Điều đảm bảo thứ tự câu a1 a2 giữ nguyên văn a , ý nghĩa văn không bị thay đổi 48 Ta thêm (a , ut1 , s1 ) vào tập liệu phục vụ huấn luyện mơ hình Ta lặp lại bước để tạo văn a , thêm (a , ut2 , s2 ) vào tập liệu cuối Lặp lại bước đến văn chủ đề ghép với văn chủ đề khác không bị lặp lại Sau tạo xong liệu từ phương pháp trên, ta thu văn tổng hợp hai văn gốc ban đầu thuộc hai chủ đề khác nhau, tóm tắt riêng cho chủ đề tóm tắt hai văn gốc đó, đáp ứng yêu cầu tốn muốn giải Mơ hình phải học khác hai chủ đề để tạo tóm tắt riêng biệt cho chủ đề Một vấn đề gặp phải với liệu tóm tắt tóm tắt tóm tắt tóm lược người viết Khi ta muốn liệu phải bao gồm nhãn câu thể câu có nằm tóm hay khơng để phục vụ cho mơ hình tóm tắt trích chọn, để đạt điều ta cần phải dùng phương pháp để chuyển từ tóm tắt tóm lược sang tóm tắt trích chọn Ở ta sử dụng thuật toán tham lam Ý tưởng ta chọn câu vào tập câu trích chọn cho độ đo Rouge (trình bày phần tiếp theo) tóm tắt trích chọn tạo tóm tắt tóm lược lớn Thuật toán Greedy Search: : S := ∅ : maxrouge =0.0 : for i ←1 to n si := rouge(S ∪ xi , abs) if maxrouge < si : S:=S ∪xi maxrouge := si 4: end for Từ ta thu tóm tắt trích chọn câu có văn dựa vào liệu gốc tóm tắt tóm lược (dữ liệu nhãn thể câu khơng nằm nằm tóm tắt trích chọn hay không) Vậy sau hai bước sinh liệu tự động, ta có tập liệu bao gồm: • Văn sau ghép - văn có nội dung thuộc hai chủ đề riêng biệt 49 • Bản tóm tắt tóm lược cho chủ đề - tóm tắt tóm lược ban đầu văn trước ghép • Bản tóm tắt trích chọn cho chủ đề - sinh ta sử dụng thuật toán tham lam Ta tách 10% số lượng để tạo tập liệu kiểm tra (test dataset), tránh việc liệu dùng để đánh giá học lúc huấn luyện mơ hình Khi qua bước tạo liệu tự động, cuối ta thu 15872 văn cho tập liệu huấn luyện, 442 văn cho tập liệu kiểm tra Tập Train Tập Test 15872 442 Bảng 3: Bộ liệu thử nghiệm Tập liệu bao gồm ba: văn đầu vào, tóm tắt theo chủ đề văn đó, vector one-hot thể chủ đề tóm tắt Thống kê tập liệu cho thấy số lượng từ tóm tắt phần lớn vào khoảng 100 đến 400 từ Hình 26: Thống kê số lượng từ tóm tắt Còn với văn đầu vào, sau ghép thuộc chủ đề ta thấy có 50 độ dài chủ yếu từ 500-1000 từ Thể văn cần tóm tắt có độ dài lớn, tổng hợp nhiều chủ đề Hình 27: Thống kê số lượng từ văn đầu vào 4.2 Phương pháp đánh giá Phương pháp đánh giá kết mơ hình ta sử dụng độ đo Rouge [23] để so sánh hiệu mô hình tóm tắt Với độ đo Rouge ta tính giá trị Recall, Precision, F-1 Rouge-n, Rouge-L Ta có tóm tắt mơ hình sinh (system summary) tóm tắt tham chiếu thường người viết (reference summary) coi ’nhãn’ liệu • Recall thể tóm tắt mơ hình sinh chứa nội dung từ tóm tắt tham chiếu R= number − of − overlapping − word total − word − in − ref erence − summary • Precision thể phần nội dung từ tóm tắt sinh thực cần thiết P = number − of − overlapping − word total − word − in − system − summary 51 • F-1 độ đo cân Recall Precision F1 = P recision ∗ Recall P recision + Recall Ví dụ: ta có tóm tắt tham chiếu tóm tắt mơ hình sinh Tóm tắt mơ hình: a dog was found on the car Tóm tắt tham chiếu: the dog on the car Theo công thức trên, ta xét mức từ riêng lẻ ta có số từ trùng hai tóm tắt Với độ đo Recall, R = 5 = , ta nhận thấy có kết cao Recall khơng phản ánh chất lượng tóm tắt, cần sinh tóm tắt dài, bao phủ tóm tắt tham chiếu mà khơng quan tâm đến lặp lại, thừa ý Chính độ đo Precision khắc phục điều này, ta tính R = 65 Kết thể độ xác tóm tắt sinh ra, có ý nghĩa phép đo Recall Với ví dụ bên trên, ta xét đến mức từ riêng biệt nhiên để nâng cao tính khách quan, chất lượng độ đo Rouge, ta sử dụng mức cụm từ có độ dài khác nhau, gọi n-gram Một cụm n-gram dãy bao gồm n phần tử liên tiếp chuỗi Lấy ví dụ câu: the dog on the car, với uni-gram ta có là: ’the’, ’dog’, ’on’, ’the’, ’car’, sử dụng bi-gram, ta thu được: ’the dog’, ’dog on’, ’on the’, ’the car’ Ta nhận thấy sử dụng số lượng gram lớn, độ đo Rouge xác đánh giá chuỗi n-gram dài tóm tắt mơ hình sinh tóm tắt tham chiếu Trong thực tế người ta hay sử dụng 1-gram 2-gram, sử dụng thêm độ đo gọi Rouge-L cho mơ hình tóm tắt văn Rouge-L độ đo dựa vào chuỗi dài so sánh hai tóm tắt với (Longest Common Subsequence) Tuy nhiên khác với n-gram, chuỗi ta không xét đến liên tiếp từ mà quan tâm đến thứ tự trước sau chuỗi Lấy theo ví dụ trên, ta có chuỗi dài tóm tắt sinh là: dog on the car Trong tóm tắt tóm lược, câu viết lại, việc không xét đến liên tiếp từ mà quan tâm đến xuất chuỗi từ câu tỏ phù hợp để đánh giá hiệu câu tóm tắt Điểm mạnh Rouge-L giúp ta định nghĩa trước giá trị n-gram, xét đến chuỗi gram dài 52 4.3 Kết đánh giá Phần ta thử nghiệm mơ hình đề xuất với tập liệu chuẩn bị, để đánh giá so sánh hiệu phương pháp Ta so sánh kết tóm tắt mơ hình tóm tắt đề xuất: mơ hình hai pha mơ hình kết hợp với phương pháp tóm tắt sử dụng trước Phương pháp sử dụng mơ hình Pointer-generator (PG) [17], mơ hình có tầng đầu vào sủ dụng mạng LSTM mã hóa giải mã, ta huấn luyện mơ hình với tập liệu sinh ra, kết hợp với vector one-hot chủ đề để đánh giá cơng với mơ hình luận văn đề xuất Phương pháp dựa vào tần xuất xuất từ (Frequency-extraction), mơ hình trích chọn câu có liên quan nhiều đến chủ đề ut Với câu, ta tính giá trị tích vơ hướng vector biểu diễn câu vector biểu diễn chủ đề Vector tính dựa vào thống kê tần suất xuất từ (bag-of-word) Câu trích chọn cho thuộc chủ đề giá trị tích vơ hướng với chủ đề cao Với phương pháp trên, ta tạo tóm tắt trích chọn bao gồm câu mà hướng tới chủ đề Ta tiếp tục sử dụng câu cho mơ hình Pointer-generator để tạo tóm tắt tóm lược tương ứng Ta gọi phương pháp Frequency-abstraction Phương pháp cuối ta sử dụng từ khóa chủ đề, ta lựa chọn câu chủ đề mà có số từ khóa chủ đề xuất nhiều câu Các từ khóa trình bày bảng Ta gọi phương pháp dựa vào từ khóa chủ đề (Topic-signature-ext) Tương tự ta có tập hợp câu trích theo chủ đề, ta tiếp sử dụng mơ hình Pointer-generator để sinh tóm tắt tóm lược Ta gọi phương pháp Topic-signature-abs Đầu tiên với mô hình tóm tắt pha, ta thực đánh giá kết tóm tắt pha riêng biệt Pha thứ bước tóm tắt trích rút, ta thu tập hợp câu tóm tắt nằm văn gốc Khi huấn luyện ta sử dụng tóm tắt sinh thuật tốn tham lam (greedy search) trình bày phần ’nhãn’ để mơ hình học, ta đánh giá kết so sánh tóm tắt trích rút mơ hình sinh tóm tắt tóm lược - ’nhãn’ liệu Với văn tóm tắt sinh ra, ta quy định độ dài 30% số câu văn gốc ban đầu 53 Rouge-1 Rouge-2 Rouge-L Recall 31.02 12.81 29.37 Precision 42.55 21.2 32.5 F1 35.88 15.97 30.85 Bảng 4: Kết thử nghiệm bước trích rút mơ hình hai pha Ta so sánh kết mơ hình trích rút mơ hình hai pha so với hai phương pháp Frequency-extraction Topic-signature-ext với độ đo Rouge-F1 Rouge-1 Rouge-2 Rouge-L Trích rút hai pha 35.88 15.97 30.85 Frequencey-ext 25.2 10.5 22.7 Topic-signature-ext 26.08 11.4 23.75 Bảng 5: So sánh kết thử nghiệm ROUGE F1 bước trích rút mơ hình hai pha Tại ta thấy kết tóm tắt trích rút mơ hình hai pha cho kết Rouge-1=35.88 hiệu phương pháp dựa vào thống kê, thể mơ hình học yếu tố chủ đề văn bản, mối liên hệ thông tin từ câu, câu văn Pha thứ hai bước tóm tắt tóm lược, q trình huấn luyện, ta sử dụng liệu đầu vào tóm tắt sinh thuật tốn tham lam (greedy search) theo chủ đề Ta tiến hành đánh giá kết Rouge-F1 pha thứ hai tóm tắt theo chủ đề với tóm tắt tóm lược tương ứng Ta so sánh hai kiến trúc cho tóm tắt tóm lược với chủ đề: Transformer + Pointer-Generator Pointer-Generator hai phương pháp Frequency-abs Topic-signature-abs Rouge-1 Rouge-2 Rouge-L Transformer + Pointer-Generator 23.49 9.1 15.07 Pointer-Generator 27.27 10.66 21.3 Frequency-abs 22.01 8.5 11.35 Topic-signature-abs 21.8 8.7 11.02 Bảng 6: Kết so sánh thử nghiệm bước tóm lược mơ hình hai pha Ta nhận thấy kết mơ hình Pointer-Generator cao (Rouge-1=27.27) so với kết hợp thêm với kiến trúc Transformer (Rouge-1=23.49) Tuy nhiên trình thử nghiệm, thời gian huấn luyện với mơ hình Transformer + PointerGenerator nửa so với kiến trúc mạng Pointer-Generator Kiến trúc mạng Pointer-Generator sử dụng mạng LSTM xử lý chuỗi đầu vào, với kiến trúc Transformer có khả xử lý đồng thời tồn 54 liệu, có khả chạy song song "head"nên tốc độ huấn luyện cải thiện nhiều Tuy nhiên với số lượng tham số lớn , mơ hình Transformer cần liệu lớn kết tốt Ta kì vọng có lượng liệu nhiều hơn, mơ hình Transformer + Pointer-Generator cải thiện kết độ đo Rouge Ở ta đánh giá kết hai pha riêng biệt sử dụng hai mơ hình cho tóm tắt trích rút tóm tắt tóm lược Trong thực tế, kết thúc trình huấn luyện, đầu vào pha hai kết tóm tắt từ pha thứ Ta đánh giá độ đo rouge-F1 tóm tắt tóm lược tham chiếu với kết đầu cuối từ pha thứ hai Rouge-1 Rouge-2 Rouge-L Mơ hình hai pha-tóm lược 25.39 9.4 16.5 Bảng 7: Kết thử nghiệm mô hình hai pha Bản tóm tắt tóm lược sinh kết hợp đầu pha đầu vào pha hai cho kết đo Rouge-F1=25.39 cao chạy riêng biệt pha tóm tắt tóm lược (Rouge-1=23.49) Điều giải thích kết bảng 6, ta sử dụng đầu vào pha hai tóm tắt trích rút sinh thuật tốn tham lam trình bày phần tạo liệu Bản tóm tắt dư thừa thơng tin, chứa câu không liên quan đến tóm tắt tóm lược đích Nên ta sử dụng tóm tắt trích chọn kết tạo từ pha làm đầu vào cho mơ hình tóm lược theo chủ để pha hai rõ ràng cho chất lượng tốt Phần bên ta đánh giá so sánh kết mơ hình hai pha, ta tiến hành thử nghiệm mơ hình tóm tắt kết hợp Rouge-1 Rouge-2 Rouge-L Mơ hình kết hợp-tóm lược 20.21 9.06 15.99 Mơ hình kết hợp-trích rút 37.02 16.7 32.05 Bảng 8: Kết thử nghiệm mô hình kết hợp Kết cho ta thấy ta kết hợp hai pha, huấn luyện đồng thời, chất lượng tóm tắt tóm lược cuối đạt Rouge-1=20.21 so với Rouge-1=23.49 mơ hình hai pha Tuy nhiên lại giúp mơ hình sinh tóm tắt trích rút tốt đạt Rouge-F1=37.02 so với Rouge-1=35.88 mơ hình hai pha Mơ hình kết hợp với giải mã sử dụng mạng LSTM không cho kết tốt mơ hình Pointer-generater kết hợp Transformer mơ hình hai pha điều thể hiệu kiến trúc Transformer so với kiến trúc mạng RNN-LSTM truyền thống 55 Trong mơ hình tóm tắt kết hợp, thơng tin biểu diễn câu, văn truyền sang giải mã để dự đốn từ nằm tóm tắt tóm lược Điều khiến cho thơng tin từ bên mã hóa khơng bị mơ hình hai pha Khi mơ hình học sinh tóm tắt tóm lược dựa vào thơng tin bên mã hóa, đồng thời khiến biểu diễn thơng tin bên mã hóa tốt hơn, từ giúp mơ hình cho kết tóm tắt trích rút tốt so với huấn luyện độc lập, không thêm giải mã 56 Kết luận Nghiên cứu tóm tắt văn theo chủ đề mang ý nghĩa lớn thực tế, mang lại ứng dụng giúp tiết kiệm sức lực, đem lại tiện lợi cho người Hiện chưa có liệu chuẩn đáp ứng cho yêu cầu sinh nhiều tóm tắt theo chủ đề làm hạn chế nghiên cứu theo hướng Luận văn hi vọng đóng góp vào việc xây dựng liệu đa tóm tắt theo chủ đề từ liệu công bố trước Luận văn đồng thời đề xuất giải pháp, kết hợp mơ hình tóm tắt trích rút tóm lược theo chiến lược khác nhằm nâng cao kết tóm tắt sinh Kết thực nghiệm cho thấy nhiều triển vọng phát triển Trong luận văn áp dụng mơ hình thực nghiệm với liệu tiếng Anh hạn chế lượng liệu ngôn ngữ tiếng Việt Tuy nhiên mơ hình khơng có giới hạn áp dụng với ngơn ngữ khác Các kết tóm tắt hai phương pháp tóm lược trích rút có chênh lệch lớn, nên cần cân nhắc định sử dụng phù hợp với mục đích tốn Tóm tắt theo chủ đề khác đặt nhiều thách thức, vấn đề cần cải thiện Hướng nghiên cứu cải tiến mơ hình sinh tóm tắt tóm lược, đưa yếu tố chủ đề vào mơ hình hiệu Nghiên cứu áp dụng mơ hình pre-train có kết tốt cho nhiều tốn BERT vào tốn tóm tắt Bài tốn sinh tóm tắt theo chủ đề tồn nhiều khó khăn liệu, mơ hình, địi hỏi cần có nhiều hướng giải riêng so với toán đơn tóm tắt Những nghiên cứu gần kết hợp yếu tố chủ đề tóm tắt đạt kết đáng ghi nhận Tuy nhiên cần nhiều nỗ lực nghiên cứu, mở nhiều ứng dụng cho tốn tóm tắt thực tế 57 Tài liệu [1] Thân Quang Khoát Slide Học máy, 2015 [2] Vũ Hữu Tiệp Mutil-Layer Perceptron In: https://machinelearningcoban com/2017/02/24/mlp, last visited 05/09/2020 [3] Jeffrey L Elman Finding structure in time In: Cognitive science 14.2 (1990),pp 179–211 [4] Sepp Hochreiter and Jurgen Schmidhuber Long short-term memory.In: Neural computation 9.8 (1997), pp 1735–1780 [5] Christopher Olah Understanding LSTM Networks In: https://colah github.io/posts/2015-08-Understanding-LSTMs, last visited 26/08/2020 [6] Alex Graves, Navdeep Jaitly, and Abdel-rahman Mohamed Hybrid speech recognition with deep bidirectional LSTM In: IEEE workshop on automatic speech recognition and understanding IEEE 2013, pp 273–278 [7] Ilya Sutskever, Oriol Vinyals, and Quoc V Le 2014 Sequence to sequence learning with neural networks In Neural Information Processing Systems [8] Ben Trevett et al PyTorch Seq2Seq In: https://github.com/bentrevett/ pytorch-seq2seq, last visited 25/09/2020 [9] S Bengio, O Vinyals, N Jaitly, and N Shazeer 2015 Scheduled sampling for sequence prediction with recurrent neural networks In NeurIPS [10] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio 2015 Neural machine translation by jointly learning to align and translate In International Conference on Learning Representations [11] Raimi Karim Attn: Illustrated Attention In: https://towardsdatascience com/attn-illustrated-attention-5ec4ad276ee3, last visited 12/09/2020 [12] Minh-Thang Luong, Eugene Brevdo, and Rui Zhao Neural Machine Translation (seq2seq) Tutorial In: https://github.com/tensorflow/nmt (2017) [13] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin Attention is all you need In: Advances in neural information processing systems 2017, pp 5998–6008 [14] Jay Alammar The Illustrated Transformer In: http://jalammar.github.io/ illustrated-transformer, last visited 13/09/2020 58 [15] Ramesh Nallapati, Feifei Zhai, and Bowen Zhou 2017 SummaRuNNer: A recurrent neural network based sequence model for extractive summarization of documents In Association for the Advancement of Artificial Intelligence [16] Yang Liu Fine-tune BERT for extractive summarization 2019 arXiv preprint arXiv:1903.10318 [17] Abigail See, Peter J Liu, and Christopher D Manning Get to the point: Summarization with pointer-generator networks Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) 2017, pp 1073–1083 [18] Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, and Hang Li 2016 Modeling coverage for neural machine translation In Association for Computational Linguistics [19] Kundan Krishna, Balaji Vasan Srinivasan Generating Topic-Oriented Summaries Using Neural Attention Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume (Long Papers) 2018, pp 1697-1705 [20] Li Wang1, Junlin Yao2, Yunzhe Tao3, Li Zhong1, Wei Liu4, Qiang Du3 2018 A Reinforced Topic-Aware Convolutional Sequence-to-Sequence Model for Abstractive Text Summarization Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence (IJCAI-18) [21] Jon Deaton, A J 2019 Transformers and pointer-generator networks for abstractive summarization arXiv.org 1:3–6 [22] Pariza Sharif BBC News Summary https://www.kaggle.com/pariza/ bbc-news-summary, last visited 02/09/2020 [23] Lin, C.-Y 2004 Rouge: A package for automatic evaluation of summaries Association for Computational Linguistics Text Summarization Branches, pp:74–81 [24] Chin-Yew Lin and Eduard Hovy 2000 The automated acquisition of topic signatures for text summarization In Proceedings of the 18th conference on Computational linguistics-Volume Association for Computational Linguistics, pages 495–501 [25] John M Conroy, Judith D Schlesinger, and Dianne PO’Leary 2006 Topicfocused multi-document summarization using an approximate oracle score In 59 Proceedings of the COLING/ACL on Main conference poster sessions Association for Computational Linguistics, pages 152–159 [26] Adji B Dieng, Chong Wang, Jianfeng Gao, and John Paisley 2016 Topicrnn: A recurrent neural network with long-range semantic dependency arXiv preprint arXiv:1611.01702 [27] D M Blei, A Y Ng, and M I Jordan (2003) Latent Dirichlet Allocation Journal of Machine Learning Research, : 993–1022 [28] David M.Blei,Variational Inference, Princeton University, https: //www.cs.princeton.edu/courses/archive/fall11/cos597C/lectures/ variational-inference-i.pdf , last visited 18/09/2020 [29] Ilker Yildirim, Gibbs Sampling, Department of Brain and Cognitive Sciences, University of Rochester, http://www.mit.edu/~ilkery/papers/ GibbsSampling.pdf, last visited 17/09/2020 [30] Nguyễn Xuân Long, “Clustering problems, mixture model and Bayesian nonparametrics”, University of Michigan, 62-70, 03/2012 [31] Christopher Bishop, Neural Networks for Pattern Recognition, 1995, p30-40 [32] Vũ Hữu Tiệp, Đạo hàm hàm nhiều biến, https://machinelearningcoban com/math/, last visited 20/10/2020 [33] Vũ Hữu Tiệp, Gradient Descent, https://machinelearningcoban.com/2017/ 01/12/gradientdescent/, last visited 21/10/2020 [34] Vũ Hữu Tiệp, Multi-layer Perceptron Backpropagation, https:// machinelearningcoban.com/2017/02/24/mlp/backpropagation, last visited 22/10/2020 [35] Hochreiter, S The vanishing gradient problem during learning recurrent neural nets and problem solutions International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 6(2):107–116, 1998 Hochreiter, S and Schmidhuber, J Feature extraction through LOCOCODE Neural Computation, 11(3): 679–714, 1999 [36] Surya Pratap Singh, Fully Connected Layer: The brute force layer of a Machine Learning model, https://iq.opengenus.org/fully-connected-layer/, last visited 21/10/2020 60 ... • Văn sau ghép - văn có nội dung thuộc hai chủ đề riêng biệt 49 • Bản tóm tắt tóm lược cho chủ đề - tóm tắt tóm lược ban đầu văn trước ghép • Bản tóm tắt trích chọn cho chủ đề - sinh ta sử dụng. .. tin chủ đề tóm tắt truyền vào Đây vấn đề mà luận văn trình bày phần 37 Mơ hình đề xuất 3.1 Vấn đề cần giải Các nghiên cứu tóm tắt văn chủ yếu đơn tóm tắt, văn có tóm tắt theo hướng trích chọn tóm. .. đề cần nhiều tóm tắt theo chủ đề văn bản, ta sử dụng phương pháp sinh liệu tự động phù hợp [19], tiến hành ghép văn thuộc chủ đề khác thành văn đầu vào, coi tóm tắt tóm tắt theo chủ đề riêng biệt:

Ngày đăng: 07/12/2021, 23:20

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w