1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu

183 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Phát Triển Một Số Phương Pháp Tóm Tắt Văn Bản Sử Dụng Kĩ Thuật Học Sâu
Tác giả Lưu Minh Tuấn
Người hướng dẫn PGS. TS. Lê Thanh Hương
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Hệ thống thông tin
Thể loại luận án tiến sĩ
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 183
Dung lượng 6,57 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LƯU MINH TUẤN NGHIÊN CỨU, PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP TÓM TẮT VĂN BẢN SỬ DỤNG KĨ THUẬT HỌC SÂU LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI - 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LƯU MINH TUẤN NGHIÊN CỨU, PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP TÓM TẮT VĂN BẢN SỬ DỤNG KĨ THUẬT HỌC SÂU Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS LÊ THANH HƯƠNG HÀ NỘI - 2022 LỜI CAM ĐOAN Tôi tên Lưu Minh Tuấn, xin cam đoan cơng trình nghiên cứu thân nghiên cứu sinh thời gian học tập nghiên cứu hướng dẫn người hướng dẫn khoa học Các kết nghiên cứu trình bày luận án trung thực, xác chưa cơng bố cơng trình khác Các kết nghiên cứu viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết sử dụng để tham khảo trích dẫn đầy đủ theo quy định Hà Nội, ngày tháng năm 2022 Nghiên cứu sinh Lưu Minh Tuấn NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS Lê Thanh Hương LỜI CẢM ƠN Trong trình học tập nghiên cứu, nghiên cứu sinh nhận nhiều giúp đỡ ý kiến đóng góp q báu thầy Lời đầu tiên, nghiên cứu sinh xin bày tỏ lịng kính trọng biết ơn sâu sắc tới PGS TS Lê Thanh Hương - người hướng dẫn khoa học tận tình bảo, hướng dẫn để nghiên cứu sinh hồn thành luận án Nghiên cứu sinh xin gửi lời cảm ơn chân thành tới PGS TS Nguyễn Bình Minh ý kiến đóng góp quý báu buổi xê mi na khoa học nhiều gian nan suốt thời gian nghiên cứu hoàn thành luận án Nghiên cứu sinh xin gửi lời cảm ơn đến thầy cô Bộ môn Hệ thống thông tin, Viện Công nghệ thông tin truyền thơng, Phịng đào tạo, Trường Đại học Bách khoa Hà Nội, nơi nghiên cứu sinh học tập nghiên cứu tạo điều kiện tốt cho nghiên cứu sinh suốt thời gian học tập nghiên cứu để nghiên cứu sinh hồn thành luận án tiến sĩ cách tốt Xin cảm ơn Ban giám hiệu Trường Đại học Kinh tế Quốc dân, Ban Lãnh đạo Viện Công nghệ thông tin Kinh tế số, thầy cô Bộ môn Công nghệ thông tin - nơi nghiên cứu sinh công tác đồng nghiệp quan tâm giúp đỡ, tạo điều kiện tốt để nghiên cứu sinh hoàn thành tốt kế hoạch học tập nghiên cứu Lời cuối, nghiên cứu sinh xin chân thành cảm ơn thành viên gia đình, người thân, bạn bè dành cho nghiên cứu sinh tình cảm tốt đẹp, động viên, giúp đỡ nghiên cứu sinh vượt qua khó khăn q trình học tập nghiên cứu để đạt kết ngày hơm Đây q tinh thần mà nghiên cứu sinh trân trọng gửi tặng đến thành viên gia đình người thân Một lần nghiên cứu sinh xin chân thành cảm ơn! MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ix DANH MỤC KÝ HIỆU TOÁN HỌC xi MỞ ĐẦU Chương TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 12 1.1 Giới thiệu tóm tắt văn 12 1.1.1 Giới thiệu tốn tóm tắt văn 12 1.1.2 Phân loại tốn tóm tắt văn 13 1.1.3 Các bước thực tóm tắt văn 14 1.1.4 Một số đặc trưng văn 14 1.2 Một số phương pháp đánh giá văn tóm tắt tự động 15 1.2.1 Phương pháp dựa độ tương tự nội dung .15 1.2.2 Phương pháp dựa độ tương quan phù hợp 15 1.2.3 Phương pháp ROUGE 16 1.3 Các phương pháp kết hợp văn tóm tắt đa văn 19 1.4 Các phương pháp tóm tắt văn hướng trích rút sở .21 1.4.1 PageRank 21 1.4.2 TextRank 21 1.4.3 LexRank 21 1.4.4 Lead-Based 22 1.5 Các liệu thử nghiệm 22 1.5.1 Các liệu văn tiếng Anh 22 1.5.2 Các liệu văn tiếng Việt 25 1.6 Kết luận chương 26 Chương CÁC KIẾN THỨC NỀN TẢNG 28 2.1 Các kỹ thuật học sâu sở 28 2.1.1 Mạng Perceptron nhiều lớp 28 2.1.2 Mạng nơ ron tích chập 28 2.1.3 Mạng nơ ron hồi quy 31 2.1.4 Các biến thể RNN 32 2.1.5 Mơ hình chuỗi sang chuỗi 36 2.1.6 Cơ chế ý 37 2.1.7 Cơ chế tự ý mơ hình Transformer 40 2.2 Các mơ hình ngơn ngữ dựa học sâu huấn luyện trước 43 2.2.1 Mã hóa từ 43 i 2.2.2 Phương pháp Word2Vec 43 2.2.3 Mơ hình BERT 45 2.2.4 Các phiên chủ yếu mơ hình BERT 48 2.3 Kỹ thuật học tăng cường Q-Learning 50 2.3.1 Học tăng cường Q-Learning 50 2.3.2 Thuật toán học tăng cường Deep Q-Learning 51 2.4 Tìm kiếm Beam 52 2.5 Phương pháp độ liên quan cận biên tối đa 52 2.6 Kết luận chương 54 Chương PHÁT TRIỂN CÁC PHƯƠNG PHÁP TĨM TẮT ĐƠN VĂN BẢN HƯỚNG TRÍCH RÚT 55 3.1 Giới thiệu toán hướng tiếp cận 55 3.2 Mô hình tóm tắt đơn văn hướng trích rút RoPhoBERT_MLP_ESDS 57 3.2.1 Giới thiệu mơ hình 57 3.2.2 Mơ hình tóm tắt văn đề xuất 57 3.2.3 Thử nghiệm mơ hình 60 3.2.4 Đánh giá so sánh kết 64 65 3.3 Mơ hình tóm tắt đơn văn hướng trích rút mBERT_CNN_ESDS 3.3.1 Giới thiệu mơ hình 65 3.3.2 Mơ hình tóm tắt văn đề xuất 65 3.3.3 Thử nghiệm mơ hình 68 3.3.4 Đánh giá so sánh kết 72 3.4 Mơ hình tóm tắt đơn văn hướng trích rút mBERT-Tiny_ seq2seq_DeepQL_ESDS 72 3.4.1 Giới thiệu mơ hình 72 3.4.2 Mơ hình tóm tắt văn đề xuất 73 3.4.3 Huấn luyện mơ hình với kỹ thuật học tăng cường 75 3.4.4 Thử nghiệm mơ hình 76 3.4.5 Đánh giá so sánh kết 79 3.5 So sánh đánh giá ba mơ hình tóm tắt đơn văn hướng trích rút đề xuất 80 3.6 Kết luận chương 81 Chương PHÁT TRIỂN PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TÓM LƯỢC 83 4.1 Giới thiệu toán hướng tiếp cận 83 4.2 Mơ hình tóm tắt sở 85 4.2.1 Mơ hình seq2seq mơ hình 85 ii 4.2.2 Cơ chế ý áp dụng mơ hình 86 4.2.3 Mạng chép từ - sinh từ 87 4.2.4 Cơ chế bao phủ 88 4.3 Mơ hình tóm tắt đơn văn hướng tóm lược PG_Feature_ASDS 88 4.3.1 Các đặc trưng đề xuất thêm cho mơ hình 4.3.2 Mơ hình tóm tắt đơn văn hướng tóm lược đề xuất 4.4 Thử nghiệm mơ hình 89 90 91 4.4.1 Các liệu thử nghiệm 4.4.2 Tiền xử lý liệu 4.4.3 Thiết kế thử nghiệm 4.5 Đánh giá so sánh kết 91 91 91 92 4.6 Kết luận chương 94 Chương PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐA VĂN BẢN 95 5.1 Giới thiệu tốn tóm tắt đa văn hướng tiếp cận 95 5.2 Mơ hình tóm tắt đa văn hướng trích rút Kmeans_Centroid_EMDS 96 5.2.1 Giới thiệu mơ hình 96 5.2.2 Các thành phần mơ hình 97 5.2.3 Mơ hình tóm tắt đa văn đề xuất 99 5.2.4 Thử nghiệm mơ hình kết 104 5.2.5 So sánh đánh giá kết 106 5.3 Các mơ hình tóm tắt đa văn hướng tóm lược dựa mơ hình tóm tắt đơn văn huấn luyện trước 109 5.3.1 Đặt vấn đề 109 5.3.2 Mơ hình tóm tắt đa văn hướng tóm lược dựa mơ hình tóm tắt đơn văn hướng tóm lược huấn luyện trước PG_Feature_AMDS 110 5.3.3 Mơ hình tóm tắt đa văn hướng tóm lược dựa mơ hình tóm tắt đơn văn hỗn hợp huấn luyện trước Ext_Abs_AMDS-mds-mmr 120 5.4 Kết luận chương 131 KẾT LUẬN 132 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ 135 TÀI LIỆU THAM KHẢO 136 PHỤ LỤC Phụ lục A: Văn nguồn văn tóm tắt ví dụ Phụ lục B: Biểu đồ phân bố liệu thử nghiệm Phụ lục C: Văn nguồn mẫu tóm tắt thử nghiệm iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt AMDS ASDS Beam BERT BERT-Tiny biGRU biLSTM BPTT ConvNet DE Decoder DeepQL EMDS Encoder ESDS GLUE GRU ILP IR LCS LDA LSA LSTM mBERT mds MLP MMR NLP Tiếng Anh Ý nghĩa tiếng Việt Abstractive Multi-Document Summarization Abstractive Single-Document Summarization Beam Search Bidirectional Encoder Representation from Transformers Tóm tắt đa văn hướng tóm lược Tóm tắt đơn văn hướng tóm lược Thuật tốn tìm kiếm Beam Mơ hình biểu diễn mã hóa hai chiều từ Transformer Mơ hình BERT thu nhỏ Bidirectional Gated Recurrent Unit Mạng GRU chiều Bidirectional Long Short Term Mạng LSTM chiều Memory Backpropagation Through Time Thuật toán lan truyền ngược liên hồi Convolutional Neural Network Mạng nơ ron tích chập Document Embedding Mã hóa văn Decoder Bộ giải mã Deep Q-Learning Thuật toán học tăng cường dựa mạng nơ ron sâu Extractive Multi-Document Tóm tắt đa văn hướng Summarization trích rút Encoder Bộ mã hóa Extractive Single-Document Tóm tắt đơn văn hướng Summarization trích rút General Language Understanding Đánh giá hiểu ngơn ngữ Evaluation chung Gated Recurrent Unit Mơ hình đơn vị hồi quy có kiểm sốt chiều Integer Linear Programming Quy hoạch tuyến tính ngun Information Retrieval Tìm kiếm thông tin Longest Common Subsequence Dãy chung lớn Latent Dirichlet Allocation Mơ hình chủ đề ẩn Latent Semantic Analysis Phân tích ngữ nghĩa tiềm ẩn Long Short Term Memory Mơ hình mạng nhớ ngắn hạn dài hạn chiều BERT multilingual Mơ hình BERT đa ngơn ngữ multi-document summarization Tóm tắt đa văn Multi Layer Perceptron Mạng Perceptron nhiều lớp Maximal Marginal Relevance Độ liên quan cận biên tối đa Natural Language Processing Xử lý ngôn ngữ tự nhiên iv OOV PE PG Out Of Vocabulary Position Embedding Pointer – Generator PhoBERT Khơng có từ vựng Mã hóa vị trí Mơ hình mạng Pointer – Generator Mơ hình tối ưu BERT hỗ trợ cho tiếng Việt Huấn luyện trước Học tăng cường Mạng nơ ron hồi quy Mơ hình tối ưu BERT hỗ trợ cho tiếng Anh Độ đo Rouge PT RL RNN RoBERTa Pre-trained Reinforcement Learning Recurrent Neural Network ROUGE Recall-Oriented Understudy for Gisting Evaluation Sentence Embedding Mã hóa câu Sequence to sequence Mơ hình chuỗi sang chuỗi Stanford Question Answering Dataset Bộ liệu hỏi đáp Stanford Support Vector Machine Mơ hình máy véc tơ hỗ trợ Term Frequency – Inverse Document Trọng số từ (mức độ Frequency quan trọng từ) văn tập văn Tóm tắt văn warmup Q trình huấn luyện ban đầu (số bước) với tỉ lệ học nhỏ Word Embedding Mã hóa từ SE seq2seq SQuAD SVM TF-IDF TTVB warmup WE v DANH MỤC CÁC BẢNG Bảng 1.1 Ví dụ minh họa văn tóm tắt văn tiếng Anh 13 Bảng 1.2 Ví dụ minh họa văn tóm tắt văn tiếng Việt 13 Bảng 1.3 Phương pháp phân chia liệu CNN/Daily Mail 22 Bảng 1.4 Thống kê thông tin hai liệu CNN Daily Mail .23 Bảng 1.5 Thống kê thơng tin tóm tắt liệu DUC 2001 DUC 2002 sử dụng cho tóm tắt đơn văn 23 Bảng 1.6 Thống kê thơng tin tóm tắt liệu DUC 2004 .24 Bảng 1.7 Thống kê thông tin tóm tắt tập liệu Main task liệu DUC 2007 24 Bảng 1.8 Thống kê thơng tin tóm tắt liệu Baomoi 25 Bảng 1.9 Thống kê thơng tin tóm tắt liệu Corpus_TMV .26 Bảng 1.10 Thống kê thông tin tóm tắt liệu ViMs 26 Bảng 3.1 Kết thử nghiệm số phương pháp tóm tắt văn sở Ký hiệu ‘*’ thể phương pháp triển khai thử nghiệm liệu tương ứng 61 Bảng 3.2 Giá trị siêu tham số thời gian huấn luyện mơ hình xây dựng 62 Bảng 3.3 Kết thử nghiệm mơ hình xây dựng Ký hiệu ‘-’ biểu diễn mơ hình mà luận án không thử nghiệm liệu tương ứng 62 Bảng 3.4 Một mẫu tóm tắt liệu CNN 63 Bảng 3.5 Một mẫu tóm tắt liệu Baomoi 64 Bảng 3.6 So sánh đánh giá hiệu phương pháp Ký hiệu ‘*’,‘-’ biểu diễn phương pháp thử nghiệm, không thử nghiệm liệu tương ứng 64 Bảng 3.7 Các kết thử nghiệm mơ hình xây dựng .70 Bảng 3.8 Kết thử nghiệm phương pháp DUC 2001 DUC 2002 Ký hiệu ‘*’, ‘-’ biểu diễn phương pháp thử nghiệm, không thử nghiệm 70 Bảng 3.9 Một mẫu tóm tắt liệu CNN 71 Bảng 3.10 Một mẫu tóm tắt liệu Baomoi 71 Bảng 3.11 So sánh đánh giá hiệu phương pháp Ký hiệu ‘*’, ‘-’ biểu diễn phương pháp thử nghiệm, không thử nghiệm liệu tương ứng 72 Bảng 3.12 Bảng giá trị siêu tham số cài đặt cho mơ hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning 75 vi

Ngày đăng: 04/06/2023, 09:30

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Vilca G. C. V. and Cabezudo M. A. S. (2017). A study of abstractive summarization using semantic representations and discourse level information. In Proceedings of the 20th International Conference on Text, Speech, and Dialogue, pp. 482-490 Sách, tạp chí
Tiêu đề: A study of abstractivesummarization using semantic representations and discourse levelinformation
Tác giả: Vilca G. C. V. and Cabezudo M. A. S
Năm: 2017
[2] Mehdi Allahyari, Seyedamin Pouriyeh, Mehdi Assef, Saeid Safaei, Elizabeth D. Trippe, Juan B. Gutierrez, and Krys Kochut (2017). Text Summarization Techniques: A Brief Survey. International Journal of Advanced Computer Science and Applications (IJACSA), Vol. 8, No. 10, pp. 397-405 Sách, tạp chí
Tiêu đề: Text SummarizationTechniques: A Brief Survey
Tác giả: Mehdi Allahyari, Seyedamin Pouriyeh, Mehdi Assef, Saeid Safaei, Elizabeth D. Trippe, Juan B. Gutierrez, and Krys Kochut
Năm: 2017
[3] Radev D. R., Hovy E., and McKeown K. (2002). Introduction to the special issue on summarization. Computational Linguistics, Vol. 28, No. 4, pp. 399- 408. MIT Press. DOI: 10.1162/089120102762671927 Sách, tạp chí
Tiêu đề: Introduction to the specialissue on summarization
Tác giả: Radev D. R., Hovy E., and McKeown K
Năm: 2002
[4] Ko Y. and Seo J. (2008). An effective sentence-extraction technique using contextual information and statistical approaches for text summarization.Pattern Recognition Letters, Vol. 29, No. 9, pp. 1366–1371. DOI: 10.1016/j.patrec.2008.02.008 Sách, tạp chí
Tiêu đề: An effective sentence-extraction technique usingcontextual information and statistical approaches for text summarization
Tác giả: Ko Y. and Seo J
Năm: 2008
[5] Afsharizadeh M., Ebrahimpour-Komleh H., and Bagheri A. (2018). Query- oriented text summarization using sentence extraction technique. 2018 4th International Conference on Web Research (ICWR), Tehran, Iran. DOI:10.1109/ICWR.2018.8387248 Sách, tạp chí
Tiêu đề: Query-oriented text summarization using sentence extraction technique
Tác giả: Afsharizadeh M., Ebrahimpour-Komleh H., and Bagheri A
Năm: 2018
[6] Mark Wasson (1998). Using leading text for news summaries: Evaluation results and implications for commercial summarization applications. In Proceedings of the 17th international conference on Computational linguistics- Vol. 2, pp. 1364-1368 Sách, tạp chí
Tiêu đề: Using leading text for news summaries: Evaluationresults and implications for commercial summarization applications
Tác giả: Mark Wasson
Năm: 1998
[7] Miller G. A. (1995). WordNet: A lexical database for English. Communications of the ACM, Vol. 38, No. 11, pp. 39–41 Sách, tạp chí
Tiêu đề: WordNet: A lexical database for English. "Communications of the ACM
Tác giả: Miller G. A
Năm: 1995

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w