TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TÓM LƯỢC

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	45
Dung lượng	0,99 MB
File đính kèm	Đồ án TN 2019 lvs.zip (1 MB)

Nội dung

Tóm tắt đơn văn bản hướng tóm lược ĐẠI HỌC BÁCH KHOA HÀ NỘI Tóm tắt văn bản là quá trình trích rút những thông tin quan trọng nhất từ một văn bản để tạo ra phiên bản ngắn gọn, xúc tích mang đầy đủ lượng thông tin của văn bản gốc kèm theo đó là tính đúng đắn về ngữ pháp và chính tả. Bản tóm tắt phải giữ được những thông tin quan trọng của toàn bộ văn bản chính. Bên cạnh đó, bản tóm tắt cần phải có bố cục chặt chẽ có tính đến các thông số như độ dài câu, phong cách viết và cú pháp văn bản. Phụ thuộc vào số lượng các văn bản, kỹ thuật tóm tắt có thể chia làm hai lớp: đơn văn bản và đa văn bản. Còn nếu phụ thuộc vào phương pháp xử lý tóm tắt văn bản tự động thì sẽ được phân loại thành: Tóm tắt hướng trích xuất ( Extractive Text Summarization ) và Tóm tắt hướng tóm lược ( Abstractive Text Summarization).

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG ĐỒ ÁN TỐT NGHIỆP Tóm tắt đơn văn hướng tóm lược LÊ VĂN SONG song.lv153170@sis.hust.edu.vn Ngành Công nghệ thông tin Chuyên ngành Hệ thống thông tin Giảng viên hướng dẫn: PGS TS Lê Thanh Hương Bộ môn: Viện: Hệ thống thông tin Công nghệ thông tin Truyền thông Chữ ký GVHD HÀ NỘI, 12/2019 ĐỀ TÀI TỐT NGHIỆP Lời cảm ơn Lời đầu tiên, em xin cảm ơn tới quý thầy cô Trường Đại học Bách Khoa Hà Nội, cách riêng quý thầy cô Viện Công nghệ thông tin Truyền thông suốt năm qua trau dồi giúp đỡ em tích lũy nhiều kiến thức Bách Khoa em nơi luyện thân tốt nhất, rèn cho em nhiều kĩ tích lũy cho em rất nhiều điều quý giá Tất kiến thức, kỹ tinh thần Bách Khoa hành trang giúp em vững bước sống sau Em xin gửi lời cảm ơn sâu sắc tới cô PGS.TS Lê Thanh Hương, suốt tháng ròng rã làm Đồ án Tốt nghiệp với cơ, tận tình giúp đỡ để em hồn thành đề tài Những buổi seminar bạn lab dấu ấn nơi tích lũy kiến thức cho em Cuối xin cảm ơn bố mẹ bà, người hun đúc tinh thần Bách Khoa con, lúc gặt hái thành mà bố mẹ, bà vun vén nơi Cũng không quên cảm ơn người giúp đỡ động viên lúc khó khăn Tóm tắt nội dung đồ án Bài tốn Tóm tắt đơn văn dài có cấu trúc diễn ngơn toán cần thiết nghiên cứu lĩnh vực Xử lý ngơn ngữ tự nhiên Mục đích tốn tóm tắt nội dung văn dài có cấu trúc diễn ngơn cho thơng tin có văn khơng bị đồng thời giúp người đọc nhanh chóng nắm bắt thông tin cần thiết với cú pháp ngữ pháp khơng bị sai lệch Điển hình cho văn dài có cấu trúc diễn ngơn báo khoa học Mơ hình để giải toán Discourse-Aware Attention Model, dựa mơ hình sequence to sequence with attention Kết hợp với chế Copying from Source Decode Coverage để giải nhược điểm seq2seq sử dụng chế attention Ngồi đồ án đề xuất thêm phương pháp tích hợp đặc trưng postion tần suất từ để cải thiện độ xác MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU CHƯƠNG 1: MỞ ĐẦU 1.1 Đặt vấn đề Sự phát triển nhanh chóng cách mạng cơng nghiệp 4.0 năm gần đây, tạo bước tiến mạnh mẽ nhiều lĩnh vực đời sống Chính phát triển mà lượng thơng tin ngày khổng lồ, giúp ích lớn cho người Tuy nhiên thông tin sinh liên lục dẫn đến khó khăn việc tìm kiếm tổng hợp thơng tin Chính nhu cầu mà tóm tắt văn tự động với cách mạng cơng nghiệp 4.0 phát triển Tóm tắt văn q trình trích rút thơng tin quan trọng từ văn để tạo phiên ngắn gọn, xúc tích mang đầy đủ lượng thơng tin văn gốc kèm theo tính đắn ngữ pháp tả Bản tóm tắt phải giữ thông tin quan trọng tồn văn Bên cạnh đó, tóm tắt cần phải có bố cục chặt chẽ có tính đến thông số độ dài câu, phong cách viết cú pháp văn Phụ thuộc vào số lượng văn bản, kỹ thuật tóm tắt chia làm hai lớp: đơn văn đa văn Còn phụ thuộc vào phương pháp xử lý tóm tắt văn tự động phân loại thành: Tóm tắt hướng trích xuất ( Extractive Text Summarization ) Tóm tắt hướng tóm lược ( Abstractive Text Summarization) 1.2 Tóm tắt đơn văn Tóm tắt đơn văn q trình tóm tắt tự động, với đầu vào văn bản, đầu đoạn mơ tả ngắn gọn, khái quát nội dung văn cách xác Văn đơn trang Web, báo, tài liệu với định dạng xác định (ví dụ: doc, txt) Tóm tắt đơn văn bước đệm cho việc xử lý tóm tắt đa văn tốn tóm tắt phức tạp Chính phương pháp tóm tắt văn đời phương pháp tóm tắt cho đơn văn Các phương pháp để giải tốn tóm tắt văn tự động : Tóm tắt hướng trích xuất Tóm tắt hướng tóm lược • Tóm tắt hướng trích xuất (trích rút) Phương pháp tóm tắt theo hướng trích xuất phương pháp sử dụng để tóm tắt văn Để tóm tắt văn bản, phương pháp tiến hành trích xuất câu văn có độ quan trọng cao Rồi sau gộp lại với để sinh tóm tắt Một số nghiên thường sử dụng đặc trưng đặc trưng cấu trúc (vị trí câu, độ dài câu, câu trích dẫn, term- frequency (tần số xuất từ)) hay sử dụng key phrase (cụm từ khóa) để xác định độ quan trọng câu, trích rút câu quan trọng để đưa vào tóm tắt Các kỹ thuật tóm từ xa xưa dùng kĩ thuật học máy, xử lý ngôn ngữ tự nhiên nhằm hiểu trích chọn câu quan trọng văn Sử dụng phương pháp học máy kể đến phương pháp Kupiec, Penderson and Chen (1995) [1] sử dụng phân lớp Bayes để kết hợp đặc trưng lại với hay nghiên cứu Lin Hovy (1997) [2] áp dụng phương pháp học máy nhằm xác định vị trí câu quan trọng văn Bên cạnh việc áp dụng phương pháp phân tích ngơn ngữ tự nhiên sử dụng mạng từ Wordnet Barzilay Elhadad (1997) • Tóm tắt hướng tóm lược Các phương pháp tóm tắt khơng sử dụng trích xuất để tạo tóm tắt xem phương pháp tiếp cận tóm tắt theo tóm lược Phương pháp tóm tắt tóm lược xây dựng biểu diễn ngữ nghĩa bên sau sử dụng kỹ thuật xử lý ngơn ngữ để tạo tóm tắt gần gũi so với người tạo Bản tóm tắt chứa từ khơng có gốc Nghiên cứu phương pháp tóm tắt tóm lược bước tiến quan trọng tạo chủ động, nhiên ràng buộc phức tạp nên nghiên cứu chủ yếu tập trung vào phương pháp tóm tắt trích chọn Các hướng tiếp cận kể đến dựa vào trích xuất thơng tin (information extraction), ontology, hợp nén thơng tin Một phương pháp tóm tắt theo tóm lược cho kết tốt phương pháp dựa vào việc học mạng neuron RNN hay LSTM với encoder- decoder để sinh tóm tắt theo cách viết hay gần Pointer Generator với Attention Mechanism Tuy nhiên, tính tới thời điểm tại, tính chất phải tự sinh văn với cách viết khác chưa có thuật tốn tóm lược cách hoàn chỉnh đáp ứng vấn đề cú pháp, tính mạch lạc ngữ nghĩa, thơng tin trùng lặp, xếp thơng tin trình tự, … 1.3 Tóm tắt đa văn Tóm tắt đa văn q trình tóm tắt tự động, với đầu vào nhiều văn có chủ đề đầu đoạn văn tóm tắt khái quát nội dung tập văn Tóm tắt đa văn xác định tốn có độ phức tạp cao, ngồi thách cô đọng thông tin mạch lạc nội dung, tóm tắt đa văn cịn có thách thức cần phải xác định thông tin trùng lặp văn bản, xác định thông tin quan trọng nhiều văn hay việc xếp thơng tin văn tóm tắt Do tóm tắt đa văn mở rộng tóm tắt đơn văn bản, tóm tắt văn đơn, phương pháp giải tóm tắt đa văn theo hai hướng tiếp cận: dựa vào trích xuất dựa vào tóm lược 1.4 Các nghiên cứu liên quan tốn tóm tắt văn 1.4.1 Nhóm phương pháp tóm tắt cổ điển Phương pháp tóm tắt văn sử dụng mơ hình đồ thị vơ hướng có trọng số Güneş Erkan Dragomir R Radev sử dụng thuật toán Lexrank tóm tắt văn tiếng Anh Trong báo này, văn biểu diễn dạng đồ thị, đỉnh đồ thị biểu diễn câu văn bản, cạnh nối hai đỉnh biểu diễn độ tương cosin – tf – idf hai đỉnh Sau sử dụng thuật tốn PageRank để tính toán độ quan trọng câu Kết thực nghiệm trích dẫn báo đánh giá liệu DUC 2004 cho thấy LexRank tốt phương pháp Centroid: Hình 1.0.1 Độ đo ROUGE-1 DUC2004 Phương pháp tóm tắt kinh điển Carbonell and Goldstein đưa MMR [8] (Maximal Marginal Relevance) Trong báo đó, văn biểu diễn dạng mảng vector câu (sử dụng trọng số tf-idf cho vector câu) Kế đến, trích rút câu query gồm từ có trọng số tf-idf lớn cho tồn văn Cuối cùng, trích rút câu quan trọng theo tiêu chí: Giảm dư thừa thơng tin, đồng thời gần với câu query 1.4.2 Nhóm phương pháp tóm tắt đại Ngày nay, với phát triển phương pháp học máy, kèm với học sâu (học tập liệu lớn), số phương pháp tóm tắt đa văn cho kết vượt trội Nhóm phương pháp sử dụng mơ hình học sâu như: BertSumExt, T5-11B, BertSum + Transformer, UniLM, Selector + Pointer Generator, mạng neural (Transformer+LRPE+PE+Reranking+Ensemble[9]), encoder-decoder hay mạng sequence-to- sequence (EndDec+WFE [10]), encoder-decoder dựa mạng RNN (DRGD [11]), Hình thể vượt trội số phương pháp kể tiến hành tập CNN/ Daily Mail 10 Với xác suất sinh từ từ từ từ điển định nghĩa công thức, xác suất chép từ từ văn nguồn x định nghĩa tổng trọng số word attention Cụ thể, xác suất sinh từ là: 3.3 Cơ chế Coverage Đối với câu dài, mơ hình sinh mạng gặp phải vấn đề lặp lại câu, từ Để giải vấn đề này, chế coverage đời Mơ hình sử dụng vector , tổng vector trọng số ý bước trước là: Khi trọng số ý ngầm bao gồm thông tin phần diễn ngơn tài liệu Và kết hợp đầu vào để tính tốn lại trọng số ý Được thể sau: Nguyên nhân cho việc thay đổi cách tính phân phối ý việc lặp từ xảy decoder phụ thuộc vào decode trước Về việc ảnh hưởng decode kế trước ta chứng minh thực nghiệm lặp từ thường xảy vô hạn 3.4 Thêm đặc trưng vào mơ hình Mơ hình đề xuất, giai đoạn encoder sử dụng kiến trúc hierarchical encoder với BiLSTM Attention Discourse decoder sử dụng LSTM Trên lý thuyết việc sử dụng LSTM chấp nhận văn dài Tuy nhiên kết thực nghiệm em cho kết thấp so với thực nghiệm mà tác giả đề xuất đạt nên em đề xuất thêm vấn đề thêm đặc trưng vào mơ hình để kiểm nghiệm kết thực nghiệm 31 Rich Feature bao gồm: POSITION – Vị trí câu văn TF-IDF – Tần suất từ câu Hình 3.0.14 Thêm đặc trưng vào mơ hình 3.4.1 Thêm vào đặc trưng vị trí câu (POSI) Với văn đầu vào gồm k câu Ta viết lại thành: từ thứ câu Như từ vector ta xác định vector có độ dài biểu thị vị trí câu chứa từ đó: Vì thơng tin bị tập trung vào phần sau, nen nâng trọng số từ phần đầu văn lên Do ta dùng position để tính lại trọng số ý: 32 3.4.2 Thêm đặc trưng tần suất vào văn Tần suất từ văn thông số giúp xác định từ quan trọng văn Trong văn bản, từ xuất nhiều chứng tỏ từ khơng quan trọng Việc sử dụng TF để tăng trọng số từ quan trọng Trong số lần xuất văn Còn số lần xuất nhiều từ văn Như từ vector , ta xác định vector có độ dài biểu diễn TF sau: Ta dùng để tính lại phân phối attention: 33 CHƯƠNG 4: THỰC NGHIỆM 4.1 Cài đặt mơi trường Huấn luyện (hay cịn gọi train) mơ hình Deep Learning cần xử lý lượng phép tính lớn nhiều so với mơ hình Machine Learning khác Để cải thiện tốc độ tính tốn, người ta dùng GPU (Graphics Processing Unit) thay cho CPU (Central Processing Unit) với GPU cho phép xử lý phép tính song song với nhiều core nhanh nhiều so với CPU Tuy nhiên giá GPU đắt đỏ Thế nên Google cung cấp Google Colab miễn phí có GPU để chạy code python (deep learning) cho mục đích nghiên cứu.Ở mơi trường Colab có cài sẵn thư viện Deep Learning phổ biến PyTorch, Ten-sorFlow, Keras, Ngồi bạn cài thêm thư viện để chạy cần Thêm vào liên kết Colab với google drive đọc, lưu liệu lên google drive nên tiện để sử dụng Chính em lựa chọn Google Colab để tiến hành thực nghiệm Ngoài thư viện có sẵn colab, em cài thêm thư viện pyrouge Do trình thực nghiệm với thư viện Tensorflow mặc định Google Colab có lỗi gặp vấn đề nên em hạ version Tensorflow mặc định xuống thành Tensorflow-GPU verison 1.14 4.2 Cách cài đặt Google Colab Bước 1: Đầu tiên bạn vào google drive, tạo folder mà bạn muốn lưu python code, chọn nút New Sau kéo xuống chọn Google Colaboratory 34 Hình 0.15 Cài đặt Google Colab-1 Tiếp bạn click vào phần tên file để đổi tên file cho phù hợp Hình 4.0.16 Cài đặt Google Colab -2 Bước 2: Chọn GPU Chọn Runtime -> Change Runtime Type Rồi click vào dấu mũi tên xuống phần Hardware accelerator chọn GPU 35 Hình 4.0.17 Cài đặt Google Colab - Bước 3: Link với Google Driver Đoạn code để link tới file Google drive hình đây: Hình 4.0.18 Cài đặt Google Colab - Sau ấn chạy đoạn code đấy, bạn click vào link trên, chọn tài khoản google bạn dùng, chọn accept bạn có mã code Sau điền vào trống hình vẽ connect Google Colab Google Driver Để kiểm tra Click vào nút mũi tên hình chọn Tab Files để nhìn thấy file Google Driver 36 Hình 4.0.19 Cài đặt Google Colab - 4.3 Dữ liệu thực nghiệm Các Cacshinhf seq2seq thường có số lượng tham số lơn địi hỏi đào tạo với liệu lớn Các nhà nghiên cứu xây dựng liệu từ báo CNN Daily/Mail… Tuy nhiên báo tin tức tương đối ngắn khơng phù hợp cho nhiệm vụ tóm tắt văn dài có cấu trúc Chính thế, báo khoa học sử dụng để làm ví dụ cho văn dài có cấu trúc diễn ngôn Hai liệu đề xuất PubMed Arxiv Tuy nhiên thời gian có hạn lượng liệu cung cấp lớn nên em tiến hành thực nghiệm liệu Arxiv sử dụng để thực nghiệm kết đồ án Có dung lượng 13G, gồm 97197 văn bản, văn viết dòng Cấu trúc văn gồm phần: • • • article_id: id văn Ví dụ: 0901.1147, cond-mat0410169,… article_text: Nội dung tồn văn abstract_text: Phần tóm tắt văn Các câu phân tách cặp • labels: nhãn văn • section_names: tên tiêu đề (heading) văn Ví dụ: "section_names": [ "introduction", "model hamiltonian and symmetry", "systems with pure rashba coupling", "systems with both rashba and dresselhaus couplings", 37 "summary and discussions" ] • sections: Nội dung phần tương ứng với section_names Bộ liệu loại bỏ tài liệu dài mức q ngắn, khơng có tóm tắt cấu trúc diễn ngôn Tiêu đề cấp sử dụng làm thơng tin diễn ngơn Xóa số bảng, sử dụng thơng tin văn Bình thường hóa cơng thức tốn học đánh dấu trích dẫn từ đặc biệt Phân tích section_names định nghĩa phần kết luận phổ biến như: conclusion, concluding remarks, summary Giữ phần đến kết luận loại bỏ phần sau kết luận Dữ liệu chia làm tập train/ val / test Trong 5% validation, 5% test lại sử dụng để train Dữ liệu test 6440 văn liệu validation 6436 văn 4.4 Tiền xử lý liệu Mỗi đơn vị liệu định dạng kiểu liệu Example Tensorflow Kiểu liệu định dạng cho tập liệu train, val test Đồng thời dựa vào liệu train, sinh từ điển có kích thước 50,000 từ 4.6 Quá trình huấn luyện Sử dụng LSTM chiều với kích thước cell 256 số chiều embedding 128 Embedding train lại từ đầu Kích thước từ vựng 50,000 Batch_sizes=4, giới hạn độ dài tài liệu 2000 tokens, số section Tổng thời gian training khoảng 19 ngày, em không train liên tục mà sau trainning 10 ngày em tiến hành validate khoảng ngày, sau em lại lặp trình lần Nguyên nhân giai đoạn validate, em tối ưu hàm loss coverage loss, q trình giúp huấn luyện nhanh Mơ hình sử dụng giải thuật Adagrad với learning_rate=0,15 dùng làm hàm optimize beam_size=4 ( đề cập phần Cơ sở lý thuyết giải thuật BeamSearch) 38 Max_enc_Steps=2000 ( số lượng từ lớn văn bản), max_dec_steps=200 (số lượng từ lớn văn tóm tắt) Hình 4.20 Biểu diễn loss/loss seq2seq Hình 4.21 Biểu diễn global_step/sec 39 Hình 4.22 Biểu diễn global_norm_1 4.7 Kết thực nghiệm Kết sau thực nghiệm sau ROUGE Discourse-Aware Attention + Coverage +Copying from Source (*) (*) + TF-IDF +POSITION 24,67% 3,83% L 22,06% Đánh giá kết thực nghiệm: Điểm độ đo ROUGE chưa cao Phép đo ROUGE so khớp kí tự người tóm tắt máy tóm tắt, mà đặc trưng tóm tắt tóm lược khơng phải trích rút y ngun câu, từ có sẵn văn đầu vào Bộ liệu test lớn trình test, vậy, q trình tính điểm độ đo ROUGE tính tốn khoảng gần 200 văn tổng số 6440 văn Do thời gian sinh văn tóm tắt trung bình 3-4 phút Nhưng thời gian có hạn nên em sử dụng thư viện Rouge155 để đánh giá tóm tắt hệ thống so với tóm tắt Cấu hình Rouge155 theo chuẩn NIST DUC 2007 sau: 40 ROUGE-1.5.5.pl -n -x -m -2 -u -c 95 -r 1000 -f A -p 0.5 -t -d KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 1.Đóng góp đồ án • Đồ án đưa cách tiếp cận văn dài, có cấu trúc diễn ngơn, điển hình báo khoa học Áp dụng công nghệ học máy phát triển Deep Learning Giải điểm yếu mơ hình seq2seq Copying from Source Decode Coverage • Sử dụng thêm đặc trưng vị trí câu POSITION TF-IDF để làm tăng khả xác văn tóm tắt • Hướng phát triền • Sử dụng Bi-LSTM Decoder để kiểm tra xem kết đạt có tốt so với sử dụng LSTM Decoder Thêm đặc trưng khác như: IDF, nhãn từ loại, đặc trưng kiện (event), hay đặc trưng từ phương pháp truyền thốngnhư Latent Semantic Analysis (đặc trưng ngữ nghĩa), • Sử dụng multi layer BiLSTM Decoder để tăng khả chấp nhận văn có cấu trúc dài để đánh giá lại độ xác so với sử dụng single layer Bi-LSTM • Sử dụng mơ hình báo khoa học có cấu trúc diễn ngơn Tiếng Việt • TÀI LIỆU THAM KHẢO [1] “A discourse-aware attention model for abstractive summarization of long documents” Arman Cohan, Franck Dernoncourt, Doo Soon Kim, Trung Bui, Seokhwan Kim, Walter Chang, Nazli Goharian [2] Lâm Quang Tường, Phạm Thế Phi, Đỗ Đức Hào Tóm tắt văn tiếng Việt tự động sử dụng mơ hình Sequence-to-sequence (2017) [3] Abigail See, Peter J.Liu, Christopher D Manning Get To The Point: Summarization with Pointer-Generator Networks [4] R Paulus, C Xiong, and R Socher, “A deep reinforced model for abstractive summarization,” arXiv preprint arXiv:1705.04304, 2017 41 [5] Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond Ramesh Nallapati, Bowen Zhou, Cicero Nogueira dos santos, Caglar Gulcehre, Bing Xiang [6] Jiatao Gu, Zhengdong Lu, Hang Li, Victor O.K Li Incorporating Copying Mechanism in Sequence-to-Sequence Learning [7] Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, and Hang Li 2016 Modeling coverage for neural machine translation In Association for Computational Linguistics [8] Đồ án tốt nghiệp sinh viên Nguyễn Đức Việt (2019) [9] Ilya Sutskever, Oriol Vinyals, Quoc V Le, 2014 Sequence to Sequence Learning with Neural Networks – In arXiv:1409.3215v3 [cs.CL] 42 ... động : Tóm tắt hướng trích xuất Tóm tắt hướng tóm lược • Tóm tắt hướng trích xuất (trích rút) Phương pháp tóm tắt theo hướng trích xuất phương pháp sử dụng để tóm tắt văn Để tóm tắt văn bản, phương... txt) Tóm tắt đơn văn bước đệm cho việc xử lý tóm tắt đa văn tốn tóm tắt phức tạp Chính phương pháp tóm tắt văn đời phương pháp tóm tắt cho đơn văn Các phương pháp để giải tốn tóm tắt văn tự... tóm lược ( Abstractive Text Summarization) 1.2 Tóm tắt đơn văn Tóm tắt đơn văn q trình tóm tắt tự động, với đầu vào văn bản, đầu đoạn mô tả ngắn gọn, khái quát nội dung văn cách xác Văn đơn trang

Ngày đăng: 31/08/2022, 17:35