1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tìm hiểu kỹ thuật embedding và ứng dụng cho bài toán tóm tắt văn bản

57 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm hiểu kỹ thuật embedding và ứng dụng cho bài toán tóm tắt văn bản
Tác giả Trần Thành Quang, Cao Anh Văn
Người hướng dẫn Th.S Quách Đình Hoàng
Trường học Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại Đồ án tốt nghiệp
Năm xuất bản 2023
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 57
Dung lượng 6,95 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH CƠNG NGHỆ THƠNG TIN TÌM HIỂU KỸ THUẬT EMBEDDING VÀ ỨNG DỤNG CHO BÀI TỐN TĨM TẮT VĂN BẢN GVHD: Th.S QCH ĐÌNH HỒNG SVTH : TRẦN THÀNH QUANG CAO ANH VĂN SKL011407 Tp Hồ Chí Minh, năm 2023 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM KHOA CÔNG NGHỆ THÔNG TIN TRẦN THÀNH QUANG: 19133047 CAO ANH VĂN: 19133067 Đề Tài: TÌM HIỂU KỸ THUẬT EMBEDDING VÀ ỨNG DỤNG CHO BÀI TỐN TĨM TẮT VĂN BẢN ĐỒ ÁN TỐT NGHIỆP GIÁO VIÊN HƯỚNG DẪN Th.S QCH ĐÌNH HỒNG TP.HCM, ngày tháng năm 2023 PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên sinh viên 1: Trần Thành Quang MSSV: 19133047 Họ tên sinh viên 2: Cao Anh Văn MSSV: 19133067 Ngành: Kỹ thuật liệu Tên đề tài: Tìm hiểu kỹ thuật embedding ứng dụng cho tốn tóm tắt văn Họ tên giáo viên hướng dẫn: Th.S Quách Đình Hồng NHẬN XÉT: Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm: Đề nghị cho bảo vệ hay không? Đánh giá loại: Điểm: Tp.Hồ Chí Minh, ngày tháng năm 2023 Giáo viên hướng dẫn Page | LỜI CẢM ƠN Trong q trình nghiên cứu đề tài, nhóm giảng viên hướng dẫn hỗ trợ góp ý sai sót nhóm, chúng tơi xin bày tỏ lịng biết ơn sâu sắc đến thầy giáo hướng dẫn đề tài nhóm Ths.Qch Đình Hồng Đầu tiên, chúng tơi xin gửi lời cảm ơn sâu sắc đến Ban giám hiệu trường Đại học Sư phạm Kỹ Thuật Thành phố Hồ Chí Minh xây dựng sở vật chất môi trường học tập đại, chất lượng phục vụ nhóm q trình hồn thiện đề tài Đồng thời, xin gửi lời cảm ơn đến Ban chủ nhiệm khoa Công nghệ Thông tin Thầy Cô khoa Công nghệ Thông tin - Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh tạo môi trường học tập làm việc hiệu Các thầy nhiệt tình giảng dạy để thực tốt đề tài Một lần nữa, xin gửi lời cảm ơn chân thành đến Thầy Qch Đình Hồng giáo viên hướng dẫn tiểu luận chuyên ngành nhóm, hướng dẫn, quan tâm, góp ý ln đồng hành chúng tơi suốt giai đoạn đề tài Trong trình hồn thiện đề tài, nhóm khơng thể tránh khỏi sai sót hạn chế định Kính mong nhận phản hồi, đóng góp ý kiến từ Q Thầy Cơ, để nhóm nhận lỗi sai, tiếp thu thêm kiến thức hoàn thiện dự án Xin chân thành cảm ơn Page | KẾ HOẠCH THỰC HIỆN Tuần 1, Thời gian 30/01 – 14/02 Nội dung công việc Ghi Tìm hiểu kỹ thuật tiên tiến lĩnh vực embedding 3, 15/02 – 28/09 Tìm hiểu kiến trúc Transformer 5, 01/03 – 15/03 Tìm hiểu kiến trúc Transformer 7,8 16/03 – 30/03 Tìm hiểu kỹ thuật Bert 9, 10 01/04 – 15/04 Tìm hiểu kỹ thuật Bert 11, 12 16/04 – 30/04 Áp dụng kỹ thuật Bert vào tốn tóm tắt văn 13, 14 01/05 – 15/05 Tiến hành thực đánh giá mơ hình độ đo Bertscore 15, 16 16/05 – 30/05 Kéo liệu từ trang web báo điện tử https://vnexpress.net/ xây dựng website tin vắng 17, 18 01/06 – 15/06 Hoàn thiện báo cáo Page | MỤC LỤC DANH SÁCH HÌNH ẢNH CHƯƠNG 1: MỞ ĐẦU 1.1 Tính cấp thiết đề tài [1] 1.2 Mục tiêu nhiệm vụ nghiên cứu 10 1.3 Cách tiếp cận phương pháp nghiên cứu 10 1.4 Kết dự kiến đạt 12 CHƯƠNG 2: NỘI DUNG 12 2.1 MƠ HÌNH TRANSFORMERS 12 2.1.1 Giới thiệu [2] 12 2.1.2 Ứng dụng xử lý ngôn ngữ tự nhiên 13 2.1.3 Mơ hình transformers [3] 14 2.1.3.1 Encoder layer [5] 15 2.1.3.2 Decoder layer [6] 28 2.2 HỌC CHUYỂN ĐỔI VÀ MƠ HÌNH BERT 33 2.2.1 Transfer learning (học chuyển đổi) 33 2.2.2 Giới thiệu [9] 33 2.2.3 Cơ chế hoạt động 34 2.2.3.1 Biểu diễn input/output 35 2.2.3.2 Pre-training bert 37 2.2.3.3 Fine-turing 41 2.2.3.3.1 Minh họa Fine-turing với số tác vụ khác 42 2.3 BÀI TỐN TĨM TẮT VĂN BẢN 43 2.3.1 Các lý thuyết liên quan đến toán 43 2.3.1.1 Tóm tắt văn 43 2.3.1.2 Tinh chỉnh Bert cho tốn tóm tắt văn 43 2.3.1.2.1 Tinh chỉnh input 43 2.3.1.2.2 Fine-tuning với Summarization leyers 44 2.3.2 MobileBert [11] 45 Page | 2.3.3 Độ đo Bertscore [12] 45 CHƯƠNG 3: THỰC NGHIỆM 48 3.1 Tổng quan phương pháp thực 48 3.2 Áp dụng độ đo để đánh giá tập liệu sử dụng 48 3.2.1 Tập liệu sử dụng 48 3.2.1.1 Dữ liệu đánh giá mơ hình 48 3.2.1.2 Dữ liệu thực nghiệm 49 3.2.2 Thực đánh giá kết 50 3.2 Triển khai website tin vắn 51 CHƯƠNG 4: KẾT LUẬN 53 4.1 Kết đạt 53 4.1.1 Ý nghĩa khoa học 53 4.1.2 Ý nghĩa thực tiễn 53 4.2 Hạn chế 53 4.3 Hướng phát triển 54 Page | DANH SÁCH HÌNH ẢNH Hình 1: Hình ảnh mơ tả tổng thể mơ hình transformers [4] 15 Hình 2: Mơ tả tổng thể trình encoder [5] 16 Hình 3: Ảnh ví dụ trình minh họa Positional [6] 17 Hình 4: Ảnh minh họa trình positional [7] 18 Hình 5: Mơ tả q trình self-attention [7] 20 Hình 6: Mơ tả q trình tính tốn vector Q, K,V [8] 21 Hình 7: Mơ cơng thức tính softmax [8] 23 Hình 8: Ảnh ví dụ q trình self-attention từ với từ lại câu [5] 24 Hình 9: Ví dụ q vấn đề self-attention [6] [5] 25 Hình 10: Ví dụ mối liên quan từ với từ lại câu [8] 26 Hình 11: Quá trình cộng attention thực normalization [8] 27 Hình 12: Mơ tả tổng qt q trình decoder [5] 29 Hình 13: trình softmax decode [5] 31 Hình 14: Hình ảnh mơ tả tổng thể pre-training fine-tuning Bert [9] 35 Hình 15: Hình Input embedding Bert tổng vector [4] 36 Hình 16 Minh họa segment embeddings [10] 37 Hình 17: Biểu diễn input Bert [9] 38 Hình 18: Hình ảnh minh họa mơ hình Bert cho số tác vụ riêng biệt [9] 43 Hình 19 Tinh chỉnh input mơ hình phù hợp cho tóm tắt văn [10] 44 Hình 20: Hình ảnh minh họa bert score [12] 47 Hình 21: Hình ảnh minh họa trình thực mơ hình 48 Hình 22: Mơ hình database 50 Page | CHƯƠNG 1: MỞ ĐẦU 1.1 Tính cấp thiết đề tài [1] Bất kỳ mơ hình tính tốn máy tính làm việc với số Vậy làm để mơ hình tính tốn làm việc với ngơn ngữ tự nhiên? Mặt khác, từ đơn vị ngôn ngữ nhỏ mang ý nghĩa hồn chỉnh Do đó, để mơ hình làm việc với ngơn ngữ tự nhiên việc số hóa từ cách tiếp cận đơn giản Trong xử lý ngôn ngữ tự nhiên, embedding phương pháp biểu diễn từ ngữ dạng vector số Ý tưởng embedding ánh xạ từ ngôn ngữ tự nhiên thành vector có chiều thấp khơng gian số học cho từ có ý nghĩa tương tự biểu diễn gần không gian vector Embedding thực đề tài cấp thiết nhiều lý sau đây: + Embedding giúp chuyển đổi từ, câu văn thành vector số học sử dụng thuật toán máy học Điều cho phép máy tính hiểu xử lý ngơn ngữ tự nhiên + Các từ có tương đồng mặt ngữ nghĩa ánh xạ thành vector gần không gian vector, điều hữu ích nhiều ứng dụng, bao gồm tìm kiếm thơng tin, gợi ý từ, phân loại văn bản, dịch máy,… + Embedding cách thức hiệu để biểu diễn văn từ vựng, từ sử dụng để phân loại gán nhãn tài liệu văn cách tự động nhiều ứng dụng khác Tóm tắt văn số ứng dụng thực tế sử dụng kỹ thuật embedding Dưới số vai trị quan trọng việc tóm tắt văn đem lại: Trong thời đại bùng nổ thông tin dẫn đến nhiều thông tin phát sinh số hóa thành văn trang web hay tài liệu Mặt khác, người ngày bận rộn với nhiều cơng việc việc tiếp cận tiếp nhận thơng tin cách nhanh chóng thực cần thiết Vì việc tóm tắt văn đem lại nhiều lợi ích rõ ràng cho Sau số lợi ích mà tóm tắt văn đem lại: + Làm cho việc đọc cách dễ dàng Page | + Tiết kiệm thời gian đọc + Dễ dàng ghi nhớ thông tin + Tăng hiệu suất công việc 1.2 Mục tiêu nhiệm vụ nghiên cứu Mục tiêu đề tài tập trung nghiên cứu sở lý thuyết kỹ thuật embedding cho xử lý ngôn ngữ tự nhiên, từ áp dụng vào tốn tóm tắt văn Một số kiến trúc tiên tiến đem lại hiệu cao Transformer, áp dụng kiến trúc mơ hình Bert đem lại hiệu tốt cho nhiều tác vụ xử lý ngơn ngữ tự nhiên có tóm tắt văn Trong đề tài này, chúng tơi muốn tìm hiểu kỹ thuật embedding cho xử lý ngơn ngữ tự nhiên, từ áp dụng vào mơ hình tóm tắt văn để đưa tranh tổng quan tốn ý nghĩa Để đạt điều đó, chúng tơi tập trung vào tìm hiểu số vấn đề sau: Tìm hiểu sở lý thuyết kỹ thuật embedding cho xử lý ngơn ngữ tự nhiên Tìm hiểu kiến trúc Transformer Tìm hiểu mơ hình Bert xử lý ngơn ngữ tiếng Việt Tìm hiểu sở lý thuyết tốn tóm tắt văn Tìm hiểu thuật tốn tóm tắt thuật toán dùng để xử lý cấp độ tốn Ứng dụng mơ hình tóm tắt để xây dựng nên trang web tin vắn đơn giản, với liệu báo crawl từ trang web https://vnexpress.net/ sau tiến hành tóm tắt đưa lại lên trang web tin vắn Đánh giá giải thích kết 1.3 Cách tiếp cận phương pháp nghiên cứu Có nhiều kỹ thuật sử dụng embedding để xử lý ngôn ngữ tự nhiên, là: Page | 10 Hình 18: Hình ảnh minh họa mơ hình Bert cho số tác vụ riêng biệt [9] Sự minh họa fine-tuning Bert tác vụ khác thể hình bên Trong tác vụ, (a) (b) tác vụ mức chuỗi (c) (d) tác vụ mức token Trong hình, E thể cho embedding input, Ti thể biểu diễn ngữ cảnh token i, [CLS] symbol đặc biệt cho phân loại output, [SEP] symbol đặc biệt để phân biệt chuỗi token không liên tiếp 2.3 BÀI TỐN TĨM TẮT VĂN BẢN 2.3.1 Các lý thuyết liên quan đến tốn 2.3.1.1 Tóm tắt văn Trong thời đại mà ngày, giờ, phút có lượng thơng tin khổng lồ sinh ra, giới hạn thời gian, khả đọc tiếp thu người có hạn, việc hiểu nắm bắt nhiều thông tin cách nhanh chóng khơng phải vấn đề đơn giản với Vì vấn đề đặt phải chuyển liệu văn thành tóm tắt ngắn hơn, tập trung nắm bắt chi tiết bật, để ta điều hướng hiệu kiểm tra xem tài liệu lớn có chứa thơng tin mà ta tìm kiếm Vì nhóm muốn tạo hệ thống tóm tắt văn tự động giúp người đọc giảm thời gian đọc tài liệu, nghiên cứu tài liệu giúp q trình lựa chọn dễ dàng hơn, tăng hiệu trình xếp kết tìm kiếm tài liệu người dùng 2.3.1.2 Tinh chỉnh Bert cho tốn tóm tắt văn 2.3.1.2.1 Tinh chỉnh input Encoding Multiple Sentences: So với model Bert gốc, câu đoạn văn đầu vào thêm vào đầu câu ký hiệu [CLS] đầu câu [SEP] cuối câu Ký hiệu [CLS] sử dụng để tổng hợp đặc trưng câu cặp câu Page | 43 Hình 19 Tinh chỉnh input mơ hình phù hợp cho tóm tắt văn [10] Interval Segment Embeddings: Trong mơ hình sử dụng interval segment embeddings để phân biệt nhiều câu đoạn văn Với câu senti mô hình định segment embedding EA or EB với điều kiện i lẻ hay chẵn Vector Ti vector [CLS] thứ i từ Bert layer sử dụng để biểu diễn cho senti 2.3.1.2.2 Fine-tuning với Summarization leyers Sau có vectors biển diễn câu, với senti, mơ hình tính toán final predicted score 𝑌̂𝑖 Trong báo gốc mơ hình có đề cập đến phương pháp sử dụng Simple Classifier, Recurrent Neural Network Inter-sentence Transformer Ở chúng mơ hình chúng tơi sử dụng sử dụng Inter-sentence Transformer, phương pháp áp dụng nhiều transformer layers biểu diễn câu, trích xuất đặc trưng mức độ tài liệu tập trung nhiệm vụ tóm tắt văn từ outputs Bert: ℎ̃𝑙 = 𝐿𝑁(ℎ𝑙−1 + 𝑀𝐻𝐴𝑡𝑡 (ℎ𝑙−1 )) ℎ𝑙 = 𝐿𝑁 (ℎ̃𝑙 + 𝐹𝐹𝑁(ℎ̃𝑙 )) Trong ℎ0 = 𝑃𝑜𝑠𝐸𝑚𝑏 (𝑇) T vector output câu Bert, PosEmb hàm thêm positional embeddings tới T Ln phép biến đổi liệu để chuẩn hóa giá trị đầu đơn vị layer MHAtt multi-head attention L độ sâu layer, thực nghiệm L =1, 2, L=3 cho kết tốt Cuối 𝑦̂𝑖 = 𝜎(𝑊0 ℎ𝑖𝑙 + 𝑏𝑜 ), hL vector senti từ top layer Transformer Page | 44 Từ final predicted score tính cho câu bên trên, mơ hình thực xếp theo chiều giảm dần score, với áp dụng trigram blocking trình dự đốn để giảm thiểu dư thường câu tóm tắt đầu Ý tưởng trigram blocking giả sử có tóm tắt đầu S câu ứng viện c, mơ hình bỏ qua câu c tồn nhóm từ câu c S 2.3.2 MobileBert [11] Với mơ hình đào tạo trước Bert đem lại thành công lớn xử lý ngôn ngữ tự nhiên, nhiên mơ hình có kích thước lớn độ trễ cao dẫn đến khó triển khai thiết bị có nguồn tài nguyên thấp Từ số mơ hình tinh chỉnh từ Bert đời với ưu điểm nhẹ giữ hiệu suất tương đối so với Bert, MobileBert ví dụ Giống Bert, MobileBert áp dụng cho nhiều tác vụ xử lý ngôn ngữ tự nhiên việc tinh chỉnh đơn giản Về MobileBert phiên nhẹ Bert_large, Bertlarge, so với Bertbase mobileBert nhỏ 4,2 lần nhanh 5,5 lần đạt kết đánh với với điểm chuẩn tiếng không thua Đối với tác vụ suy luận ngôn ngữ tự nhiên, MobileBert đạt điểm glue score 77,7 (thấp 0,6 so với Bertbase) 62 ms độ trễ điện thoại Pixel Đối với tác vụ trả lời câu hỏi SQuAD v1.1/ v2.0, MobileBert đạt điểm F1 dev 90,0/79,2 (cao 1,5/2,1 so với Bertbase) 2.3.3 Độ đo Bertscore [12] Đối với độ đo BLUE ROUGE ta cần có tóm tắt tham khảo để phục vụ việc tính tốn độ xác Nhưng Bert score khơng, so sánh tóm tắt tạo với gốc Hai độ đo thể diện xác từ tóm tắt có nằm tham khảo hay khơng mà khơng diễn giải ngữ nghĩa từ Bert score tính điểm tương đồng với token câu dự đoán (candidate sentence) với token câu tham khảo (reference sentence) Thay matches xác Bert score tính tốn tương đồng sử dụng nhúng từ theo ngữ cảnh - contextual embeddings BertScore tính tốn độ giống câu dạng tổng cosine tương đồng lần embedding Độ tương đồng cosine token câu ban đầu ứng viên tính theo công thức bên Page | 45 cos(𝑥𝑖 , 𝑥𝑗 ) = ̂𝑗 𝑥𝑖𝑇 𝑥 ̂|| ||𝑥𝑖 ||⁡||𝑥 𝑗 Trong công thức 𝑥𝑖 𝑥𝑗 ,⁡ token câu ban đầu (reference sentence) câu sinh từ tóm tắt (candidate sentence) Reference sentence có dạng 𝑥⁡ =⁡< 𝑥1 , , 𝑥𝑘 >, candidate sentence có dạng 𝑥̂ ⁡ =⁡< 𝑥̂1 , , 𝑥̂ 𝑚 > Công thức trên, hiểu cos vector khơng gian Cơng thức tính độ đo recall, precision, F1 score biểu diễn bên 1 𝑅𝐵𝐸𝑅𝑇 ⁡ = ⁡ |𝑥| ∑𝑥𝑖 ∈⁡𝑥 𝑚𝑎𝑥⁡𝑥𝑖𝑇 𝑥̂𝑗 , 𝑃𝐵𝐸𝑅𝑇 ⁡ = |𝑥̂| ∑𝑥𝑖 ∈⁡𝑥 𝑚𝑎𝑥⁡𝑥𝑖𝑇 𝑥̂𝑗 𝐹𝐵𝐸𝑅𝑇 ⁡ = ⁡2 𝑃𝐵𝐸𝑅𝑇 ⁡ 𝑅𝐵𝐸𝑅𝑇 𝑃𝐵𝐸𝑅𝑇 ⁡ + ⁡ 𝑅𝐵𝐸𝑅𝑇 Mỗi token reference sentence khớp với token tương đồng candidate sentence Sau đó, độ đo F1 tính việc kết hợp recall precision Trọng số thể độ quan trọng từ với 𝑀 𝑖𝑑𝑓(𝜔) ⁡ = ⁡ −⁡𝑙𝑜𝑔⁡ ∑ 𝛱[𝜔⁡ ∈ ⁡ 𝑥 (𝑖) ] 𝑀 𝑖=1 Trong công thức 𝛱[ ] hàm thị Thực tế cho thấy từ phổ biến thể câu có tương đồng xác từ phổ biến câu, cần có trọng số độ quan trọng để giảm thiểu ảnh hưởng từ phổ biến đến điểm số tương đồng câu Khi cơng thức tính độ đo nhân thêm hệ số quan trọng Ví dụ cơng thức recall viết lại bên 𝑅𝐵𝐸𝑅𝑇⁡ = ⁡ ∑𝑥𝑖 ∈⁡𝑥 𝑖𝑑𝑓(𝑥𝑖 )⁡𝑚𝑎𝑥𝑥̂𝑗∈⁡𝑥̂ 𝑥𝑖𝑇 𝑥̂𝑗 ∑𝑥𝑖 ∈⁡𝑥 𝑖𝑑𝑓(𝑥𝑖 ) Page | 46 Hình ảnh minh họa cách hoạt động bert score Hình 20: Hình ảnh minh họa bert score [12] Với hình minh họa bên trên, cho câu ban đầu (reference sentence) 𝑥 câu sinh từ tóm tắt (candidate sentence) 𝑥̂, độ tương đồng từ câu thể từ có độ tương đồng cao tô viền màu đỏ Trọng số quan trọng idf tính cột bên phải ma trận, sau áp dụng cơng thức tính 𝑅𝐵𝐸𝑅𝑇 , ta tính giá trị mong muốn Page | 47 CHƯƠNG 3: THỰC NGHIỆM 3.1 Tổng quan phương pháp thực Hình 21: Hình ảnh minh họa trình thực mơ hình Các đoạn văn đầu vào đưa bước thực tiền xử lý với q trình như: Loại bỏ ký tự khơng cần thiết đầu cuối đoạn văn Tách đoạn văn thành dịng Xóa dịng chứa dấu cách khơng chứa ký tự Kết hợp dịng lại thành đoạn văn Kết sau xử lý mơ hình BertSum để nhận lại score cho câu, sau thực xếp điểm số theo chiều giảm dần Tiếp theo thực đưa câu có điểm cao vào tập S – tập chứa câu tóm tắt đầu xem câu lại câu ứng viên Lần lượt tách câu ứng viên câu tập S thành tập hợp chứa từ câu, câu ứng viên có tập từ câu trùng với từ câu tập S không thêm vào tập S ngược lại Sau kết thúc trình ta nhận tập S kết tóm tắt đầu 3.2 Áp dụng độ đo để đánh giá tập liệu sử dụng 3.2.1 Tập liệu sử dụng 3.2.1.1 Dữ liệu đánh giá mơ hình Tập liệu nhóm sử dụng để đánh giá mơ hình tổng hợp từ nguồn github https://github.com/CLC-HCMUS/ViMs-Dataset Dữ liệu thu thập từ cách thủ công từ trang Google News, với số lượng gần 300 nhóm văn Trong đó, nhóm văn có viết, nhiều 10 Các báo lấy từ trang web tiếng phổ biến việt nam như: Vnexpress, Dân Trí, Page | 48 Tuổi trẻ,… Bộ liệu chứa báo thuộc nhiều chuyên mục khác nhau, bao gồm: giới, Việt Nam(tin nước), kinh doanh, giải trí thể thao Mỗi báo lưu trữ sở liệu với thông tin sau: • Tiêu đề báo, ví dụ: “Giải mã bí ẩn máy bay rơi EgyptAir” • Source tên trang tin nguồn, ví dụ: Vnexpress, Dân Trí, Tuổi Trẻ, • URL đường dẫn đến trang nguồn đăng báo gốc • Published Date Ngày, báo đưa lên mạng • Author Tác giả báo • Tags từ khóa báo Tùy trang tin nguồn, có trang có thơng tin này, có trang khơng có • Summary tóm tắt báo biên tập viên viết Thông tin thường nằm đầu báo, sau tiêu đề • Nội dung báo Nội dung lưu dạng văn thơ, loại bỏ tag HTML, hình ảnh, video 3.2.1.2 Dữ liệu thực nghiệm Nhóm crawl liệu từ trang web thực (VnExpress) để sử dụng lượng liệu mà nhóm crawl để tóm tắt xây dựng trang tin tức đọc báo nhanh Dữ liệu lưu sở liệu nhóm với thuộc tính sau: • Id: mã số viết lấy • Title: tiêu đề biết • Description: Mơ tả ngắn gọn viết • Paragraphs: nội dung biết • Url_img: link ảnh viết • Time: thời gian viết lấy • Author: tác giả viết • ArticeType: Thể loại viết Sau nhóm có liệu nhóm tóm tắt nội dung văn sau lưu vào sở liệu để sử dụng để tạo trang web đọc tin đơn giản Page | 49 Hình 22: Mơ hình database 3.2.2 Thực đánh giá kết Độ đo mà nhóm sử dụng Bertsocre cho ngơn ngữ tiếng Việt với giá trị đo precision, recall, f1 Hàm nhận vào list nội dung gốc nội dung tóm tắt, sử dụng Bertscore để đánh giá, việc gán giá trị tham số lang=”vi” để tính tốn cho tiếng Việt Với tập liệu trên, qua q trình tóm tắt nhóm chúng tơi đánh giá 1941 kết tóm tắt đạt kết tóm tắt hình bên Hình 22: Ma trận thể kết đánh giá mơ hình Page | 50 Trung bình độ đo precision, recall, f1 0.90, 0.81, 0.85 Kết thấp độ đo từ 0.61 trở lên Từ kết ta đánh giá model cho kết tốt 3.2 Triển khai website tin vắn Nhóm tạo trang web đọc tin vắn nhanh sau nhóm triển khai trang web nhóm lên cloud để người truy cập Hiện nhóm triển thành cơng web nhóm lên cloud Hình 23: Giao diện trang web Ở người nhiều báo với tất chủ đề nhóm tạo Trên báo có số thơng tin như: ảnh đại diện báo, loại báo, tiêu đề mơ tả báo để người đọc đọc lướt qua chọn loại báo mà cần Page | 51 Hình 24: Giao diện lọc báo theo chủ đề Ở chọn thể loại tiêu đề lọc báo mà thuộc thể loại để cần lọc Hình 25: Giao diện chi tiết báo Khi chọn vào báo chuyển trang đến nội dung báo nhóm tóm tắt lại Trên trang có số thông tin tiêu đề, tác giả , thể loại nội dung ngồi cịn có đường dẫn đến báo gốc mà nhóm crawl để người dung xác thực thơng tin mà họ cung cấp có nhu cầu Page | 52 CHƯƠNG 4: KẾT LUẬN 4.1 Kết đạt 4.1.1 Ý nghĩa khoa học Báo cáo trình bày sở lý thuyết xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật embedding, lý thuyết áp dụng demo tốn tóm tắt văn tiếng việt Nội dung đề tài trình bày sở lý thuyết kiến trúc Transformers mô hình Bert, từ áp dụng vào tốn tóm tắt văn tiếng Việt Ngồi cịn cho thấy ứng dụng vai trị tốn tóm tắt văn Thông qua đề tài, nắm bắt lý thuyết tốn xử lý ngơn ngữ tự nhiên, word embedding nói chung kiến trúc Transformers, mơ hình Bert, tốn tốn tóm văn nói riêng Thuật toán độ đo áp dụng vào tốn tóm tắt văn Thơng qua ứng dụng demo, học thêm kiến thức kỹ sử dụng python, thư viện dùng cho xử lý ngôn ngữ tự nhiên, kiến thức lập trình web deploy ứng dụng web lên Google cloud platform Bên cạnh đó, chúng tơi cịn nâng cao thêm khả đọc hiểu tài liệu, khả làm việc nhóm khả trình bày báo cáo khoa học 4.1.2 Ý nghĩa thực tiễn Thơng qua tìm hiểu đề tài, trang bị thêm cho kiến thức xử lý ngơn ngữ tự nhiên nói chung kỹ thuật tốt kiến trúc Transformers với mơ hình Bert Từ chúng tơi áp dụng vào tốn tóm tắt văn để tạo thành website tin vắn 4.2 Hạn chế Do hạn chế nguồn lực thời gian, chúng tơi chưa thực tìm hiểu sâu rộng với kỹ thuật embedding, cụ thể Transformers với mơ hình Bert Đối với tốn tóm tắt văn bản, chúng tơi sử dụng mơ hình tác giả xây dựng sẵn, chưa thực xây dựng mơ hình riêng nhóm chưa thực kiểu tóm tắt trừu tượng Page | 53 4.3 Hướng phát triển Các kết trình bày báo cáo áp dụng để giải tốn xử lý ngơn ngữ tự nhiên nói chung đặc biệt tốn tóm tắt văn Chúng tơi dự định tìm hiểu thêm tự xây dựng mơ hình Bert riêng nhóm áp dụng cho tóm tắt trích xuất tóm tắt trừu tượng Page | 54 DANH MỤC TÀI LIỆU THAM KHẢO [1] T t n tạo, "Word embedding gì? Tại quan trọng?," 02 04 2019 [Online] Available: https://trituenhantao.io/kien-thuc/word-embedding-la-gi-taisao-no-quan-trong/ [2] huggingface, "huggingface," huggingface, [Online] Available: https://huggingface.co/learn/nlp-course/chapter1/4?fw=pt [Accessed 15 06 2023] [3] N D Thien, "viblo.asia," viblo.asia, 13 07 2021 [Online] Available: https://viblo.asia/p/xay-dung-mo-hinh-transformer-co-ban-dich-tieng-nhat-sangtieng-viet-m68Z0oPNKkG [Accessed 15 06 2023] [4] N P J U L J Noam Shazeer∗, "Attention Is All You Need," USA, 2017 [5] Q Pham, 20 03 2020 [Online] Available: https://pbcquoc.github.io/transformer/ [Accessed 15 06 2023] [6] "kikaben.com," 13 12 2021 [Online] Available: https://kikaben.com/transformers-encoder-decoder/ [Accessed 15 06 2023] [7] "kikaben.com," 15 11 2021 [Online] Available: https://kikaben.com/transformers-self-attention/ [Accessed 15 06 2023] [8] T t n tạo, 13 03 2021 [Online] Available: https://trituenhantao.io/tin-tuc/minhhoa-transformer/ [Accessed 15 06 2023] [9] J D M.-W C K L K Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," 2019 [10] Y L a M Lapata, "Text Summarization with Pretrained Encoders," 2019 [11] huggingface, "https://huggingface.co/docs/transformers/model_doc/mobilebert," [Online] Available: https://huggingface.co/docs/transformers/model_doc/mobilebert [Accessed 2023] [12] T Z e al, "BERTSCORE: EVALUATING TEXT GENERATION WITH BERT," 2020 [13] P H Quang, 19 07 2020 [Online] Available: https://viblo.asia/p/bert-robertaphobert-bertweet-ung-dung-state-of-the-art-pre-trained-model-cho-bai-toanphan-loai-van-ban-4P856PEWZY3 [Accessed 15 06 2023] Page | 55 [14] machinelearningcoban, 1 2017 [Online] Available: https://machinelearningcoban.com/2017/01/01/kmeans/ [Accessed 15 06 2023] Page | 56 S K L 0

Ngày đăng: 08/12/2023, 15:29

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w