1. Trang chủ
  2. » Công Nghệ Thông Tin

Thực nghiệm tóm tắt rút trích văn bản tiếng Việt

8 42 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Tóm tắt văn bản là một bài toán rất được quan tâm trong lĩnh vực xử lý ngôn ngữ tự nhiên. Sản phẩm của quá trình tóm tắt văn bản thường ngắn hơn văn bản ban đầu, súc tích, nhưng vẫn giữ nguyên ý chính. Bài báo này trình bày thực nghiệm các phương pháp tóm tắt rút trích trên các văn bản tiếng Việt. Chúng tôi xây dựng tập dữ liệu gồm 150.000 bài báo được rút trích từ các trang báo mạng phổ biến ở Việt Nam.

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00060 THỰC NGHIỆM TĨM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc Khoa Cơng nghệ Thông tin Truyền Thông Trường Đại học Cần Thơ lnkhang@ctu.edu.vn, phanchikhang7@gmail.com, baongocst96@gmail.com TĨM TẮT: Tóm tắt văn toán quan tâm lĩnh vực xử lý ngôn ngữ tự nhiên Sản phẩm trình tóm tắt văn thường ngắn văn ban đầu, súc tích, giữ nguyên ý Bài báo trình bày thực nghiệm phương pháp tóm tắt rút trích văn tiếng Việt Chúng xây dựng tập liệu gồm 150.000 báo rút trích từ trang báo mạng phổ biến Việt Nam Tập liệu dùng để đào tạo từ vựng cho tiếng Việt tập liệu mẫu dùng tốn tóm tắt văn Phương pháp centroid-based mơ hình GRU-RNN chiều áp dụng để xây dựng tóm tắt rút trích Từ khóa: Tóm tắt rút trích, nhúng từ, centroid-based, GRU-RNN I GIỚI THIỆU Josef Steinberger Karel Ježek [1] định nghĩa tóm tắt văn tự động “quá trình nhận vào văn gốc trình bày lại nội dung cốt lõi văn gốc tùy theo nhu cầu người dùng, Đầu tiên văn gốc đọc xác định nội dung Sau đó, ý văn gốc trích xuất trình bày ngắn gọn tóm tắt,…” Bài tốn tóm tắt văn nghiên cứu tập trung vào hai hướng [2]: tóm tắt rút trích (extraction summarization) tóm tắt tóm lược (abstraction summarization) Phương pháp tóm tắt rút trích phương pháp tạo văn tóm tắt cách chọn câu đoạn văn “nổi bật” từ tài liệu gốc Tóm tắt tóm lược xây dựng biểu diễn ngữ nghĩa từ bên văn gốc sử dụng kỹ thuật khác để tạ o tóm tắt gần gũi với người tạo Văn tóm tắt tạo phương pháp tóm lược chứa từ khơng có văn gốc Tóm tắt rút trích có ưu điểm bật phức tạp hơn, tốn hơn, tóm tắt ngữ pháp ngữ nghĩa Có nhiều phương pháp trích xuất câu khác để xây dựng tóm tắt Các nghiên cứu tóm tắt rút trích kể đến sử dụng đồ thị biểu diễn câu văn gốc [3] [4], dựa tần số xuất từ [5], tính điểm quan trọng câu văn gốc cách sử dụng trọng số T F-IDF [6] [7] Gần đây, có đột phá lớn việc áp dụng mạng nơron lĩnh vực xử lý ngôn ngữ tự nhiên, bao gồm tóm tắt văn Một số nghiên cứu tóm tắt rút trích sử dụng mạng nơron kể đến sử dụng mạng CNN (convolutional neural network) [8], kết hợp mơ hình DivSelect mơ hình CNNLM (được xây dựng cách cải tiến mơ hình NNLM neural network language model- dựa mạng CNN [9], mơ hình mã hóa - giải mã (encoder - decoder) dựa mạng hồi quy tập trung [10] Trong báo này, chúng tơi tìm hiểu số phương pháp rút trích bật có tiến hành thực nghiệm tập liệu văn tiếng Việt thu thập từ báo trực tuyến II CHUẨN BỊ DỮ LIỆU Thực tóm tắt văn theo hướng rút trích trải qua nhiều cơng đoạn Phần bày báo trình bày chi tiết bước chuẩn bị liệu cho việc xây dựng văn tóm tắt tiếng Việt: tiền xử lý liệu đào tạo từ vựng A Tiền xử lý liệu Tiền xử lý liệu bước q trình xây dựng tóm tắt văn Tiền xử lý liệu thực chất làm liệu trước đưa vào mơ hình huấn luyện, làm liệu giúp cho tóm tắt xác đạt hiệu cao Đầu tiên phát ranh giới câu đoạn văn bản, điều giúp ích cho việc phân tách câu, mơ hình tóm tắt tính tốn, đánh giá câu để xem xét xem câu có liên quan đến tóm tắt hay không Bộ công cụ NLTK1 sử dụng cho việc tách câu Tiếp đến tách câu thành từ để sử dụng chúng vào trình đào tạo từ vựng tiếng Việt Công cụ Underthesea2 sử dụng cho việc tách từ Bước cuối trình tiền xử lý liệu loại bỏ ký tự đặc biệt văn bản, loại bỏ stopword Các ký tự đặc biệt thường gặp là: !*&^%$()-#@,.’;=-?/+{}[] Danh sách stopword tiếng Việt sử dụng gồm 1.942 từ đề xuất Lê Văn Duyệt 3 https://www.nltk.org/ https://github.com/undertheseanlp https://github.com/stopwords/vietnamese-stopwords Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 469 B Xây dựng word embedding Word embedding, gọi “nhúng từ”, kỹ thuật biểu diễn từ văn bản, giới thiệu lần đầu Bengio cộng vào năm 2003 [11] Hai phương pháp tiếng sử dụng để đào tạo word embedding Word2vec [12] Glove4 Word2vec gồm mơ hình CBOW (Continuous Bag of Word) dùng để dự đoán từ dựa vào từ lân cận Skipgram dùng để dự đoán ngữ cảnh xung quanh từ Trong phạm vi nghiên cứu, phương pháp Word2vec - CBOW, Word2vec - Skipgram Glove sử dụng để xây dựng word embedding tập liệu tiếng Việt thu thập Kết giai đoạn đào tạo embedding từ vựng w III PHƯƠNG PHÁP CENTROID-BASED Xây dựng tóm tắt rút trích cho văn dựa centroid-based đề xuất Gaetano Rosiello cộng [7], [13] Các tóm tắt xây dựng qua bước: tìm từ trọng tâm văn bản, biễu diễn câu văn khơng gian vector, tính điểm cho câu dựa khoảng cách câu đến từ trọng tâm , câu gần với từ trọng tâm chọn để đưa vào văn tóm tắt Để tiện theo dõi, chúng tơi thực nghiệm phương pháp để xây dựng tóm tắt cho văn sau: Bằng Kiều làm thỏa mãn người yêu mến giọng ca anh đêm nhạc ấn tượng Xuyên suốt liveshow, khán giả lần thưởng thức lại ca khúc hay anh từ ngày đầu ca hát hôm Hàng loạt ca khúc hit Bằng Kiều chọn thể Hát live liên tục 20 ca khúc với chất giọng cao truyền cảm, Bằng Kiều không làm người nghe thất vọng Ba vị khách mời Trọng Tấn, Thu Minh Hồ Quỳnh Hương phần quà đặc biệt mà Bằng Kiều dành cho khán giả Bằng Kiều Hồ Quỳnh Hương bay bổng với "Dẫu có lỗi lầm" Kết hợp Thu Minh Phần kết hợp gây ấn tượng đêm có lẽ tiết mục Bằng Kiều nam ca sĩ Trọng Tấn Cả hai khiến khán giả có giây phút đắm chìm âm nhạc đích thực qua ca khúc O sole mio - ca khúc nhạc cổ điển, Trọng Tấn hát tiếng Anh Bằng Kiều thể tiếng Việt Màn kết hợp tuyệt với giành tràng pháo tay không ngớt từ phía khán giả Màn kết hợp lần Trọng Tấn Bằng Kiều để lại tiếng vang lớn Sự hòa hợp hai giọng ca đem lại cho khán giả giây phút thăng hoa âm nhạc Clip Bằng Kiều Trọng Tấn ngẫu hứng hát ca khúc "Bài ca xây dựng" Hai khách mời nữ đêm nhạc Thu Minh Hồ Quỳnh Hương cống hiến cho khán giả ca khúc hit quen thuộc Thu Minh với Yêu anh Bay, Hồ Quỳnh Hương với Anh Tình yêu mãi Hồ Quỳnh Hương Thu Minh Thêm số hình ảnh đêm diễn tối qua: Bằng Kiều quay trở lại sân khấu với trang phục khác Ca sĩ Trọng Tấn lột xác sau từ bỏ Học viện Âm nhạc Quốc gia Để khán giả có giây phút thật sảng khối lúc nghỉ giải lao, Bằng Kiều cho phát clip hài anh Clip nói chuyện bán vé liveshow Bằng Kiều với "Chị tôi" Bằng Kiều Hồ Quỳnh Hương vị khách mời nhân vật xuất sân khấu "Hơi thở mùa xuân" ca khúc chọn để kết thúc chương trình Bằng Kiều có đêm liveshow thành cơng rực rỡ Bằng Kiều vòng vây fan chương trình vừa kết thúc Ví dụ 1: Ví dụ nội dung văn cần tóm tắt A Chọn từ trọng tâm văn Để đánh giá mức độ quan trọng từ văn cần tóm tắt, phương pháp TF-IDF [14] sử dụng Các từ có trọng số TF-IDF lớn ngưỡng α chấp nhận từ trọng tâm văn đó, ký hiệu cw Centroid văn cần tóm tắt Ví dụ “Kiều” “ca khúc” B Xây dựng centroid embedding Centroid embedding C văn cần tóm tắt D tổng embedding từ trọng tâm cw xác định bước A Embedding cw ký hiệu E(cw) ∑ C Xây dựng sentence embedding Văn cần tóm tắt D gồm nhiều câu Sj Tương tự xây dựng centroid embedding, embedding câu Sj E(Sj) tính tổng embedding từ w câu ∑ https://nlp.stanford.edu/projects/glove/ THỰC NGHIỆM TĨM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT 470 D Tính điểm cho câu Điểm câu Sj tính khoảng cách cosine (cosine similarity score) embedding câu Sj với centroid embedding C văn cần tóm tắt D Nói cách khác, điểm câu Sj khoảng cách cosine Sj C ( ) ( ( ) ) ( ) ‖ ( )‖ ‖ ‖ Bảng trình bày số câu nội dung văn cần tóm tắt Ví dụ tính điểm dựa vào mối quan hệ từ câu với từ trọng tâm Các câu xếp theo thứ tự giảm dần dựa vào điểm câu Cột “STT câu” Bảng số thứ tự câu nội dung văn ban đầu Bảng 1: Ví dụ câu tính điểm xếp hạng STT câu Nội dung câu Điểm Hàng loạt ca khúc hit Bằng Kiều chọn thể Hát live liên tục 20 ca khúc với chất giọng cao truyền cảm, Bằng Kiều không làm người nghe thất vọng 0,9228 Màn kết hợp lần Trọng Tấn Bằng Kiều để lại tiếng vang lớn Sự hòa hợp hai giọng ca đem lại cho khán giả giây phút thăng hoa âm nhạc Clip Bằng Kiều Trọng Tấn ngẫu hứng hát ca khúc "Bài ca xây dựng" Hai khách mời nữ đêm nhạc Thu Minh Hồ Quỳnh Hương cống hiến cho khán giả ca khúc hit quen thuộc Thu Minh với Yêu anh Bay, Hồ Quỳnh Hương với Anh Tình yêu mãi 0,8951 Cả hai khiến khán giả có giây phút đắm chìm âm nhạc đích thực qua ca khúc O sole mio - ca khúc nhạc cổ điển, Trọng Tấn hát tiếng Anh Bằng Kiều thể tiếng Việt 0,8714 Bằng Kiều Hồ Quỳnh Hương bay bổng với "Dẫu có lỗi lầm" Kết hợp Thu Minh Phần kết hợp gây ấn tượng đêm có lẽ tiết mục Bằng Kiều nam ca sĩ Trọng Tấn 0,8648 Bằng Kiều làm thỏa mãn người yêu mến giọng ca anh đêm nhạc ấn tượng 0,8640 E Chọn câu phù hợp Các câu xếp theo thứ tự dựa giá trị điểm câu theo chiều giảm dần Câu có điểm cao đưa vào văn tóm tắt Các câu có điểm cao thêm vào văn tóm tắt đạt đến giới hạn câu Tuy nhiên, để đảm bảo câu không bị trùng lắp ý, trước thực thêm câu vào văn tóm tắt, tác giả thực tính độ tương đồng cosine similarity câu chuẩn bị thêm vào văn tóm tắt với câu thêm vào văn tóm tắt trước đó, độ tương đồng lớn µ, câu khơng thêm vào văn tóm tắt Sau tính điểm xếp câu theo thứ tự điểm, câu phù hợp chọn đưa vào tóm tắt xếp lại theo thứ tự tăng dần “STT câu” văn ban đầu xuất tóm tắt Nội dung tóm tắt cho văn Ví dụ với giới hạn 100 từ là: Hàng loạt ca khúc hit Bằng Kiều chọn thể Hát live liên tục 20 ca khúc với chất giọng cao truyền cảm, Bằng Kiều không làm người nghe thất vọng Màn kết hợp lần Trọng Tấn Bằng Kiều để lại tiếng vang lớn Sự hòa hợp hai giọng ca đem lại cho khán giả giây phút thăng hoa âm nhạc Clip Bằng Kiều Trọng Tấn ngẫu hứng hát ca khúc "Bài ca xây dựng" Hai khách mời nữ đêm nhạc Thu Minh Hồ Quỳnh Hương cống hiến cho khán giả ca khúc hit quen thuộc Thu Minh với Yêu anh Bay, Hồ Quỳnh Hương với Anh Tình yêu mãi IV PHƯƠNG PHÁP SỬ DỤNG MƠ HÌNH GRU-RNN CHIỀU Phương pháp xây dựng tóm tắt rút trích cho văn sử dụng mơ hình GRU-RNN chiều đề xuất Nallapati cộng [10], gọi phương pháp SummaRuNNer Q trình xây dựng tóm tắt cho văn thực gồm bước: tạo nhãn cho câu áp dụng mơ hình A Tạo nhãn cho câu Mơ hình tóm tắt dựa mơ hình phân loại chuỗi, nên việc gán nhãn cho câu văn cần tóm tắt cần thiết Các tóm tắt cặp tóm tắt R - văn D tập liệu ban đầu người thực tóm tắt thường tóm tắt tóm lược Các câu văn cần tóm tắt D cần gán nhãn 1 ứng với câu thứ j RNN chiều mức độ câu tiến lùi tương số câu tài liệu biểu diễn vector nối vector trạng thái ẩn Giá trị nhị phân yj cho biết câu Sj có phải phần tóm tắt hay khơng, hj biểu diễn câu tạo phép biến đổi phi tuyến tính trạng thái ẩn nối tiếp bước j RNN chiều mức câu, biểu diễn tóm tắt vị trí câu Sj tính theo công thức: ∑ Việc đưa định việc câu có đưa vào văn tóm tắt hay không phụ thuộc vào nhiều yếu tố thực sau: ( | Trong đó: , đại diện nội dung thông tin câu Sj; , biểu thị tính bật câu; văn ( ), biểu dư thừa câu tài liệu tóm tắt; , thể tầm quan trọng vị trí tuyệt đối tương đối câu liên quan đến THỰC NGHIỆM TĨM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT 472 Kết tóm tắt mơ hình xây dựng tóm tắt văn Ví dụ Bằng Kiều Hồ Quỳnh Hương bay bổng với "Dẫu có lỗi lầm" Kết hợp Thu Minh Phần kết hợp gây ấn tượng đêm có lẽ tiết mục Bằng Kiều nam ca sĩ Trọng Tấn Màn kết hợp lần Trọng Tấn Bằng Kiều để lại tiếng vang lớn Sự hòa hợp hai giọng ca đem lại cho khán giả giây phút thăng hoa âm nhạc Clip Bằng Kiều Trọng Tấn ngẫu hứng hát ca khúc "Bài ca xây dựng" Hai khách mời nữ đêm nhạc Thu Minh Hồ Quỳnh Hương cống hiến cho khán giả ca khúc hit quen thuộc Thu Minh với Yêu anh Bay, Hồ Quỳnh Hương với Anh Tình yêu mãi vị khách mời nhân vật xuất sân khấu "Hơi thở mùa xuân" ca khúc chọn để kết thúc chương trình Bằng Kiều có đêm liveshow thành cơng rực rỡ Bằng Kiều vịng vây fan chương trình vừa kết thúc V THỰC NGHIỆM A Xây dựng tập liệu Để thực nghiệm, xây dựng tập liệu gồm 150.000 báo khác thu thập từ trang báo mạng phổ biến Việt Nam Các báo nhiều lĩnh vực: khoa học, công nghệ, giáo dục, du lịch, thể thao, tạp chí thời trang, giải trí, kinh doanh Tập liệu gồm cột: title - tiêu đề viết, link - đường dẫn liên kết viết, time - thời gian đăng bài, content - toàn nội dung viết, summary - tóm tắt viết, author - tác giả viết Để phục vụ cho nghiên cứu này, cột “content” “summary” sử dụng, Hình Hình Dữ liệu thu thập từ trang báo mạng phổ biến B Xây dựng word embedding Phương pháp Word2vec CBOW, Word2vec Skipgram Glove sử dụng để xây dựng word embedding tập liệu báo tiếng Việt thu thập Sau đào tạo word embedding, tiến hành kiểm tra đánh giá mối quan hệ từ phương pháp Bảng trình bày số từ gần với từ “giọng hát”, “con cái” “tình yêu” sau q trình đào tạo word embedding Bảng Ví dụ kết đào tạo word embedding Word2Vec - CBOW Từ chinh phục bolero nhảy nhí manga nhạc phẩm Sim 0,881 0,864 0,859 0,859 0,853 0,853 suy nghĩ đuổi kịp tan vỡ sinh hoạt 0,955 0,946 0,943 0,943 Word2Vec - Skipgram “Giọng hát” Từ Sim bolero 0,827 nội lực 0,813 nhí 0,813 truyền cảm 0,809 thính phịng 0,799 nhạc phẩm 0,787 “Con cái” chăm lo 0,96 nghèo khó 0,899 bất hạnh 0,887 thấu hiểu 0,881 Glove Từ vđv nhí tìm kiếm truyền hình Carolina Sim 0,992 0,992 0,992 0,989 0,987 0,981 khỏe cân tình dục nghĩa 0,988 0,982 0,982 0,981 Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 473 Word2Vec - CBOW Word2Vec - Skipgram Glove “Giọng hát” Từ Sim Từ Sim Từ Sim “Tình yêu” tình cảm 0,954 tình bạn 0,816 thân thiết 0,989 đời 0,947 tình cảm 0,792 cảm xúc 0,988 yêu 0,946 ký ức 0,971 đời 0,988 hạnh phúc 0,928 tuổi thơ 0,788 tình cảm 0,983 cảm xúc 0,921 cảm động 0,784 ngoại giao 0,983 câu chuyện 0,921 bình yên 0,784 chàng 0,981 vui 0,914 mối tình 0,783 hạnh phúc 0,981 Kết thực nghiệm cho thấy mơ hình Word2Vec cho kết tốt so với mơ hình Glove tập liệu tiếng Việt dùng Đặc biệt Word2vec - Skipgram cho kết đáng mong đợi Do đó, mơ hình Word2Vec-Skipgram đươc sử dụng để đào tạo word embedding với số chiều 100 số lần xuất từ Kết thu liệu gồm 200.000 từ vựng C Phương pháp đánh giá Để đánh giá phương pháp tóm tắt văn bản, đánh giá thủ công đánh giá tự động Đánh giá thủ công chuyên gia thực hiện, đánh giá kết với tiêu chí định để đưa kết cụ thể Đánh giá tự động, dùng thuật toán để đánh giá kết cách tự động, việc so sánh kết tạo với kết tóm tắt sẵn có liệu, phương pháp tự động sử dụng phổ biến ROUGE BLEU [16] So với việc đánh giá thủ cơng, đánh giá tự động cịn nhiều hạn chế tính phức tạp ngơn ngữ tự nhiên, khó để đánh giá xác thuật toán Tuy nhiên, việc đánh giá tự động lựa chọn nhiều đánh giá thủ cơng cần tiêu tốn nhiều chi phí Trong phạm vi báo này, phương pháp đánh giá ROUGE-1, ROUGE-2 ROUGE-L sử dụng để đánh giá kết thực nghiệm tập liệu: Tập liệu data1 10% data xây dựng mơ tả phía Tập liệu data2 gồm 200 viết thu thập tóm tắt thủ cơng đề tài Phịng thí nghiệm Công nghệ tri thức, Đại học Công nghệ, ĐHQG Hà Nội D Kết thực nghiệm Các tác giả [7] [10] thực nghiệm tập liệu tiếng Anh DUC-200467 Phương pháp centroid-based giúp xây dựng tóm tắt đạt độ xác ROUGE-1 ROUGE-2 trung bình khoảng 0,388 0,099 với trọng số TF-IDF 0,3 Phương pháp sử dụng GRU-RNN chiều đạt độ xác ROUGE-1 ROUGE-2 ROUGE-L 0,466, 0,231 0,430 Kết phương pháp thực nghiệm tập liệu tiếng Việt trình bày Bảng Bảng Đánh giá độ xác phương pháp centroid-based Kết đánh giá Precision ROUGE-1 ROUGE-2 Tập data 0,416 0,146 ROUGE-L 0,261 Recall 0,687 0,251 0,441 F-score 0,505 0,179 0,320 Tập data Precision 0,743 0,461 0,636 Recall 0,739 0,447 0,634 F-score 0,741 0,454 0,635 Bảng Đánh giá độ xác phương pháp sử dụng mơ hình GRU-RNN chiều Kết đánh giá Precision Recall F-score https://github.com/lupanh/VietnameseMDS http://duc.nist.go ROUGE-1 ROUGE-2 Tập data 0,815 0,374 0,323 0,440 0,138 0,192 ROUGE-L 0,612 0,239 0,326 THỰC NGHIỆM TĨM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT 474 Kết đánh giá Precision Recall F-score ROUGE-1 ROUGE-2 Tập data 0,520 0,344 0,873 0,587 0,629 0,418 ROUGE-L 0,376 0,645 0,458 Trong phương pháp GRU-RNN chiều, sử dụng 80% liệu cho huấn luyện, 10% liệu cho kiểm tra 10% liệu cho xác thực Thư viện Pytorch8 dùng để áp dụng mơ hình GRU-RNN chiều cho việc tóm tắt rút trích Dữ liệu đưa vào mơ hình huấn luyện tinh chỉnh tham số nhằm tăng tốc độ tính tốn sau: Giới hạn số câu tài liệu 100 câu, câu tối đa 50 từ Sử dụng kích cở trạng thái ẩn (hidden state) 200 cho mơ hình huấn luyện tham số batch_size 64 trình huấn luyện Sau huấn luyện, tập liệu kiểm tra sử dụng để kiểm tra mơ hình Một ví dụ xây dựng tóm tắt khác sử dụng phương pháp GRU-RNN chiều văn cần tóm tắt có nội dung: “Quang Liêm bạn gái bố mẹ chụp hình lưu niệm lễ tổng kết Giải cờ vua quốc tế Quang Liêm xếp sau người vô địch Trường Sơn có bảy điểm thua đối đầu Quang Liêm bắt tay chúc mừng chức vô địch Trường Sơn Kỳ thủ Thảo Nguyên bạn gái Trường Sơn sát cánh bên anh giải đấu Cả hai gắn bó với hình với bóng Trường Sơn cho biết Thảo Nguyên động lực giúp anh có chức vơ địch Kỳ thủ người Uzbekistan Muminova Nafisa vô địch nữ với 55 điểm Các vận động viên đoạt giải cao khoảnh khắc nhận giải thưởng” Mơ hình GRU-RNN chiều tạo tóm tắt rút trích có nội dung sau: “Quang Liêm bạn gái bố mẹ chụp hình lưu niệm lễ tổng kết Giải cờ vua quốc tế Quang Liêm xếp sau người vô địch Trường Sơn có bảy điểm thua đối đầu Quang Liêm bắt tay chúc mừng chức vô địch Trường Sơn” VI KẾT LUẬN Xây dựng tóm tắt rút trích cho văn phương pháp centroid-based mơ hình GRU-RNN chiều đem lại kết khả quan tiếng Việt Tuy nhiên, kết chưa đạt kỳ vọng ảnh hưởng từ vựng hạn chế liệu xây dựng chưa gán nhãn nên phải gán nhãn tự động Để cải thiện kết tóm tắt, cần xây dựng tập đầu vào word embedding với số lượng từ nhiều tốt đảm bảo độ xác mối liên hệ từ, lựa chọn phương pháp gán nhãn phù phương pháp ROUGE sử dụng Có thể thấy, việc chuẩn hóa liệu giai đoạn chuẩn bị liệu cần thực hoàn chỉnh Các câu nội dung văn cần tóm tắt phần Ví dụ chưa xử lý tốt, dẫn đến kết xây dựng tóm tắt bị ảnh hưởng theo TÀI LIỆU THAM KHẢO [1] Steinberger, Josef, and Karel Ježek, "Evaluation measures for text summarization," Computing and Informatics, vol 28, no 2, pp 251-275, 2012 [2] Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E D., Gutierrez, J B., & Kochut, K., "Text summarization techniques: a brief survey," arXiv preprint arXiv:1707.02268., 2017 [3] Erkan, Günes, and Dragomir R Radev., "Lexrank: Graph-based lexical centrality as salience in text summarization.," Journal of artificial intelligence research, pp 457-479, 22 (2004) [4] Trương Quốc Định Nguyễn Quang Dũng, "Một giải pháp tóm tắt văn tiếng Việt tự động," in Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, Hà Nội, 2012 [5] Nenkova, Ani, and Lucy Vanderwende, "The impact of frequency on summarization," Microsoft Research, Redmond, Washington, Tech Rep MSR-TR-2005 101, 2005 [6] Tạ Nguyễn, Vũ Đức Lung, "Xây dựng hệ thống rút trích nội dung văn khoa học tiếng việt dựa cấu trúc," Tạp chí Khoa học Công nghệ 52 (3) (2014) , pp 269-280, 2014 [7] Gaetano Rossiello, Pierpaolo Basile, Giovanni Semeraro, "Centroid-based Text Summarization through https://pytorch.org/ Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 475 Compositionality of Word Embeddings," 2017 [8] Cao, Z., Li, W., Li, S., Wei, F., & Li, Y., "Attsum: Joint learning of focusing and summarization with neural attention," arXiv preprint arXiv:1604.00125, 2016 [9] Yin, Wenpeng, and Yulong Pei, "Optimizing Sentence Modeling and Selection for Document Summarization," in IJCAI , 2015 [10] Nallapati, Ramesh, Feifei Zhai, and Bowen Zhou, "SummaRuNNer: A Recurrent Neural Network Based Sequence Model for Extractive Summarization of Documents," 2017 [11] Bengio, Y., Ducharme, R., Vincent, P and Jauvin, C., "A neural probabilistic language model," Journal of machine learning research, pp 1137-1155, 2003 [12] Mikolov, Tomas, et al., Efficient estimation of word representations in vector space, 2013 [13] Radev, Dragomir R., Hongyan Jing, Małgorzata Styś, and Daniel Tam, "Centroid-based summarization of multiple documents," Information Processing & Management, 40(6), pp 919-938, 2004 [14] Ramos, Juan., "Using tf-idf to determine word relevance in document queries," Proceedings of the first instructional conference on machine learning Vol 242, 2003 [15] C Y Lin, "Rouge: A package for automatic evaluation of summaries," 2004 [16] Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu, "BLEU: a method for automatic evaluation of machine translation," in Proceedings of the 40th annual meeting on association for computational linguistics, 2002 EXPERIMENTS ON GENERATING TEXT SUMMARIZATION USING EXTRACTIVE METHODS Lam Nhut Khang, Phan Chi Khang, Tran Bao Ngoc ABSTRACT: Text summarization is a growing topic in the field of natural language processing The production of text summaries is a shortened or greatly condensed version of input text that highlights its central ideas This paper presents experiments on generating text summarization using extractive methods on Vietnamese articles We construct a corpus containing 150.000 Vietnamese articles extracted from online magazines This corpus is used to create word embeddings and to train models The centroid-based and bidirectional GRU-RNN models are used to generate summaries ... Mơ hình tóm tắt dựa mơ hình phân loại chuỗi, nên việc gán nhãn cho câu văn cần tóm tắt cần thiết Các tóm tắt cặp tóm tắt R - văn D tập liệu ban đầu người thực tóm tắt thường tóm tắt tóm lược... trọng vị trí tuyệt đối tương đối câu liên quan đến THỰC NGHIỆM TĨM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT 472 Kết tóm tắt mơ hình xây dựng tóm tắt văn Ví dụ Bằng Kiều Hồ Quỳnh Hương bay bổng với "Dẫu... cao đưa vào văn tóm tắt Các câu có điểm cao thêm vào văn tóm tắt đạt đến giới hạn câu Tuy nhiên, để đảm bảo câu không bị trùng lắp ý, trước thực thêm câu vào văn tóm tắt, tác giả thực tính độ

Ngày đăng: 01/10/2021, 15:27

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w