Tóm tắt văn bản Tiếng Việt dựa trên phương pháp học không giám sát

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	6
Dung lượng	518,18 KB

Nội dung

Bài viết này tiếp cận theo hướng tóm tắt văn bản bằng cách lựa chọn các câu trong tài liệu nguồn để tạo nên bản tóm tắt mới; cung cấp kết quả thử nghiệm của việc mở rộng các phương pháp tóm tắt băn bản không giám sát kết hợp với điểm đánh giá mức độ quan trọng của câu bằng cách trích xuất các câu có xếp hạng hàng đầu, trong đó tránh chọn các câu trùng lặp về nội dung.

ISSN 2354-0575 ISSN 2354-0575 TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƢƠNG PHÁP HỌC KHƠNG GIÁM SÁT Nguyễn Hồng Điệp*, Nguyễn Thị Hải Năng, Đỗ Thị Thu Trang, Ngô Thanh Huyền, Trịnh Thị Nhị Trường Đại học Sư phạm Kỹ thuật Hưng Yên * Diep82003@gmail.com, 0923 848 008 Ngày tòa soạn nhận báo: 16/11/2019 Ngày phản biện đánh giá sửa chữa: 26/12/2019 Ngày báo duyệt đăng: 29/12/2019 Tóm tắt: Trong hi i to n t m t t v n n ti ng nh v ng ược nghiên cứu rộng r i v i nh ng t qu ng inh ngạc th i to n t m t t v n n ti ng vi t ch ng gi i oạn ầu v i t qu nghiên cứu c n hạn ch in ề xuất hư ng gi i qu t i to n t m t t v n n ti ng Vi t tự ộng ng c ch m rộng c c phư ng ph p t m t t n n h ng gi m s t t hợp v i i m nh gi mức ộ qu n trọng c c u c ng v i mức ộ iên qu n c c c c u i o cung cấp k t qu thử nghi m c vi c m rộng c c phư ng ph p t m t t n n h ng gi m s t t hợp v i i m nh gi mức ộ qu n trọng c c u ng c ch trích xuất c c c u c p hạng h ng ầu tr nh chọn c c c u tr ng p nội ung Đ i m chứng t nh hi u qu c phư ng ph p ề uất nh m thực hi n so s nh t qu c nh m v i t qu c phư ng ph p tóm t t v n n ng học tập s u mạng n ron t ch chập v mạng n ron h i qu Sự m rộng th i c nh m cho t qu t t n i trội v c c o s u Thứ vi c nh t c c c u c i m c o m o ự chọn ược c c c u qu n trọng Thứ h i vi c ự c c c u c ộ tư ng qu n thấp m o c c c u c nội ung gi ng c u ấ s h ng ược ấ ại iều n m o nội ung n t m t t h ng tr ng p nội ung tr i rộng v o qu t ược nội ung c ng c T m t t v n n học m học h ng gi m s t ng n ng tự nhiên, mạng n ron h i qu học s u mạng n ron t ch chập Chữ viết tắt TT Chữ viết tắt Ý nghĩa NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên CNN Convolutional Neural Network Mạng nơ ron tích chập LSTM Long Short Term Memory Mạng nơ ron hồi quy Giới thiệu Có một lượng thông tin khổng lồ có sẵn Internet tài nguyên khác như: sách, Twiter, Facebook, Youtube Những nguồn thông tin sẽ mang đến cho người lượng kiến thức vô cùng quý báu sử dụng chúng Một chế trích xuất thơng tin nhanh chóng hiệu sẽ giúp người chuyển thông tin tồn thành thơng tin hữu ích Tóm tắt văn tự đợng một nhiệm vụ đầy thách thức thú vị xử lý ngôn ngữ tự Khoa học & Công nghệ - Số 24/ Tháng 12 – 2019 66| nhiên Nhiệm vụ tạo mợt tóm tắt súc tích từ một nhiều tài liệu Đầu mợt tóm tắt hệ thống mang lại lợi ích cho nhiều ứng dụng NLP tìm kiếm web Google thường trả một mô tả ngắn trang web tương ứng cho mợt truy vấn tìm kiếm, nhà cung cấp tin tức trực tuyến cung cấp điểm nổi bật một tài liệu Web giao diện Hầu hết cách tiếp cận cho toán tóm tắt văn tiếng việt phương pháp bán giám sát giám sát dựa mơ hình đờ thị Jornal of Science and technology Khoa học & Công nghệ - Số 24/ Tháng 12 – 2019 75 Jornal of Science and technology ISSN 2354-0575 ISSN 2354-0575 [2,3,4] xếp hạng dựa học giám sát dựa vào thuốc tính [4, 20, 21] H nh Ngu n th ng tin Bài báo tiếp cận theo hướng tóm tắt văn bằng cách lựa chọn câu tài liệu nguồn để tạo nên tóm tắt mới [5,6,7,11] Bài báo cung cấp kết thử nghiệm việc mở rộng phương pháp tóm tắt băn không giám sát kết hợp [10-15] với điểm đánh giá mức độ quan trọng câu bằng cách trích xuất câu có xếp hạng hàng đầu, đó tránh chọn câu trùng lặp nợi dung Phần cịn lại viết tổ chức sau Phần cung cấp một số lý thuyết liên quan liệu chuẩn bị, cuối phần trình bày cách thức nhóm tác giả đã thực nghiệm đánh giá Các kết thảo luận báo cáo phần Cuối cùng, phần rút kết luận định hướng tương lai Cơ sở lý thuyết 2.1 Khái niệm 2.1.1 m tắt văn Được tạo từ một nhiều văn bản, chứa một phần thông tin quan trọng văn gốc không dài một nửa văn gốc Học có giám sát: nhiệm vụ học có giám sát tìm mợt hàm ánh xạ dựa bộ liệu huấn luyện, cặp liệu (đầu vào-đầu mong muốn) Học s u nhiệm vụ học sâu để tìm mơ hình liệu trừu tượng hóa ở mức cao bằng cách sử dụng mợt tập hợp thuật tốn với nhiều lớp xử lý với cấu trúc phức tạp Mạng n ron t ch chập CNN mợt mơ hình học sâu tiên tiến, gờm có mợt nhiều lớp tích chập với lớp đầy đủ kết nối (đáp ứng phù hợp với mạng neuron nhân tạo tiêu biểu) đỉnh Mạng n ron h i qu LSTM mợt mơ hình học sâu tiên tiến, một mạng cải tiến RNN (Recurrent Neural Network) nhằm giải vấn đề nhớ bước dài RNN 2.1.3 Đ tƣơng t cosine cos(𝑠𝑠𝑖𝑖 , 𝑠𝑠𝑗𝑗 ) = 𝑠𝑠𝑖𝑖 𝑠𝑠𝑗𝑗 ‖𝑠𝑠𝑖𝑖 ‖ ‖𝑠𝑠𝑗𝑗 ‖ Trong đó: 𝑠𝑠𝑖𝑖 vecto tương ứng với câu văn i 𝑠𝑠𝑗𝑗 vecto tương ứng với câu văn j ‖𝑠𝑠𝑖𝑖 ‖ ‖𝑠𝑠𝑗𝑗 ‖ độ dài chuẩn vecto 𝑠𝑠𝑖𝑖 𝑠𝑠𝑗𝑗 cos(𝑠𝑠𝑖𝑖 , 𝑠𝑠𝑗𝑗 ) độ tương tự câu thứ i j Mức độ tương tự hai câu tính bằng cosine, cosine có giá trị thực từ đến 1, cosine nhỏ tương ứng trường hợp nội dung hai câu ít trùng lặp, hia câu có nội dung trùng lặp nhiều tương ứng với giá trị cosine lớn 2.2 Dữ liệu Nhóm tác giả chuẩn bị hai bộ liệu cho nghiên cứu để so sánh phương pháp tóm tắt khai thác bằng tiếng Việt VN-MDS ViMs H nh Minh họ t m t t v n n 2.1.2 K thu t t m tắt văn Học tập không giám sát: nhiệm vụ học khơng có giám sát tìm mẫu chưa biết trước đó tập liệu mà không có nhãn trước (tức đầu đúng tương ứng cho đầu vào trước) 2.2.1 B liệu VN-MDS Bộ liệu tạo bởi Trần cộng sự, Phịng thí nghiệm Đại học Quốc gia Hà Nội [20] Bộ liệu bao gồm tài liệu 200 chủ đề khác thu thập từ nhà cung cấp tin tức trực tuyến Việt Nam Mỗi chủ đề có hai đến năm viết khác nhau, thường ba khác Cùng với tóm tắt (gồm câu quan trọng) lựa chọn từ tài liệu gốc bởi chuyên gia 76 Khoa học & Công nghệ - Số 24/ Tháng 12 – 2019 Jornal of Science and technology |67 Khoa học & Công nghệ - Số 24/ Tháng 12 – 2019 Jornal of Science and technology ISSN 2354-0575 ISSN 2354-0575 2.2.2 B liệu ViMs Bộ liệu tạo bởi thạc sĩ Nghiêm Đại học Khoa học Tự nhiên, Đại học Quốc gia Hồ Chí Minh [21] Bộ liệu chứa tài liệu 300 chủ đề khác thu thập từ Google News Mỗi chủ đề có năm đến mười viết khác Cùng với tóm tắt (gồm câu quan trọng) lựa chọn từ tài liệu gốc bởi chuyên gia 2.2.3 Th ng Tên b liệu VNMDS ViMs quan sát liệu S chủ đề S văn Tổng s câu S tóm tắt Đ dài trung bình câu 200 600 9802 400 49.2 300 1945 25100 600 83.6 Hình Th ng ê qu n s t ộ câu, sau đó trích câu có trọng số cao để tạo thành mợt tóm tắt 2.3.4 Thu t toán uhn Thuật toán trích câu quan trọng bằng cách đo thành phần quan trọng, thành phần quan trọng có chứa từ xuất nhiều thuộc câu ở vị trí quan trọng câu đầu hay cuối [5] 2.3.5 Thu t toán K Thuật toán đo lường sự khác biệt phân phối xác suất unigram đã học từ tài liệu gốc tóm tắt dựa KL Divergence [18] 2.3.6 Thu t toán SumBasic Thuật toán sử dụng sự đơn giản hóa câu chọn lựa từ vựng để tóm tắt [19] 2.4 uá tr nh th c nghiệm i u Có thể thấy rằng số lượng tài liệu câu ViMs lớn nhiều so với VN-MDS Ngoài ra, chiều dài tài liệu ViMs dài gần hai lần so với tài liệu VN-MDS 2.3 Phƣơng pháp học t p hông giám sát Nhóm tác giả sử dụng sáu phương pháp xếp hạng nổi tiếng bộ công cụ sumy để thực việc tóm tắt văn 2.3.1 Thu t toán SA Ứng dụng sự phân rã ma trận từ-câu bằng cách sử dụng Phân tách giá trị số ít để tóm tắt Bằng cách này, có thể có chủ đề ẩn hình chiếu câu theo chủ đề [16] Thuật toán sử dụng giá trị tham chiếu điểm số để phản ánh tầm quan trọng câu 2.3.2 Thu t toán e Ran Thuật tốn xây dựng mợt đờ thị ngẫu nhiên để tính tốn tầm quan trọng tương ứng câu quan trọng [10] Trong phương pháp này, câu quan trọng xác định bằng cách sử dụng mơ hình 2.3.3 Thu t tốn Te tRan Thuật tốn kế thừa sự tính toán thuật toán PageRank, đó mà một câu văn quan trọng nhận nhiều liên kết (tương tự điểm số) từ người khác [17] TextRank sử dụng cấu trúc văn bên tài liệu tạo một cụm đồ thị từ khóa trung tâm để xếp hạng H nh T ng qu n phư ng ph p Ph Tiền i u Nhóm tác giả tiền xử lý liệu bằng cách bóc tách lấy nội dung từ tệp liệu bộ liệu, tách câu một dòng Sau đó sử dụng bộ công cụ vitk TS Lê Hồng Phương để thực tách từ nội dung văn Ph Xử i u Lấy điểm đánh giá mức độ quan trọng rankscore câu, bằng cách thay đổi mở rộng mã nguồn bộ công cụ mã nguồn mở sumy Sau đó xếp lại câu văn theo độ quan trọng câu giảm dần dựa vào điểm đánh giá giảm dần Công việc thực với từng thuật tốn trình bày phần 2.3 Pha 3: Tạo b n tóm t t Các câu đưa vào tóm tắt dựa vào rankscore - điểm đánh giá mức độ quan trọng câu, cosine - mức độ liên quan câu với câu đã lựa chọn tham số threshold - ngưỡng Cụ thể sau: Bước 1: Lấy kết từ pha 2, chọn câu có điểm rankscore cao (câu quan trọng nhất) Bước 2: Lặp lại công việc sau Lần lượt xét câu còn lại, câu xét si có Khoa học & Công nghệ - Số 24/ Tháng 12 – 2019 Jornal of Science and technology 77 68| Khoa học & Công nghệ - Số 24/ Tháng 12 – 2019 Jornal of Science and technology ISSN 2354-0575 ISSN 2354-0575 độ dài từ không trùng lặp nội dung với câu đã chọn đưa vào tóm tắt, đưa câu vào tóm tắt Các câu có nội dung khơng trùng lặp, thỏa mãn ràng ḅc: max (cosine(si , sk)) < threshold, với sk câu đã chọn đưa vào tóm tắt Thuật toán dừng tóm tắt đạt đến mợt ràng ḅc chiều dài Threshold xác định bằng thực nghiệm hai bộ liệu VN-MDS ViMs Nhóm đã thử nghiệm Threshold tập giá trị khoảng (0,1) bước nhảy 05 {0.05, 0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45,…0.95}, từ kết cho thấy Threshold=0.4 cho kết ổn định Về chiều dài tóm tắt, nhóm thử nghiệm với chiều dài khoảng 10 câu tức 100 từ (khoảng 10 câu), thử nghiệm với trường hợp không giới hạn độ dài tóm tắt, cho kết tốt (bảng 1,2,3 4) Pha Đ nh gi Mỗi bộ liệu chia làm phần mợt cách hồn tốn ngẫu nhiên Sử dụng bộ công cụ ROUGE_1.5.5, câu trích xuất vào tóm tắt so sánh với câu tóm tắt chuyên gia (các câu gold files) theo ROUGE_N (N = 1,2 ROUGE_SU4) Huấn luy n CNN LSTM Huấn luyện CNN, nhóm tác giả sử dụng ba nhân, hai tầng ẩn kết nối đầy đủ với kích thước 20 Huấn luyện LSTM, nhóm sử dụng mơ hình LTSM cell đơn giản mặc đạnh, kích thước vecto đầu 100 Trên hai bộ liệu tiếng việt, nhóm lấy đợ dài câu tiếng việt dài 30 từ Huấn luyện hai mô hình với kích thước liệu chia lơ batch size 32, số lần lặp huấn luyện lô epochs 25 Kết nghi n c u thảo lu n Chương trình thực nghiệm viết bằng ngơn ngữ lập trình python siêu máy tính UTEHY đặt sở Mỹ Hào trường ĐHSP Kỹ thuật Hưng Yên Nhóm đã thử nghiệm hai bộ liệu tiếng việt ViMs VN-MDS, so sánh kết lựa chọn giá trị ngưỡng thích hợp 0.4 Có vài điểm nổi bật từ kết (bảng 1) Đầu tiên, với tóm tắt khoảng 10 câu (100 từ) bộ liệu VN-MDS Thứ 2, thuật tốn học khơng giám sát mở rộng cho kết tốt so với học sâu Thứ ba, thuật tốn học Sumbasic-mợt thuật tốn học khơng giám sát sau mở cho kết tốt thuật tốn khác bợ liệu VN-MDS Một điểm nổi bật từ kết bảng kết tương tự bảng 1, điều nói nên rằng thuật toán cho kết tốt với liệu tiếng viện với tóm tắt khoảng 100 Tiếp theo, thuật tốn học khơng giám sát mở rộng cho kết tốt so với học sâu t t1 ng So s nh t qu v i ộ t ộ i u VN-MDS i nt m Phƣơng pháp ROUGE1 ROUGE -2 ROUG E-SU4 LSA 0.629 0.370 0.558 LexRank 0.643 0.406 0.581 TextRank 0.629 0.398 0.565 Luhn 0.612 0.368 0.550 KL 0.651 0.380 0.571 Sumbasic 0.665 0.394 0.585 CNN 0.614 0.366 0.528 LSTM 0.616 0.355 0.535 So s nh t qu v i ộ ng t t1 t ộ i nt m i u ViMs Phƣơng pháp ROUGE1 ROUGE2 ROUGESU4 LSA 0.625 0.360 0.538 LexRank 0.641 0.394 0.564 TextRank 0.627 0.388 0.544 Luhn 0.614 0.376 0.534 KL 0.651 0.378 0.559 Sumbasic 0.677 0.390 0.572 CNN 0.591 0.342 0.491 LSTM 0.624 0.351 0.529 78 Khoa học & Công nghệ - Số 24/ Tháng 12 – 2019 Jornal of Science and technology |69 Khoa học & Công nghệ - Số 24/ Tháng 12 – 2019 Jornal of Science and technology ISSN 2354-0575 ISSN 2354-0575 ng So s nh t qu i h ng gi i hạn ộ OU -scores ộ i u VN-MDS Phƣơng ROUGE ROUGE ROUGEpháp -1 -2 SU4 LSA 0.492 0.392 0.208 LexRank 0.482 0.392 0.198 TextRank 0.447 0.374 0.166 Luhn 0.439 0.372 0.159 KL 0.404 0.343 0.602 Sumbasic 0.574 0.409 0.305 CNN 0.528 0.400 0.248 LSTM 0.525 0.396 0.244 Kết bảng cho kết tương tự bảng 2, thuật tốn học khơng giám sát thể kết tốt so với học sâu hai bộ liệu trường hợp không giới hạn số từ tóm tắt ng So s nh t qu i h ng gi i hạn ộ Phƣơng pháp LSA LexRank TextRank Luhn KL Sumbasic CNN LSTM ROUGE -1 0.711 0.695 0.664 0.636 0.697 0.697 0.561 0.707 OU -scores ộ i u ViMs ROUGE -2 0.445 0.464 0.464 0.454 0.411 0.426 0.421 0.431 ROUG E-SU4 0.503 0.477 0.433 0.393 0.474 0.469 0.296 0.495 Trên bộ liệu ViMs không giới hạn số từ tóm tắt LSA thể kết tốt nởi trợi so với thuật tốn học khơng giám át khác cũng học sâu Sau LSA Học sâu với mạng hồi quy LSTM chưa cho kết tốt LSA cũng cho kết tốt so với cá thuật toán khác Theo kết thực nghiệm (tử bảng liệu), nhóm tác giả tìm thấy hai điểm nởi bật sau: Thứ nhất, với mở rộng bộ công cụ sumy cho một số phương pháp học không giám sát sẽ mang lại kết tốt nhiều trường hợp Tất nhiên, không có phương pháp đạt kết tốt mọi trường hợp Điểm nổi bật thứ hai độ dài tóm tắt (bảng 1-2 với giới hạn 100 từ bảng 3-4 không giới hạn số từ tóm tắt) cho thấy có mối quan hệ độ dài câu điểm đánh giá ROUGE Kết lu n Nói chung, thuật tốn liệu tốt quan trọng Bài viết thực thí nghiệm tóm tắt văn tiếng việt Nhóm tác giả khai thác mở rộng cải tiến dựa phương pháp học không giám, để kiểm nghiệm hiệu sự cải tiến phương pháp, nhóm so sánh với hai phương pháp học sâu Lời cảm ơn Nghiên cứu tài trợ bởi Trường Đại học Sư phạm kỹ thuật Hưng Yên đề tài mã số UTEHY.L.2019.53 Tài liệu tham hảo [1] Nguyễn Thị Thu Hà, “Phát triển mợt số thuật tốn tóm tắt văn tiếng Việt sử dụng phương pháp học bán giám sát”, luận án tiến sĩ, 2012 [2] Đỗ Phúc, Hoàng Kiếm, “Rút trích ý chính từ văn tiếng Việt hỗ trợ tạo tóm tắt nợi dung” [3] Ngũn Thị Ngọc Tú , Nguyễn Thị Thu Hà , Lê Thanh Hương , Hồ Ngọc Vinh , Đào Thanh Tĩnh, Nguyễn Ngọc Cương, “Ứng dụng mơ hình đợ thị tóm tắt đa văn tiếng việt, (FAIR) 2015 [4] Trương Quốc Định, Ngũn Quang Dũng, Mợt giải pháp tóm tắt văn tiếng Việt tự động, FAIR 2012 [5] H P Luhn, “The automatic creation of literature abstracts,” IBM Journal of Research Development, 2(2): 159-165, 1958 [6] D Shen, J.-T Sun, H Li, Q Yang, and Z Chen, “Document summarization using conditional random fields,” in IJCAI: 2862-2867, 2007 [7] T.-A Nguyen-Hoang, K Nguyen, and Q.-V Tran, “Tsgvi: a graph-based summarization system for vietnamese documents,” Journal of Ambient Intelligence and Humanized Computing, 3(4), pp.305312, 2012 [8] Z Cao, F Wei, L Dong, S Li, and M Zhou, “Ranking with recursive neural networks and its application to multi-document summarization,” in AAAI: 2153-2159, 2015 Khoa học & Công nghệ - Số 24/ Tháng 12 – 2019 Jornal of Science and technology 79 70| Khoa học & Công nghệ - Số 24/ Tháng 12 – 2019 Jornal of Science and technology ISSN 2354-0575 ISSN 2354-0575 [9] Nguyễn Minh Tiến, Nguyễn Thị Hải Năng, Nguyễn Hoàng Điệp, Nguyễn Văn Hậu “Learning to Estimate the Importance of Sentences for Multi-Document Summarization”, International Conference on Knowledge and Systems Engineering (KSE), in IEEE, 31-36, 2018 [10] G Erkan and D R Radev, “Lexrank: Graph-based lexical centrality as salience in text summarization,” Journal of Artificial Intelligence Research, 22: 457-479, 2004 [11] K Woodsend and M Lapata, “Automatic generation of story highlights,” in ACL: 565-574, 2010 [12] J A B Hui Lin, “A class of submodular functions for document summarization,” in ACL: 510-520, 2011, June [13] K Woodsend and M Lapata, “Multiple aspect summarization using integer linear programming,” in EMNLP-CoNLL: 233-243, 2012 [14] S Banerjee, P Mitra, and K Sugiyama, “Multi-document abstractive summarization using ilp based multi-sentence compression,” in IJCAI: 1208-1214, 2015 [15] M.-T Nguyen, T V Cuong, N X Hoai, and M.-L Nguyen, “Utilizing user posts to enrich web document summarization with matrix cofactorization,” in SoICT, pp 70-77, 2017 [16] Y Gong and X Liu, “Generic text summarization using relevant measure and latent semantic analysis,” in SIGIR: 19-25, 2001 [17] R Mihalcea and P Tarau, “Textrank: Bringing order into texts,” in Association for Computational Linguistics, 2004 [18] S Sripada and J Jagarlamudi, “Summarization approaches based on document probability distributions,” in PACLIC: 521-529, 2009 [19] L Vanderwendea, H Suzukia, C Brocketta, and A Nenkova, “Beyond sumbasic: Task-focused summarization with sentence simplification and lexical expansion,” Information Processing & Management 43, (2007), pp 1606-1618 Elsevier, 2007 [20] V.-G Ung, A.-V Luong, N.-T Tran, and M.-Q Nghiem, “Combination of features for vietnamese news multi-document summarization,” in The Seventh International Conference on Knowledge and Systems Engineering (KSE), pp 186-191, 2015 [21] H Nguyen, T Le, V.-T Luong, M.-Q Nghiem, and D Dinh, “The combination of similarity measures for extractive summarization,” in Proceedings of the Seventh Symposium on Information and Communication Technology (SoICT): 66-72, 2016 VIETNAMESE MULTI-DOCUMENT SUMMARIZATION BASE UNSUPERVISED LEARNING METHODS Abstract: Recently, English summarization has been amazing results, while Vietnamese summarization has been being at an early stage with limited results This paper proposes a solution to summarize Vietnamese text by utilizing unsupervised learning The article shows the results of employing unsupervised learning methods to summarize a document To that, the authors compared results of unsupervised learning methods for summarization to supervised learning ones, including CNN and LSTM The comparison can demonstrate the effectiveness of unsupervised learning methods for summarization Unsupervised learning methods give promising empirical results because of some reasons Firstly, based on ranking mechanisms, they pick up high-scoring sentences, which ensure the selection of important sentences Secondly, the selection of sentences with low correlation shows that a summary text does not overlap with remaining sentences, which are not included in the summary Keywords: Text summary, machine learning, learning to rank, unsupervised learning method, NLP, CNN, LSTM 80 Khoa học & Công nghệ - Số 24/ Tháng 12 – 2019 Jornal of Science and technology |71 Khoa học & Công nghệ - Số 24/ Tháng 12 – 2019 Jornal of Science and technology ... nghiệm tóm tắt văn tiếng việt Nhóm tác giả khai thác mở rộng cải tiến dựa phương pháp học không giám, để kiểm nghiệm hiệu sự cải tiến phương pháp, nhóm so sánh với hai phương pháp học. .. 2.1.1 m tắt văn Được tạo từ một nhiều văn bản, chứa một phần thông tin quan trọng văn gốc không dài một nửa văn gốc Học có giám sát: nhiệm vụ học có giám sát tìm mợt hàm ánh xạ dựa bộ... hợp Tất nhiên, không có phương pháp đạt kết tốt mọi trường hợp Điểm nổi bật thứ hai độ dài tóm tắt (bảng 1-2 với giới hạn 100 từ bảng 3-4 không giới hạn số từ tóm tắt) cho thấy có

Ngày đăng: 07/05/2021, 13:40