Bài viết đề xuất mô hình tóm tắt tự động văn bản tiếng Việt thể loại báo mạng điện tử. Văn bản được biểu diễn dưới dạng đồ thị, mỗi đỉnh của đồ thị biểu diễn một câu trong văn bản, trọng số các cạnh nối giữa các đỉnh biểu diễn sự tương tự về ngữ nghĩa giữa hai câu (đỉnh).
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thơng tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00220 TĨM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT SỬ DỤNG TEXTRANK Lê Ngọc Thắng1,3, Phạm Bảo Sơn2, Lê Quang Minh3 Văn phịng Bộ Cơng an Đại học Quốc gia Hà Nội Viện Công nghệ thông tin, Đại học Quốc gia Hà Nội lengocthang@gmail.com,sownpb@vnu.edu.vn, quangminh@vnu.edu.vn TÓM TẮT: Trong báo chúng tơi đề xuất mơ hình tóm tắt tự động văn tiếng Việt thể loại báo mạng điện tử Văn biểu diễn dạng đồ thị, đỉnh đồ thị biểu diễn câu văn bản, trọng số cạnh nối đỉnh biểu diễn tương tự ngữ nghĩa hai câu (đỉnh) Độ quan trọng câu xác định qua thuật tốn TextRank, có bổ sung số đặc trưng riêng thể loại báo mạng điện tử Hệ thống trích rút câu quan trọng để đưa vào tóm tắt (mặc định 30 % số câu văn bản) Để kiểm chứng mơ hình đề xuất chúng tơi so sánh kết với kết tóm tắt chuyên gia kết thuật toán TextRank sở Từ khóa: Tóm tắt văn tiếng Việt, báo mạng điện tử, TextRank, tags I GIỚI THIỆU Tóm tắt văn tự động nghiên cứu từ năm 1950 kỷ XX Theo quan điểm nhà nghiên cứu tóm tắt văn tóm tắt rút gọn hay nhiều văn gốc thông qua việc lựa chọn tổng qt hóa khái niệm quan trọng Theo [12] tóm tắt văn q trình trích lược chắt lọc thông tin quan trọng từ văn gốc để tạo phiên giản lược sử dụng cho mục đích nhiệm vụ khác Thơng thường văn tóm tắt có độ dài khơng q nửa so với văn gốc Có nhiều phương pháp tiếp cận tóm tắt văn bản, qua có nhiều cách phân loại hệ thống tóm tắt văn Cách tiếp cận phân loại phổ biến theo kết (output) Theo cách phân loại có tóm tắt theo phương pháp trích rút (Extract) tóm tắt theo phương pháp tóm lược (Abstract) Trong tóm tắt theo phương pháp trích rút tóm tắt bao gồm đơn vị quan trọng câu, đoạn trích rút, chọn từ văn gốc; tóm tắt theo phương pháp tóm lược tóm tắt bao gồm khái niệm, nội dung tóm lược từ văn gốc Hiện giới có nhiều cơng trình nghiên cứu tóm tắt tự động văn cho nhiều ngơn ngữ khác nhau, tập trung mạnh tiếng Anh, tiếng Nhật tiếng Hoa Về phương pháp tóm tắt phần lớn tập trung vào phương pháp trích rút với mơ hình đề xuất đa dạng phong phú như: phương pháp sử dụng đặc trưng tần suất từ TF×IDF, phương pháp phân cụm (cluster based), phương pháp phân tích ngữ nghĩa tiềm ẩn (LSA), phương pháp học máy (machine learning), mạng nơron (neural networks), dựa truy vấn (query based), hồi quy toán học (mathematical regression) hay mơ hình đồ thị (graphical models) Về lĩnh vực tóm tắt tự động văn tiếng Việt, nghiên cứu chủ yếu tập trung vào hướng trích rút với mơ hình sử dụng đặc trưng chung văn tiếng Anh Một số công trình tiêu biểu Nguyễn Lê Minh cộng [2], Hà Thành Lê cộng [3], Đỗ Phúc Hoàng Kiếm [4], Lê Thanh Hương cộng [1], Nguyễn Thị Thu Hà [6], Nguyễn Nhật An [7] Nguyễn Lê Minh cộng [2] trích rút sử dụng phương pháp SVM với đặc trưng gồm vị trí câu, chiều dài câu, độ liên quan chủ đề, tần suất từ, cụm từ khoảng cách từ Hà Thành Lê cộng [3] kết hợp số phương pháp trích rút đặc trưng trích rút văn tiếng Việt đặc trưng tần suất từ TF×IDF, vị trí, từ tiêu đề, từ liên quan Các đặc trưng kết hợp tuyến tính với để tính trọng số câu văn gốc Lê Thanh Hương cộng [1] sử dụng giải thuật PageRank cải tiến với hệ số nhân cho từ xuất tiêu đề văn để trích rút câu Nguyễn Thị Thu Hà [6] sử dụng đặc trưng tần suất từ, vị trí câu đặc trưng tiêu đề để trích rút câu quan trọng Nguyễn Nhật An [7] trích rút câu dựa đặc trưng vị trí câu, tần suất từ, độ dài câu, xác xuất thực từ, thực thể có tên, liệu số, tương tự với tiêu đề câu trung tâm để tính trọng số câu Các nghiên cứu chủ yếu sử dụng tập liệu văn báo mạng điện tử tiếng Việt chưa sử dụng đặc trưng riêng thể loại văn [10] đề cập Vì vậy, nghiên cứu chúng tơi đề xuất phương pháp tóm tắt tự động dựa phương pháp TextRank bổ sung đặc trưng riêng văn báo mạng điện tử tiếng Việt Trong phần II báo chúng tơi trình bày mơ hình tóm tắt văn gồm nội dung: vai trị từ khóa, từ gán nhãn (tags), mơ hình TextRank đề xuất báo Dữ liệu thực nghiệm, phương pháp đánh giá kết trình bày phần III Phần IV trình bày kết luận kiến nghị II MƠ HÌNH TÓM TẮT Báo mạng điện tử tiếng Việt phát triển qua ba giai đoạn Hiện cấu trúc thông tin báo mạng điện tử thường gồm tít chính, sa pơ, văn, tít phụ, tranh - ảnh, đồ hình, video ảnh động, âm thanh, box thông tin tư liệu, đường link, từ khóa tags Sa pơ câu mào đầu báo, có xu hướng ngắn gọn tốt, mục đích để tạo hấp dẫn cho người đọc TÓM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT SỬ DỤNG TEXTRANK 624 Qua nghiên cứu đặc điểm báo mạng điện tử, nhận thấy từ khóa, từ gán nhãn (Tags) thực thể có tên, cụm từ có tít chính, sa pô thành phần mang nhiều thông tin văn Do để trích xuất câu văn bản, thấy cần phải nghiên cứu, đánh giá vai trò mặt ngữ nghĩa đặc trưng văn báo mạng điện tử Kết nghiên cứu [10] rõ vấn đề Ở đây, thực thể có tên xem quan trọng xuất từ lần trở lên nội dung báo, thực thể có tên tít sa pô Sau đề cập đến thực thể có tên hiểu thực thể có tên đáp ứng yêu cầu trên* Text/Document Text/Document Text/Document Tiền xử lý/ Chuẩn hóa văn Tách câu Tách từ Loại bỏ từ dừng Mơ hình hóa văn (dạng đồ thị) Tính độ tương tự với Tg, Tt Biểu diễn đồ thị có trọng số Tính điểm xếp hạng Văn tóm tắt Văn tóm tắt Văn tóm tắt Lựa chọn câu, sinh tóm tắt Xếp hạng câu Văn đầu Hình Mơ hình tóm tắt với TextRank đề xuất A Tiền xử lý văn Văn đầu vào có định dạng file *.txt Văn đưa qua tiền xử lý văn để tách câu, tách từ loại bỏ từ dừng Để tách câu, tách từ sử dụng cơng cụ VnCoreNLP nhóm tác giả Dat Quoc Nguyen, Dai Quoc Nguyen, Thanh Vu, Mark Dras and Mark Johnson phát triển xây dựng Chúng sử dụng cơng cụ ngồi khả tách câu, tách từ mà cịn cung cấp cơng cụ gán nhãn từ loại để phân biệt từ đơn, từ ghép nhận biết danh từ riêng (thực thể có tên) với độ xác cao Từ dừng (stopwords) định nghĩa từ xuất phổ biến văn không mang nhiều ngữ nghĩa phân tích ngơn ngữ học, xuất tập ngữ liệu nên khơng đóng góp nhiều mặt ý nghĩa Vì vậy, việc loại bỏ từ dừng làm giảm độ nhiễu ngữ nghĩa từ văn Để loại bỏ từ dùng xây dựng module so sánh từ câu với danh sách từ dừng từ điển từ dừng https://github.com/stopwords/vietnamese-stopwords/blob/master/vietnamese-stopwords.txt Nếu từ xuất từ điển từ dừng loại khỏi câu văn B Mơ hình hóa văn dạng đồ thị Tính độ tương tự Trong mơ hình chúng tơi, văn sau tiền xử lý biểu diễn dạng đồ thị vơ hướng có trọng số Mỗi đỉnh đồ thị tương ứng với câu văn bản, cạnh nối hai đỉnh biểu thị mối quan hệ hai câu Trọng số cạnh giá trị độ tương tự hai câu Đối với TextRank, phương pháp tính độ tương tự câu yếu tố ảnh hưởng đến kết đầu Những câu quan trọng câu có độ tương tự phần lại cao Phương pháp tính độ tương tự thuật tốn gốc xác định sau: Đối với văn D: Lê Ngọc Thắng, Phạm Bảo Sơn, Lê Quang Minh 625 Gọi: - S = S1, S2, …, Sn , Si câu thứ i văn có n câu Với hai câu Si Sj sau tiền xử lý, loại bỏ từ dừng, câu Si biểu diễn tập n từ w1, w2,…, wn thuật toán TextRank xác định độ tương tự Si Sj sau: |* | +| (| |) Sim(Si, Sj) = (| |) i ≠ j i = j Để bổ sung ngữ nghĩa từ gán nhãn thực thể có tên phương pháp tính độ tương đồng hai câu, ta gọi: - Tg tập từ gán nhãn: Tg = {Tg1, Tg2…., Tgm} - Tt tập thực thể có tên: Tt = {Tt1, Tt2, … , Ttk} Các tập Tg, Tt, chuẩn hóa đảm bảo Tg Tt = , nghĩa từ thuộc nhiều tập chuẩn hóa giữ lại tập có trọng số ngữ nghĩa cao Bằng việc gán trọng số ngữ nghĩa cho từ khóa thực thể có tên chúng tơi đề xuất công thức sau: |* | |* +| | (| |) Sim’(Si, Sj) = +| |* (| | +| |) i ≠ j i = j Để đạt hiệu cao sử dụng hệ số cần phải có q trình thực nghiệm nhiều liệu khác qua trình học máy để xác định giá trị phù hợp chúng Do thời gian thực nghiệm chưa nhiều đồng thời việc hình thành liệu thực nghiệm chiếm nhiều thời gian nên qua trình kiểm thử tập 50 văn chọn giá trị hệ số ngữ nghĩa cho từ gán nhãn 3, cho thực thể có tên Xếp hạng câu quan trọng Sau biển diễn văn dạng đồ thị tính tốn ma trận độ tương tự thuật tốn PageRank áp dụng để tính toán giá trị đỉnh Giả sử với đỉnh Vi gọi S(Vi) trọng số nó, phương trình quan hệ đỉnh V i đỉnh kề tính theo đồ thị vơ hướng sau: S(vi) = ( ) ∑ ( ( )∑ ( ) ) ( ) ( ) Thuật toán khởi tạo giá trị trọng số ban đầu đỉnh 1, vòng lặp thực hội tụ, tức thay đổi trọng số định nhỏ ngưỡng ε nhỏ, sau số lần lặp xác định Điều kiện hội tụ xác định thơng qua q trình thực nghiệm với ε = 0,001 Theo Lê Thanh Hương [1], mơ hình tóm tắt văn chúng tơi sử dụng hệ số d (DAMPING_FACTOR) giải thuật PageRank 0,85 Giá trị đỉnh sau thuật toán PageRank biểu thị mức độ quan trọng câu C Chọn câu, sinh tóm tắt Các câu xếp theo mức độ quan trọng giảm dần, sau xếp lại theo thứ tự văn để sinh văn đầu Ở lấy câu có trọng số từ cao xuống thấp số lượng câu xác định thơng quan tỉ lệ nén văn tóm tắt, mặc định 30 % Các câu sau đưa vào tóm tắt xếp lại theo thứ tự văn để có kết cuối III DỮ LIỆU THỰC NGHIỆM, ĐÁNH GIÁ KẾT QUẢ TÓM TẮT A Xây dựng kho ngữ liệu Như trình bày trên, tốn tóm tắt văn tiếng Việt có số kho ngữ liệu chia sẻ mạng internet nhiên kho ngữ liệu chưa có từ gán nhãn (tags) văn nên không sử dụng tốn Do vậy, chúng tơi sử dụng kho ngữ liệu thử nghiệm riêng xây dựng [10] Kho liệu thử nghiệm bao gồm 100 văn lựa chọn ngẫu nhiên báo từ trang báo mạng điện tử Việt Nam gồm trang http://dangcongsan.vn, https://news.zing.vn, https://vnexpress.net, đảm bảo báo có khoảng 500 từ trở lên Mỗi báo thu thập 04 nội dung gồm: tiêu đề, sa pơ, nội dung, từ khóa từ gán nhãn Mỗi nội dung lưu vào file *.txt tương ứng Bản tóm tắt văn trích rút giữ lại 30 % số câu văn tạo thành tập kết chuyên gia Chúng phối hợp với chuyên gia nhà báo có kinh nghiệm để lựa chọn câu tóm tắt TĨM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT SỬ DỤNG TEXTRANK 626 B Đánh giá thực nghiệm Để đánh giá độ xác trích rút tự động, sử dụng phương pháp đánh giá đồng chọn Phương pháp đánh giá phù hợp với tóm tắt theo hướng trích rút câu qua việc so sánh tóm tắt hệ thống trích rút với tóm tắt người trích rút dựa ba đặc trưng độ đo xác (precision), độ đo triệu hồi (recall) độ đo f- score Độ đo xác (precision): Được tính dựa tỉ lệ tổng số câu trùng văn tóm tắt thủ cơng văn tóm tắt hệ thống với tổng số câu văn tóm tắt hệ thống Độ đo triệu hồi (recall): Được tính dựa tỉ lệ tổng số câu trùng văn tóm tắt thủ cơng văn tóm tắt hệ thống với tổng số câu văn tóm tắt thủ cơng Độ đo F-score độ đo kết hợp precision recall Người ta gọi F1-score hàm điều hòa của độ đo xác độ đo triệu hồi Các giá trị F1-score nhận giá trị đoạn [0, 1], giá trị tốt Precision = | | | | ; Recall = | | | | ; F1-score = x đó: SM tập câu trích rút từ hệ thống, SH tập câu trích rút thủ công, |SM| số phần tử tập SM Bảng Đánh giá độ xác tập gồm 100 văn Sim Sim’ Precision 0,640 0,663 Recall 0,601 0,622 F1-score 0,620 0,642 Từ Bảng 1, có số nhận xét sau kết tập liệu thử nghiệm: - Việc tính đến trọng số ngữ nghĩa từ gán nhãn thực thể có tên phương pháp tính độ tương đồng câu cho kết khả quan không nhiều - So sánh với [10] cho kết thấp cho thấy việc áp dụng phương pháp TextRank vào tóm tắt văn báo mạng điện tử cần phải nghiên cứu để tiếp tục có phương pháp cải tiến Khi xem xét cụ thể trích rút chuyên gia hệ thống thực nhận thấy giống [10] câu trích rút theo phương pháp TextRank phân bố không đồng văn IV KẾT LUẬN VÀ KIẾN NGHỊ Bài báo đưa phương pháp tiếp cận tóm tắt trích rút văn báo mạng điện tử dựa phương pháp TextRank có bổ sung số đặc trưng riêng báo mạng điện tử từ gán nhãn thực thể có tên Kết thu từ thực nghiệm cho thấy vai trò quan trọng ngữ nghĩa từ gãn nhãn thực thể có tên tốn tóm tắt văn báo mạng điện tử tiếng Việt Trong thời gian tới tiếp tục thử nghiệm tập liệu khác nhằm tối ưu hóa phương pháp tính độ tương đồng câu với từ gán nhãn thực thể có tên, nâng cao hiệu phương pháp Đồng thời bổ sung giải pháp loại bỏ câu tương đồng nhằm hạn chế số lượng câu có tương đồng cao có trọng số lớn lựa chọn vào tóm tắt V LỜI CẢM ƠN Chúng tơi chân thành gửi lời cám ơn tới nhà báo Trần Lệ Thủy - phóng viên báo Phụ Nữ Việt Nam, câu lạc ngôn ngữ EQ hỗ trợ chúng tơi q trình nghiên cứu xây dựng kho ngữ liệu cho báo này, trân trọng gửi lời cám ơn nhóm tác giả thư viện VnCoreNLP TÀI LIỆU THAM KHẢO [1] Lê Thanh Hương, “Nghiên cứu số phương pháp tóm tắt văn tự động máy tính áp dụng cho tiếng Việt”, Báo cáo tổng kết đề tài cấp KH CN cấp Bộ, Đại học Bách khoa Hà Nội, 2014 [2] Nguyễn Nhật An, “Nghiên cứu, phát triển kỹ thuật tự động tóm tắt văn tiếng Việt”, Luận án tiến sỹ Tốn học, Viện Khoa học Cơng nghệ qn sự, 2015 [3] Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan, Manohar Paluri, Laurens van der Maaten, “Advancing state-of-the-art image recognition with deep learning on hashtags”, https://code.facebook.com/posts/1700437286678763/advancing-state-of-the-art-image-recognition-with-deeplearning-on-hashtags/ [4] Nguyễn Thị Trường Giang, Báo mạng điện tử - vấn đề bản, Nhà xuất Chính trị Quốc gia, 2014 [5] Hồng Anh, Những kỹ sử dụng ngôn ngữ truyền thông đại chúng, Nhà xuất Đại học Quốc gia Hà Nội, 2008 Lê Ngọc Thắng, Phạm Bảo Sơn, Lê Quang Minh 627 [6] Lê Thanh Hà, “Cách thức tạo từ khóa (Keyword) báo điện tử Việt Nam”, Luận văn thạc sỹ chuyên ngành Báo chí học, Trường Đại học Khoa học xã hội Nhân văn, 2016 [7] Nguyễn Ngọc Duy, Phan Thị Tươi, “Tóm tắt văn sở phân loại ý kiến độc giả báo mạng tiếng Việt”, Tạp chí Phát triển KH&CN, Tập 19, số K5-2016, 2016 [8] Rada Mihalcea, Paul Tarau, “TextRank: Bringing Order into Texts”, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, 2004 [9] Lê Thị Ngọc Thơ, “Rút trích từ khóa từ văn pháp luật tiếng Việt thuật toán TextRank”, Hội nghị khoa học Đại học Cơng nghệ Tp Hồ Chí Minh, 2019 [10] Lê Ngọc Thắng, Lê Minh Quang, Kỷ yếu Hội nghị Quốc gia lần thứ XI nghiên cứu ứng dụng công nghệ thông tin (FAIR), 2018 [11] Trương Quốc Định, Nguyễn Quang Dũng, “Một giải pháp tóm tắt văn tiếng Việt”, Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc công nghệ thông tin truyền thông, 2012 [12] Mani, I., House, D., Klein, G., et al “The TIPSTER SUMMAC Text Summarization Evaluation” In Proceedings of EACL, 1999 [13] Federico Barrios, Federico López, Luis Argerich, Rosita Wachenchauzer, “Variations of the Similiraty Function of TextRank for Automated Summarization”, 44 JAIIO - ASAI 2015 - ISSN: 2451-7585, pages 65-72, 2016 [14] Nguyễn Trí Nhiệm, Nguyễn Thị Trường Giang, Báo mạng điện tử - đặc trưng phương pháp sáng tạo, Nhà xuất Chính trị Quốc gia, 2014 [15] https://en.oxforddictionaries.com/ [16] https://github.com/vncorenlp VIETNAMESE ONLINE NEWSPAPERS SUMMURIZATION USING TEXTRANK Le Ngoc Thang, Pham Bao Son, Le Quang Minh ABSTRACT: In this article we propose the model for summarizing automatically Vietnamese online newspapers The text is represented graphically, each vertex represents one sentence in the text, the weight of the edges connecting two vertices represents the semantic similarity between these two sentences (vertices) The importance of the sentence is determined through the TextRank algorithm, which has added some specific features of the online newspapers The system will extract important sentences to make the summary (default 30 % number of sentences in the documents) To verify the proposed model, we compare the results with the summurizations of the expert and the results of the basic TextRank algorithm ...TÓM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT SỬ DỤNG TEXTRANK 624 Qua nghiên cứu đặc điểm báo mạng điện tử, nhận thấy từ khóa, từ gán nhãn (Tags) thực... lại 30 % số câu văn tạo thành tập kết chuyên gia Chúng phối hợp với chuyên gia nhà báo có kinh nghiệm để lựa chọn câu tóm tắt TĨM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT SỬ DỤNG TEXTRANK 626 B... câu trùng văn tóm tắt thủ cơng văn tóm tắt hệ thống với tổng số câu văn tóm tắt hệ thống Độ đo triệu hồi (recall): Được tính dựa tỉ lệ tổng số câu trùng văn tóm tắt thủ cơng văn tóm tắt hệ thống