Trong bài báo này, chúng tôi trình bày về việc sử dụng cấu trúc văn bản xây dựng đồ thị liên kết giữa các câu trong văn bản kết hợp với từ điển đồng nghĩa để tóm tắt văn bản tiếng Việt. Kết quả thử nghiệm cho thấy, phương pháp duyệt đồ thị liên kết theo chiều sâu cho kết quả tốt nhất với độ đo F đạt trung bình 52,41, tốc độ tóm tắt trung bình đạt 8 phút/50 văn bản (với trung bình 40 câu/văn bản).
JOURNAL OF SCIENCE OF HNUE Natural Sci., 2013, Vol 58, No 3, pp 154-163 This paper is available online at http://stdb.hnue.edu.vn TÓM TẮT VĂN BẢN TIẾNG VIỆT SỬ DỤNG CẤU TRÚC VĂN BẢN VÀ TỪ ĐIỂN ĐỒNG NGHĨA Lê Quý Tài Khoa Hệ thống thông tin quản lý, Học viện Ngân hàng Tóm tắt Tóm tắt văn lĩnh vực quan trọng xử lí ngơn ngữ tự nhiên Đối với tiếng Việt, tính phức tạp ngơn ngữ nên phương pháp tóm tắt cịn gặp nhiều khó khăn Trong báo này, chúng tơi trình bày việc sử dụng cấu trúc văn xây dựng đồ thị liên kết câu văn kết hợp với từ điển đồng nghĩa để tóm tắt văn tiếng Việt Kết thử nghiệm cho thấy, phương pháp duyệt đồ thị liên kết theo chiều sâu cho kết tốt với độ đo F đạt trung bình 52,41%, tốc độ tóm tắt trung bình đạt phút/50 văn (với trung bình 40 câu/văn bản) Từ khóa: Tóm tắt văn bản, đồ thị liên kết, từ đồng nghĩa, xử lí ngơn ngữ Mở đầu Tóm tắt văn lĩnh vực xử lí ngơn ngữ tự nhiên nghiên cứu từ năm 50 kỉ 20 Đối với ngơn ngữ tiếng Anh có nhiều nghiên cứu tóm tắt văn thu kết khả quan [3] Với tiếng Việt, phức tạp ngôn ngữ nên kết cơng trình nghiên cứu tóm tắt băn tiếng Việt cịn có nhiều hạn chế Hiện có cơng trình nghiên cứu tóm tắt văn tiếng Việt sử dụng phương pháp thống kê, số dựa ngữ nghĩa Chẳng hạn, Đỗ Phúc, Hoàng Kiếm [6] sử dụng hậu tố để phát dãy từ phổ biến câu văn bản, dùng kĩ thuật gom cụm để gom câu văn Nguyễn Trọng Phúc, Lê Thanh Hương [7] lại sử dụng cấu trúc diễn ngơn để tóm tắt văn bản; số sử dụng phương pháp xây dựng đồ thị quan hệ thực thể để tăng cường tính ngữ nghĩa cho độ tương đồng câu sử dụng phương pháp phân đoạn văn dựa chuỗi từ vựng để tóm tắt văn Phương pháp sử dụng cấu trúc văn sử dụng với tiếng Anh [4] thu kết tốt Trong báo trình bày việc cải tiến phương pháp kết hợp với từ điển đồng nghĩa để thực tóm tắt văn tiếng Việt Ngày nhận bài: 6/9/2012 Ngày nhận đăng: 5/6/2013 Tác giả liên lạc: Lê Quý Tài, địa e-mail: quytai3985@gmail.com 154 Tóm tắt văn tiếng Việt sử dụng cấu trúc văn từ điển đồng nghĩa 2.1 Nội dung nghiên cứu Mơ hình tóm tắt văn tiếng Việt Hình Mơ hình tóm tắt văn tiếng Việt Để đánh giá hiệu việc sử dụng tách từ từ điển đồng nghĩa, xây dựng phiên cho ứng dụng - Phiên 1: Hoàn tồn khơng sử dụng tách từ, từ tách vào dấu trắng phân cách - Phiên 2: Sử dụng tách từ tiếng Việt để tách từ - Phiên 3: Sử dụng tách từ tiếng Việt, kết hợp với từ điển từ dừng từ điển đồng nghĩa 2.2 Tiền xử lí Các tập tin dùng để thử nghiệm lấy từ trang báo điện tử vnexpress.net số báo khoa học Các tập tin loại bỏ thẻ HTML, loại bỏ câu không liên quan đến nội dung giữ lại nội dung chính, đồng thời chuẩn hố mặt tả Nội dung văn lưu trữ file text mã hoá mã Unicode UTF-8 Công cụ WordSegForTV [2] sử dụng để phân tách từ câu toàn băn bản, kết bước dùng làm đầu vào cho pha 155 Lê Quý Tài 2.3 Xử lí từ Pha thực tách từ, câu từ văn có từ pha trước Trong bước này, xây dựng tập T chứa tồn từ có văn Chúng sử dụng từ điển từ dừng website xulyngonngu.com cung cấp để loại bỏ từ dừng Đồng thời, từ điển đồng nghĩa sử dụng để thêm vào tập T từ đồng nghĩa Thuật toán thể việc chọn từ, câu, từ đồng nghĩa loại bỏ từ dừng Từ điển đồng nghĩa sử dụng tài liệu [1] Thuật tốn xử lí từ Input: Tập tin văn tách từ Output: Tập từ T, Tập câu Sent Mở tập tin văn ST=Nội dung file {Tách câu} n=0; {đếm số lượng câu} k=1; while k 0} (3b) - Giá trị IDF (ti ) tính hàm logarit: + |S| IDF (ti ) = log (4) |Sti | Sau vector hoá câu văn bản, ta tính độ tương tự cặp câu với theo cơng thức tính độ tương đồng Cosine nêu Khi đó, độ tương tự câu senti sentj tính sau: m sim(senti , sentj ) = k,l=1 m k=1 sentki sentlj sentki m l (5) sentlj Tiếp đó, ta xây dựng đồ thị liên kết câu văn Đồ thị biểu diễn ma trận D sau: 0if sim(senti , sentj ) < threshold D(senti , sentj ) = (6) sim(senti , sentj )if sim(senti , sentj ) >= threshold Trong đó: threshold ngưỡng cho trước tính tốn thực nghiệm loại văn Trong thử nghiệm chúng tôi, ngưỡng threshold = 0, 2.5 Sinh văn tóm tắt Giả sử văn cần tóm tắt có độ dài p% độ dài văn gốc Chúng xây dựng thủ tục duyệt đồ thị để chọn câu quan trọng theo phương pháp: * Phương pháp Dựa vào bậc nút đồ thị Bước 1: Tính bậc nút đồ thị (bậc tính số liên kết nút với nút khác) Bước 2: Sắp xếp nút theo thứ tự bậc giảm dần Bước 3: Chọn nút có bậc cao nhất, ngừng chọn số câu đủ yêu cầu * Phương pháp Duyệt theo chiều sâu Bước 1: Chọn nút bắt đầu nút (theo thứ tự xuất văn bản) Bước 2: Duyệt đồ thị theo chiều sâu nút xuất phát, chọn nút theo số bậc cao Quá trình duyệt dừng lại nút cuối chọn không liên kết với nút sau Bước 3: Nếu chưa đủ số câu cần thiết, thực phương pháp câu lại chưa chọn * Phương pháp Phân đoạn văn Bước 1: Tách văn thành phân đoạn, vào độ dài văn tỉ lệ nén p 158 Tóm tắt văn tiếng Việt sử dụng cấu trúc văn từ điển đồng nghĩa Bước 2: Áp dụng phương pháp phân đoạn, phân đoạn chọn câu Các câu lại chọn nút có bậc cao phân đoạn Quá trình chọn dừng lại đạt đủ số câu cần thiết 2.6 Kết thực nghiệm * Dữ liệu thử nghiệm - Tập văn thử nghiệm: Gồm 50 văn có nội dung với nhiều lĩnh vực khác nhau, phần lớn lấy từ website Vnexpress số báo khoa học khác Trong đó, có 19 viết thuộc lĩnh vực Giáo dục, 16 Xã hội, viết Khoa học Thường thức, Tâm báo khoa học Mỗi văn lưu tập tin đặt tên theo thứ tự từ Text(1).txt đến Text(50).txt Văn có kích thước lớn 27 KB với 179 câu, văn có kích thước nhỏ 1,45 KB với câu - Từ điển: + Từ điển từ dừng [9]: gồm 807 từ website xulyngonngu.com cung cấp + Từ điển đồng nghĩa [1]: gồm 603 mục từ với tổng cộng 2867 từ đồng nghĩa * Phương pháp đánh giá Chúng sử dụng phương pháp so sánh văn hệ thống tóm tắt với văn người thực tóm tắt để đánh giá hệ thống tóm tắt Gọi hệ thống tóm tắt cần đánh giá S, hệ thống tóm tắt người tóm tắt GS, ta có bảng đánh giá mức độ liên quan sau: Hệ thống GS Số câu GS chọn Số câu GS không chọn Số câu S chọn A C Hệ thống S Số câu S khơng chọn B D Khi đó, độ xác Precision (P) tính sau: A P = (7) A+C Độ xác P cho biết tỉ lệ câu S chọn xác so với tổng số câu có văn tóm tắt S thực Độ bao phủ Recall(R) tính sau: A R= (8) A+B Độ bao phủ R cho biết tỉ lệ S chọn xác so với tổng số câu văn GS thực Độ đo F : tiêu chí đánh giá chung cho kết tóm tắt hệ thống, độ đo hàm điều hoà độ xác, độ hồi quy tính sau: 159 Lê Quý Tài 2P R (9) P +R Chúng tơi thử nghiệm hệ thống tóm tắt với mức độ nén: 10%, 20% 30% Chúng xây dựng phiên bản: - Phiên 1: Hoàn tồn khơng sử dụng tách từ, từ tách vào dấu trắng phân cách - Phiên 2: Sử dụng tách từ tiếng Việt để tách từ - Phiên 3: Sử dụng tách từ tiếng Việt, kết hợp với từ điển từ dừng từ điển đồng nghĩa Đồng thời, để so sánh kết tóm tắt hệ thống với hệ thống khác, lựa chọn Microsoft Office Word 2003 làm hệ tóm tắt đối sánh (sử dụng chức AutoSummarize) Tập văn thử nghiệm tóm tắt người, văn tóm tắt thành văn với mức độ nén 10%, 20% 30% Các văn chuyển cho hai người tóm tắt để chọn câu có ý nghĩa quan trọng Việc lựa chọn câu chọn số thứ tự câu văn gốc * Kết thử nghiệm Chúng tiến hành thử nghiệm phiên với ngưỡng khác để chọn ngưỡng phù hợp Hình thể kết (tính theo giá trị hàm điều hoà) phiên với ngưỡng từ 0,05 đến 0,4 F = Hình Kết thử nghiệm chọn ngưỡng Chúng nhận thấy với ngưỡng 0,05; 0,1 0,2 chương trình tóm tắt cho kết khả quan Khi ngưỡng tăng dần giá trị hàm điều hồ lại giảm nhanh độ tương tự hai câu khơng đạt đến ngưỡng hai câu khơng thể đưa vào đồ thị liên kết, từ hai câu không chọn vào văn tóm tắt (mà hai câu chứa nội dung chọn) Do đó, thử nghiệm 160 Tóm tắt văn tiếng Việt sử dụng cấu trúc văn từ điển đồng nghĩa đây, chọn sử dụng ngưỡng 0,2 để đánh giá Bảng Bảng đánh giá kết tóm tắt Microsoft Word Tỉ lệ nén Độ xác P Độ bao phủ R Hàm điều hoà F 10% 34 28 30,71 20% 36 30 32,73 30% 44 41 42,45 Trung bình 38 33 35,32 Đơn vị: % Phiên Phiên Phiên Phiên Bảng Kết tổng hợp so sánh phiên Phương pháp Phương pháp Phương pháp P R F P R F P R F 45,67 42 43,76 44,67 43 43,82 39,67 37 38,29 47 42 44,25 53,67 49,33 51,35 40,67 37,67 39,08 46,33 41,67 43,88 54,67 50,33 52,41 40,67 37,67 39,11 Đơn vị: % Hình Đồ thị so sánh giá trị hàm điều hoà phiên phương pháp Kết cho thấy phiên cho giá trị hàm điều hoà vượt trội hẳn so với Microsoft Word (Word đạt trung bình 35,32%) Cụ thể: Trong phiên giá trị hàm điều hoà đạt cao 43,82% Đó phiên không sử dụng tách từ mà sử dung dấu cách làm để phân tách từ Trong phiên 2, giá trị hàm điều hoà tăng lên 51,35% tách từ sử dụng, dẫn đến kết đánh giá độ tương đồng câu đồ thị liên kết thay đổi Ở phiên 3, từ điển từ dừng từ điển đồng nghĩa sử dụng giúp 161 Lê Quý Tài cải thiện giá trị hàm điều hoà đạt tới 52,41% Như vậy, việc sử dụng tách từ cho kết thấy rõ việc sử dụng thêm từ điển đồng nghĩa góp phần cải thiện độ xác phương pháp tóm tắt Đồng thời, qua kết nhận thấy, phiên với phương pháp (phương pháp duyệt đồ thị theo chiều sâu) cho kết tốt với giá trị hàm điều hoà đạt 52,41% Tuy nhiên, kết tóm tắt cịn phụ thuộc vào dạng văn tóm tắt, phương pháp tốt với dạng văn khơng tốt với dạng văn khác Trong thử nghiệm này, thấy rằng: văn thuộc nhóm viết Giáo dục có giá trị hàm điều hồ cao (trung bình đạt xấp xỉ 65%, cá biệt có đạt 75%); văn thuộc nhóm viết xã hội đạt xấp xỉ 60%; nhiên viết thuộc nhóm Bài báo khoa học Tâm lại có kết tương đối thấp (chỉ đạt trung bình 40%) Bên cạnh đó, việc đánh giá kết tóm tắt phụ thuộc vào phương pháp đánh giá Ở đây, sử dụng phương pháp so sánh với văn người thực tóm tắt nên phần phụ thuộc vào chất lượng tóm tắt người thực Chúng tơi thực so sánh mức độ giống văn tóm tắt hai người nhận thấy văn tóm tắt giống trung bình 80% Do vậy, cần có nghiên cứu để cải tiến đưa phương pháp cho kết tốt với nhiều dạng văn Kết luận Tóm tắt văn lĩnh vực quan trọng xử lí ngơn ngữ tự nhiên có nhiều ứng dụng thực tế tóm tắt tin tức, văn khoa học, sách cách tự động Bài viết trình bày việc sử dụng từ điển đồng nghĩa cấu trúc văn để tóm tắt văn tiếng Việt Do hạn chế mặt thời gian, kĩ thuật đặc biệt chưa có liệu tiếng Việt đầy đủ: từ điển từ đồng nghĩa, trái nghĩa, từ dừng nên cần có nhiều thời gian cơng sức để xây dựng cải tiến phương pháp tóm tắt văn tiếng Việt để có hệ thống tóm tắt văn hiệu Phương pháp chúng tơi sử dụng thực nghiệm đề tài thuộc dạng trích chọn câu văn bản, cần: thử nghiệm với nhiều dạng văn khác nhau: báo khoa học, báo điện tử để đưa tham số cho phù hợp kết hợp với phương pháp tìm cụm từ dấu hiệu để xác định câu quan trọng sử dụng phương pháp phân tích cú pháp, biến đổi từ số kĩ thuật xử lí khác để tăng tính mạch lạc cho văn tóm tắt TÀI LIỆU THAM KHẢO [1] Trần Trọng Dương, Nguyễn Quốc Khánh, Bùi Hồng Quế, Nguyễn Đình Phúc Nguyễn Minh Châu, 2008 Từ điển đồng nghĩa trái nghĩa tiếng Việt dành cho học sinh Nxb Từ điển Bách khoa, Hà Nội, tr 9-323 [2] Dang Duc Pham, Giang Chan Binh and Son Bao Pham, 2009 International Conference on Knowledge and Systems Engineering, pp.154-161 162 Tóm tắt văn tiếng Việt sử dụng cấu trúc văn từ điển đồng nghĩa [3] Jezek, K and Steinberger, J., 2008 Automatic Text Summarization (The state of the art 2007 and new challenges) Znalosti, FIIT STU Bratislava, Slovakia, pp.1-12 [4] Gerard Salton, Am1t Singha, Mandar Mitra And Chris Buckley, 1997 Automatic Text Structuring and Summarization Advances in Automatic Text Summarization The MIT Press Cambridge, Massachusetts London, England, pp 341-355 [5] Gerard Salton, Chris Buckley and Jame Allan, 1992 Automatic structuring of text files Electronic Publishing Vol 5(1), pp 1-17 [6] Đỗ Phúc, Hoàng Kiếm, 2006 Rút ý từ văn tiếng Việt hỗ trợ tạo tóm tắt nội dung Tạp chí Cơng nghệ thông tin truyền thông, Hà Nội [7] Nguyễn Trọng Phúc, Lê Thanh Hương, 2008 Tóm tắt văn tiếng Việt sử dụng cấu trúc diễn ngôn The ICT.rda conference, Hanoi, Vietnam [8] Zdravko Markov and Daniel T.Larose, 2007 Data mining the web – Uncovering patterns in Web content, structure, and usage John Wiley & Sons Inc Publication, New Jersey, USA [9] Website xulyngonngu.com ABSTRACT Using document structure and a synonym dictionary for vietnamese text summarization Text summarization is an important part of natural language processing Currently, the methods used to summarize Vietnamese text are ineffective In this paper, we present the use of document structure and a Vietnamese thesaurus dictionary to build a graphic link between sentences in order to summarize the text Test results show that structural methods are used more than a Vietnamese thesaurus with the threshold value of 0.2 for best results (the average F measure is 52.41%) when using the approved method of depth-first search (DFS) based on the node degree to pick out the sentence Summarization took place at an average speed of minutes/50 documents with an average of 40 sentences/documents 163 .. .Tóm tắt văn tiếng Việt sử dụng cấu trúc văn từ điển đồng nghĩa 2.1 Nội dung nghiên cứu Mơ hình tóm tắt văn tiếng Việt Hình Mơ hình tóm tắt văn tiếng Việt Để đánh giá hiệu việc sử dụng tách từ. .. word có từ điển đồng nghĩa then Đưa word từ đồng nghĩa vào Tập từ Term; Else Đưa word vào Tập từ T; Tăng k; end; return T, Sent; 156 Tóm tắt văn tiếng Việt sử dụng cấu trúc văn từ điển đồng nghĩa... Đồng thời, từ điển đồng nghĩa sử dụng để thêm vào tập T từ đồng nghĩa Thuật toán thể việc chọn từ, câu, từ đồng nghĩa loại bỏ từ dừng Từ điển đồng nghĩa sử dụng tài liệu [1] Thuật tốn xử lí từ