Rút trích từ khóa từ văn bản pháp luật Tiếng Việt bằng thuật toán TextRank

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	5
Dung lượng	269,31 KB

Nội dung

Nghiên cứu này trình bày kết quả của việc rút trích từ khóa tự động từ văn bản pháp luật Tiếng Việt sử dụng thuật toán TextRank. TextRank là phương pháp rút trích từ khóa không giám sát từ văn bản dựa vào việc xếp hạng trên đồ thị. Văn bản sẽ được biểu diễn thành dạng đồ thị, với các từ là đỉnh và mối quan hệ lân cận giữa các từ là cạnh. Sau đó, các đỉnh trên đồ thị sẽ được xếp hạng dựa trên mối quan hệ với các đỉnh khác trong đồ thị. Mời các bạn cùng tham khảo!

RÚT TRÍCH TỪ KHĨA TỪ VĂN BẢN PHÁP LUẬT TIẾNG VIỆT BẰNG THUẬT TOÁN TEXTRANK Lê Thị Ngọc Thơ Khoa Công nghệ Thông tin, trường Đại học Công nghệ TP Hồ Chí Minh (HUTECH) TĨM TẮT Trong nghiên cứu này, chúng tơi trình bày kết việc rút trích từ khóa tự động từ văn pháp luật Tiếng Việt sử dụng thuật toán TextRank TextRank phương pháp rút trích từ khóa khơng giám sát từ văn dựa vào việc xếp hạng đồ thị Văn biểu diễn thành dạng đồ thị, với từ đỉnh mối quan hệ lân cận từ cạnh Sau đó, đỉnh đồ thị xếp hạng dựa mối quan hệ với đỉnh khác đồ thị Các từ đỉnh tương ứng có trọng số cao trích kết hợp với thành từ khóa Chúng tơi thực nghiệm thuật tốn TextRank chương Luật Bảo hiểm Xã hội Việt Nam Kết cao thu 21.3% rút trích từ khóa tự động Chúng nhận thấy đặc điểm từ khóa văn Tiếng Việt dài chứa nhiều từ khác ngồi danh từ tính từ Do đó, phương pháp khác cần đề xuất để cải tiến hiệu suất việc rút trích cụm từ khóa từ văn pháp luật Tiếng Việt Từ khóa: Rút trích thơng tin, TextRank, tiếng Việt, từ khóa, văn pháp luật GIỚI THIỆU Văn pháp luật thường xem dạng văn khó đọc đặc trưng vốn có nhiều thuật ngữ, cụm từ câu viết chặt chẽ nhằm diễn đạt quy định pháp luật Các thuật ngữ văn pháp luật thường dài câu văn pháp luật thường tham chiếu đến nội dung câu khác văn đến văn pháp luật khác Trong nghiên cứu này, áp dụng phương pháp Xử lý Ngôn ngữ Tự nhiên (XLNNTN) vào văn pháp luật Tiếng Việt, nhằm hướng tới việc hỗ trợ cho người đọc nhanh chóng nắm bắt thơng tin văn pháp luật Cụ thể là, chúng tơi tiến hành rút trích từ khóa văn pháp luật tiếng Việt Nói cách khác, đề tài nhằm mục đích tìm phương pháp trích lọc nội dung khái quát văn pháp luật dạng từ khóa Từ khóa từ chứa nội dung quan trọng câu văn Nhiệm vụ rút trích từ khóa tự động từ văn đóng vai trị quan trọng việc XLNNTN, chẳng hạn áp dụng vào ứng dụng đánh mục văn bản, truy vấn thơng tin, tóm tắt văn tự động, hệ thống hỏi đáp tự động Các nghiên cứu trước hướng XLNNTN có phương pháp có giám sát [1] [2] không giám sát [3] [4] [5] để rút trích từ khóa tự động văn Chúng tơi quan tâm đến phương pháp rút trích từ khóa khơng giám sát Tuy nhiên, phương pháp phần lớn ban đầu đề xuất cho Tiếng Anh Bên cạnh đó, có nhiều nghiên cứu cải tiến từ phương pháp cho việc rút trích từ khóa từ ngơn ngữ khác, Tiếng Trung Quốc [6], Tiếng Nhật [7] Trong đó, có vài phương pháp đề xuất riêng cho Tiếng Việt Nguyen Phan [8] để xuất rút trích từ khóa từ văn Tiếng Việt dựa ontology, phương pháp nhóm tác giả thực nghiệm liệu Tiếng Việt dịch từ Tiếng Anh Zhai cộng [9] đề xuất phương pháp rút trích từ khóa song ngữ Trung-Việt dùng cách biểu diễn từ song ngữ siêu đồ thị áp dụng thuật toán 205 khuếch tán có hướng (directional diffusion algorithm) để tính toán trọng số từ ứng viên Bui [10] đề xuất dùng phương pháp học sâu để phân loại cụm danh từ ứng viên thành từ khóa Về tổng quan, phương pháp rút trích từ khóa thường bao gồm hai bước chính: (1) chọn lựa ứng viên từ vựng cho từ khóa (2) nối ứng viên từ vựng dựa trật tự từ theo ngữ pháp Phần lớn nghiên cứu tập trung vào bước (1) để tìm nhiều từ vựng ứng viên tốt [4] [5] Phương pháp để tìm từ vựng ứng viên tìm cách gán trọng số quan trọng từ đoạn văn chọn lấy từ có trọng số cao Cụ thể, phương pháp gán trọng số cho từ vựng TF-IDF (Term Frequency – Inverse Document Frequency), xếp hạng dựa đồ thị từ vựng [4], gom cụm [5] Bên cạnh đó, có nghiên cứu quan tâm đến trật tự từ vựng loại từ vựng hình thành từ khóa hay cụm từ khóa từ từ ứng viên [7] Trong báo này, tìm cách tiếp cận tốn rút trích từ khóa, tức từ hay cụm từ quan trọng, từ văn pháp luật Tiếng Việt Theo tìm hiểu chúng tơi, chưa có nghiên cứu trước giải toán nhiệm vụ quan trọng việc đánh mục văn pháp luật nhằm phục vụ cho trình truy vấn thơng tin văn pháp luật Bên cạnh đó, việc rút trích từ khóa từ văn pháp luật cịn hỗ trợ cho hệ thống XLNNTN khác hệ thống hỏi đáp thông tin pháp luật tự động Do đó, chúng tơi tiếp cận tốn rút trích từ khóa văn pháp luật Tiếng Việt phương pháp phổ biến thuật tốn TextRank Chúng tơi tiến hành thực nghiệp nguyên thuật toán TextRank với tham số khác Chương Luật Bảo hiểm Xã hội Việt Nam ban hành năm 2006 Kết thực nghiệm tốt 21.3% Từ kết phân tích dạng từ khóa mà TextRank khơng thể rút trích cách tự động, chúng tơi nhận thấy cần có phương pháp cải tiến cho tốn rút trích từ khóa văn Tiếng Việt PHƢƠNG PHÁP TIẾP CẬN Chúng tiếp cận tốn rút trích từ khóa dựa thuật toán TextRank [4], thuật toán xếp hạng từ vựng ứng viên đồ thị chế lan truyền “bình chọn” Khi đỉnh đồ thị có liên kết tới đỉnh khác , ta nói đỉnh “bình chọn” cho đỉnh Ý tưởng việc xếp hạng đỉnh nhận nhiều bình chọn quan trọng Đồng thời, đỉnh nhận bình chọn đỉnh quan trọng quan trọng Nội dung thuật tốn TextRank bao gồm bước sau: Bƣớc 1: Biểu diễn văn thành đồ thị ( ) Trong đó, tập hợp đỉnh đồ thị, đỉnh từ vựng, thường danh từ tính từ tập hợp cạnh biểu diễn mối quan hệ từ Để tìm mối quan hệ cạnh, cửa sổ trượt có kích thước sử dụng để xác định từ vựng lân cận Nói cách khác, áp cửa sổ trượt W lên văn bản, hai đỉnh đồ thị có cạnh nối hai từ vựng tương ứng nằm cửa sổ trượt Bƣớc 2: Xếp hạng đỉnh đồ thị dựa vào trọng số Trọng số định sau: ( ) Trong đó, ( ) ∑ ( ( ) tập hợp đỉnh vào đỉnh trọng số cạnh tương ứng với hai đỉnh , , )∑ ( đỉnh ) xác ( ) ( ) tập hợp đỉnh mà đỉnh đến, damping factor (tạm dịch: số giảm dần) Bƣớc 3: Lặp lại Bước hội tụ, tức thay đổi trọng số đỉnh nhỏ ngưỡng bé, sau số lần lặp xác định 206 Bƣớc 4: Rút trích từ khóa cách chọn đỉnh có trọng số cao đồ thị kết hợp lại với Các từ ứng viên tập kết hợp chúng nằm liền kề văn đầu vào THỰC NGHIỆM VÀ ĐÁNH GIÁ Dữ liệu thực nghiệm chương I Bộ Luật Bảo hiểm Xã hội Việt Nam, ban hành vào năm 2006, gồm tổng cộng 95 câu Chúng tơi tiến hành rút trích thủ cơng từ khóa liệu để đánh giá, gồm 42 cụm từ khóa Chúng tơi dùng cơng cụ VnCoreNLP [11] để tách từ gán nhãn từ loại cho văn Tiếng Việt Các từ gán nhãn danh từ tính từ đưa vào đỉnh đồ thị Chúng tơi xác định kích thước cửa sổ trượt để tìm mối liên hệ từ nằm đoạn , - Các tham số thuật toán TextRank thiết lập sau: số damping factor , tỉ lệ đỉnh chứa từ vựng đồ thị lấy trong tập hợp * +, ngưỡng xác định tương tự báo gốc 0.00001 Khi áp dụng thuật tốn TextRank vào rút trích từ khóa với tham số vào văn Luật Bảo hiểm Xã hội, thu kết Bảng trang sau Từ bảng kết quả, thấy hiệu suất rút trích từ khóa thuật tốn TextRank văn pháp luật tiếng Việt mức trung bình 20%, trường hợp tốt 21.3% Đây chưa phải kết khả quan để đưa vào ứng dụng thực tế Khi xem xét chi tiết vào kết rút trích từ khóa, chúng tơi nhận thấy nhiều từ khóa văn pháp luật cụm từ phức, có chứa từ đơn có trọng số cao thấp không nằm danh sách từ vựng ứng viên, chứa hư từ Chẳng hạn từ khóa Bảng Bảng Ví dụ từ khóa mà TextRank khơng tự động rút trích Từ khóa Lý khơng rút trích đƣợc người sử dụng lao động tham gia bảo hiểm thất Động từ “tham gia” bị loại từ bước xây dựng nghiệp đồ thị quan, tổ chức tham gia bảo hiểm xã hội Dấu phẩy xem hư từ bị loại từ bước xây dựng đồ thị mức thu nhập Từ “mức” có trọng số thấp sau xếp hạng Bảng Kết rút trích từ khóa từ văn pháp luật Tiếng Việt dùng thuật toán TextRank W 207 T # rút trích # P (%) R (%) F1 (%) T # rút trích # P (%) R (%) F1 (%) 0.33 37 18.9 16.7 17.7 0.33 34 17.7 14.3 15.8 0.5 64 14.1 21.4 17.0 0.5 46 15.2 16.7 15.9 0.67 75 10 13.3 23.8 17.1 0.67 59 15.3 21.4 17.8 0.33 28 17.9 11.9 14.3 0.33 35 17.1 14.3 15.6 0.5 43 16.3 16.7 16.5 0.5 47 17.0 19.1 18.0 0.67 58 13.8 19.1 16.0 0.67 58 15.5 21.4 18.0 0.33 34 17.7 14.3 15.8 0.33 33 24.2 19.1 21.3 W W T # rút trích # P (%) R (%) F1 (%) T # rút trích # P (%) R (%) F1 (%) 0.5 46 17.4 19.1 18.2 0.5 47 19.2 21.4 20.2 0.67 61 13.1 19.1 15.5 0.67 59 10 17.0 23.8 19.8 0.33 35 17.1 14.3 15.6 0.33 35 20.0 16.7 18.2 0.5 44 18.2 19.1 18.6 0.5 47 17.0 19.1 18.0 0.67 55 16.4 21.4 18.6 0.67 59 15.3 21.4 17.8 0.33 35 20.0 16.7 18.2 0.5 49 14.3 16.7 15.4 0.67 55 14.6 19.1 16.5 W 10 Từ kết quan sát trên, nhận thấy cần thiết phải có cải tiến phương pháp rút trích từ khóa cho văn pháp luật Tiếng Việt nhằm đáp ứng nhu cầu thực tế, cụ thể ứng dụng có liên quan đến truy vấn thơng tin hay hỏi đáp pháp luật tự động Trong tương lai, dự kiến áp dụng quy tắc ngữ pháp Tiếng Việt để đưa vào từ đơn danh từ tính từ, xem xét từ khóa có chứa hư từ KẾT LUẬN Trong báo này, chúng tơi trình bày kết việc áp dụng thuật tốn TextRank vào rút trích tự động từ khóa từ văn pháp luật Tiếng Việt TextRank phương pháp khơng giám sát nhằm rút trích từ khóa từ văn dựa phương pháp xếp hạng đồ thị Dữ liệu thực nghiệm chương Bộ Luật Bảo hiểm Xã hội Việt Nam Qua thực nghiệm, nhận thấy việc áp dụng TextRank vào việc rút trích từ khóa văn pháp luật Tiếng Việt chưa tốt cần có phương pháp cải tiến Trong tương lai, chúng tơi dự định áp dụng quy tắc ngữ pháp Tiếng Việt để đề xuất phương án khác cải tiến hiệu suất việc rút trích từ khóa văn pháp luật Tiếng Việt TÀI LIỆU THAM KHẢO [1] P D Turney, "Learning Algorithms for Keyphrase Extraction," J Inform Retrieval, vol 2, pp 303336, 2000 [2] Eibe Frank, Gordon W Paynter, Ian H Witten, Carl Gutwin, and Craig G Nevill-Manning, "Domain-Specific Keyphrase Extraction," in Proc 16th Int Joint Conf Artificial Intell., 1999 A Hulth, "Improved automatic keyword extraction given more linguistic knowledge," in Proc Conf EMNLP-ACL ’03, 2003 [3] Rada Mihalcea and Paul Tarau, "TextRank: Bringing Order into Texts," in Proc Conf EMNLPACL ’04, 2004 [4] Zhiyuan Liu, Peng Li, Yabin Zheng, and Maosong Sun, "Clustering to find exemplar terms for keyphrase extraction," in Proc Conf EMNLP-ACL ’09, 2009 [5] Weiming Liang, Changning Huang, Mu Li and Bao-Liang Lu, "Extracting Keyphrases from Chinese News Articles Using TextRank and Query Log Knowledge," in Proc PACLIC '09, 2009 [6] Tho Thi Ngoc Le, Minh Le Nguyen and Akira Shimazu, "Unsupervised Keyword Extraction for Japanese Legal Documents," in Proc JURIX '13, 2013 208 [7] Chau Q Nguyen and Tuoi T Phan, "An Ontology-based Approach for Key Phrase Extraction," in Proc ACLShort '09, 2009 [8] Jiaxin Zhai, Shengxiang Gao, Zhengtao Yu, Zequan Fan, Li Liu, Hua Lai and Yafei Zhang, "Keywords extraction in Chinese-Vietnamese bilingual news based on hypergraph," Int Jour Distributed Sensor Networks, vol 14, no 11, 2018 [9] B T Hung, "Vietnamese Keyword Extraction Using Hybrid Deep Learning Methods," in Proc NICS '18, 2018 [10] Thanh Vu, Dat Quoc Nguyen, Dai Quoc Nguyen, Mark Dras, Mark Johnson, "VnCoreNLP: A Vietnamese Natural Language Processing Toolkit," in Proc Demo, NAACL 2018, 2018 ABSTRACT In this paper, we present the results of automatic keyphrase extraction from Vietnamese legal documents using TextRank algorithm TextRank is an unsupervised keyphrase extraction approach based on graph ranking Document is represented as a graph where vertices are words and edges are relations among words Then, every vertex is ranked based on their relations with the other vertices in the graph The words in corresponding vertices whose weights are high will be extracted and collapsed together to form keyphrase We run TextRank on the Law on Social Insurance of Vietnam The highest F-score is 21.3% for the performance of keyphrase extraction We notice Vietnamese legal keyphrases include many words other than nouns and adjectives Therefore, there are needs of improvements on the performance of keyphrase extraction on Vietnamese legal documents Keywords: Information extraction, keyphrase, legal documents, TextRank, Vietnamese 209 ... bày kết việc áp dụng thuật tốn TextRank vào rút trích tự động từ khóa từ văn pháp luật Tiếng Việt TextRank phương pháp khơng giám sát nhằm rút trích từ khóa từ văn dựa phương pháp xếp hạng đồ thị... xem hư từ bị loại từ bước xây dựng đồ thị mức thu nhập Từ “mức” có trọng số thấp sau xếp hạng Bảng Kết rút trích từ khóa từ văn pháp luật Tiếng Việt dùng thuật toán TextRank W 207 T # rút trích. .. tự từ vựng loại từ vựng hình thành từ khóa hay cụm từ khóa từ từ ứng viên [7] Trong báo này, chúng tơi tìm cách tiếp cận tốn rút trích từ khóa, tức từ hay cụm từ quan trọng, từ văn pháp luật Tiếng

Ngày đăng: 28/09/2021, 13:16