Bài viết trình bày việc tìm kiếm thông tin pháp luật tiếng Việt bằng truy vấn thông tin nhị phân. Để khắc phục các vấn đề trên nhóm đã áp dụng phương pháp Boolean retrieval để hỗ trợ việc tìm kiếm pháp luật một cách nhanh và chính xác hơn.
TÌM KIẾM THƠNG TIN PHÁP LUẬT TIẾNG VIỆT BẰNG TRUY VẤN THƠNG TIN NHỊ PHÂN Nguyễn Tiến Dũng, Nguyễn Hồng Long Trương Triệu Thiên Khoa Công nghệ Thông tin, Trường Đại học Cơng Nghệ TP Hồ Chí Minh GVHD: TS Lê Thị Ngọc Thơ TÓM TẮT Hiện nay, xã hội trở nên tiên tiến người dễ dàng tiếp cận với tri thức khoa học đại việc tìm kiếm thơng tin nhu cầu khơng thể thiếu Pháp luật chủ đề nhiều người quan tâm Luật pháp vận dụng ngày phổ biến đời sống tính quan trọng đến vấn đề xã hội quyền lợi Do đó, thơng tin pháp luật người tìm kiếm nhiều trang mạng Điều gây số vấn đề việc đưa sai thông tin pháp luật, kết trả chưa phù hợp với mong muốn người dùng Để khắc phục vấn đề nhóm áp dụng phương pháp Boolean retrieval để hỗ trợ việc tìm kiếm pháp luật cách nhanh xác Từ khóa: Boolean model, full text search, Information retrieval, retrieval models, truy hồi thông tin GIỚI THIỆU Hệ thống tạo nhằm mục đích hỗ trợ người dùng tìm kiếm thơng tin pháp luật cách xác mà không cần hiểu biết nhiều từ khóa liên quan đến pháp luật Khi sử dụng, người dùng cần nhập câu truy vấn hệ thống trả danh sách kết cho phù hợp với câu truy vấn (ví dụ: tìm kiếm thơng tin “thiên tai Việt Nam” hệ thống trả thơng tin pháp luật liên quan đến thiên tai như: công văn, định phòng chống thiên tai, cảnh báo thiên tai, quản lý rủi ro thiên tai…) Hệ thống nhóm xây dựng dựa thư viện Apache Lucene dựa sở lý thuyết truy vấn thơng tin nhị phân Nhóm lựa chọn thư viện Lucene thư viện hỗ trợ tốt cho hệ thống truy hồi thơng tin Ngồi ra, văn pháp luật liệu nội nên đánh mục google nên Lucene lựa chọn phù hợp Tuy nhiên, Lucene phát triển để hỗ trợ tìm kiếm thơng tin tiếng Anh nên nhóm thực nghiên cứu việc áp dụng thư viện Lucene vào tiếng Việt PHƯƠNG PHÁP THỰC HIỆN Dưới bước thể quy trình thực xây dựng hệ thống: 101 Hình 1: Quy trình hệ thống truy hồi thơng tin [1] Bước 1: Tìm kiếm, xây dựng sở liệu pháp luật dạng json Bước 2: Tiền xử lý liệu: bước quan trọng giúp văn gốc trở nên có cấu trúc tạo thuận lợi cho hệ thống xử lý Ở nghiên cứu này, nhóm thực số cách tiền xử lý như: chuẩn hóa từ (biến đổi tất ký tự thành dạng viết thường, xóa dấu tiếng Việt), tách từ tiếng Việt (ví dụ: “thiên tai Việt Nam” sau tách “thiên_tai Việt_Nam”), xóa hư từ (ví dụ: “thiên tai Việt Nam” sau loại bỏ hư từ “thiên tai Việt Nam”) Trong phần này, nhóm sử dụng thư viện VNCoreNLP mã nguồn mở github [5] để hỗ trợ tách từ tiếng Việt Bước 3: Lập mục liệu: thư viện Lucene hỗ trợ phân tích liệu thành token (token dãy ký tự mang ý nghĩa cụ thể, biểu thị cho đơn vị ngữ nghĩa xử lý ngơn ngữ) Bước 4: Phân tích, xử lý câu truy vấn: câu truy vấn cần xử lý theo cách thức với việc tiền xử lý liệu gốc bước Bên cạnh đó, nhóm thực nghiệm số phương pháp mở rộng câu truy vấn thêm từ đồng nghĩa, từ gần nghĩa vào câu truy vấn (nhóm sử dụng từ đồng nghĩa vietnamese-wordnet tác giả zeloru mã nguồn mở github [4]) Bước 5: Tìm kiếm: thư viện Apache Lucene tự động so khớp tương đồng câu truy vấn phân tích với từ mục sở liệu để tìm kết phù hợp dựa số lần xuất từ mục câu truy vấn Bước 6: Đánh giá hệ thống: hệ thống cần phải đánh giá để xác định độ xác so sánh khả mơ hình trường hợp khác Có nhiều độ đo để đánh giá hệ thống truy hồi thông tin Ở nhóm dùng đo thường sử dụng precision, recall, f-measure Với công thức là: precision = |{relavant docs} ∩ {retrieved docs}| |{retrieved docs}| 102 recall = |{relavant docs} ∩ {retrieved docs}| |{relavant docs}| F-measure = 2* precision * recall precision + recall Với relavant docs kết trả câu truy vấn phù hợp với mong muốn người dùng (thường dựa tệp liệu đánh dấu thủ công) retrieved docs kết trả câu truy vấn mà hệ thống truy hồi thông tin đề xuất THỰC NGHIỆM: 3.1 Mô tả liệu thực nghiệm Ở đây, nhóm sử dụng sở liệu gồm 2136 văn pháp luật viết theo dạng json với nội dung văn pháp luật title (tiêu đề), description (miêu tả) paragraph (nội dung) Dưới cấu trúc văn sở liệu: { "url": "https://thuvienphapluat.vn/van-ban/Lao-dong-Tien ", "title": "QUYẾT ĐỊNH", "paragraph": [“Căn Luật tổ chức Hội đồng nhân dân và…”], "description": "VỀ CHẾ ĐỘ PHỤ CẤP ĐỐI VỚI CÁN …", "DocID": "2143" } Bên cạnh đó, nhóm cịn có liệu kiểm thử làm thủ công dùng để phục vụ việc đánh giá hệ thống gồm 61 câu truy vấn kết trả cho câu truy vấn Dưới cấu trúc hàng liệu liệu kiểm thử: 103 { "query": "Điều kiện trở thành giảng viên", "result": [ "BAN HÀNH CHƯƠNG TRÌNH VÀ THỰC HIỆN BỒI DƯỠNG NGHIỆP …", "BAN HÀNH CHƯƠNG TRÌNH VÀ THỰC HIỆN BỒI DƯỠNG NGHIỆP …", "BAN HÀNH QUY CHẾ TỔ CHỨC VÀ HOẠT ĐỘNG CỦA TRUNG TÂM …", "…", "…"] } 3.2 Chạy thực nghiệm so sánh Khi thực nghiệm, nhóm tiến hành chạy tìm kiếm câu truy vấn số tảng khác để so sánh với hệ thống Ở nhóm thực tìm kiếm câu “thiên tai Việt Nam”: Bảng 1: So sánh kết số tảng Lấy kết đầu trả Các tảng _ Báo cáo đặc biệt Việt Nam quản lý rủi ro thiên tai tượng cực đoan nhằm thúc đẩy thích ứng với biến đổi khí hậu _ Tóm tắt thiên tai Việt Nam từ đầu năm 2020 (tính đến ngày 23/7/2020) Google _ Tình hình thiên tai nước ta từ đầu năm 2021 đến (tính đến 28/4/2021) _ Năm 2021: Giảm kỷ lục thiệt hại thiên tai _ Giải pháp ứng phó thiên tai Việt Nam _ Quyết định 602/QĐ-UBND Phương án Ứng phó với thiên tai theo cấp độ rủi ro thiên tai năm 2022 tỉnh Lào Cai Thư viện pháp luật _ Quyết định 106/QĐ-BNV năm 2021 cho phép đổi tên Quỹ Xã hội - Từ thiện Cơng đồn giao thông vận tải Việt Nam thành Quỹ Từ thiện Công đồn giao thơng vận tải Việt Nam và… 104 _ Quyết định 747/QĐ-UBND năm 2021 phê duyệt Phương án ứng phó thiên tai theo cấp độ rủi ro thiên tai tỉnh Vĩnh Phúc _ Quyết định 1215/QĐ-BXD năm 2020 Phương án ứng phó thiên tai theo cấp độ rủi ro thiên tai Bộ Xây dựng _ Quyết định 699/QĐ-UBND năm 2020 phương án ứng phó thiên tai theo cấp độ rủi ro thiên tai tỉnh Điện Biên _ Về tăng cường cơng tác phịng, chống thiên tai tìm kiếm cứu nạn năm 2021 _ Quy định dự báo, cảnh báo, truyền tin thiên tai cấp độ rủi ro thiên tai Hệ thống truy hồi thông tin _ Phê duyệt đề án “nâng cao nhận thức cộng đồng quản lý rủi ro thiên tai dựa vào cộng đồng, đến năm 2030” _ Ban hành quy chế hoạt động ứng phó cố tràn dầu _ V/v tập trung khắc phục hậu ứng phó mưa lũ Từ kết trên, nhóm nhận thấy cịn số vấn đề tồn cơng cụ tìm kiếm tảng pháp luật kết trả chưa thực phù hợp với mục đích người dùng tìm kiếm hay cho số kết người dùng không mong muốn (tìm kiếm “thiên tai Viêt Nam” lại trả kết có nội dung liên qua đến “từ thiện”, “vận tải”) phương pháp phân tích câu truy vấn chưa tối ưu Còn tảng tìm kiếm google, tảng tìm kiếm tốt giới nhiên google phục vụ việc tìm kiếm liệu tổng quát nhiều liệu nên việc tìm kiếm cho miền liệu hẹp (ở pháp luật) đưa kết khơng người dùng mong đợi Cịn hệ thống, nhóm tập trung vào miền liệu pháp luật tối ưu độ xác dựa miền liệu nên đáp ứng nhu cầu người dùng tốt 3.3 Đánh giá kết thực nghiệm Thời gian trung bình hệ thống lập mục phút, việc tìm kiếm hệ thống thường phản hồi thời gian 0.5 mili giây Dưới thống kê độ xác hệ thống vài trường hợp hệ thống trả 10 kết đầu tiên: Bảng 2: Kết đánh giá thực nghiệm Các trường hợp dùng Apache Lucene Độ đo Top Top 10 Precision 39.02% 26.23% Recall 39.02% 52.46% Mặc định 105 Tách từ tiếng Việt Tách từ tiếng Việt + xóa hư từ Tách từ tiếng Việt + xóa dấu tiếng Việt Tách từ tiếng Việt + xóa hư từ + thêm từ đồng nghĩa vào câu truy vấn F1 39.02% 34.97% Precision 39.02% 27.54% Recall 39.02% 55.08% F1 39.02% 36.72% Precision 38.69% 27.54% Recall 38.69% 55.08% F1 38.69% 36.72% Precision 39.67% 27.38% Recall 39.67% 54.75% F1 39.67% 36.50% Precision 31.80% 21.31% Recall 31.80% 42.62% F1 31.80% 28.42% Qua bảng đánh giá, nhóm nhận thấy lấy kết mà hệ thống trả trường hợp có tiền xử lý liệu (tách từ tiếng Việt + xóa dấu tiếng Việt) có độ xác cao Đối với lấy 10 kết trả trường hợp có tiền xử lý liệu (tách từ tiếng Việt + xóa hư từ) có độ xác cao Kết hợp kết thói quen hành vi người dùng hay ý đến kết nên nhóm định dùng trường hợp có độ xác cao lấy kết đầu trả ĐÁNH GIÁ, KẾT LUẬN Qua nghiên cứu khoa học, nhóm nhận tầm quan trọng việc truy xuất thông tin bước đầu tạo hệ thống truy vấn thông tin pháp luật đạt vài yếu tố như: tăng tốc độ truy vấn, cải thiện độ xác Tuy nhiên hệ thống khuyết điểm độ xác chưa mức cao chưa thể tối ưu việc mở rộng kết truy vấn từ đồng nghĩa khơng có từ đồng nghĩa phù hợp với liệu hệ thống Từ khuyết điểm đó, nhóm nghiên cứu phương pháp tối ưu truy vấn khác dùng từ đồng nghĩa từ phát triển riêng cho hệ thống, dùng từ gần nghĩa, xử lý từ đa nghĩa, phân tích ngữ nghĩa Ở tương lai, nhóm tìm hiểu thực nghiệm nhiều trường hợp, cách thức khác để tối ưu độ 106 xác hệ thống lên mức cao với mục tiêu đạt độ xác 50% áp dụng hệ thống vào toán thực tế Tóm lại, nhóm nhận thấy việc tối ưu truy vấn thông tin vô cần thiết cho người dùng đặc biệt chủ đề pháp luật Như đề cập, xã hồi pháp triển nhu cầu tìm kiếm người tăng cao nên việc tối ưu độ xác tốc độ tìm kiếm tạo trải nghiệm tốt hỗ trợ cho người dùng nhiều TÀI LIỆU THAM KHẢO [1] Christopher D Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2008 [2] Baeza-Yates, Ricardo, Berthier Ribeiro-Neto, Modern Information Retrieval, AddisonWesley, 1999 [3] H Dalianis, Evaluation Metrics and Evaluation, DSV-Stockholm University, Kista, Sweden, 2018 [4] zeloru, https://github.com/zeloru/vietnamese-wordnet [5] Dat Quoc Nguyen, Thanh Vu, https://github.com/vncorenlp/VnCoreNLP 107 ... phương pháp phân tích câu truy vấn chưa tối ưu Còn tảng tìm kiếm google, tảng tìm kiếm tốt giới nhiên google phục vụ việc tìm kiếm liệu tổng quát nhiều liệu nên việc tìm kiếm cho miền liệu hẹp (ở pháp. .. 52.46% Mặc định 105 Tách từ tiếng Việt Tách từ tiếng Việt + xóa hư từ Tách từ tiếng Việt + xóa dấu tiếng Việt Tách từ tiếng Việt + xóa hư từ + thêm từ đồng nghĩa vào câu truy vấn F1 39.02% 34.97% Precision... cứu khoa học, nhóm nhận tầm quan trọng việc truy xuất thông tin bước đầu tạo hệ thống truy vấn thông tin pháp luật đạt vài yếu tố như: tăng tốc độ truy vấn, cải thiện độ xác Tuy nhiên hệ thống khuyết