1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu (tóm tắt luận văn ngành khoa học máy tính)

25 21 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 1,22 MB

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHÍ MẠNH KIÊN TÌM KIẾM VĂN BẢN PHÁP QUY SỬ DỤNG KỸ THUẬT HỌC SÂU TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI - 2020 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: GS TS TỪ MINH PHƯƠNG Phản biện 1: ……………………………………………………… Phản biện 2: ……………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Ngày nay, kỉ nguyên kỹ thuật số, với bùng nổ thông tin, số lượng tài liệu điện tử người tạo ngày khổng lồ Trong trình học tập, nghiên cứu hay làm việc, cần tìm kiếm đọc nhiều tài liệu để tìm thơng tin ta mong muốn Việc nhiều thời gian, điển hình lĩnh vực pháp luật Một văn pháp luật thường dài tới 15-20 trang chí nhiều Một vụ việc liên quan đến nhiều văn khác Các luật sư, nhân viên pháp lý phải đọc nhiều văn so sánh điều, khoản với trường hợp xử lý Theo khảo sát năm 2013 Mỹ [19], trung bình, gần 47,3% số người hỏi dành 15% thời gian, 36.6% số người dành 15-50% thời gian, 10.3% số người dành từ 50% thời gian trở lên tuần cho việc tìm kiếm nghiên cứu văn pháp luật Đây vấn đề thực tiễn, mang lại giá trị mà cần giải Bài tốn tìm kiếm thơng tin đời để xử lý vấn đề Nhiệm vụ tốn tìm kiếm thơng tin tìm kiếm thơng tin thoả mãn nhu cầu thông tin người dùng Người sử dụng hệ thống tìm kiếm thơng tin khơng muốn tìm văn có chứa từ khóa câu truy vấn mà quan tâm tới việc thu nhận văn mang lại thông tin phù hợp với mục đích tìm kiếm Các hệ thống tìm kiếm thơng tin thường biểu diễn văn câu truy vấn dạng véc-tơ Chất lượng biểu diễn văn so sánh véc-tơ biểu diễn có ảnh hưởng quan trọng tới kết Gần đây, kỹ thuật sử dụng học sâu cho thấy khả biểu diễn văn tốt xử lý ngơn ngữ tự nhiên nói chung tìm kiếm thơng tin văn nói riêng Vì vậy, tơi chọn đề tài “Tìm kiếm văn pháp quy sử dụng kỹ thuật học sâu” cho luận văn Mục tiêu luận văn tìm hiểu phương pháp biểu diễn văn đề xuất mơ hình sử dụng kỹ thuật học sâu ứng dụng tìm kiếm văn pháp quy tiếng Việt Đầu vào hệ thống câu hỏi pháp luật Đầu hệ thống văn pháp quy có liên quan, trả lời cho câu hỏi đó, cụ thể đến mức điều Ví dụ, với câu hỏi “Vợ chồng ly hôn tài sản chung phân chia nào?” hệ thống trả kết là: Điều 59 Luật Hơn nhân gia đình, Điều Thơng tư liên tịch hướng dẫn số quy định Luật Hơn nhân gia đình Nội dung luận văn chia thành chương sau: - CHƯƠNG 1: Bài tốn tìm kiếm thơng tin phương pháp biểu diễn văn bản: Trình bày tổng quan tốn tìm kiếm thơng tin phương pháp biểu diễn văn phục vụ tìm kiếm, tìm kiếm thơng tin - CHƯƠNG 2: Ứng dụng biểu diễn văn mạng nơ-ron sâu tìm kiếm văn pháp quy: Giới thiệu tốn tìm kiếm văn pháp quy, trình bày phương pháp biểu diễn văn sử dụng mạng nơ-ron sâu - CHƯƠNG 3: Thử nghiệm đánh giá: Mơ tả q trình xây dựng liệu so sánh, đánh giá hiệu mơ hình đề xuất so với phương pháp khác Các kết luận văn chấp nhận công bố hội nghị COLING 2020, hội nghị hạng A xử lý ngôn ngữ tự nhiên 3 CHƯƠNG BÀI TỐN TÌM KIẾM THƠNG TIN VÀ CÁC PHƯƠNG PHÁP BIỂU DIỄN VĂN BẢN Chương trình bày tổng quan tốn tìm kiếm thơng tin nói chung tốn tìm kiếm văn pháp quy nói riêng, bao gồm khái niệm, kiến trúc hệ thống mơ hình tìm kiếm thơng tin, với phương pháp biểu diễn văn phục vụ tìm kiếm 1.1 Bài tốn tìm kiếm thơng tin 1.1.1 Tìm kiếm văn quy phạm pháp luật Bài tốn tìm kiếm thông tin Input: - Một tập tài liệu lớn, ổn định - Một nhu cầu thông tin thể dạng câu truy vấn (các từ khoá câu hỏi) Output: - Tìm tất tài liệu có liên quan đến câu truy vấn Những vấn đề cần giải tốn tìm kiếm thơng tin - Biểu diễn tập tài liệu nào? - Biểu diễn nhu cầu thông tin người dùng nào? - Bằng cách hệ thống trả tài liệu có liên quan đến nhu cầu thơng tin cách có hiệu quả? - Kết trả trình bày nào? Bài tốn tìm kiếm văn pháp quy - Đầu vào: Truy vấn người dùng dạng câu hỏi - Đầu ra: Các điều khoản có liên quan, giúp trả lời cho câu hỏi người dùng 4 Ví dụ minh họa đầu vào đầu toán mơ tả bảng bên dưới: Ví dụ minh họa tốn tìm kiếm văn pháp quy Câu hỏi đầu vào Con riêng có quyền hưởng thừa kế bố không di chúc không? Đầu Điều 651 Bộ luật dân 2015 Nội dung điều luật Điều 651 Người thừa kế theo pháp luật Những người thừa kế theo pháp luật quy định theo thứ tự sau đây: a) Hàng thừa kế thứ gồm: vợ, chồng, cha đẻ, mẹ đẻ, cha nuôi, mẹ nuôi, đẻ, nuôi người chết; b) Hàng thừa kế thứ hai gồm: ông nội, bà nội, ông ngoại, bà ngoại, anh ruột, chị ruột, em ruột người chết; cháu ruột người chết mà người chết ông nội, bà nội, ông ngoại, bà ngoại; c) Hàng thừa kế thứ ba gồm: cụ nội, cụ ngoại người chết; bác ruột, ruột, cậu ruột, cô ruột, dì ruột người chết; cháu ruột người chết mà người chết bác ruột, ruột, cậu ruột, ruột, dì ruột; chắt ruột người chết mà người chết cụ nội, cụ ngoại Những người thừa kế hàng hưởng phần di sản Những người hàng thừa kế sau hưởng thừa kế, khơng cịn hàng thừa kế trước chết, khơng có quyền hưởng di sản, bị truất quyền hưởng di sản từ chối nhận di sản 1.1.2 Hệ thống tìm kiếm tìm kiếm thơng tin Hoạt động hệ thống tìm kiếm thơng tin mơ tả Hình 1.1, bao gồm ba bước chính: biểu diễn văn bản, biểu diễn truy vấn so khớp – đánh giá độ liên quan văn truy vấn 5 Hình 1.1 Kiến trúc tổng quan hệ thống tìm kiếm thông tin 1.2 Biểu diễn văn sử dụng từ khóa 1.2.1 TF-IDF Term Frequency – Inverse Document Frequency (TF-IDF), thống kê số học phản ánh tầm quan từ (word) với văn (document) tập văn (corpus) Nó thường dùng để làm trọng số việc thu thập thông tin khai phá văn Các tham số TF-IDF: - Term frequency: Tần số xuất - Inverse document frequency: Tần số nghịch đảo văn - Document Length: Độ dài văn 𝑡𝑓 − 𝑖𝑑𝑓 (𝑡, 𝑑 ) = 𝑡𝑓(𝑡) × 𝑖𝑑𝑓(𝑡, 𝑑) × 𝑛𝑜𝑟𝑚(𝑑) 1.2.2 BM25 Term frequency BM25 Đối với TF-IDF, giá trị tăng vơ hạn TF tăng lên Để giảm tác động TF BM25 chỉnh sửa công thức TF lại Độ dài văn BM25 Cơng thức TF-IDF chưa thực hồn chỉnh, với văn có độ dài trung bình tồn tập liệu Nếu độ dài văn ngắn dài so với độ dài trung bình, cơng thức cho kết thiếu xác Bởi vậy, người ta thêm vào công thức tham số, số b giá trị độ dài 𝐿, công thức trở thành: (𝑘 + 1) × 𝑡𝑓 𝑘 × (1.0 − 𝑏 + 𝑏 × 𝐿) + 𝑡𝑓 Inverse Document Frequency BM25 Biểu đồ Hình 1.3 cho thấy IDF BM25 giống IDF TF-IDF Tuy nhiên BM25 chỉnh sửa cơng thức tính lại để thêm khả đưa điểm âm tần suất xuất từ toàn tập văn cao 𝑖𝑑𝑓𝑡 = 𝑙𝑜𝑔 + (𝐷 − 𝑑 + 0.5) 𝑑 + 0.5 Trong đó: - 𝐷: tổng số văn - 𝑑: số lượng văn chứa từ t 1.3 Biểu diễn văn sử dụng chủ đề ẩn 1.3.1 Khái niệm mơ hình Latent Dirichlet Allocation (LDA) Latent Dirichlet Allocation [4] [5] mơ hình phát chủ đề ẩn thành cơng phát triển David Blei, Andrew Ng Michael Jordan LDA mơ hình tự sinh xác suất cho liệu rời rạc văn ký tự Bản chất LDA mơ hình Bayes phân cấp với mức, phần tử liệu tập hợp hữu hạn tập chủ đề nằm ẩn bên nội dung nhìn thấy thành phần 1.3.2 Tổng quan mơ hình sinh LDA Với tập văn (corpus) gồm 𝑀 văn ký hiệu 𝐷 = {𝑑1 , 𝑑2 , … , 𝑑𝑀 }, văn thứ 𝑚 tập văn có 𝑁𝑚 từ, từ văn lấy từ tập từ vựng thuật ngữ (term) = {𝑡1 , 𝑡2 , … , 𝑡𝑉 }, Mục đích LDA tìm cấu trúc ẩn chủ đề (topic) hay lĩnh vực (concept) văn Q trình sinh LDA mơ tả sau: LDA sinh luồng từ quan sát 𝑤𝑚,𝑛 (là từ có nội dung văn bản), phân chia thành văn Với văn bản, tỷ lệ chủ đề ⃗⃗⃗⃗⃗ 𝜗𝑚 đưa ra, từ đó, từ đặc tả chủ đề tạo Nghĩa là, với từ, số thi chủ đề 𝑧𝑚,𝑛 lấy mẫu theo văn – tỷ lệ trộn cụ thể, sau phân phối chủ đề tương ứng 𝜑 ⃗ 𝑧𝑚,𝑛 sử dụng để sinh từ Các chủ đề 𝜑 ⃗ 𝑘 lấy mẫu lần cho văn tập văn D 1.3.3 Suy luận Với mơ hình LDA cho, thực suy luận chủ đề có văn chưa có tập văn huấn huyện tiến trình lấy mẫu tương tự ̃ , biểu Nhiệm vụ cụ thể việc suy luận từ văn 𝒎 ⃗⃗⃗ , phải ước lượng xác suất hậu nghiệm diễn véc-tơ từ 𝒘 ⃗̃ cho véc-tơ từ câu truy vấn 𝒘 ⃗⃗⃗ mơ hình LDA cho chủ đề 𝒛 trước 𝑳(𝚯, 𝚽) 1.4 Biểu diễn văn sử dụng véc-tơ từ 1.4.1 Giới thiệu Phương pháp biểu diễn văn véc-tơ từ, hay biểu diễn từ khóa phân tán, biểu diễn từ dạng véc-tơ có số chiều cố định nhỏ nhiều so với kích thước từ vựng Giá trị thành phần véc-tơ biểu diễn số thực có giá trị thường khác (không hay one-hot), cách biểu diễn gọi biểu diễn đặc (dense) khác với biểu diễn thưa (sparse) kiểu one-hot Mơ hình hướng đến việc phân tích ngữ nghĩa từ biểu diễn quan hệ từ thông qua véc-tơ biểu diễn chúng 1.4.2 Các bước thực Cách biểu diễn từ phương pháp thu thông qua tiến hành học máy (khơng giám sát) mơ hình ngôn ngữ mạng nơ-ron nhân tạo [21] mô hình giảm số chiều khác [24] Người ta đưa vào mạng nơ-ron tập liệu huấn luyện lớn có độ bao quát rộng để xác định trọng số thích hợp nơ-ron mạng Cuối trình huấn luyện, sau xác định trọng số người ta đưa từ vào đầu vào mạng lấy kết biểu diễn dạng véc-tơ từ đầu Có thuật tốn học máy thường dùng việc học biểu diễn từ máy CBOW (continuous bag of words) Skip-gram Ngoại trừ hai thuật tốn nói trên, gần (2014) nhóm nghiên cứu đại học Stanford giới thiệu thuật toán học máy GloVe (Global Vector) [24] cho phép đạt véc-tơ từ với độ xác tốt 1.5 Biểu diễn văn sử dụng mạng nơ-ron sâu 1.5.1 Giới thiệu mạng nơ-ron nhân tạo Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) mơ hình xử lý thông tin mô dựa hoạt động hệ thống thần kinh sinh vật, bao gồm số lượng lớn nơ-ron gắn kết để xử lý thông tin ANN giống não người, học kinh nghiệm (thơng qua huấn luyện), có khả lưu giữ kinh nghiệm hiểu biết (tri thức) sử dụng tri thức việc dự đoán liệu chưa biết (unseen data) 1.5.2 Cấu trúc mơ hình nơ-ron nhân tạo Hình 1.2 Mơ hình nơ-ron sinh học Mạng nơ-ron nhân tạo lấy cảm hứng từ cách làm việc não người Các nơ-ron nhân tạo mô lại hoạt động nơ-ron sinh học Hình 1.3 Mơ hình nơ-ron nhân tạo Tương tự nơ-ron sinh học, nơ-ron nhân tạo nhận tín hiệu đầu vào, xử lý (nhân tín hiệu với trọng số liên kết, tính tổng tích thu gửi kết đến hàm truyền) cho tín hiệu đầu (là kết hàm lan truyền) 1.5.3 Cấu tạo phương thức làm việc mạng nơ-ron Khi liên kết đầu vào, đầu nhiều nơ-ron với nhau, ta thu mạng nơ-ron Việc ghép nối nơ-ron mạng với theo nguyên tắc 10 Nguyên lý cấu tạo chung mạng nơ-ron gồm nhiều lớp, lớp bao gồm nhiều nơ-ron có chức mạng Thông thường mạng nơ-ron bao gồm: lớp đầu vào (input layer), lớp ẩn (hidden layer) lớp đầu (output layer) Trong có nhiều lớp ẩn Hình 1.4 Mơ hình cấu tạo mạng nơ-ron Khi hình thành mạng nơ-ron chưa có tri thức, tri thức mạng hình thành sau trình học 1.5.4 Phân loại mạng nơ-ron Mạng nơ-ron truyền thẳng (Feed-forward Neural Network - FNN) Mạng nơ-ron truyền thẳng kiến trúc mạng nơ-ron sử dụng phổ biến Đúng tên nó, giá trị thẳng từ lớp đầu vào tới lớp đầu khơng có chiều quay ngược lại (khác với mạng nơ-ron hồi quy trình bày phần sau) 11 Hình 1.5 Mơ hình mạng nơ-ro truyền thẳng Mạng nơ-ron hồi quy (Recurrent Neural Networks – RNN) Ý tưởng mạng nơ-ron hồi quy xuất phát từ mục đích muốn chuyển hóa chuỗi đầu vào thành chuỗi kết đầu ra, thành phần chuỗi ảnh hưởng tới Ví dụ toán chat bot, đầu vào câu (gồm nhiều từ rõ ràng từ phải liên quan tới nhau), từ biểu diễn véc-tơ ta mong muốn sử dụng mạng nơ-ron để ghi nhớ ngữ nghĩa câu Mạng nơ-ron truyền thẳng - FNN đề cập làm điều đầu vào FNN ghi ghi khác hoàn tồn khơng ảnh hưởng lẫn Nhưng mạng nơ-ron hồi quy làm điều Hình 1.6 Mơ hình mạng nơ-ron hồi quy 1.5.5 Các mạng nơ-ron sâu Mạng nơ-ron sâu Deep Neural Networks - DNN) mạng nơ-ron nhân tạo với nhiều lớp ẩn ẩn lớp đầu vào lớp đầu Các mạng nơ-ron sâu mơ hình mối quan hệ phi tuyến tính phức tạp Mạng nơ-ron nhân chập Mạng nơ-ron nhân chập dạng đặc biệt mạng nơ-ron nhiều lớp Trong mạng lớp nhân chập (convolution layer) kết hợp với hàm kích hoạt phi tuyến (nonlinear activation function) ReLU hay để tạo thông tin trừu tượng cho lớp [2] [23] 12 CNN áp dụng tác vụ phân loại câu [14] [13] [31], phân tích cảm xúc, quan điểm [22], tìm kiếm theo ngữ nghĩa [10] [25], nhận dạng tiếng nói [1] Hình 1.7 Mơ hình CNN nghiên cứu [31] 1.5.6 Biểu diễn văn sử dụng mạng nơ-ron Nhiều nghiên cứu sử dụng mạng nơ-ron để biểu diễn văn thu kết khả quan 1.6 Kết luận chương Trong phần đầu chương này, luận văn trình bày tổng quan tốn tìm kiếm thơng tin nói chung tốn tìm kiếm văn pháp quy nói riêng, bao gồm khái, kiến trúc hệ thống mơ hình tìm kiếm thơng tin Chương trình bày phương pháp biểu diễn văn bao gồm: biểu diễn sử dụng từ khóa, biểu diễn sử dụng chủ đề ẩn, biểu diễn sử dụng véc-tơ từ, biểu diễn sử dụng mạng nơ-ron sâu Trong đó, phương pháp biểu diễn sử dụng từ khóa cịn nhiều hạn chế, chưa biểu diễn tốt ngữ nghĩa, phương pháp biểu sử dụng mạng nơ-ron sâu cho thấy hiệu cao nghiên cứu gần 13 CHƯƠNG ỨNG DỤNG BIỂU DIỄN VĂN BẢN BẰNG MẠNG NƠ-RON SÂU TRONG TÌM KIẾM VĂN BẢN PHÁP QUY Chương đề xuất phương pháp biểu diễn văn sử dụng mạng nơ-ron nhân chập kết hợp với chế Attention áp dụng cho tốn tìm kiếm văn pháp quy 2.1 Ý tưởng Mỗi điều luật coi văn cần tìm kiếm Tổng quan ý tưởng phương pháp hai khâu Đầu tiên biểu điều luật truy vấn dạng véc-tơ Sau dùng hàm tích vơ hướng để so khớp, ước tính độ liên quan chúng Mơ hình gồm hai mơ-đun Mơ-đun Biểu diễn truy vấn (Query Encoder) Mô-đun Biểu diễn điều luật (Article Encoder) Hai mô-đun mô tả chi tiết mục phía sau chương Trong mơ-đun, mạng nơ-ron nhân chập dùng để ghi nhận thơng tin ngữ cảnh Sau chế Attention áp dụng để tính tốn biểu diễn truy vấn điều luật 2.2 Mô-đun Biểu diễn truy vấn Mô-đun biến đổi truy vấn thành véc-tơ biểu diễn Kiến trúc mơ tả Hình 2.2, bao gồm ba lớp: word embedding, lớp nhân chập (Convolutional Neural Network - CNN) attention 14 Hình 2.1 Kiến trúc Mô-đun Biểu diễn truy vấn 2.3 Mô-đun Biểu diễn điều luật Mô-đun biến đổi điều luật dạng đoạn văn thành véc-tơ Kiến trúc mơ tả Hình 2.3 Thay xem chuỗi dài, mơ hình xem điều luật đoạn văn tạo thành câu biểu diễn kiến trúc phân cấp 15 Hình 2.2 Kiến trúc Mơ-đun Biểu diễn điều luật 2.4 So khớp, tính độ liên quan Hình 2.4 mơ tả cách hệ thống tính độ liên quan điều luật truy vấn 16 Hình 2.3 Tính độ liên quan điều luật truy vấn Độ liên quan điều luật truy vấn tính tích vơ hướng hai véc-tơ biểu diễn chúng Hệ thống huấn luyện kỹ thuật “negative sampling” Hệ thống gán nhãn điều luật liên quan tới truy vấn “positive”, điều luật không liên quan “negative” Với điều luật liên quan, hệ thống chọn mẫu K điều luật không liên quan Hệ thống học để phân loại K + điều luật liên quan tới truy vấn hay không 2.5 Kết luận chương Chương đề xuất phương pháp biểu diễn văn sử dụng mạng nơ-ron nhân chập kết hợp với chế Attention áp dụng cho tốn tìm kiếm văn pháp quy Chương trình bày trình thu thập, xây dựng liệu, hệ thống thử nghiệm, đánh giá phương pháp đề xuất 17 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ Chương trình bày trình xây dựng tập liệu văn quy, câu hỏi lĩnh vực pháp luật, việc ứng dụng phương pháp biểu diễn văn sử dụng mạng nơ-ron nhân chập kết hợp với chế Attention để xây dựng hệ thống tìm văn pháp quy Cuối phần thực nghiệm, so sánh với phương pháp khác 3.1 Xây dựng tập liệu văn pháp quy câu hỏi 3.1.1 Xây dựng tập liệu văn pháp quy tiếng Việt Tập liệu văn pháp quy sử dụng luận văn thu thập từ trang vbpl.vn Các văn thu thập văn hiệu lực thuộc loại sau: luật, luật, nghị định, thông tư, thông tư liên tịch Tổng cộng thu thập 8586 văn bản, chia thành 117545 điều 3.1.2 Xây dựng tập câu hỏi câu trả lời chuẩn Các câu hỏi thu thập từ trang hỏi đáp pháp luật [32][33][34] Mỗi câu hỏi ban đầu gồm có tiêu đề câu hỏi, chi tiết câu hỏi câu trả lời Tập câu hỏi cuối gồm 2925 câu, câu hỏi có nhiều cách hỏi khác sau gọi truy vấn Tổng cộng có 5922 truy vấn 3.2 Xây dựng hệ thống 3.2.1 Tiền xử lý liệu 18 Hình 3.1 Các bước tiền xử lý liệu 3.2.2 Xây dựng hệ thống tìm kiếm sử dụng phương pháp TF-IDF BM25 Hệ thống xây dựng sử dụng Elasticsearch Elasticsearch cho phép lưu trữ liệu tạo mục theo phương pháp biểu diễn TF-IDF BM25 Mỗi điều sau tiền xử lý lưu thành ghi Elasticsearch Khi nhận truy vấn, hệ thống tiền xử lý sử dụng API Elasticsearch để tìm kiếm theo phương pháp tương ứng 3.2.3 Xây dựng hệ thống tìm kiếm sử dụng phương pháp biểu diễn văn mạng CNN kết hợp với chế Attention Huấn luyện Hệ thống lấy kết tìm kiếm phương pháp BM25 dựa Elasticsearch làm đầu vào dùng mơ hình mạng nơ-ron để xếp hạng lại kết Mơ hình huấn luyện dựa kỹ thuật negative sampling Tìm kiếm 19 Các điều luật tập liệu văn pháp quy tính tốn biểu diễn sử dụng mơ-đun Biểu diễn điều luật huấn luyện Sau đó, véc-tơ biểu diễn lưu kèm với số hiệu văn tên điều để sử dụng dễ dàng Hình 3.2 Lưu trữ biểu diễn điều luật Khi nhận truy vấn, hệ thống biểu diễn thành véc-tơ mơ-đun biểu diễn truy vấn Sau đó, hệ thống thực tìm kiếm phương pháp BM25 Elasticsearch để thu tập kết Hệ thống tìm kiếm biểu diễn lưu sẵn điều tương ứng tập kết Tiếp theo, độ tương đồng biểu diễn câu truy vấn điều tính dùng để xếp hạng cho kết cuối Hình 3.3 Quá trình tìm kiếm nhận truy vấn 20 3.3 Phương pháp đánh giá 3.3.1 Recall 3.3.2 NDCG 3.4 Kết thực nghiệm Tập câu truy vấn chia thành phần: 90% dùng để huấn luyện mơ hình mạng nơ-ron 10% dùng để đánh giá phương pháp Đầu tiên thử nghiệm so sánh hiệu phương pháp sử dụng mạng nơron nhân chập kết hợp với chế Attention, sau gọi NATR (Neural Attentive Text Representation), với phương pháp dùng TF-IDF BM25 Tiếp theo thực nghiệm so sánh hiệu thay đổi tham số NATR Cuối thực nghiệm kết hợp điểm phương pháp BM25 NATR xếp hạng 3.4.1 Thực nghiệm so sánh hiệu phương pháp Trong thực nghiệm này, hệ thống NATR huấn luyện với điều positive kèm 15 điều negative từ Elasticsearch 15 điều negative Khi tìm kiếm, hệ thống NATR 1000 kết trả từ Elasticsearch để xếp hạng lại Kết cho bảng sau: So sánh hiệu phương pháp Phương pháp Recall@20 NDCG@20 TF-IDF 0.4716 0.3537 BM25 0.5593 0.3755 NATR 0.7261 0.4642 3.4.2 Thực nghiệm hiệu thay đổi tham số Trong thực nghiệm này, tham số thay đổi để đánh giá tác động lên hiệu hệ thống NATR Các tham số thực nghiệm bao gồm: 21 - K: Số điều negative liệu huấn luyện, nửa lấy từ kết trả Elasticsearch, nửa lấy ngẫu nhiên - N: Số kết trả từ Elasticsearch dùng để xếp hạng lại tìm kiếm Kết thay đổi tham số K huấn luyện cố định tham số N = 1000 tìm kiếm cho bảng sau: Kết thay đổi tham số K K Recall@20 NDCG@20 Thời gian huấn luyện 30 0.7261 0.4642 24 phút 60 0.7785 0.5305 20 phút 80 0.7842 0.5452 49 phút 100 0.8115 0.5849 10 50 phút 120 0.8103 0.5766 13 39 phút Kết cố định K = 100 huấn luyện thay đổi tham số N tìm kiếm cho bảng sau: Kết thay đổi tham số N N Recall@20 NDCG@20 300 0.8049 0.6269 400 0.8084 0.6147 500 0.8051 0.6063 1000 0.8115 0.5849 1500 0.7917 0.5569 3.4.3 Thực nghiệm kết hợp điểm BM25 NATR 22 Trong thực nghiệm này, điểm phương pháp BM25 NATR kết hợp với để xếp hạng lại điều trả từ Elasticsearch Điểm kết hợp tính theo cơng thức: 𝑠𝑐𝑜𝑟𝑒 = 𝑤 × 𝐵𝑀25_𝑠𝑐𝑜𝑟𝑒 + (1 − 𝑤) × 𝑁𝐴𝑇𝑅_𝑠𝑐𝑜𝑟𝑒 Kết thực nghiệm cố định K = 100, N = 1000 thay đổi tham số 𝑤 cho bảng sau: Kết thay đổi tham số w 𝒘 Recall@20 NDCG@20 0.0 0.8155 0.5849 0.1 0.8245 0.6882 0.2 0.8122 0.6821 0.3 0.7970 0.6741 0.4 0.7954 0.6682 0.5 0.7852 0.6547 3.4.4 Hình ảnh hóa trọng số Attention 3.5 Kết luận chương Chương trình bày trình xây dựng liệu văn câu hỏi pháp quy Tiếp theo trình bày q trình áp dụng phương pháp biểu diễn văn để xây dựng hệ thống tìm kiếm văn pháp quy thực so sánh hiệu dựa liệu xây dựng Quá trình thực nghiệm cho thấy phương pháp biểu diễn văn sử dụng mạng nơ-ron nhân chập kết hợp với chế Attention đề xuất cho kết tốt phương pháp có TF-IDF, BM25 23 KẾT LUẬN Luận văn tập trung nghiên cứu phương pháp biểu diễn văn phục vụ truy xuất, tìm kiếm thơng tin đạt số kết sau: - Trình bày phương pháp biểu diễn văn - Đề xuất phương pháp biểu diễn văn sử dụng mạng nơ-ron nhân chập chế Attention - Xây dựng liệu văn câu hỏi pháp quy, áp dụng số phương pháp biểu diễn văn để xây dựng hệ thơng tìm kiếm thơng tin, thử nghiệm đánh giá phương pháp - Kết luận văn chấp nhận công bố hội nghị COLING 2020 Trong tương lai, luận văn tiếp tục nghiên cứu theo hướng ứng dụng xây dựng hệ thống truy xuất văn chủ đề xác định ... chung tìm kiếm thơng tin văn nói riêng Vì vậy, tơi chọn đề tài ? ?Tìm kiếm văn pháp quy sử dụng kỹ thuật học sâu? ?? cho luận văn Mục tiêu luận văn tìm hiểu phương pháp biểu diễn văn đề xuất mơ hình sử. .. phương pháp biểu diễn văn phục vụ tìm kiếm, tìm kiếm thơng tin - CHƯƠNG 2: Ứng dụng biểu diễn văn mạng nơ-ron sâu tìm kiếm văn pháp quy: Giới thiệu tốn tìm kiếm văn pháp quy, trình bày phương pháp. .. ỨNG DỤNG BIỂU DIỄN VĂN BẢN BẰNG MẠNG NƠ-RON SÂU TRONG TÌM KIẾM VĂN BẢN PHÁP QUY Chương đề xuất phương pháp biểu diễn văn sử dụng mạng nơ-ron nhân chập kết hợp với chế Attention áp dụng cho tốn tìm

Ngày đăng: 02/06/2021, 22:18

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN