(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu(Luận văn thạc sĩ) Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHÍ MẠNH KIÊN TÌM KIẾM VĂN BẢN PHÁP QUY SỬ DỤNG KỸ THUẬT HỌC SÂU LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng nghiên cứu) HÀ NỘI - 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHÍ MẠNH KIÊN TÌM KIẾM VĂN BẢN PHÁP QUY SỬ DỤNG KỸ THUẬT HỌC SÂU CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ: 8.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC GS TS TỪ MINH PHƯƠNG HÀ NỘI - 2020 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tìm hiểu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn Phí Mạnh Kiên ii LỜI CẢM ƠN Để hồn thành luận văn này, nghiên cứu cố gắng thân, em xin gửi lời cảm ơn sâu sắc tới GS TS Từ Minh Phương, giảng viên trực tiếp hướng dẫn, tận tình bảo định hướng cho em suốt trình nghiên cứu thực luận văn Em xin gửi lời cảm ơn chân thành cảm ơn tất thầy giáo Học viện Cơng nghệ Bưu Viễn thơng giảng dạy dìu dắt em suốt q trình học tập trường từ cịn học đại học cao học Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè người bên cổ vũ tinh thần, tạo điều kiện thuận lợi cho em để em học tập tốt hoàn thiện luận văn Dù cố gắng luận văn tránh khỏi sai sót, em mong nhận góp ý để hồn thiện Em xin chân thành cảm ơn! iii MỤC LỤC LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC BẢNG v DANH MỤC HÌNH ẢNH vi DANH MỤC KÝ HIỆU CÁC CHỮ VIẾT TẮT vii MỞ ĐẦU CHƯƠNG BÀI TỐN TÌM KIẾM THƠNG TIN VÀ CÁC PHƯƠNG PHÁP BIỂU DIỄN VĂN BẢN 1.1 Bài tốn tìm kiếm thơng tin 1.1.1 Tìm kiếm văn quy phạm pháp luật 1.1.2 Hệ thống tìm kiếm tìm kiếm thơng tin 1.2 Biểu diễn văn sử dụng từ khóa 1.2.1 TF-IDF 1.2.2 BM25 10 1.3 Biểu diễn văn sử dụng chủ đề ẩn 12 1.3.1 Khái niệm mơ hình Latent Dirichlet Allocation (LDA) 12 1.3.2 Tổng quan mơ hình sinh LDA 13 1.3.3 Suy luận 15 1.4 Biểu diễn văn sử dụng véc-tơ từ 16 1.4.1 Giới thiệu 16 1.4.2 Các bước thực 16 1.5 Biểu diễn văn sử dụng mạng nơ-ron sâu 20 1.5.1 Giới thiệu mạng nơ-ron nhân tạo 20 1.5.2 Cấu trúc mơ hình nơ-ron nhân tạo 20 1.5.3 Cấu tạo phương thức làm việc mạng nơ-ron 22 1.5.4 Phân loại mạng nơ-ron 23 1.5.5 Các mạng nơ-ron sâu 24 1.5.6 Biểu diễn văn sử dụng mạng nơ-ron 28 1.6 Kết luận chương 30 CHƯƠNG ỨNG DỤNG BIỂU DIỄN VĂN BẢN BẰNG MẠNG NƠ-RON SÂU TRONG TÌM KIẾM VĂN BẢN PHÁP QUY 31 2.1 Ý tưởng 31 2.2 Mô-đun Biểu diễn truy vấn 33 iv 2.3 Mô-đun Biểu diễn điều luật 35 2.4 So khớp, tính độ liên quan 36 2.5 Kết luận chương 37 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ 38 3.1 Xây dựng tập liệu văn pháp quy câu hỏi 38 3.1.1 Xây dựng tập liệu văn pháp quy tiếng Việt 38 3.1.2 Xây dựng tập câu hỏi câu trả lời chuẩn 39 3.2 Xây dựng hệ thống 39 3.2.1 Tiền xử lý liệu 39 3.2.2 Xây dựng hệ thống tìm kiếm sử dụng phương pháp TF-IDF BM25 41 3.2.3 Xây dựng hệ thống tìm kiếm sử dụng phương pháp biểu diễn văn mạng CNN kết hợp với chế Attention 42 3.3 Phương pháp đánh giá 44 3.3.1 Recall 44 3.3.2 NDCG 45 3.4 Kết thực nghiệm 45 3.4.1 Thực nghiệm so sánh hiệu phương pháp 46 3.4.2 Thực nghiệm hiệu thay đổi tham số 47 3.4.3 Thực nghiệm kết hợp điểm BM25 NATR 49 3.4.4 Hình ảnh hóa trọng số Attention 50 3.5 Kết luận chương 51 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 v DANH MỤC BẢNG Ví dụ minh họa tốn tìm kiếm văn pháp quy Ví dụ mẫu huấn luyện cho Skip-gram 17 Thống kê tỉ lệ xuất đồng thời từ 20 Hàm alignment score chế attention 32 Các loại chế attention 32 Các thông tin di kèm văn 38 Một số thống kê câu hỏi 39 Các trường ghi Elasticsearch 41 So sánh hiệu phương pháp 46 Kết thay đổi tham số K 47 Kết thay đổi tham số N 48 Kết thay đổi tham số w 49 vi DANH MỤC HÌNH ẢNH Hình 1.1 Kiến trúc tổng quan hệ thống tìm kiếm thơng tin Hình 1.2 TF TF-IDF BM25 11 Hình 1.3 IDF TF-IDF BM25 12 Hình 1.4 Mơ hình đồ họa LDA 14 Hình 1.5 Mơ hình sinh Latent Dirichlet Allocation 15 Hình 1.6 Mơ hình sử dụng mạng nơ-ron hồi quy 18 Hình 1.7 Thuật toán Continuous bag of words Skip-gram 19 Hình 1.8 Mơ hình nơ-ron sinh học 20 Hình 1.9 Mơ hình nơ-ron nhân tạo 21 Hình 1.10 Đồ thị dạng hàm lan truyền 21 Hình 1.11 Mơ hình cấu tạo mạng nơ-ron 22 Hình 1.12 Mơ hình mạng nơ-ro truyền thẳng 23 Hình 1.13 Mơ hình mạng nơ-ron hồi quy 24 Hình 1.14 Minh họa phép nhân chập 26 Hình 1.15 Các đặc trưng học mạng nơ-ron nhân chập [23] 26 Hình 1.16 Kiến trúc mạng nơ-ron nhân chập chiều 27 Hình 1.17 Kiến trúc mạng nơ-ron nhân chập hai chiều 27 Hình 1.18 Mơ hình CNN nghiên cứu [31] 28 Hình 1.19 Mơ hình nghiên cứu [26] 29 Hình 2.1 Ví dụ cách người ý vào số từ câu 31 Hình 2.2 Kiến trúc Mơ-đun Biểu diễn truy vấn 33 Hình 2.3 Kiến trúc Mơ-đun Biểu diễn điều luật 35 Hình 2.4 Tính độ liên quan điều luật truy vấn 36 Hình 3.1 Các bước tiền xử lý liệu 40 Hình 3.2 Lưu trữ biểu diễn điều luật 43 Hình 3.3 Quá trình tìm kiếm nhận truy vấn 44 Hình 3.4 So sánh hiệu phương pháp 46 Hình 3.5 Kết thay đổi tham số K 47 Hình 3.6 Kết thay đổi tham số N 48 Hình 3.7 Kết thay đổi tham số w 50 Hình 3.8 Hình ảnh hóa trọng số Attention truy vấn 50 Hình 3.9 Hình ảnh hóa trọng số Attention điều luật 51 vii DANH MỤC KÝ HIỆU CÁC CHỮ VIẾT TẮT Viết tắt AI ANN ASR BM25 CBOW CNN DNN FNN GloVe GRU IR IRM LDA LSA LSTM MCMC NATR NLP PLSA RNN TF-IDF Tiếng Anh Artificial Intelligence Artificial Neural Network Automatic Speech Recognition Best Match - Okapi BM25 Continuous Bag Of Words Convolutional Neural Network Deep Neural Network Feed-forward Neural Network Global Vector Gate Recurrent Unit Information Retrieval Information Retrieval Model Latent Dirichlet Allocation Latent Semantic Analysis Long-Short Term Memory Markov-Chain Monte Carlo Neural Attentive Text Representation Natural Language Processing Probabilistic Latent Semantic Analysis Recurrent Neural Networks Term Frequency - Inverted Document Frequency Tiếng Việt Trí tuệ nhân tạo Mạng nơ-ron nhân tạo Nhận dạng tiếng nói tự động Mạng nơ-ron nhân chập Mạng nơ-ron nhiều lớp Mạng nơ-ron truyền thẳng Tìm kiếm thơng tin Mơ hình tìm kiếm thơng tin Mơ hình phát chủ đề ẩn Xử lý ngơn ngữ tự nhiên Mạng nơ-ron hồi quy Tần xuất từ - tần xuất văn nghịch đảo MỞ ĐẦU Ngày nay, kỉ nguyên kỹ thuật số, với bùng nổ thông tin, số lượng tài liệu điện tử người tạo ngày khổng lồ Trong trình học tập, nghiên cứu hay làm việc, cần tìm kiếm đọc nhiều tài liệu để tìm thơng tin ta mong muốn Việc đơi nhiều thời gian, điển hình lĩnh vực pháp luật Một văn pháp luật thường dài tới 15-20 trang chí nhiều Một vụ việc liên quan đến nhiều văn khác Các luật sư, nhân viên pháp lý phải đọc nhiều văn so sánh điều, khoản với trường hợp xử lý Theo khảo sát năm 2013 Mỹ [19], trung bình, gần 47,3% số người hỏi dành 15% thời gian, 36.6% số người dành 15-50% thời gian, 10.3% số người dành từ 50% thời gian trở lên tuần cho việc tìm kiếm nghiên cứu văn pháp luật Đây vấn đề thực tiễn, mang lại giá trị mà cần giải Bài tốn tìm kiếm thơng tin đời để xử lý vấn đề Nhiệm vụ tốn tìm kiếm thơng tin tìm kiếm thông tin thoả mãn nhu cầu thông tin người dùng Người sử dụng hệ thống tìm kiếm thơng tin khơng muốn tìm văn có chứa từ khóa câu truy vấn mà quan tâm tới việc thu nhận văn mang lại thông tin phù hợp với mục đích tìm kiếm Các hệ thống tìm kiếm thơng tin thường biểu diễn văn câu truy vấn dạng véc-tơ Chất lượng biểu diễn văn so sánh véc-tơ biểu diễn có ảnh hưởng quan trọng tới kết Gần đây, kỹ thuật sử dụng học sâu cho thấy khả biểu diễn văn tốt xử lý ngôn ngữ tự nhiên nói chung tìm kiếm thơng tin văn nói riêng Vì vậy, tơi chọn đề tài “Tìm kiếm văn pháp quy sử dụng kỹ thuật học sâu” cho luận văn Mục tiêu luận văn tìm hiểu phương pháp biểu diễn văn đề xuất mơ hình sử dụng kỹ thuật học sâu ứng dụng tìm kiếm văn pháp quy tiếng Việt Đầu vào hệ thống câu hỏi pháp luật Đầu hệ thống văn pháp quy có liên quan, trả lời 42 3.2.3 Xây dựng hệ thống tìm kiếm sử dụng phương pháp biểu diễn văn mạng CNN kết hợp với chế Attention Huấn luyện Hệ thống lấy kết tìm kiếm phương pháp BM25 dựa Elasticsearch làm đầu vào dùng mơ hình mạng nơ-ron để xếp hạng lại kết Mơ hình huấn luyện dựa kỹ thuật negative sampling Gọi điều liên quan đến câu truy vấn positive, điều khơng liên quan negative Các positive điều phần trả lời câu hỏi tương ứng tập liệu câu hỏi Với positive câu truy vấn, chọn K negative Cho mô hình dự đốn nhãn K + điều liên quan hay không liên quan tới truy vấn K điều negative chọn từ điều xếp hạng cao kết trả tìm kiếm phương pháp BM25 kết hợp với chọn ngẫu nhiên điều không liên quan sở liệu Chuẩn bị liệu huấn luyện: Dữ liệu tiền xử lý sau bước chuyển từ chữ sang số dùng để tạo liệu huấn luyện cho mạng nơ-ron Gọi QUERY_LEN độ dài câu truy vấn, SENTENCE_LEN độ dài câu điều, NUM_SENTENCES số câu điều, hệ thống thực việc: - Các câu truy vấn có độ dài nhỏ QUERY_LEN thêm số vào cuối cho đủ độ dài QUERY_LEN - Các câu truy vấn có độ dài lớn QUERY_LEN cắt bớt cho đủ độ dài QUERY_LEN - Các câu có độ dài nhỏ SENTENCE_LEN thêm số vào cuối cho đủ độ dài SENTENCE_LEN - Các câu có độ dài lớn SENTENCE_LEN cắt bớt cho đủ độ dài SENTENCE_LEN 43 - Các điều có số câu nhỏ NUM_SENTENCES thêm chuỗi số vào cuối cho đủ số câu NUM_SENTENCES - Các điều có số câu lớn NUM_SENTENCES cắt bớt cho đủ số câu NUM_SENTENCES Một ví dụ liệu huấn luyện bao gồm - X: câu truy vấn, positive, K negative - Y: nhãn tương ứng cho điều Tìm kiếm Các điều luật tập liệu văn pháp quy tính tốn biểu diễn sử dụng mô-đun Biểu diễn điều luật huấn luyện Sau đó, véc-tơ biểu diễn lưu kèm với số hiệu văn tên điều để sử dụng dễ dàng Hình 3.2 Lưu trữ biểu diễn điều luật Khi nhận truy vấn, hệ thống biểu diễn thành véc-tơ mơ-đun biểu diễn truy vấn Sau đó, hệ thống thực tìm kiếm phương pháp BM25 Elasticsearch để thu tập kết Hệ thống tìm kiếm biểu diễn lưu sẵn điều tương ứng tập kết Tiếp theo, độ tương đồng biểu diễn câu truy vấn điều tính dùng để xếp hạng cho kết cuối 44 Hình 3.3 Quá trình tìm kiếm nhận truy vấn 3.3 Phương pháp đánh giá 3.3.1 Recall Đánh giá thứ sử dụng độ đo recall@k [16], k chọn 20 𝑟𝑒𝑐𝑎𝑙𝑙@𝑘 = |𝑝𝑟𝑒𝑑𝑖𝑐𝑡 (𝑞 ) ∩ 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒 (𝑞 )| ∑ |𝑄| |𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒(𝑞 )| 𝑞∈𝑄 Trong đó: - 𝑘 số kết trả về, 𝑘 chọn 20 - 𝑝𝑟𝑒𝑑𝑖𝑐𝑡 (𝑞 ) điều cho hệ thống - 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒 (𝑞 ) điều thật liên quan tới truy vấn 45 3.3.2 NDCG Đánh giá thứ hai sử dụng độ đo NDCG@k [29], k chọn 20 Coi điều liên quan có độ liên quan 1, điều khơng liên quan có độ liên quan Ta có 𝑘 𝐷𝐶𝐺 = ∑ 𝑖=1 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒𝑖 𝑙𝑜𝑔2 (𝑖 + 1) Trong đó: - 𝑘 số kết trả về, 𝑘 chọn 20 - 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑐𝑒𝑖 độ liên quan điều thứ 𝑖 tập kết trả Gọi 𝑖𝐷𝐶𝐺 𝐷𝐶𝐺 trường hợp lý tưởng truy vấn, tức điều liên quan xếp |𝑔𝑟𝑜𝑢𝑛𝑑𝑡𝑟𝑢𝑡ℎ| 𝑖𝐷𝐶𝐺 = ∑ 𝑖=1 𝑙𝑜𝑔2 (𝑖 + 1) Trong |𝑔𝑟𝑜𝑢𝑛𝑑𝑡𝑟𝑢𝑡ℎ| số điều liên quan câu truy vấn 𝑁𝐷𝐶𝐺 trung bình cho tập liệu kiểm tra tính bằng: 𝑁𝐷𝐶𝐺@𝑘 = 𝐷𝐶𝐺 (𝑞 ) 𝑖𝐷𝐶𝐺 (𝑞 ) 3.4 Kết thực nghiệm Tập câu truy vấn chia thành phần: 90% dùng để huấn luyện mơ hình mạng nơ-ron 10% dùng để đánh giá phương pháp Đầu tiên thử nghiệm so sánh hiệu phương pháp sử dụng mạng nơron nhân chập kết hợp với chế Attention, sau gọi NATR (Neural Attentive Text Representation), với phương pháp dùng TF-IDF BM25 Tiếp theo thực nghiệm so sánh hiệu thay đổi tham số NATR Cuối thực nghiệm kết hợp điểm phương pháp BM25 NATR xếp hạng 46 Mơ hình mạng nơ-ron phương pháp NART thực nghiệm huấn luyện Google Colab với GPU Tesla P100-PCIE-16GB 3.4.1 Thực nghiệm so sánh hiệu phương pháp Trong thực nghiệm này, hệ thống NATR huấn luyện với điều positive kèm 15 điều negative từ Elasticsearch 15 điều negative Khi tìm kiếm, hệ thống NATR 1000 kết trả từ Elasticsearch để xếp hạng lại Kết cho bảng sau: So sánh hiệu phương pháp Phương pháp Recall@20 NDCG@20 TF-IDF 0.4716 0.3537 BM25 0.5593 0.3755 NATR 0.7261 0.4642 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Recall@20 NDCG@20 TF-IDF BM25 NATR Hình 3.4 So sánh hiệu phương pháp Thực nghiệm cho thấy NATR cho hiệu tốt hẳn TF-IDF BM25 Recall@20 NDCG@20 Điều cho thấy mơ hình đề xuất có khả biểu diễn truy vấn điều luật tốt 47 3.4.2 Thực nghiệm hiệu thay đổi tham số Trong thực nghiệm này, tham số thay đổi để đánh giá tác động lên hiệu hệ thống NATR Các tham số thực nghiệm bao gồm: K: Số điều negative liệu huấn luyện, nửa lấy từ kết trả - Elasticsearch, nửa lấy ngẫu nhiên N: Số kết trả từ Elasticsearch dùng để xếp hạng lại tìm kiếm - Kết thay đổi tham số K huấn luyện cố định tham số N = 1000 tìm kiếm cho bảng sau: Kết thay đổi tham số K K Recall@20 NDCG@20 Thời gian huấn luyện 30 0.7261 0.4642 24 phút 60 0.7785 0.5305 20 phút 80 0.7842 0.5452 49 phút 100 0.8115 0.5849 10 50 phút 120 0.8103 0.5766 13 39 phút 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 30 60 80 Recall@20 100 NDCG@20 Hình 3.5 Kết thay đổi tham số K 120 48 Thực nghiệm cho thấy tăng số điều negative ví dụ huấn luyện đến ngưỡng K = 100, kết có xu hướng tốt lên Khi tăng K lên 120 phải giảm batch size để huấn luyện GPU nên kết bị ảnh hưởng Kết cố định K = 100 huấn luyện thay đổi tham số N tìm kiếm cho bảng sau: Kết thay đổi tham số N N Recall@20 NDCG@20 300 0.8049 0.6269 400 0.8084 0.6147 500 0.8051 0.6063 1000 0.8115 0.5849 1500 0.7917 0.5569 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 300 400 500 Series 1000 Series Hình 3.6 Kết thay đổi tham số N 1500 49 Thực nghiệm cho thấy tăng số kết trả từ Elasticsearch dùng để xếp hạng lại tìm kiếm Recall@20 thay đồi khơng nhiều, NDCG@20 có xu hướng giảm Nguyên nhân dùng nhiều kết trả từ Elasticsearch dùng để xếp hạng lại kết cuối có khả bị nhiễu, nên điều liên quan bị xếp hạng thấp làm NDCG@20 giảm 3.4.3 Thực nghiệm kết hợp điểm BM25 NATR Trong thực nghiệm này, điểm phương pháp BM25 NATR kết hợp với để xếp hạng lại điều trả từ Elasticsearch Các điều xếp theo thứ tự điểm phương pháp BM25 từ cao đến thấp Điểu xếp thứ tính N điểm, xếp thứ tính N – điểm, , điều xếp cuối điểm Tương tự với phương pháp NATR Điểm kết hợp tính theo cơng thức: 𝑠𝑐𝑜𝑟𝑒 = 𝑤 × 𝐵𝑀25_𝑠𝑐𝑜𝑟𝑒 + (1 − 𝑤) × 𝑁𝐴𝑇𝑅_𝑠𝑐𝑜𝑟𝑒 Trong đó: - 𝑠𝑐𝑜𝑟𝑒 điểm kết hợp - 𝐵𝑀25_𝑠𝑐𝑜𝑟𝑒 điểm phương pháp BM25 trả từ Elasicsearch - 𝑁𝐴𝑇𝑅_𝑠𝑐𝑜𝑟𝑒 điểm phương pháp NATR - 𝑤 trọng số điểm phương pháp BM25 trả từ Elasicsearch Kết thực nghiệm cố định K = 100, N = 1000 thay đổi tham số 𝑤 cho bảng sau: Kết thay đổi tham số w 𝒘 Recall@20 NDCG@20 0.0 0.8155 0.5849 0.1 0.8245 0.6882 0.2 0.8122 0.6821 0.3 0.7970 0.6741 50 0.4 0.7954 0.6682 0.5 0.7852 0.6547 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 Recall@20 0.3 0.4 0.5 NDCG@20 Hình 3.7 Kết thay đổi tham số w Thực nghiệm cho thấy 𝑤 = 0.1 lựa chọn tốt để kết hợp điểm BM25 NART Nó cho kết tốt dùng điểm NATR Khi tiếp tục tăng 𝑤 lên kết có xu hướng xấu 3.4.4 Hình ảnh hóa trọng số Attention Dưới hình ảnh mô tả trọng số Attention phương pháp NATR biểu diễn câu truy vấn điều luật Màu sắc đậm thể trọng số cao Với câu truy vấn, trọng số tương ứng với từ Có thể thấy mơ hình đánh trọng số cao vào từ quan trọng “con riêng”, “thừa kế”, “bố” Hình 3.8 Hình ảnh hóa trọng số Attention truy vấn 51 Với điều luật, trọng số gán cho câu Có thể thấy mơ hình coi câu thứ ba quan trọng đánh trọng số cao cho Hình 3.9 Hình ảnh hóa trọng số Attention điều luật 3.5 Kết luận chương Chương trình bày trình xây dựng liệu văn câu hỏi pháp quy Tiếp theo trình bày q trình áp dụng phương pháp biểu diễn văn để xây dựng hệ thống tìm kiếm văn pháp quy thực so sánh hiệu dựa liệu xây dựng Quá trình thực nghiệm cho thấy phương pháp biểu diễn văn sử dụng mạng nơ-ron nhân chập kết hợp với chế Attention đề xuất cho kết tốt phương pháp có TF-IDF, BM25 52 KẾT LUẬN Luận văn tập trung nghiên cứu phương pháp biểu diễn văn phục vụ truy xuất, tìm kiếm thơng tin đạt số kết sau: - Trình bày phương pháp biểu diễn văn - Đề xuất phương pháp biểu diễn văn sử dụng mạng nơ-ron nhân chập chế Attention - Xây dựng liệu văn câu hỏi pháp quy, áp dụng số phương pháp biểu diễn văn để xây dựng hệ thơng tìm kiếm thơng tin, thử nghiệm đánh giá phương pháp - Kết luận văn chấp nhận công bố hội nghị COLING 2020 Trong tương lai, luận văn tiếp tục nghiên cứu theo hướng ứng dụng xây dựng hệ thống truy xuất văn chủ đề xác định 53 TÀI LIỆU THAM KHẢO [1] O.Abdel-Hamid, A.Mohamed, H Jiang, Deng, L, G Penn, and D Yu (2014), "Convolutional Neural Networks for Speech Recognition.", The IEEE/Audio ON the ACM Transactions, speech, and language processing, vol 22, no 10, trang 1533-1545 [2] Saad Albawi, Tareq Abed Mohammed (2017), "Understanding of a Convolutional Neural Network”, International Conference on Engineering and Technology (ICET) [3] Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio (2015), "Neural Machine Translation by Jointly Learning to Align and Translate" [4] István Bíró (2009), "Document Classification with Latent Dirichlet Allocation" [5] Blei, D.M., Ng, A.Y and Jornal, M.I (2003), "Latent Dirichlet Allocation", Journal of Machine Learning Research 3, trang 993-1022 [6] Stefano Ceri et al (2013), Web Information Retrieval, trang [7] Jianpeng Cheng, Li Dong, Mirella Lapata (2016), "Long Short-Term Memory-Networks for Machine Reading" [8] Jianfeng Gao, Patrick Pantel, Michael Gamon, Xiaodong He, Li Deng (2014), "Modeling Interestingness with Deep Neural Networks" [9] Alex Graves, Greg Wayne, Ivo Danihelka (2014), "Neural Turing Machines" [10] B Hu, Z Lu, H Li , and Q Chen (2014), "Convolutional neural network architectures for matching natural language sentences.", Advances in neural information processing systems, trang 2042 -2050 [11] Rie Johnson, Tong Zhang (2015), "Semi-supervised Convolutional Neural Networks for Text Categorization via Region Embedding" 54 [12] Rie Johnson, Tong Zhang (2015), "Effective Use of Word Order for Text Categorization with Convolutional Neural Networks" [13] Nal Kalchbrenner, Edward Grefenstette, Phil Blunsom (2014), "A Convolutional Neural Network for Modelling Sentences" [14] Yoon Kim (2014), "Convolutional Neural Networks for Sentence Classification" Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 1746–1751 [15] Bing Liu (2011), Web Data Mining, 2nd Edition, trang 212-215 [16] Bing Liu (2011) Web Data Mining, 2nd Edition, trang 223 [17] Minh-Thang Luong, Hieu Pham, Christopher D Manning (2015), "Effective Approaches to Attention-based Neural Machine Translation" [18] Christopher D Manning et al (2009), "An Introduction to Information Retrieval" [19] Susan Nevelow Mart et al (2013), "A Study of Attorneys’ Legal Research Practices and Opinions of New Associates’ Research Skills", trang [20] André F T Martins, Ramón Fernandez Astudillo (2016), "From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification" [21] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean (2013), "Efficient Estimation of Word Representations in Vector Space" [22] A Mukherjee and B Liu (2012), "Aspect extraction through semisupervised modeling", Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers - Volume 1, trang 339 - 348 55 [23] Keiron O’Shea and Ryan Nash (2015), "An Introduction to Convolutional Neural Networks" [24] Jeffrey Pennington, Richard Socher, Christopher D Manning (2014), "GloVe: Global Vectors for Word Representation", Computer Science Department, Stanford University, Stanford, CA 94305 [25] Yelong Shen, Xiaodong He, Jianfeng Gao, Li Deng, Gregoire Mesnil (2014), "A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval", Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management ACM, trang 101-110 [26] Duyu Tang, Bing Qin, Ting Liu (2015), "Document Modeling with Gated Recurrent Neural Network for Sentiment Classification" [27] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, Illia Polosukhin (2017), "Attention Is All You Need" [28] Peng Wang, Jiaming Xu, Bo Xu, Chenglin Liu, Heng Zhang, Fangyuan Wang, Hongwei Hao (2015) "Semantic Clustering and Convolutional Neural Network for Short Text Categorization" [29] Yining Wang, Liwei Wang, Yuanzhi Li, Di He, Tie-Yan Liu, Wei Chen (2013), "A Theoretical Analysis of NDCG Type Ranking Measures" [30] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, Yoshua Bengio (2015), "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention" [31] Xiang Zhang, Junbo Zhao, Yann LeCun (2016), "Character-level Convolutional Networks for Text Classification" [32] https://hdpl.moj.gov.vn/Pages/home.aspx 56 [33] http://hethongphapluat.com/hoi-dap-phap-luat.html [34] https://hoidapphapluat.net/ [35] https://github.com/undertheseanlp/underthesea [36] https://www.elastic.co/blog/practical-bm25-part-2-the-bm25-algorithmand-its-variables ... chung tìm kiếm thơng tin văn nói riêng Vì vậy, tơi chọn đề tài ? ?Tìm kiếm văn pháp quy sử dụng kỹ thuật học sâu? ?? cho luận văn Mục tiêu luận văn tìm hiểu phương pháp biểu diễn văn đề xuất mơ hình sử. .. phương pháp biểu diễn văn phục vụ tìm kiếm, tìm kiếm thơng tin - CHƯƠNG 2: Ứng dụng biểu diễn văn mạng nơ-ron sâu tìm kiếm văn pháp quy: Giới thiệu tốn tìm kiếm văn pháp quy, trình bày phương pháp. .. trình bày nào? Bài tốn tìm kiếm văn pháp quy Văn quy phạm pháp luật hay gọi Văn pháp quy hình thức pháp luật thành văn thể qua văn chứa quy phạm pháp luật quan cá nhân có thẩm quy? ??n ban hành để điều