Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHÍ MẠNH KIÊN TÌM KIẾM VĂN BẢN PHÁP QUY SỬ DỤNG KỸ THUẬT HỌC SÂU LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng nghiên cứu) HÀ NỘI - 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - PHÍ MẠNH KIÊN TÌM KIẾM VĂN BẢN PHÁP QUY SỬ DỤNG KỸ THUẬT HỌC SÂU CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ: 8.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC GS TS TỪ MINH PHƯƠNG HÀ NỘI - 2020 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tìm hiểu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn Phí Mạnh Kiên LỜI CẢM ƠN Để hồn thành luận văn này, nghiên cứu cố gắng thân, em xin gửi lời cảm ơn sâu sắc tới GS TS Từ Minh Phương, giảng viên trực tiếp hướng dẫn, tận tình bảo định hướng cho em suốt trình nghiên cứu thực luận văn Em xin gửi lời cảm ơn chân thành cảm ơn tất thầy giáo Học viện Cơng nghệ Bưu Viễn thơng giảng dạy dìu dắt em suốt q trình học tập trường từ cịn học đại học cao học Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè người bên cổ vũ tinh thần, tạo điều kiện thuận lợi cho em để em học tập tốt hoàn thiện luận văn Dù cố gắng luận văn tránh khỏi sai sót, em mong nhận góp ý để hồn thiện Em xin chân thành cảm ơn! MỤC LỤC DANH MỤC BẢNG DANH MỤC HÌNH ẢNH Hình 1.1 Kiến trúc tổng quan hệ thống tìm kiếm thơng tin Hình 1.2 TF TF-IDF BM25 Hình 1.3 IDF TF-IDF BM25 Hình 1.4 Mơ hình đồ họa LDA Hình 1.5 Mơ hình sinh Latent Dirichlet Allocation Hình 1.6 Mơ hình sử dụng mạng nơ-ron hồi quy Hình 1.7 Thuật tốn Continuous bag of words Skip-gram Hình 1.8 Mơ hình nơ-ron sinh học Hình 1.9 Mơ hình nơ-ron nhân tạo Hình 1.10 Đồ thị dạng hàm lan truyền Hình 1.11 Mơ hình cấu tạo mạng nơ-ron Hình 1.12 Mơ hình mạng nơ-ro truyền thẳng Hình 1.13 Mơ hình mạng nơ-ron hồi quy Hình 1.14 Minh họa phép nhân chập Hình 1.15 Các đặc trưng học mạng nơ-ron nhân chập [23] Hình 1.16 Kiến trúc mạng nơ-ron nhân chập chiều Hình 1.17 Kiến trúc mạng nơ-ron nhân chập hai chiều Hình 1.18 Mơ hình CNN nghiên cứu [31] Hình 1.19 Mơ hình nghiên cứu [26] Hình 2.1 Ví dụ cách người ý vào số từ câu Hình 2.2 Kiến trúc Mơ-đun Biểu diễn truy vấn Hình 2.3 Kiến trúc Mơ-đun Biểu diễn điều luật Hình 2.4 Tính độ liên quan điều luật truy vấn Hình 3.1 Các bước tiền xử lý liệu Hình 3.2 Lưu trữ biểu diễn điều luật Hình 3.3 Quá trình tìm kiếm nhận truy vấn Hình 3.4 So sánh hiệu phương pháp Hình 3.5 Kết thay đổi tham số K Hình 3.6 Kết thay đổi tham số N Hình 3.7 Kết thay đổi tham số w Hình 3.8 Hình ảnh hóa trọng số Attention truy vấn Hình 3.9 Hình ảnh hóa trọng số Attention điều luật DANH MỤC KÝ HIỆU CÁC CHỮ VIẾT TẮT Viết tắt AI ANN ASR BM25 CBOW CNN DNN FNN GloVe GRU IR IRM LDA LSA LSTM MCMC NATR NLP PLSA RNN TF-IDF Tiếng Anh Artificial Intelligence Artificial Neural Network Automatic Speech Recognition Best Match - Okapi BM25 Continuous Bag Of Words Convolutional Neural Network Deep Neural Network Feed-forward Neural Network Global Vector Gate Recurrent Unit Information Retrieval Information Retrieval Model Latent Dirichlet Allocation Latent Semantic Analysis Long-Short Term Memory Markov-Chain Monte Carlo Neural Attentive Text Representation Natural Language Processing Probabilistic Latent Semantic Analysis Recurrent Neural Networks Term Frequency - Inverted Document Frequency Tiếng Việt Trí tuệ nhân tạo Mạng nơ-ron nhân tạo Nhận dạng tiếng nói tự động Mạng nơ-ron nhân chập Mạng nơ-ron nhiều lớp Mạng nơ-ron truyền thẳng Tìm kiếm thơng tin Mơ hình tìm kiếm thơng tin Mơ hình phát chủ đề ẩn Xử lý ngôn ngữ tự nhiên Mạng nơ-ron hồi quy Tần xuất từ - tần xuất văn nghịch đảo MỞ ĐẦU Ngày nay, kỉ nguyên kỹ thuật số, với bùng nổ thông tin, số lượng tài liệu điện tử người tạo ngày khổng lồ Trong trình học tập, nghiên cứu hay làm việc, cần tìm kiếm đọc nhiều tài liệu để tìm thơng tin ta mong muốn Việc đơi nhiều thời gian, điển hình lĩnh vực pháp luật Một văn pháp luật thường dài tới 15-20 trang chí nhiều Một vụ việc liên quan đến nhiều văn khác Các luật sư, nhân viên pháp lý phải đọc nhiều văn so sánh điều, khoản với trường hợp xử lý Theo khảo sát năm 2013 Mỹ [19], trung bình, gần 47,3% số người hỏi dành 15% thời gian, 36.6% số người dành 15-50% thời gian, 10.3% số người dành từ 50% thời gian trở lên tuần cho việc tìm kiếm nghiên cứu văn pháp luật Đây vấn đề thực tiễn, mang lại giá trị mà cần giải Bài tốn tìm kiếm thơng tin đời để xử lý vấn đề Nhiệm vụ tốn tìm kiếm thơng tin tìm kiếm thơng tin thoả mãn nhu cầu thông tin người dùng Người sử dụng hệ thống tìm kiếm thơng tin khơng muốn tìm văn có chứa từ khóa câu truy vấn mà cịn quan tâm tới việc thu nhận văn mang lại thơng tin phù hợp với mục đích tìm kiếm Các hệ thống tìm kiếm thơng tin thường biểu diễn văn câu truy vấn dạng véc-tơ Chất lượng biểu diễn văn so sánh véc-tơ biểu diễn có ảnh hưởng quan trọng tới kết Gần đây, kỹ thuật sử dụng học sâu cho thấy khả biểu diễn văn tốt xử lý ngơn ngữ tự nhiên nói chung tìm kiếm thơng tin văn nói riêng Vì vậy, tơi chọn đề tài “Tìm kiếm văn pháp quy sử dụng kỹ thuật học sâu” cho luận văn Mục tiêu luận văn tìm hiểu phương pháp biểu diễn văn đề xuất mô hình sử dụng kỹ thuật học sâu ứng dụng tìm kiếm văn pháp quy tiếng Việt Đầu vào hệ thống câu hỏi pháp luật Đầu hệ thống văn pháp quy có liên 10 quan, trả lời cho câu hỏi đó, cụ thể đến mức điều Ví dụ, với câu hỏi “Vợ chồng ly hôn tài sản chung phân chia nào?” hệ thống trả kết là: Điều 59 Luật Hơn nhân gia đình, Điều Thông tư liên tịch hướng dẫn số quy định Luật Hơn nhân gia đình Nội dung luận văn chia thành chương sau: - CHƯƠNG 1: Bài tốn tìm kiếm thơng tin phương pháp biểu diễn văn bản: Trình bày tổng quan tốn tìm kiếm thơng tin - phương pháp biểu diễn văn phục vụ tìm kiếm, tìm kiếm thơng tin CHƯƠNG 2: Ứng dụng biểu diễn văn mạng nơ-ron sâu tìm kiếm văn pháp quy: Giới thiệu tốn tìm kiếm văn pháp - quy, trình bày phương pháp biểu diễn văn sử dụng mạng nơ-ron sâu CHƯƠNG 3: Thử nghiệm đánh giá: Mơ tả q trình xây dựng liệu so sánh, đánh giá hiệu mơ hình đề xuất so với phương pháp khác Các kết luận văn chấp nhận công bố hội nghị COLING 2020, hội nghị hạng A xử lý ngôn ngữ tự nhiên 49 Với phương pháp dùng mạng nơ-ron, liệu phải tiền xử lý thêm Cụ thể, bước xây dựng tập từ điển Tập từ điển ánh xạ từ thành số nguyên Cần phải làm đưa vào mạng nơ-ron, liệu phải dạng số Bước cuối chuyển liệu từ chuỗi từ thành chuỗi số nguyên lưu vào sở liệu 3.2.2 Xây dựng hệ thống tìm kiếm sử dụng phương pháp TF-IDF BM25 Hệ thống xây dựng sử dụng Elasticsearch Elasticsearch cho phép lưu trữ liệu tạo mục theo phương pháp biểu diễn TF-IDF BM25 Mỗi điều sau tiền xử lý lưu thành ghi Elasticsearch, bao gồm trường bảng sau: Bảng 3.2.2.1.a.1.1 Các trường ghi Elasticsearch Tên trường Ý nghĩa so_hieu Số hiệu văn ten_van_ban Tên văn tiền xử lý ten_van_ban_raw Tên văn chưa tiền xử lý ten_dieu Tên điều tieu_de Tiêu đề điều tiền xử lý tieu_de_raw Tiều đề điều chưa tiền xử lý noi_dung Nội dung điều tiền xử lý noi_dung_raw Nội dung điều chưa tiền xử lý link Đường dẫn tới văn trang web Các trường ten_van_ban, tieu_de, noi_dung đánh mục theo phương pháp TF-IDF BM25 để phục vụ tìm kiếm Khi nhận truy vấn, hệ thống tiền xử lý sử dụng API Elasticsearch để tìm kiếm theo phương pháp tương ứng 3.2.3 Xây dựng hệ thống tìm kiếm sử dụng phương pháp biểu diễn văn mạng CNN kết hợp với chế Attention 1.1.1.2 Huấn luyện 50 Hệ thống lấy kết tìm kiếm phương pháp BM25 dựa Elasticsearch làm đầu vào dùng mô hình mạng nơ-ron để xếp hạng lại kết Mơ hình huấn luyện dựa kỹ thuật negative sampling Gọi điều liên quan đến câu truy vấn positive, điều không liên quan negative Các positive điều phần trả lời câu hỏi tương ứng tập liệu câu hỏi Với positive câu truy vấn, chọn K negative Cho mơ hình dự đốn nhãn K + điều liên quan hay không liên quan tới truy vấn K điều negative chọn từ điều xếp hạng cao kết trả tìm kiếm phương pháp BM25 kết hợp với chọn ngẫu nhiên điều không liên quan sở liệu Chuẩn bị liệu huấn luyện: Dữ liệu tiền xử lý sau bước chuyển từ chữ sang số dùng để tạo liệu huấn luyện cho mạng nơ-ron Gọi QUERY_LEN độ dài câu truy vấn, SENTENCE_LEN độ dài câu điều, NUM_SENTENCES số câu điều, hệ thống thực việc: - Các câu truy vấn có độ dài nhỏ QUERY_LEN thêm số - vào cuối cho đủ độ dài QUERY_LEN Các câu truy vấn có độ dài lớn QUERY_LEN cắt bớt cho đủ độ dài - QUERY_LEN Các câu có độ dài nhỏ SENTENCE_LEN thêm số vào - cuối cho đủ độ dài SENTENCE_LEN Các câu có độ dài lớn SENTENCE_LEN cắt bớt cho đủ độ dài - SENTENCE_LEN Các điều có số câu nhỏ NUM_SENTENCES thêm chuỗi - số vào cuối cho đủ số câu NUM_SENTENCES Các điều có số câu lớn NUM_SENTENCES cắt bớt cho đủ số câu NUM_SENTENCES Một ví dụ liệu huấn luyện bao gồm - X: câu truy vấn, positive, K negative 51 - Y: nhãn tương ứng cho điều 1.1.1.3 Tìm kiếm Các điều luật tập liệu văn pháp quy tính tốn biểu diễn sử dụng mô-đun Biểu diễn điều luật huấn luyện Sau đó, véc-tơ biểu diễn lưu kèm với số hiệu văn tên điều để sử dụng dễ dàng Hình 3.2.3.1.a.1 Lưu trữ biểu diễn điều luật Khi nhận truy vấn, hệ thống biểu diễn thành véc-tơ mơ-đun biểu diễn truy vấn Sau đó, hệ thống thực tìm kiếm phương pháp BM25 Elasticsearch để thu tập kết Hệ thống tìm kiếm biểu diễn lưu sẵn điều tương ứng tập kết Tiếp theo, độ tương đồng biểu diễn câu truy vấn điều tính dùng để xếp hạng cho kết cuối 52 Hình 3.2.3.1.a.2 Quá trình tìm kiếm nhận truy vấn 3.3 Phương pháp đánh giá 3.3.1 Recall Đánh giá thứ sử dụng độ đo recall@k [16], k chọn 20 Trong đó: - số kết trả về, chọn 20 điều cho hệ thống điều thật liên quan tới truy vấn 3.3.2 NDCG 53 Đánh giá thứ hai sử dụng độ đo NDCG@k [29], k chọn 20 Coi điều liên quan có độ liên quan 1, điều khơng liên quan có độ liên quan Ta có Trong đó: - số kết trả về, chọn 20 độ liên quan điều thứ tập kết trả Gọi trường hợp lý tưởng truy vấn, tức điều liên quan xếp Trong số điều liên quan câu truy vấn trung bình cho tập liệu kiểm tra tính bằng: 3.4 Kết thực nghiệm Tập câu truy vấn chia thành phần: 90% dùng để huấn luyện mơ hình mạng nơ-ron 10% dùng để đánh giá phương pháp Đầu tiên thử nghiệm so sánh hiệu phương pháp sử dụng mạng nơron nhân chập kết hợp với chế Attention, sau gọi NATR (Neural Attentive Text Representation), với phương pháp dùng TF-IDF BM25 Tiếp theo thực nghiệm so sánh hiệu thay đổi tham số NATR Cuối thực nghiệm kết hợp điểm phương pháp BM25 NATR xếp hạng Mơ hình mạng nơ-ron phương pháp NART thực nghiệm huấn luyện Google Colab với GPU Tesla P100-PCIE-16GB 3.4.1 Thực nghiệm so sánh hiệu phương pháp 54 Trong thực nghiệm này, hệ thống NATR huấn luyện với điều positive kèm 15 điều negative từ Elasticsearch 15 điều negative Khi tìm kiếm, hệ thống NATR 1000 kết trả từ Elasticsearch để xếp hạng lại Kết cho bảng sau: Bảng 3.4.1.1.a.1.1 So sánh hiệu phương pháp Phương pháp Recall@20 NDCG@20 TF-IDF 0.4716 0.3537 BM25 0.5593 0.3755 NATR 0.7261 0.4642 Hình 3.4.1.1.a.2 So sánh hiệu phương pháp Thực nghiệm cho thấy NATR cho hiệu tốt hẳn TF-IDF BM25 Recall@20 NDCG@20 Điều cho thấy mơ hình đề xuất có khả biểu diễn truy vấn điều luật tốt 3.4.2 Thực nghiệm hiệu thay đổi tham số Trong thực nghiệm này, tham số thay đổi để đánh giá tác động lên hiệu hệ thống NATR Các tham số thực nghiệm bao gồm: - K: Số điều negative liệu huấn luyện, nửa lấy từ kết trả - Elasticsearch, nửa lấy ngẫu nhiên N: Số kết trả từ Elasticsearch dùng để xếp hạng lại tìm kiếm Kết thay đổi tham số K huấn luyện cố định tham số N = 1000 tìm kiếm cho bảng sau: Bảng 3.4.2.1.a.1.1 Kết thay đổi tham số K K Recall@20 NDCG@20 Thời gian huấn luyện 30 0.7261 0.4642 24 phút 60 0.7785 0.5305 20 phút 80 0.7842 0.5452 49 phút 55 100 0.8115 0.5849 10 50 phút 120 0.8103 0.5766 13 39 phút Hình 3.4.2.1.a.2 Kết thay đổi tham số K Thực nghiệm cho thấy tăng số điều negative ví dụ huấn luyện đến ngưỡng K = 100, kết có xu hướng tốt lên Khi tăng K lên 120 phải giảm batch size để huấn luyện GPU nên kết bị ảnh hưởng Kết cố định K = 100 huấn luyện thay đổi tham số N tìm kiếm cho bảng sau: Bảng 3.4.2.1.a.2.1 Kết thay đổi tham số N N Recall@20 NDCG@20 300 0.8049 0.6269 400 0.8084 0.6147 500 0.8051 0.6063 1000 0.8115 0.5849 1500 0.7917 0.5569 Hình 3.4.2.1.a.3 Kết thay đổi tham số N Thực nghiệm cho thấy tăng số kết trả từ Elasticsearch dùng để xếp hạng lại tìm kiếm Recall@20 thay đồi khơng nhiều, NDCG@20 có xu hướng giảm Nguyên nhân dùng nhiều kết trả từ Elasticsearch dùng để xếp hạng lại kết cuối có khả bị nhiễu, nên điều liên quan bị xếp hạng thấp làm NDCG@20 giảm 3.4.3 Thực nghiệm kết hợp điểm BM25 NATR 56 Trong thực nghiệm này, điểm phương pháp BM25 NATR kết hợp với để xếp hạng lại điều trả từ Elasticsearch Các điều xếp theo thứ tự điểm phương pháp BM25 từ cao đến thấp Điểu xếp thứ tính N điểm, xếp thứ tính N – điểm, , điều xếp cuối điểm Tương tự với phương pháp NATR Điểm kết hợp tính theo cơng thức: Trong đó: - điểm kết hợp điểm phương pháp BM25 trả từ Elasicsearch điểm phương pháp NATR trọng số điểm phương pháp BM25 trả từ Elasicsearch Kết thực nghiệm cố định K = 100, N = 1000 thay đổi tham số cho bảng sau: Bảng 3.4.3.1.a.1.1 Kết thay đổi tham số w Recall@20 NDCG@20 0.0 0.8155 0.5849 0.1 0.8245 0.6882 0.2 0.8122 0.6821 0.3 0.7970 0.6741 0.4 0.7954 0.6682 0.5 0.7852 0.6547 Hình 3.4.3.1.a.2 Kết thay đổi tham số w Thực nghiệm cho thấy lựa chọn tốt để kết hợp điểm BM25 NART Nó cho kết tốt dùng điểm NATR Khi tiếp tục tăng lên kết có xu hướng xấu 57 3.4.4 Hình ảnh hóa trọng số Attention Dưới hình ảnh mơ tả trọng số Attention phương pháp NATR biểu diễn câu truy vấn điều luật Màu sắc đậm thể trọng số cao Với câu truy vấn, trọng số tương ứng với từ Có thể thấy mơ hình đánh trọng số cao vào từ quan trọng “con riêng”, “thừa kế”, “bố” Hình 3.4.4.1.a.1 Hình ảnh hóa trọng số Attention truy vấn Với điều luật, trọng số gán cho câu Có thể thấy mơ hình coi câu thứ ba quan trọng đánh trọng số cao cho Hình 3.4.4.1.a.2 Hình ảnh hóa trọng số Attention điều luật 3.5 Kết luận chương Chương trình bày trình xây dựng liệu văn câu hỏi pháp quy Tiếp theo trình bày q trình áp dụng phương pháp biểu diễn văn để xây dựng hệ thống tìm kiếm văn pháp quy thực so sánh hiệu dựa liệu xây dựng 58 Quá trình thực nghiệm cho thấy phương pháp biểu diễn văn sử dụng mạng nơ-ron nhân chập kết hợp với chế Attention đề xuất cho kết tốt phương pháp có TF-IDF, BM25 - 59 KẾT LUẬN Luận văn tập trung nghiên cứu phương pháp biểu diễn văn phục vụ truy xuất, tìm kiếm thơng tin đạt số kết sau: - Trình bày phương pháp biểu diễn văn Đề xuất phương pháp biểu diễn văn sử dụng mạng nơ-ron nhân chập - chế Attention Xây dựng liệu văn câu hỏi pháp quy, áp dụng số phương pháp biểu diễn văn để xây dựng hệ thơng tìm kiếm thông tin, thử - nghiệm đánh giá phương pháp Kết luận văn chấp nhận công bố hội nghị COLING 2020 Trong tương lai, luận văn tiếp tục nghiên cứu theo hướng ứng dụng xây dựng hệ thống truy xuất văn chủ đề xác định 60 TÀI LIỆU THAM KHẢO [1] O.Abdel-Hamid, A.Mohamed, H Jiang, Deng, L, G Penn, and D Yu (2014), "Convolutional Neural Networks for Speech Recognition.", The IEEE/Audio ON the ACM Transactions, speech, and language processing, vol 22, no 10, trang 1533-1545 [2] Saad Albawi, Tareq Abed Mohammed (2017), "Understanding of a Convolutional Neural Network”, International Conference on Engineering and Technology (ICET) [3] Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio (2015), "Neural Machine Translation by Jointly Learning to Align and Translate" [4] István Bíró (2009), "Document Classification with Latent Dirichlet Allocation" [5] Blei, D.M., Ng, A.Y and Jornal, M.I (2003), "Latent Dirichlet Allocation", Journal of Machine Learning Research 3, trang 993-1022 [6] Stefano Ceri et al (2013), Web Information Retrieval, trang [7] Jianpeng Cheng, Li Dong, Mirella Lapata (2016), "Long Short-Term Memory-Networks for Machine Reading" [8] Jianfeng Gao, Patrick Pantel, Michael Gamon, Xiaodong He, Li Deng (2014), "Modeling Interestingness with Deep Neural Networks" [9] Alex Graves, Greg Wayne, Ivo Danihelka (2014), "Neural Turing Machines" [10] B Hu, Z Lu, H Li , and Q Chen (2014), "Convolutional neural network architectures for matching natural language sentences.", Advances in neural information processing systems, trang 2042 -2050 61 [11] Rie Johnson, Tong Zhang (2015), "Semi-supervised Convolutional Neural Networks for Text Categorization via Region Embedding" [12] Rie Johnson, Tong Zhang (2015), "Effective Use of Word Order for Text Categorization with Convolutional Neural Networks" [13] Nal Kalchbrenner, Edward Grefenstette, Phil Blunsom (2014), "A Convolutional Neural Network for Modelling Sentences" [14] Yoon Kim (2014), "Convolutional Neural Networks for Sentence Classification" Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 1746–1751 [15] Bing Liu (2011), Web Data Mining, 2nd Edition, trang 212-215 [16] Bing Liu (2011) Web Data Mining, 2nd Edition, trang 223 [17] Minh-Thang Luong, Hieu Pham, Christopher D Manning (2015), "Effective Approaches to Attention-based Neural Machine Translation" [18] Christopher D Manning et al (2009), "An Introduction to Information Retrieval" [19] Susan Nevelow Mart et al (2013), "A Study of Attorneys’ Legal Research Practices and Opinions of New Associates’ Research Skills", trang [20] André F T Martins, Ramón Fernandez Astudillo (2016), "From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification" [21] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean (2013), "Efficient Estimation of Word Representations in Vector Space" [22] A Mukherjee and B Liu (2012), "Aspect extraction through semi- supervised modeling", Proceedings of the 50th Annual Meeting of the 62 Association for Computational Linguistics: Long Papers - Volume 1, trang 339 - 348 [23] Keiron O’Shea and Ryan Nash (2015), "An Introduction to Convolutional Neural Networks" [24] Jeffrey Pennington, Richard Socher, Christopher D Manning (2014), "GloVe: Global Vectors for Word Representation", Computer Science Department, Stanford University, Stanford, CA 94305 [25] Yelong Shen, Xiaodong He, Jianfeng Gao, Li Deng, Gregoire Mesnil (2014), "A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval", Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management ACM, trang 101-110 [26] Duyu Tang, Bing Qin, Ting Liu (2015), "Document Modeling with Gated Recurrent Neural Network for Sentiment Classification" [27] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, Illia Polosukhin (2017), "Attention Is All You Need" [28] Peng Wang, Jiaming Xu, Bo Xu, Chenglin Liu, Heng Zhang, Fangyuan Wang, Hongwei Hao (2015) "Semantic Clustering and Convolutional Neural Network for Short Text Categorization" [29] Yining Wang, Liwei Wang, Yuanzhi Li, Di He, Tie-Yan Liu, Wei Chen (2013), "A Theoretical Analysis of NDCG Type Ranking Measures" [30] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, Yoshua Bengio (2015), "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention" 63 [31] Xiang Zhang, Junbo Zhao, Yann LeCun (2016), "Character-level Convolutional Networks for Text Classification" [32] https://hdpl.moj.gov.vn/Pages/home.aspx [33] http://hethongphapluat.com/hoi-dap-phap-luat.html [34] https://hoidapphapluat.net/ [35] https://github.com/undertheseanlp/underthesea [36] https://www.elastic.co/blog/practical-bm25-part-2-the-bm25- algorithm-and-its-variables ... chung tìm kiếm thơng tin văn nói riêng Vì vậy, tơi chọn đề tài ? ?Tìm kiếm văn pháp quy sử dụng kỹ thuật học sâu? ?? cho luận văn Mục tiêu luận văn tìm hiểu phương pháp biểu diễn văn đề xuất mơ hình sử. .. phương pháp biểu diễn văn phục vụ tìm kiếm, tìm kiếm thơng tin CHƯƠNG 2: Ứng dụng biểu diễn văn mạng nơ-ron sâu tìm kiếm văn pháp quy: Giới thiệu tốn tìm kiếm văn pháp - quy, trình bày phương pháp. .. trình bày nào? Bài tốn tìm kiếm văn pháp quy Văn quy phạm pháp luật hay gọi Văn pháp quy hình thức pháp luật thành văn thể qua văn chứa quy phạm pháp luật quan cá nhân có thẩm quy? ??n ban hành để điều