Luận văn là “Nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng Việt” nhằm nghiên cứu các phương pháp đo độ tương tự và thử nghiện các mô hình tính toán độ tương tự, từ đây đưa ra để xuất mô hình phù hợp nhất với miền dữ liệu văn bản luật tiếng Việt. Mời các bạn tham khao
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH MẠNH NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÍNH TOÁN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HÀ NỘI, 12/2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN ĐÌNH MẠNH NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÍNH TỐN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT TIẾNG VIỆT Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã Số: 8480101.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƯƠNG THÁI HÀ NỘI, 12/2020 MỤC LỤC MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC KÝ HIỆU, VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC ĐỒ THỊ, HÌNH VẼ 10 MỞ ĐẦU 11 CHƯƠNG GIỚI THIỆU 12 1.1 Lý chọn đề tài 12 1.2 Mục đích đề tài 12 1.3 Đối tượng đề tài 13 1.4 Phương pháp nghiên cứu 13 CHƯƠNG KIẾN THỨC NỀN TẢNG 14 2.1 Đặc điểm văn tiếng Việt 14 2.1.1 Cấu tạo từ tiếng Việt 14 2.1.2 Biến hình từ tiếng Việt 15 2.1.3 Từ đồng nghĩa 15 2.1.4 Đặc điểm tả 15 2.2 Đặc điểm văn Luật tiếng Việt 16 2.3 Sự khác văn tiếng Việt văn luật tiếng Việt 17 2.4 Tổng quan tốn độ tương tự văn 17 2.4.1 Khái niệm độ tương tự văn 17 2.4.2 Ứng dụng toán đo độ tương tự hai văn 18 2.5 Phương pháp dựa thống kê 18 2.5.1 Khái niệm 18 2.5.2 Độ đo tương tự Jaccard 19 2.5.3 Độ đo TF-IDF 19 2.6 Phương pháp dựa mạng nơron học sâu 19 2.6.1 Khái niệm học sâu 19 2.6.2 Một số ứng dụng học sâu (Deep Learning) 20 2.6.3 Một số phương pháp theo hướng tiếp cận học sâu 22 2.6.3.1 Mơ hình biểu diễn từ vector (Word2Vec) 22 2.6.3.2 Học chuyển (Transfer Learning) 29 CHƯƠNG CÁC PHƯƠNG PHÁP ĐO ĐỘ TƯƠNG TỰ GIỮA CÁC VĂN BẢN 33 3.1 Tiền xử lý liệu 33 3.2 Vector hóa văn tính độ tương tự văn 33 3.2.1 Mộ số phương pháp theo tiếp cận thống kê 33 3.2.2 Phương pháp học sâu 38 3.2.2.1 Sử dụng Word2Vec 38 3.2.2.2 Học biểu diễn vector cho văn 39 3.2.2.3 Áp dụng học chuyển (transfer learning) để tăng chất lượng vector biểu diễn văn 40 3.3 Đánh giá mơ hình 40 CHƯƠNG THỰC NGHIỆM VÀ KẾT QUẢ 42 4.1 Môi trường thực nghiệm công cụ sử dụng thực nghiệm 42 4.2 Dữ liệu 42 4.2.1 Thu thập liệu 42 4.2.2 Xử lý liệu 43 4.3 Thực nghiệm 43 4.3.1 Thực nghiệm với Phương pháp Jacard 44 4.3.2 Thực nghiệm với phương pháp TF-IDF 44 4.3.3 Thực nghiệm với phương pháp Word2Vec 44 4.3.4 Thực nghiệm với phương pháp Doc2Vec 45 4.3.5 Phương pháp học chuyển 45 4.4 Kết 45 4.4.1 Đánh giá phương pháp văn tiếng Anh 45 4.4.2 Đánh giá phương pháp với truy vấn văn 45 4.4.3 Đánh giá phương pháp với truy vấn đoạn văn ngắn 49 CHƯƠNG 5: KẾT LUẬN VÀ CÔNG VIỆC TRONG TƯƠNG LAI 51 5.1 Kết luận 51 5.2 Công việc tương lai 51 TÀI LIỆU THAM KHẢO 52 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn đặc biệt tới PGS TS Nguyễn Phương Thái, người định hướng đề tài tận tình hướng dẫn bảo tơi suốt q trình thực Luận văn cao học Tôi xin chân thành cảm ơn Thầy, Cô trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tận tình giảng dạy truyền đạt kiến thức, kinh nghịm quý báu suốt khóa học tơi Cuối cùng, tơi xin cảm ơn tới người thân, bạn bè bên cạnh, động viên, chia sẻ tơi q trình học cao học trình thực luận văn cao học Xin chân thành cảm ơn! LỜI CAM ĐOAN Tơi- Nguyễn Đình Mạnh – cam đoan luận văn cơng trình nghiên cứu thân tơi hướng dẫn bảo PGS TS Nguyễn Phương Thái Các kết nêu luận văn trung thực khơng chép tồn văn cơng trình khác Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 16 tháng 12 năm 2020 DANH MỤC KÝ HIỆU, VIẾT TẮT Kí hiệu CNTT Giải thích Cơng Nghệ Thông Tin NLP Neuro – Linguistic – Programming RNN Recurrent Neural Network LSTM Long Short Term Memory networks PCFG Probabilistic Context Free Grammar AI Artificial intelligence DNN Deep Neural Network DANH MỤC CÁC BẢNG Bảng 1: Biểu diễn văn theo TF 35 Bảng 2:Biểu diễn văn theo IDF 37 Bảng 3: Thống kê liệu văn luật 43 Bảng 4: So sánh kết phương pháp Word2Vec Doc2Vec 45 Bảng 5: Kết phương pháp theo tiếp cận thống kê 46 Bảng 6: Kết phương pháp theo tiếp cận học sâu 46 Bảng 7: Kết phương pháp học chuyển cải tiến chưa có cải tiến 47 Bảng 8: Kết phương pháp theo tiếp cận thống kê học sâu 50 DANH MỤC ĐỒ THỊ, HÌNH VẼ Hình 2.1: Mơ hình Word2Vec 23 Hình 2.2: Mơ hình Skip-gram dạng tổng quát 23 Hình 2.3: Minh họa đầu vào đầu mơ hình Skip-gram 24 Hình 2.4: Minh họa đầu vào đầu mơ hình CBOW 25 Hình 2.5: Mơ hình CBOW dạng tổng qt 26 Hình 2.6: Mơ hình học chuyển 29 10 𝑣⃗𝐷𝑜𝑐 = ∑ 𝐸⃗⃗𝑖 Nhưng văn bản, giá trị từ khác nhau, có từ quan trọng mang ý nghĩa đoạn, có từ quan trọng hơn, phương pháp sử dụng thêm giá trị TF-IDF từ đưa Vector văn biểu diễn tổng vector từ nhân giá trị TF-IDF chúng, tính cơng thức 𝑣⃗𝐷𝑜𝑐 = ∑ 𝑇𝐹 − 𝐼𝐷𝐹(𝑖) × 𝐸⃗⃗𝑖 Trong đó, TF-IDF(i) giá trị TF-IDF từ thứ i, Ei vector từ thứ i văng 3.2.2.2 Học biểu diễn vector cho văn Trong phần giới thiệu phương pháp học trực tiếp biểu diễn vector cho văn gọi mơ hình Doc2Vec [8], tương tự mơ hình Word2Vec, thay biểu diễn từ thành vector, phương pháp Doc2Vec biểu diễn văn thành vector tương ứng Khác với cấp độ từ, cấp độ văn cấu trúc logic từ ngữ Doc2Vec chia làm model là: DBOW DM - DBOW (distributed bag of words)[8]: Mơ hình đơn giản không quan tâm thứ tự từ, training nhanh hơn, khơng sử dụng local-context/neighboring Mơ hình chèn thêm “word” ParagraphID, ParagraphID đại diện cho văn training Sau training xong hiểu vector ParagraphID vector nhúng văn Mơ hình DBOW dạng tổng qt - DM (distributed memory)[8]: xem paragraph từ, sau nối từ vào tập từ câu Trong trình training, vector paragraph vector từ update 39 Mơ hình DM dạng tổng qt 3.2.2.3 Áp dụng học chuyển (transfer learning) để tăng chất lượng vector biểu diễn văn Hai phương pháp DBOW DM giúp ta học vector cho văn trực tiếp từ liệu huấn luyện, tốt hiệu liệu huấn luyện đủ lớn, thường cần tới vài triệu văn chục triệu, chí trăm triệu văn Đây thực khó khăn cho miền cụ thể, đặc biệt miền luật, số lượng văn lại hạn chế, nghiên cứu liệu thu thập gồm có 25,000 văn Đây vấn đề khơng cho tốn nói riêng mà nhiều tốn học máy khác nói chung phải đối mặt với vấn đề thiếu liệu, ví dụ tốn dịch máy, gán nhãn liệu, tóm tắt văn Để giải cho vấn đề này, phương pháp học chuyển (transfer learning) [9] đưa đem lại nhiều kết hứa hẹn nhiều ứng dụng Trong toán đo độ tương tự văn ngoại lệ Ý tưởng phương pháp tận dụng tri thức học từ miền liệu lớn để nâng cao chất lượng cho miền liệu hạn chế Để áp dụng phương pháp học chuyển cho toán đo độ tương tự văn luật tiếng Việt thực đơn giản sau: Bước 1: Thu thập liệu văn từ internet báo wikipedia, trang báo mạng baomoi, vnexpress, Tại bước ta thu thập lượng lớn văn tiếng Việt gồm nhiều chủ đề khác Bước 2: Tiền xử lý liệu huấn luyện mơ hình vector hóa cho văn thu bước mơ hình DBOW DM Bước 3: Sử dụng mơ hình huấn luyện bước để tiếp tục huấn luyện liệu miền luật (fine-tuning) 25,000 văn luật tiếng Việt thu thập 3.3 Đánh giá mơ hình Để đánh giá độ xác phương pháp đo độ tương tự văn xây tập liệu kiểm thử (testing) sau Chúng tạo 150 mẫu liệu 40 thực 10 chuyên gia (Thẩm phán) có chuyên môn luật tốt, người làm việc nhiều năm với văn luật (Bản án) Mỗi mẫu liệu gồm văn luật (bản án) chọn ngẫu nhiên, sau chuyên gia lựa chọn 10 văn luật khác tương đồng tổng số 25.000 văn luật khác Một ràng buộc lựa chọn văn tương đồng không lựa chọn văn giống với văn đưa mặt từ vựng Mục đích xây dựng tập kiểm thử chúng tối muốn nhắm đến việc đánh giá mơ hình đo độ tương tự văn dựa ngữ nghĩa chúng Bởi liệu 25.000 văn luật chủ yếu án mà án theo đánh giá thống kê có nhiều án có số lượng từ chung nhiên lại khơng có độ tương đồng Khi có tập liệu kiểm thử trên, đánh giá mơ hình dựa phương pháp sau: Phương pháp đo độ xác trình bày cơng thức đây: Độ ℎồ𝑖 𝑡ưở𝑛𝑔 = |{𝑣ă𝑛𝑏ả𝑛𝑙𝑖ê𝑛𝑞𝑢𝑎𝑛} ∩ {𝑣ă𝑛𝑏ả𝑛𝑡𝑟ả𝑣ề}| |{𝑣ă𝑛𝑏ả𝑛𝑙𝑖ê𝑛𝑞𝑢𝑎𝑛}| Cơng thức đếm xem mơ hình học máy trả văn so với tập kết chuẩn bị chuyên gia, {văn liên quan} tập văn liên quan tới văn truy vấn chọn lựa chuyên gia, {văn trả về} tập văn liên quan tới văn truy vấn đưa mơ hình tính tốn độ tương tự văn Trong phương pháp này, kết độ hồi tưởng nằm khoảng từ đến Bằng nghĩa mơ hình tệ, nghĩa mơ hình tốt, trả kết giống người truy vấn lớn 0.5 ngưỡng chấp nhận Kết cuối tính dựa trung bình 150 mẫu liệu Ngồi đánh giá mơ hình dựa độ hồi tưởng, chúng tơi cịn nhờ chuyên gia luật, người hỗ trợ xây dựng 150 mẫu liệu thử nghiệm đánh giá lại kết mà mơ hình trả Từ đưa điều chỉnh hyper-parameter cho phù hợp nhằm nâng cao độ xác 41 CHƯƠNG THỰC NGHIỆM VÀ KẾT QUẢ 4.1 Môi trường thực nghiệm cơng cụ sử dụng thực nghiệm Cấu hình phần cứng, phần mềm kèm thực nghiệm sử dụng luận văn CPU: Intel Core i5 8600 Ram: 16 GB Card: GTX 1080Ti Hệ điều hành: Windows 10 4.2 Dữ liệu 4.2.1 Thu thập liệu Để thực nghiệm phương pháp đo độ tương tự văn luật tiếng Việt, thu thập 25.000 văn pháp luật từ nguồn án thu thập thêm số báo pháp luật Một số số thống kê cho tập liệu thể Bảng Ngoài ra, đề cập phần 3.2.2.3, để phục vụ cho phương pháp học chuyển, thu thập liệu từ nguồn wikipedia trang báo điện tử baomoi.com Thống kê liệu mô tả Bảng Để đánh giá mơ hình đo độ tương tự văn nhờ 10 chuyên gia, nhờ họ tách 150 văn lấy ngẫu nhiên từ tập 25.000 văn luật nhờ 10 chuyên gia tìm văn liên quan trình bày phần 3.5 để làm tập kiểm thử Các chuyên gia sử dụng phần mềm số hóa án để từ văn mẫu tìm văn có độ liên quan Các án phần mềm số hóa gán nhãn theo loại án như: Hình sự, Dân sự, Hơn nhân Gia đình, Lao động, với loại án cụ thể án phân loại theo tội danh áp dụng cụ thể Do đó, với văn mẫu sau chuyên gia đọc biết văn mẫu loại án áp dụng điều luật Như việc xây dựng tập liệu mẫu dễ dàng nhiều với án mẫu có 500 án loại Mặc dù văn mà thu thập được gán nhãn không sử dụng thời điểm lý sau: - - Tôi quan tâm nhiều đến độ xác độ tương tự văn tốc độ xử lý phương pháp Thứ hai 150 mẫu thử bao gồm loại án khác tùy thuộc vào việc lựa chọn chuyên gia Do đó, sử dụng nhãn có sẵn văn dẫn đến văn mẫu đưa vào thử nghiệm phải biết trước văn thuộc loại án Thứ ba đề tài nghiên cứu độ tương tự văn luật tiếng Việt với mục đích ứng dụng vào xây dựng chương trình tìm kiếm văn tương đồng với tình pháp lý mà người dân gặp phải, mà người dân họ miêu tả tình 42 pháp lý gặp phải họ khơng có kiến thức chuyên sâu để phân loại xem tình pháp lý gặp phải loại án 4.2.2 Xử lý liệu Để thực nghiệm phương pháp đo độ tương tự văn luật tiếng Việt, thu thập 25.000 văn pháp luật từ nguồn án thu thập thêm số báo pháp luật Một số số thống kê cho tập liệu thể Bảng Ngoài ra, đề cập phần 3.2.2.3, để phục vụ cho phương pháp học chuyển, thu thập liệu từ nguồn wikipedia trang báo điện tử baomoi.com Thống kê liệu mô tả Bảng Trước thống kê, thực tiền xử lý liệu trình bày phần gồm thao tác: Chuyển văn sang dạng chữ in thường Tách từ sử dụng hàm word_tokenize thư viện nltk python Xóa bỏ từ dừng Xóa bỏ kí tự đặc biệt, giữ chữ cái, số, dấu chấm, dấu phẩy, dấu hỏi chấm, dấu chấm than (Để thống kê số câu văn sử dụng hàm sent_tokenize thư viện nltk python) Số văn Số câu trung bình văn Số từ trung bình văn Văn luật Văn từ Wikipedia Văn từ baomoi.com 25.000 500.000 500.000 50 60 65 1200 1400 2000 Bảng 3: Thống kê liệu văn luật văn khác thu thập internet 4.3 Thực nghiệm Để so sánh kết phương pháp đo độ tương tự văn trình bày phần trên: phương pháp Jaccard, phương pháp TF-IDF, phương pháp Word2Vec, phương pháp Doc2Vec, phương pháp học chuyển, thực nghiệm phương pháp trường hợp sau: Trường hợp 1: Đánh giá phương pháp văn tiếng Anh Trong nghiên cứu tác giả Gidi Shperber công bố năm 2017 [18], tác giả thực nghiệm hai phương pháp Word2Vec Doc2Vec tập liệu gồm 100K viết kho văn bản, liên quan đến chủ đề khách hàng Kết mà Gidi Shperber thu với phương 43 pháp Word2Vec cho độ xác khoảng 70% cịn Doc2Vec đạt độ xác 74%, theo Gidi Shperber kết tốt từ trước đến Đây lý chọn phương pháp Word2Vec Doc2Vec trình bày phần để thực nghiệm với miền liệu văn luật tiếng Việt Trường hợp 2: Đánh giá phương pháp với truy vấn văn bản: Trong thực nghiệm này, đánh giá phương pháp 150 văn luật truy vấn, với văn truy vấn phương pháp trả 10 văn liên quan kết trả đánh giá dựa hàm tính độ xác trình bày phần Trường hợp 3: Đánh giá phương pháp với truy vấn đoạn văn ngắn: Trong thực nghiệm thuộc trường hợp này, đánh giá phương pháp 150 đoạn văn truy vấn Mỗi đoạn văn truy vấn gồm câu đoạn ngắn Trong thực nghiệm giới hạn độ dài đoạn văn truy vấn khoảng 10 từ đến 50 từ, đoạn truy vấn ngắn chung chung khó đánh giá kết trả về, cịn đoạn truy vấn q dài lại gần giống với thực nghiệm trường hợp mà đánh giá không sát với thực tế Trong thực tế người dùng muốn tìm kiếm án họ nhập lượng thông tin định miêu tả số hành động phạm tội Tương tự thực nghiệm trên, với đoạn văn truy vấn phương pháp trả 10 văn án liên quan kết đánh giá phương pháp tính độ xác mà thực nghiệm sử dụng Trong thực nghiệm chúng tôi, phương pháp thực giống trường hợp khác trình bày 4.3.1 Thực nghiệm với Phương pháp Jacard Phương pháp không cần phải huấn luyện trước, trường hợp, với văn đoạn văn cần truy vấn chúng tơi lặp qua tồn văn luật kho liệu để tính tốn trả tập 10 văn liên quan với văn đoạn văn truy vấn 4.3.2 Thực nghiệm với phương pháp TF-IDF Để tăng tốc độ tính tốn truy vấn, chúng tơi tính tốn sẵn giá trị TF-IDF cho văn kho ngữ liệu, có văn cần truy vấn cần tính giá trị TFIDF văn cần truy vấn dựa vào để trả văn tương tự với văn truy vấn 4.3.3 Thực nghiệm với phương pháp Word2Vec Để thực phương pháp chúng tơi dùng thư viện fasttext với mơ hình skipgram để học biểu diễn vector cho từ Chúng sử dụng số chiều cho vector từ 300, window=5 min_count=1 Các tham số khác sử dụng giá trị mặc định mơ hình Chúng tơi thực phương pháp trình bày để tính vector cho văn lấy tổng vector từ lấy tổng theo giá trị TF-IDF Kí hiệu phương pháp Word2Vec_sum Word2Vec_TF-IDF 44 4.3.4 Thực nghiệm với phương pháp Doc2Vec Phương pháp học biểu diễn vector cho văn sử dụng mơ hình DBOW mơ hình DM: Cách huấn luyện trình bày phần 3.2.2.2, sử dụng thư viện fasttext với số chiều vector 300 để huấn luyện mơ hình Trong trình huấn luyện, văn thêm định danh đầu văn bản, ví dụ văn thêm DOCUMENT1, văn thêm DOCUMENT2, 4.3.5 Phương pháp học chuyển Phương pháp trình bày phần 3.2.2.3, chúng tơi thực nghiệm mơ hình DBOW DM, kí hiệu cho mơ hình TL_DBOW TL_DM Cài đặt thực nghiệm giống với thực nghiệm DBOW DM thực nghiệm trước Trong phương pháp này, học biểu diễn văn lượng lớn văn thu thập từ mạng trước, sau làm mịn mơ hình tập liệu văn luật 4.4 Kết Sau thực nghiệm phương pháp thu kết trường hợp thực nghiệm trình bày trên: 4.4.1 Đánh giá phương pháp văn tiếng Anh Do Gidi Shperber [18] không công bố tập liệu thực nghiệm cho phương pháp Word2Vec Doc2Vec nên chạy lại thực nghiệm cho văn tiếng Anh Trong trường hợp này, lấy kết tác giả để so sánh với kết chạy văn luật tiếng Việt với cài đặt mơ hình giống tác giả Mục đích thực nghiệm để kiểm tra đánh giá xem việc cài đặt, sử dụng mơ hình huấn luyện Word2Vec Doc2Vec chúng tơi có khơng Bảng thể kết so sánh kết phương pháp mà Gidi Shperber thực với kết thực phương pháp liệu văn luật tiếng Việt Từ kết ta thấy độ xác phương pháp cho văn tiếng Việt không thấp nhiều so với văn tiếng Anh, lý thấp lượng liệu văn tiếng Việt nhỏ so với lượng văn tiếng Anh (25.000 văn so với 100.000 văn bản) Kết Phương pháp Gidi Shperber (Văn tiếng Anh) Luận văn (Văn luật tiếng Việt) Word2Vec 0.7 0.588 Doc2Vec 0.74 0.68 Bảng 4: So sánh kết phương pháp Word2Vec Doc2Vec 4.4.2 Đánh giá phương pháp với truy vấn văn Như trình bày mục 4.3, chúng tơi thực nghiệm phương pháp thực nghiệm để so sánh kết phương pháp với 45 Bảng trình bày kết các phương pháp theo tiếp cận thống kê: Phương pháp Jaccard phương pháp TF-IDF Bảng cho kết phương pháp theo tiếp cận học sâu: phương pháp Word2Vec, Doc2Vec, học chuyển dựa Doc2Vec Ta thấy rằng, phương pháp theo hướng tiếp cận thống kê cho kết thấp nhiều so với phương pháp theo hướng tiếp cận học sâu Lý tập test chúng tôi, văn tượng tự với văn truy vấn chủ yếu tương tự ngữ nghĩa, trùng lặp phần từ vựng nên phương pháp thống kê không thực tốt Nhưng phù hợp với thực tế mà mong muốn kết trả không tương tự mặt từ vựng mà tương tự mặt ngữ nghĩa Phương pháp Jaccard TF-IDF Độ xác 0.23 0.35 Bảng 5: Kết phương pháp theo tiếp cận thống kê Phương pháp Độ xác Word2Vec Học Chuyển Doc2Vec Sum TF-IDF DBOW DM DBOW DM 0.525 0.558 0.685 0.676 0.715 0.708 Bảng 6: Kết phương pháp theo tiếp cận học sâu Ngồi ra, Bảng cịn cho thấy phương pháp sử dụng Word2Vec, việc kết hợp vector từ theo trọng số TF-IDF để tạo thành vector văn hiệu so với việc kết hợp từ theo trọng số Thêm vào đó, kết cho ta thấy tiếp cận biểu diễn văn theo phương pháp Doc2Vec hiệu hẳn so với việc biểu diễn dựa việc tổng hợp từ văn Cuối cùng, bảng phương pháp học chuyển tận dụng tri thức học từ nguồn văn khác để cải tiến đáng kể chất lượng phương pháp Doc2Vec so với việc dùng lượng nhỏ liệu thuộc miền luật Trong đó, tiếp cận DBOW cho kết cao chút so với tiếp cận DM phương pháp DBOW kết hợp với học chuyển cho kết tốt với độ hồi tưởng 0.715, nghĩa 10 văn trả về, có khoảng văn trùng với tập kết thiết lập chuyên gia Kết thêm lần chứng kĩ thuật học chuyển tốt cho toán với liệu hạn chế Cụ thể toán đo độ tương tự văn luật tiếng Việt Cải tiến nâng cao độ xác Từ kết thực nghiệm nhận thấy phương pháp học chuyển cho kết tốt nhất, trung bình 10 văn trả có văn trùng với kết chuyên gia cung cấp Tuy nhiên, để nâng cao độ xác mơ hình, với chuyên gia pháp lý, người tham gia xây dựng 150 mẫu thử ban đầu, kiểm chứng lại kết trả mơ hình Các chun gia nhận thấy việc kết thử nghiệm có văn so với 10 văn do: 46 Một số mẫu sai có độ tương đồng lớn với văn mẫu đưa vào Nguyên nhân xây dựng mẫu thử cịn sót số văn có độ tương đồng với văn mẫu đưa vào Một số văn có độ tương đồng lớn tình pháp lý, tập từ chung chúng lại có số tình tiết pháp lý có ý nghĩa lớn khác ảnh hưởng tới kết giải dẫn đến kết trả có độ tương đồng cao sau chuyên gia xem lại độ tương đồng lại thấp Để khắc phục vấn đề cập nhật lại mẫu thử sau chuyên gia đánh giá lại Ngoài ra, văn luật chủ yếu án nên áp dụng từ điển pháp lý cho bước tách từ phương pháp thống kê, với phương pháp học chuyển tơi huấn luyện mơ hình nhiều lần với từ điển pháp lý, luật tố tụng hình sự, luật tố tụng dân sự, luật hành chính,… Lý chúng tơi làm nhận thấy cấu tạo văn luật tiếng Việt có nhiều từ ngữ pháp lý, đặc biệt với liệu thu thập để thực nghiệm, đa phần án, văn áp dụng pháp luật nên bao gồm nhiều từ ngữ pháp lý pháp luật Sau cập nhật lại mẫu huấn luyện mơ hình với từ điển pháp lý, luật tố tụng hình sự, luật tố tụng dân sự, … Chúng thực nghiệm lại với phương pháp học chuyển cho kết sau: Phương pháp Độ xác TL_DBOW TL_DM Cải tiến Ban đầu Cải tiến Ban đầu 0.765 0.715 0.748 0.708 Bảng 7: Kết phương pháp học chuyển cải tiến chưa có cải tiến Bảng cho kết so sánh phương pháp học chuyển ban đầu sau cải tiến Kết cho thấy việc cải tiến từ điển pháp lý cho thấy hiệu tích cực ban đầu việc đánh giá độ xác phương pháp phương pháp tự động Dưới ví dụ án có độ tương đồng cao Bản án Trương Quang Nghĩa có mâu thuẫn với anh Nguyễn Văn Quang từ trước, Ngày 16/8/2016 sau ăn sáng với Nguyễn Văn Hùng Trương Bá Nghiệp, Nghĩa kể với bạn mâu thuẫn người rủ người tìm Quang để trả thù Nghĩa cầm 01 mã tấu, điều khiển xe Yamaha Exciter màu xanh chở Nghiệp va Hùng ngồi sau cầm theo 02 bida; Khi nhóm đến ngã đường ấp 1, xã Vĩnh Lộc A, huyện Bình Chánh cách quán Ốc Đêm khoảng 500 mét Nghĩa nhìn thấy Quang đứng bên lề đường Nghĩa liền cho nhóm la lên “Nó kìa” Hùng Nghiệp liền bước xuống xe, Nghĩa tay trái cầm mã tấu đến chỗ Quang đứng Anh Quang nói “Đừng chém, có từ từ nói”, Nghĩa nói “Mày đánh tao mà cịn nói chuyện gì” Nghĩa cầm mã tấu chém thẳng vào người, vào đầu anh Quang Cùng lúc này, Nghiệp 47 bước xuống xe cầm bida đánh vào lưng, đầu anh Quang khoảng 05 đến 06 nhát, anh Quang đứng dậy bỏ chạy đoạn vấp gã, lúc ngày Nghĩa đuổi kịp dùng mã tấu chém từ phải sang trái trúng vào tay trái anh Quang làm cánh tay gần đứt lìa Sau nhóm bỏ đi, anh Quang người nhà đưa cấp cứu Bệnh viện 115 phẩu thuật điều trị Sau gây án, đối tượng bỏ trốn, đến ngày 16/10/2016 đầu thú Cơng an huyện Bình Chánh Tại Bản kết luận giám định pháp y thương tích số 160/2016/PY-TgT ngày 18/8/2016 Trung tâm pháp y tỉnh B kết luận thương tích anh Nguyễn Văn Quang sau: - Vết thương đứt lìa bàn tay trái phâu thuật vi phẫu nối bàn tay-cẳng tay; cổ tay có sẹo vịng chu vi cổ tay cịn khâu; - Vết thương vùng đầu điều trị; vùng đầu phải vết thương để sẹo mờ kích thước (10x0,3)cm - Thương tích khơng nguy hiểm đến tính mạng đương Tỷ lệ tổn thương thể thương tích gây nên 28% Kết luận khác: Thương tích vật tày tác động mạnh gây Cục kim loại quan điều tra cung cấp gây thương tích Tại Cáo trạng số 05/CTr-VKS ngày 07 tháng 12 năm 2016 Viện kiểm sát nhân dân huyện B, thành phố Hồ Chí Minh truy tố bị cáo Trương Quang Nghĩa tội “Cố ý gây thương tích” theo khoản Điều 104 Bộ luật hình năm 1999 (đã sửa đổi, bổ sung năm 2009) Tại phiên tòa, đại diện Viện kiểm sát giữ nguyên quan điểm truy tố bị cáo tội danh cáo trạng đề nghị Hội đồng xét xử: Áp dụng khoản Điều 104; điểm b,p khoản 1, khoản Điều 46 Bộ luật hình năm 1999 (đã sửa đổi, bổ sung năm 2009) đề nghị xử phạt bị cáo Trương Quang Nghĩa từ 02 năm 06 tháng đến 03 năm tù Bản án Khoảng 15 30 phút ngày 30/9/2019, Trong lúc nhậu quán bà T, anh L T xảy mâu thuẫn T khơng uống tiếp đòi về, anh L cho T khinh nên khơng uống bảo T tiếp tục uống Nhân lúc anh L vệ sinh, T bảo anh K chở T nhà số 19 đường V, khu phố D, thị trấn B, huyện P, tỉnh B Trên đường ngang qua quán nhậu “Cô Trâm” (gần nhà T), T bảo anh K tấp xe vào quán ngồi chơi với anh Phan Văn D, Võ Đình T (Đồng trú D, thị trấn B, huyện P, tỉnh B); đây, T không nhậu, anh K uống 02-03 ly rượu điều khiển xe T nhà trước Trong lúc ngồi quán “Cơ Trâm”, anh L T có gọi nhiều điện thoại cho nhau, hai bên cãi vả, chửi anh L có thách thức T sử dụng khí để đánh tượng đài thị trấn B, huyện P, tỉnh B Đến khoảng 19 30 phút ngày, anh L điều khiển xe mô tô đến trụ ATM Agribank thị trấn B, huyện P, tỉnh B để chuyển tiền đến tượng đài để gặp T đánh Khi nhìn thấy đèn xe anh L vào dừng gần nhà T cầm dao chạy đến chém nhát từ xuống trúng vào xe mơ tơ mang biển kiểm sốt 77H6-xxx anh L; thấy vậy, anh L bước xuống xe T tiếp tục vung dao chém nhát từ trái sang phải trúng hông phải anh L, anh L liền chụp giữ dao giằng co, vật lộn với T làm hai ngã xuống đất Trong lúc giằng co, T giật lại dao dùng chân dậm phần lưỡi dao bị cong cho thẳng lại; lúc này, anh L đứng phía sau lưng T chửi T việc T chém anh L Nghe vậy, T bực tức cầm dao quay phía anh L anh L bỏ chạy dọc theo đường Võ Trọng S hướng phía Quốc lộ 1A; T cầm dao rượt theo anh L đoạn khoảng 20m anh L bị vấp chân dừng lại quay người lại đối diện với T Ngay lúc này, 48 T nhào đến vung ngang dao chém nhát từ phải sang trái trúng vào tay trái anh L Do bị thương tích nặng nên anh Lê Tấn L chuyển đến Bệnh viện đa khoa tỉnh B cấp cứu phẩu thuật điều trị Sau gây án, đối tượng bỏ trốn, đến ngày 16/10/2019 đầu thú Cơng an huyện P Tại Bản kết luận giám định pháp y thương tích số 227/2019/PY-TgT ngày 14/11/2019 Trung tâm pháp y tỉnh B kết luận thương tích anh Lê Tấn L sau: - Vết thương đứt lìa bàn tay trái phẩu thuật vi phẫu nối bàn tay-cẳng tay; cổ tay có sẹo vịng chu vi cổ tay cịn khâu; ngón tay hồng, ấm, vận động ngón II, hạn chế vận động ngón cịn lại - Vết thương vùng hơng phải với kích thước (12x0,3)cm (thể biên ghi lời khai biên hỏi cung bị can) điều trị - Thương tích khơng nguy hiểm đến tính mạng đương Tỷ lệ tổn thương thể thương tích gây nên 25% Tại cáo trạng số 129/CTr -VKS ngày 17 tháng 12 năm 2019 Viện kiểm sát nhân dân huyện Bình Chánh, Thành phố Hồ Chí Minh truy tố bị cáo Hồng Tơn tội “Cố ý gây thương tích” theo khoản Điều 104 Bộ luật hình năm 1999 sửa đổi, bổ sung năm 2009 tội “Cố ý làm hư hỏng tài sản” theo khoản Điều 143 Bộ luật hình năm 1999 sửa đổi, bổ sung năm 2009 Chúng ta thấy rằng, hai văn chia thành đoạn với ý nghĩa khác nhau: đoạn đầu mơ tả q trình việc xảy ra, đoan sau thể kết việc mô tả đoạn đầu - Đoạn mơ tả q trình việc xảy văn có độ tương đồng thấp chúng chủ yếu chứa từ ngữ tên người tên địa danh, từ ngữ không ảnh hưởng nhiều đến độ tương tự ý nghĩa văn nên loại bỏ tiến hành xử lý văn - Đoạn thứ mô tả kết đoạn đầu nhận thấy hai đoạn hai văn có độ tương đồng cao số từ chung hai văn không nhiều, hay thứ tự xuất từ khác Chúng lặp lại từ pháp lý từ, cụm từ tham chiếu đến điều luật cụ thể luật luật Theo thực nghiệm, độ tương tự hai văn Cosine Similarity (VB1,VB2) = 0.71338799, kết phản ánh độ tương tự hai văn Những từ ngữ ảnh hưởng đến kết độ đo tương đồng hai văn bôi đậm chủ yếu xuất đoạn thứ hai 4.4.3 Đánh giá phương pháp với truy vấn đoạn văn ngắn Các thực nghiệm phần giống với thực nghiệm phần trên, khác câu truy vấn đoạn văn ngắn Mục đích để so sánh độ xác phương pháp điều kiện gần với thực tế người dùng Bảng thể kết phương pháp thống kê học sâu Chúng ta thấy phương pháp tiếp cận học chuyển cho kết tốt Tuy nhiên độ xác giảm nhiều so với việc truy vấn văn Lý đoạn văn truy vấn khơng đủ thơng tin nên việc tìm kiếm văn tương tự trả khơng xác Các truy vấn cho kết tốt 49 thường truy vấn từ câu trở lên (lớn 30 từ), truy vấn chứa từ khóa quan trọng theo đặc trưng văn luật Phương pháp Thống kê Jaccard Độ xác 0.153 TF-IDF 0.244 Word2Vec Sum 0.435 TFIDF 0.423 Doc2Vec DBOW 0.504 DM 0.493 Học Chuyển DBOW 0.575 DM 0.528 Bảng 8: Kết phương pháp theo tiếp cận thống kê học sâu Dựa vào kết thực nghiệm phân tích kết dựa chuyên gia, hi vọng đưa hướng dẫn gợi ý tìm kiếm cho người dùng, để chương trình trả kết Dưới chúng tơi lấy ví dụ việc truy vấn với từ ngữ hợp lý kết tốt hơn: Mơ tả 1: không chứa từ ngữ pháp lý mà mô tả từ ngữ tự nhiên “Ngày 15/10/2019 Tôi điều khiển xe ô tô đâm vào ông A, làm ông A bị thương chết bệnh viện Khi tơi có đưa ơng A vào bệnh viện tốn tiền viện phí Cho tơi hỏi tơi phải chịu trách nhiệm trước pháp luật?” Mô tả 2: Chứa từ ngữ pháp lý “gây tai nạn giao thông” “Ngày 15/10/2019 Tôi điều khiển xe ô tô gây tai nạn giao thông, làm ông A bị thương chết bệnh viện Sau gây tai nạn tơi có đưa ơng A vào bệnh viện tốn tiền viện phí Cho tơi hỏi tơi phải chịu trách nhiệm trước pháp luật?” Mô tả 3: Chứa cụm từ ngữ pháp lý theo luật “gây tai nạn giao thông dẫn đến chết người” “Ngày 15/10/2019 Tôi điều khiển xe ô tô gây tai nạn giao thông dẫn đến chết người Sau gây tai nạn tơi có đưa ơng A vào bệnh viện cấp cứu tốn tiền viện phí Cho tơi hỏi phải chịu trách nhiệm trước pháp luật?” Chúng ta thấy rằng, mô tả có độ dài, mơ tả tình gây tai nạn giao thơng Tuy nhiên, mô tả sử dụng từ ngữ pháp lý quan trọng “gây tai nạn giao thông dẫn đến chết người” kết trả văn theo đánh giá chuyên gia tốt hẳn so với mô tả môt tả văn văn Các kết cho kết ban đầu tích cực cho tốn tính tốn độ tương tự văn luật tiếng Việt Do đặc thù miền liệu nên theo hiểu biết chúng tôi, thử nghiệm miền liệu Với kết cho thấy kết hứa hẹn cho nghiên cứu sau 50 CHƯƠNG 5: KẾT LUẬN VÀ CÔNG VIỆC TRONG TƯƠNG LAI 5.1 Kết luận Tính tốn độ tương tự văn toán quan tâm nhiều nhà nghiên cứu nước thời gian qua Bởi nguồn tài liệu Internet nhiều việc khai thác lại gặp nhiều khó khăn Mục đích đề tài nghiên cứu thử nghiệm phương pháp tính độ tương tự văn Luật tiếng Việt dựa kết hợp yếu tố độ tương tự ngữ nghĩa độ tương tự thứ tự từ Các kết luận văn thu được: - Tìm hiểu khái niệm độ tương tự, độ tương tự mặt ngữ nghĩa Nghiên cứu phương pháp tính độ tương tự văn bản, vector hóa đặt trưng văn Xây dựng corpus với văn luật tiếng Việt (Bản án) Thực nghiệm thành công phương pháp đo độ tương tự văn luật tiếng Việt Chỉ phương pháp phù hợp với miền liệu văn luật tiếng Việt Mặc dù Luận văn đạt yêu cầu mục tiêu để thời gian trình độ cịn hạn chế nên chắn luận văn khơng thể tránh khỏi thiếu sot, mong nhận ý kiến đóng góp q thầy để luận văn hồn thiện 5.2 Cơng việc tương lai Giai đoạn chuyển đổi tập tin từ Word, PDF ban đầu sang dạng text loại bỏ ký tự dư thưa chưa thực tốt dẫn đến ảnh hưởng đến kết chương trình cần cải thiện Sử dụng nhãn có 25,000 văn để nâng cao tốc độ xử lý chương trình Thực nghiệm cho kết tốt, nhiên cần hiệu chỉnh để nâng cao độ xác tốc độ xử lý để đưa vào ứng dụng thực tế Cần thu thập thêm liệu mẫu thử để phục vụ cho việc đánh giá xác 51 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt Đỗ Thị Thanh Nga, “Tính tốn độ tương tự ngữ nghĩa văn dựa vào độ tương tự từ với từ”, Đại học Công nghệĐại học Quốc gia Hà Nội, 2010 Nguyễn Trung Kiên, “Phân đoạn tiếng Việt sử dụng mô hình CRFS”, Đại học Quốc giá Hà Nội, 2006 Lê Quý Tài, “Nghiên cứu phương pháp xử lý tiếng Việt, ứng dụng cho tóm tắt văn bản”, Đại học Quốc gia Hà Nội, 2011 Luật 17/2008/QH12 Quốc hội “Nghiên cứu kỹ thuật đánh giá độ tương đồng văn ứng dụng so sánh văn tiếng Việt” Th.S Nguyễn Kim Anh, Đại học Hàng hải Việt Nam, 2016 Tài liệu tiếng Anh Taeho Jo “Neural Based Approach to Keyword Extraction from Documents” May 2003 Lan H Witten: “KEA Practical Automatic Keyphrase Extraction” Le, Q and Mikolov, T., 2014, January “Distributed representations of sentences and documents InInternational conference on machine learning(pp 1188-1196).” Dishashree 2017 “Transfer learning and the art of using Pre-trained Models in Deep Learning” 10 Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean (2013), “Distributed Representations of Words and Phrasesand their Compositionality”, arXiv:1310.4546v1 11 Christopher D Manning, Prabhakar Raghavan & Hinrich Schütze (2008) "Introduction to Information Retrieval" Cambridge University Press 12 Christopher D Manning, Prabhakar Raghavan & Hinrich Schütze (2008) "Introduction to Information Retrieval" Cambridge University Press 13 Khan, Aurangzeb & Bahurdin, B & Khan, Khairullah (2009) An Overview of EDocuments Classification Proceedings of International Conference on Machine Learning and Computing (ICMLC 2009) 14 Madjid Khalilian and Shiva Hassanzadeh (2019) "Document classification methods" arXiv:1909.07368 52 15 Tomas Mikolov and Kai Chen and Greg Corrado and Jeffrey Dean (2013) "Efficient Estimation of Word Representations in Vector Space" arXiv:1301.3781 16 Fuzhen Zhuang and Zhiyuan Qi and Keyu Duan and Dongbo Xi and Yongchun Zhu and Hengshu Zhu and Hui Xiong and Qing He (2020) "A Comprehensive Survey on Transfer Learning" arXiv:1911.02685 17 George-Sebastian Pirtoaca and Traian Rebedea and Stefan Ruseti (2019) "Improving Retrieval-Based Question Answering with Deep Inference Models" arXiv:1812.02971 18 Gidi Shperber (Jul 26, 2017) “A gentle introduction to Doc2Vec” https://medium.com/wisio/a-gentle-introduction-to-Doc2Vec-db3e8c0cce5e 19 J Ramos et al., “Using TF-IDF to determine word relevance in document queries,” in Proceedings of the first instructional conference on machine learning, 2003 53 ... chúng tơi chọn đề tài luận văn ? ?Nghiên cứu phương pháp tính toán độ tương tự văn luật tiếng Việt? ?? nhằm nghiên cứu phương pháp đo độ tương tự thử nghiện mơ hình tính tốn độ tương tự, từ đưa để xuất...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH MẠNH NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÍNH TOÁN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT TIẾNG VIỆT Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy. .. tài nghiên cứu thử nghiệm phương pháp tính độ tương tự văn Luật tiếng Việt dựa kết hợp yếu tố độ tương tự ngữ nghĩa độ tương tự thứ tự từ Các kết luận văn thu được: - Tìm hiểu khái niệm độ tương