Luận văn có thể áp dụng cho việc xây dựng công cụ tìm kiếm bản án có độ tương đồng nhất với tình huống pháp lý mà người dân gặp phải, qua đó người dân có thể biết trước được kết quả nếu đưa vụ việc ra tòa án giải quyết
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH MẠNH NGHIÊN CỨU CÁC PHƢƠNG PHÁP TÍNH TOÁN ĐỘ TƢƠNG TỰ CỦA VĂN BẢN LUẬT TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HÀ NỘI, 12/2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN ĐÌNH MẠNH NGHIÊN CỨU CÁC PHƢƠNG PHÁP TÍNH TỐN ĐỘ TƢƠNG TỰ CỦA VĂN BẢN LUẬT TIẾNG VIỆT Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã Số: 8480101.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƢƠNG THÁI HÀ NỘI, 12/2020 LỜI CAM ĐOAN Tôi- Nguyễn Đình Mạnh – cam đoan luận văn cơng trình nghiên cứu thân tơi dƣới hƣớng dẫn bảo PGS TS Nguyễn Phƣơng Thái Các kết nêu luận văn trung thực khơng chép tồn văn cơng trình khác Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 16 tháng 12 năm 2020 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn đặc biệt tới PGS TS Nguyễn Phƣơng Thái, ngƣời định hƣớng đề tài tận tình hƣớng dẫn bảo tơi suốt q trình thực Luận văn cao học Tôi xin chân thành cảm ơn Thầy, Cô trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội tận tình giảng dạy truyền đạt kiến thức, kinh nghịm quý báu suốt khóa học tơi Cuối cùng, tơi xin cảm ơn tới nhƣng ngƣời thân, bạn bè bên cạnh, động viên, chia sẻ trình học cao học nhƣ trình thực luận văn cao học Xin chân thành cảm ơn! MỤC LỤC DANH MỤC KÝ HIỆU, VIẾT TẮT i DANH MỤC CÁC BẢNG ii DANH MỤC ĐỒ THỊ, HÌNH VẼ iii MỞ ĐẦU CHƢƠNG GIỚI THIỆU 1.1 Lý chọn đề tài 1.2 Mục đích đề tài 1.3 Đối tƣợng đề tài 1.4 Phƣơng pháp nghiên cứu CHƢƠNG KIẾN THỨC NỀN TẢNG 2.1 Đặc điểm văn tiếng Việt 2.1.1 Cấu tạo từ tiếng Việt 2.1.2 Biến hình từ tiếng Việt 2.1.3 Từ đồng nghĩa 2.1.4 Đặc điểm tả 2.2 Đặc điểm văn Luật tiếng Việt 2.3 Sự khác văn tiếng Việt văn luật tiếng Việt 2.4 Tổng quan tốn độ tƣơng tự văn 2.4.1 Khái niệm độ tƣơng tự văn 2.4.2 Ứng dụng toán đo độ tƣơng tự hai văn 2.5 Phƣơng pháp dựa thống kê 2.5.1 Khái niệm 2.5.2 Độ đo tƣơng tự Jaccard 2.5.3 Độ đo TF-IDF 2.6 Phƣơng pháp dựa mạng nơron học sâu 2.6.1 Khái niệm học sâu 2.6.2 Một số ứng dụng học sâu (Deep Learning) 10 2.6.3 Một số phƣơng pháp theo hƣớng tiếp cận học sâu 11 2.6.3.1 Mơ hình biểu diễn từ vector (Word2Vec) 11 2.6.3.2 Học chuyển (Transfer Learning) 18 CHƢƠNG CÁC PHƢƠNG PHÁP ĐO ĐỘ TƢƠNG TỰ GIỮA CÁC VĂN BẢN 22 3.1 Tiền xử lý liệu 22 3.2 Vector hóa văn tính độ tƣơng tự văn 22 3.2.1 Mộ số phƣơng pháp theo tiếp cận thống kê 22 3.2.2 Phƣơng pháp học sâu 27 3.2.2.1 Sử dụng Word2Vec 27 3.2.2.2 Học biểu diễn vector cho văn 28 3.2.2.3 Áp dụng học chuyển (transfer learning) để tăng chất lƣợng vector biểu diễn văn 28 3.3 Đánh giá mơ hình 29 CHƢƠNG THỰC NGHIỆM VÀ KẾT QUẢ 31 4.1 Môi trƣờng thực nghiệm công cụ sử dụng thực nghiệm 31 4.2 Dữ liệu 31 4.2.1 Thu thập liệu 31 4.2.2 Xử lý liệu 32 4.3 Thực nghiệm 32 4.3.1 Thực nghiệm với Phƣơng pháp Jacard 33 4.3.2 Thực nghiệm với phƣơng pháp TF-IDF 33 4.3.3 Thực nghiệm với phƣơng pháp Word2Vec 33 4.3.4 Thực nghiệm với phƣơng pháp Doc2Vec 33 4.3.5 Phƣơng pháp học chuyển 34 4.4 Kết 34 4.4.1 Đánh giá phƣơng pháp văn tiếng Anh 34 4.4.2 Đánh giá phƣơng pháp với truy vấn văn 34 4.4.3 Đánh giá phƣơng pháp với truy vấn đoạn văn ngắn 38 CHƢƠNG 5: KẾT LUẬN VÀ CÔNG VIỆC TRONG TƢƠNG LAI 40 5.1 Kết luận 40 5.2 Công việc tƣơng lai 40 TÀI LIỆU THAM KHẢO 41 DANH MỤC KÝ HIỆU, VIẾT TẮT Kí hiệu CNTT Giải thích Cơng Nghệ Thơng Tin NLP Neuro – Linguistic – Programming RNN Recurrent Neural Network LSTM Long Short Term Memory networks PCFG Probabilistic Context Free Grammar AI Artificial intelligence DNN Deep Neural Network i DANH MỤC CÁC BẢNG Bảng 1: Biểu diễn văn theo TF 24 Bảng 2:Biểu diễn văn theo IDF 25 Bảng 3: Thống kê liệu văn luật 32 Bảng 4: So sánh kết phƣơng pháp Word2Vec Doc2Vec 34 Bảng 5: Kết phƣơng pháp theo tiếp cận thống kê 35 Bảng 6: Kết phƣơng pháp theo tiếp cận học sâu 35 Bảng 7: Kết phƣơng pháp học chuyển cải tiến chƣa có cải tiến 36 Bảng 8: Kết phƣơng pháp theo tiếp cận thống kê học sâu 38 ii DANH MỤC ĐỒ THỊ, HÌNH VẼ Hình 2.1: Mơ hình Word2Vec 12 Hình 2.2: Mơ hình Skip-gram dạng tổng quát 13 Hình 2.3: Minh họa đầu vào đầu mơ hình Skip-gram 13 Hình 2.4: Minh họa đầu vào đầu mơ hình CBOW 15 Hình 2.5: Mơ hình CBOW dạng tổng qt 15 Hình 2.6: Mơ hình học chuyển 18 iii MỞ ĐẦU Nghị số 08-NQ/TW ngày 02/01/2002 Bộ Chính trị “Một số nhiệm vụ trọng tâm công tác tư pháp thời gian tới” Nghị số 49-NQ/TW ngày 02/06/2005 Bộ Chính trị “Chiến lược cải cách tư pháp đến năm 2020” đề nhiệm vụ cải cách tƣ pháp nƣớc ta, có nhiệm vụ “đổi thủ tục hành quan tư pháp tư pháp nhằm tạo điều kiện thuận lợi cho người dân tiếp cận công lý; … bước thực việc cơng khai hóa án…” Thực theo đạo văn Luật đƣợc số hóa phổ biến đến ngƣời dân ngày nhiều Lãnh đạo ngành Tòa án đạo sát việc ứng dụng CNTT để nâng cao hiệu cơng việc ngành Tịa án, cụ thể việc phần mềm Công khai án đƣợc đời cung cấp án tới ngƣời dân, để họ tìm kiếm án có trƣờng hợp pháp lý tƣơng tự trƣờng hợp gặp phải Họ biết trƣợc đƣợc kết việc kiện tụng, thay phải đƣa vụ việc Tịa giải pháp khả thi hịa giải để bên có lơi, giảm bớt áp lực công việc cho ngành Tịa án Để làm đƣợc nhƣ phần mềm cần phải hỗ trợ ngƣời dùng nhiều nữa, không dừng lại việc tra cứu theo từ khóa mà phải hỗ trợ việc tra cứu theo nội dung ngữ nghĩa văn Hiện nay, có vài cơng trình nghiên cứu để xuất phƣơng pháp khác để xác định độ tƣơng đồng văn tiếng Việt song chiếm tỉ lệ khiêm tốn so với cơng trình nghiên cứu văn tiếng Anh Do đặc điểm từ tiếng Việt có nhiều điểm khác với tiếng Anh, đặc biệt văn Luật tiếng Việt Việc xử lý văn xây dựng kho ngữ liệu chuẩn đầy đủ thách thức lớn Vì lý này, chọn đề tài luận văn “Nghiên cứu phƣơng pháp tính tốn độ tƣơng tự văn luật tiếng Việt” nhằm nghiên cứu phƣơng pháp đo độ tƣơng tự thử nghiện mơ hình tính tốn độ tƣơng tự, từ đƣa để xuất mơ hình phù hợp với miền liệu văn luật tiếng Việt Nội dung luật văn gồm: Chƣơng Giới thiệu tổng quan luận văn, mục đích nội dung nghiên cứu Chƣơng Đƣa nhìn tổng quan kiến thức tảng toán đo độ tƣơng tự văn Chƣơng Các phƣơng pháp tính tốn độ tƣơng tự cho miền liệu văn Luật tiếng Việt Chƣơng Thể chi tiết tập liệu đƣợc sử dụng, cài đặt cho thực nghiệm kết thực nghiệm Chƣơng Tóm tắt lại công việc luận văn đƣa công việc tƣơng lai 3.2.2.2 Học biểu diễn vector cho văn Trong phần giới thiệu phƣơng pháp học trực tiếp biểu diễn vector cho văn gọi mơ hình Doc2Vec [8], tƣơng tự nhƣ mơ hình Word2Vec, nhƣng thay biểu diễn từ thành vector, phƣơng pháp Doc2Vec biểu diễn văn thành vector tƣơng ứng Khác với cấp độ từ, cấp độ văn khơng có cấu trúc logic nhƣ từ ngữ Doc2Vec chia làm model là: DBOW DM - DBOW (distributed bag of words)[8]: Mơ hình đơn giản khơng quan tâm thứ tự từ, training nhanh hơn, không sử dụng localcontext/neighboring Mơ hình chèn thêm “word” ParagraphID, ParagraphID đại diện cho văn đƣợc training Sau training xong hiểu vector ParagraphID vector nhúng văn Mơ hình DBOW dạng tổng quát - DM (distributed memory)[8]: xem paragraph từ, sau nối từ vào tập từ câu Trong trình training, vector paragraph vector từ đƣợc update Mơ hình DM dạng tổng quát 3.2.2.3 Áp dụng học chuyển (transfer learning) để tăng chất lượng vector biểu diễn văn Hai phƣơng pháp DBOW DM giúp ta học đƣợc vector cho văn trực tiếp từ liệu huấn luyện, nhƣng tốt hiệu liệu huấn luyện đủ lớn, thƣờng cần tới vài triệu văn chục triệu, chí trăm triệu văn 28 Đây thực khó khăn cho miền cụ thể, đặc biệt miền luật, số lƣợng văn lại hạn chế, nghiên cứu liệu thu thập gồm có 25,000 văn Đây vấn đề khơng cho tốn nói riêng mà nhiều tốn học máy khác nói chung phải đối mặt với vấn đề thiếu liệu, ví dụ nhƣ toán dịch máy, gán nhãn liệu, tóm tắt văn Để giải cho vấn đề này, phƣơng pháp học chuyển (transfer learning) [9] đƣợc đƣa đem lại nhiều kết hứa hẹn nhiều ứng dụng Trong tốn đo độ tƣơng tự văn ngoại lệ Ý tƣởng phƣơng pháp tận dụng tri thức học đƣợc từ miền liệu lớn để nâng cao chất lƣợng cho miền liệu hạn chế Để áp dụng phƣơng pháp học chuyển cho toán đo độ tƣơng tự văn luật tiếng Việt thực đơn giản nhƣ sau: Bƣớc 1: Thu thập liệu văn từ internet nhƣ báo wikipedia, trang báo mạng nhƣ baomoi, vnexpress, Tại bƣớc ta thu thập đƣợc lƣợng lớn văn tiếng Việt gồm nhiều chủ đề khác Bƣớc 2: Tiền xử lý liệu huấn luyện mơ hình vector hóa cho văn thu đƣợc bƣớc mô hình DBOW DM Bƣớc 3: Sử dụng mơ hình huấn luyện bƣớc để tiếp tục huấn luyện liệu miền luật (fine-tuning) 25,000 văn luật tiếng Việt đƣợc thu thập 3.3 Đánh giá mơ hình Để đánh giá độ xác phƣơng pháp đo độ tƣơng tự văn xây tập liệu kiểm thử (testing) nhƣ sau Chúng tạo 150 mẫu liệu đƣợc thực 10 chun gia (Thẩm phán) có chun mơn luật tốt, ngƣời làm việc nhiều năm với văn luật (Bản án) Mỗi mẫu liệu gồm văn luật (bản án) đƣợc chọn ngẫu nhiên, sau chuyên gia lựa chọn 10 văn luật khác tƣơng đồng tổng số 25.000 văn luật khác Một ràng buộc lựa chọn văn tƣơng đồng không đƣợc lựa chọn văn giống với văn đƣa mặt từ vựng Mục đích xây dựng tập kiểm thử chúng tối muốn nhắm đến việc đánh giá mơ hình đo độ tƣơng tự văn dựa ngữ nghĩa chúng Bởi liệu 25.000 văn luật chủ yếu án mà án theo đánh giá thống kê có nhiều án có số lƣợng từ chung nhiên lại khơng có độ tƣơng đồng Khi có tập liệu kiểm thử nhƣ trên, chúng tơi đánh giá mơ hình dựa phƣơng pháp sau: Phƣơng pháp đo độ xác đƣợc trình bày nhƣ cơng thức dƣới đây: |* + |* 29 * +| +| Công thức đếm xem mơ hình học máy trả văn so với tập kết đƣợc chuẩn bị chuyên gia, {văn liên quan} tập văn liên quan tới văn truy vấn đƣợc chọn lựa chuyên gia, {văn trả về} tập văn liên quan tới văn truy vấn đƣợc đƣa mơ hình tính tốn độ tƣơng tự văn Trong phƣơng pháp này, kết độ hồi tƣởng nằm khoảng từ đến Bằng nghĩa mơ hình tệ, nghĩa mơ hình tốt, trả kết giống nhƣ ngƣời truy vấn lớn 0.5 ngƣỡng chấp nhận đƣợc Kết cuối đƣợc tính dựa trung bình 150 mẫu liệu Ngồi đánh giá mơ hình dựa độ hồi tƣởng, chúng tơi cịn nhờ chun gia luật, ngƣời hỗ trợ xây dựng 150 mẫu liệu thử nghiệm đánh giá lại kết mà mơ hình trả Từ đƣa điều chỉnh hyper-parameter cho phù hợp nhằm nâng cao độ xác 30 CHƢƠNG THỰC NGHIỆM VÀ KẾT QUẢ 4.1 Môi trƣờng thực nghiệm công cụ sử dụng thực nghiệm Cấu hình phần cứng, phần mềm kèm thực nghiệm đƣợc sử dụng luận văn CPU: Intel Core i5 8600 Ram: 16 GB Card: GTX 1080Ti Hệ điều hành: Windows 10 4.2 Dữ liệu 4.2.1 Thu thập liệu Để thực nghiệm phƣơng pháp đo độ tƣơng tự văn luật tiếng Việt, thu thập đƣợc 25.000 văn pháp luật từ nguồn án thu thập thêm số báo pháp luật Một số số thống kê cho tập liệu đƣợc thể Bảng Ngoài ra, nhƣ đề cập phần 3.2.2.3, để phục vụ cho phƣơng pháp học chuyển, thu thập liệu từ nguồn wikipedia trang báo điện tử nhƣ baomoi.com Thống kê liệu đƣợc mô tả Bảng Để đánh giá mơ hình đo độ tƣơng tự văn chúng tơi nhờ 10 chuyên gia, nhờ họ tách 150 văn đƣợc lấy ngẫu nhiên từ tập 25.000 văn luật nhờ 10 chuyên gia tìm văn liên quan nhƣ trình bày phần 3.5 để làm tập kiểm thử Các chuyên gia sử dụng phần mềm số hóa án để từ văn mẫu tìm văn có độ liên quan Các án phần mềm số hóa đƣợc gán nhãn theo loại án nhƣ: Hình sự, Dân sự, Hơn nhân Gia đình, Lao động, với loại án cụ thể án đƣợc phân loại theo tội danh áp dụng cụ thể Do đó, với văn mẫu sau chuyên gia đọc biết đƣợc văn mẫu loại án áp dụng điều luật Nhƣ việc xây dựng tập liệu mẫu dễ dàng nhiều với án mẫu có dƣới 500 án loại Mặc dù văn mà thu thập đƣợc đƣợc gán nhãn nhƣng không sử dụng thời điểm lý sau: - - Tôi quan tâm nhiều đến độ xác độ tƣơng tự văn tốc độ xử lý phƣơng pháp Thứ hai 150 mẫu thử bao gồm loại án khác tùy thuộc vào việc lựa chọn chuyên gia Do đó, sử dụng nhãn có sẵn văn dẫn đến văn mẫu đƣa vào thử nghiệm phải biết trƣớc văn thuộc loại án Thứ ba đề tài nghiên cứu độ tƣơng tự văn luật tiếng Việt với mục đích ứng dụng vào xây dựng chƣơng trình tìm kiếm văn tƣơng đồng với tình pháp lý mà ngƣời dân gặp phải, mà ngƣời dân họ miêu tả tình pháp lý gặp phải họ khơng có kiến thức chun 31 sâu để phân loại xem tình pháp lý gặp phải loại án 4.2.2 Xử lý liệu Để thực nghiệm phƣơng pháp đo độ tƣơng tự văn luật tiếng Việt, thu thập đƣợc 25.000 văn pháp luật từ nguồn án thu thập thêm số báo pháp luật Một số số thống kê cho tập liệu đƣợc thể Bảng Ngoài ra, nhƣ đề cập phần 3.2.2.3, để phục vụ cho phƣơng pháp học chuyển, thu thập liệu từ nguồn wikipedia trang báo điện tử nhƣ baomoi.com Thống kê liệu đƣợc mô tả Bảng Trƣớc thống kê, thực tiền xử lý liệu nhƣ trình bày phần gồm thao tác: Chuyển văn sang dạng chữ in thƣờng Tách từ sử dụng hàm word_tokenize thƣ viện nltk python Xóa bỏ từ dừng Xóa bỏ kí tự đặc biệt, giữ chữ cái, số, dấu chấm, dấu phẩy, dấu hỏi chấm, dấu chấm than (Để thống kê số câu văn sử dụng hàm sent_tokenize thƣ viện nltk python) Số văn Số câu trung bình văn Số từ trung bình văn Văn luật Văn từ Wikipedia Văn từ baomoi.com 25.000 500.000 500.000 50 60 65 1200 1400 2000 Bảng 3: Thống kê liệu văn luật văn khác đƣợc thu thập internet 4.3 Thực nghiệm Để so sánh kết phƣơng pháp đo độ tƣơng tự văn trình bày phần trên: phƣơng pháp Jaccard, phƣơng pháp TF-IDF, phƣơng pháp Word2Vec, phƣơng pháp Doc2Vec, phƣơng pháp học chuyển, thực nghiệm phƣơng pháp trƣờng hợp sau: Trƣờng hợp 1: Đánh giá phƣơng pháp văn tiếng Anh Trong nghiên cứu tác giả Gidi Shperber công bố năm 2017 [18], tác giả thực nghiệm hai phƣơng pháp Word2Vec Doc2Vec tập liệu gồm 100K viết kho văn bản, liên quan đến chủ đề khách hàng Kết mà Gidi Shperber thu đƣợc với phƣơng pháp Word2Vec cho độ xác khoảng 70% cịn Doc2Vec đạt độ xác 74%, theo Gidi Shperber kết tốt 32 từ trƣớc đến Đây lý chọn phƣơng pháp Word2Vec Doc2Vec nhƣ trình bày phần để thực nghiệm với miền liệu văn luật tiếng Việt Trƣờng hợp 2: Đánh giá phƣơng pháp với truy vấn văn bản: Trong thực nghiệm này, đánh giá phƣơng pháp 150 văn luật truy vấn, với văn truy vấn phƣơng pháp trả 10 văn liên quan kết trả đƣợc đánh giá dựa hàm tính độ xác nhƣ trình bày phần Trƣờng hợp 3: Đánh giá phƣơng pháp với truy vấn đoạn văn ngắn: Trong thực nghiệm thuộc trƣờng hợp này, đánh giá phƣơng pháp 150 đoạn văn truy vấn Mỗi đoạn văn truy vấn gồm câu đoạn ngắn Trong thực nghiệm giới hạn độ dài đoạn văn truy vấn khoảng 10 từ đến 50 từ, đoạn truy vấn q ngắn chung chung khó đánh giá đƣợc kết trả về, đoạn truy vấn dài lại gần giống với thực nghiệm trƣờng hợp mà đánh giá không sát với thực tế Trong thực tế ngƣời dùng muốn tìm kiếm án họ nhập lƣợng thơng tin định miêu tả số hành động phạm tội Tƣơng tự nhƣ thực nghiệm trên, với đoạn văn truy vấn phƣơng pháp trả 10 văn án liên quan kết đƣợc đánh giá phƣơng pháp tính độ xác mà thực nghiệm sử dụng Trong thực nghiệm chúng tôi, phƣơng pháp đƣợc thực giống trƣờng hợp khác nhƣ đƣợc trình bày dƣới 4.3.1 Thực nghiệm với Phương pháp Jacard Phƣơng pháp không cần phải huấn luyện trƣớc, trƣờng hợp, với văn đoạn văn cần truy vấn lặp qua toàn văn luật kho liệu để tính tốn trả tập 10 văn liên quan với văn đoạn văn truy vấn 4.3.2 Thực nghiệm với phương pháp TF-IDF Để tăng tốc độ tính tốn truy vấn, chúng tơi tính toán sẵn giá trị TF-IDF cho văn kho ngữ liệu, có văn cần truy vấn cần tính giá trị TF-IDF văn cần truy vấn dựa vào để trả văn tƣơng tự với văn truy vấn 4.3.3 Thực nghiệm với phương pháp Word2Vec Để thực phƣơng pháp dùng thƣ viện fasttext với mơ hình skipgram để học biểu diễn vector cho từ Chúng sử dụng số chiều cho vector từ 300, window=5 min_count=1 Các tham số khác sử dụng giá trị mặc định mơ hình Chúng tơi thực phƣơng pháp trình bày để tính vector cho văn lấy tổng vector từ lấy tổng theo giá trị TF-IDF Kí hiệu phƣơng pháp lần lƣợt Word2Vec_sum Word2Vec_TF-IDF 4.3.4 Thực nghiệm với phương pháp Doc2Vec Phƣơng pháp học biểu diễn vector cho văn sử dụng mơ hình DBOW mơ hình DM: Cách huấn luyện đƣợc trình bày phần 3.2.2.2, sử 33 dụng thƣ viện fasttext với số chiều vector 300 để huấn luyện mơ hình Trong q trình huấn luyện, văn đƣợc thêm định danh đầu văn bản, ví dụ văn thêm DOCUMENT1, văn thêm DOCUMENT2, 4.3.5 Phương pháp học chuyển Phƣơng pháp đƣợc trình bày phần 3.2.2.3, thực nghiệm mơ hình DBOW DM, kí hiệu cho mơ hình lần lƣợt TL_DBOW TL_DM Cài đặt thực nghiệm giống với thực nghiệm DBOW DM thực nghiệm trƣớc Trong phƣơng pháp này, học biểu diễn văn lƣợng lớn văn thu thập từ mạng trƣớc, sau làm mịn mơ hình tập liệu văn luật 4.4 Kết Sau thực nghiệm phƣơng pháp thu đƣợc kết trƣờng hợp thực nghiệm trình bày trên: 4.4.1 Đánh giá phương pháp văn tiếng Anh Do Gidi Shperber [18] không công bố tập liệu thực nghiệm cho phƣơng pháp Word2Vec Doc2Vec nên chạy lại đƣợc thực nghiệm cho văn tiếng Anh Trong trƣờng hợp này, lấy kết tác giả để so sánh với kết chạy văn luật tiếng Việt với cài đặt mơ hình giống nhƣ tác giả Mục đích thực nghiệm để kiểm tra đánh giá xem việc cài đặt, sử dụng mơ hình huấn luyện Word2Vec Doc2Vec chúng tơi có khơng Bảng thể kết so sánh kết phƣơng pháp mà Gidi Shperber thực với kết chúng tơi thực phƣơng pháp liệu văn luật tiếng Việt Từ kết ta thấy độ xác phƣơng pháp cho văn tiếng Việt không thấp nhiều so với văn tiếng Anh, lý thấp lƣợng liệu văn tiếng Việt nhỏ so với lƣợng văn tiếng Anh (25.000 văn so với 100.000 văn bản) Kết Phƣơng pháp Gidi Shperber (Văn tiếng Anh) Luận văn (Văn luật tiếng Việt) Word2Vec 0.7 0.588 Doc2Vec 0.74 0.68 Bảng 4: So sánh kết phƣơng pháp Word2Vec Doc2Vec 4.4.2 Đánh giá phương pháp với truy vấn văn Nhƣ trình bày mục 4.3, thực nghiệm phƣơng pháp thực nghiệm để so sánh kết phƣơng pháp với Bảng trình bày kết các phƣơng pháp theo tiếp cận thống kê: Phƣơng pháp Jaccard phƣơng pháp TF-IDF Bảng cho kết phƣơng pháp theo tiếp cận học sâu: phƣơng pháp Word2Vec, Doc2Vec, học chuyển dựa Doc2Vec Ta thấy rằng, phƣơng pháp theo hƣớng tiếp cận thống kê cho kết thấp nhiều so với phƣơng pháp theo hƣớng tiếp cận học sâu Lý 34 tập test chúng tôi, văn tƣợng tự với văn truy vấn chủ yếu tƣơng tự ngữ nghĩa, trùng lặp phần từ vựng nên phƣơng pháp thống kê khơng thực tốt Nhƣng phù hợp với thực tế mà mong muốn kết trả không tƣơng tự mặt từ vựng mà tƣơng tự mặt ngữ nghĩa Phƣơng pháp Jaccard TF-IDF Độ xác 0.23 0.35 Bảng 5: Kết phƣơng pháp theo tiếp cận thống kê Phƣơng pháp Độ xác Word2Vec Học Chuyển Doc2Vec Sum TF-IDF DBOW DM DBOW DM 0.525 0.558 0.685 0.676 0.715 0.708 Bảng 6: Kết phƣơng pháp theo tiếp cận học sâu Ngoài ra, Bảng cho thấy phƣơng pháp sử dụng Word2Vec, việc kết hợp vector từ theo trọng số TF-IDF để tạo thành vector văn hiệu so với việc kết hợp từ theo trọng số nhƣ Thêm vào đó, kết cho ta thấy tiếp cận biểu diễn văn theo phƣơng pháp Doc2Vec hiệu hẳn so với việc biểu diễn dựa việc tổng hợp từ văn Cuối cùng, bảng phƣơng pháp học chuyển tận dụng đƣợc tri thức học từ nguồn văn khác để cải tiến đáng kể chất lƣợng phƣơng pháp Doc2Vec so với việc dùng lƣợng nhỏ liệu thuộc miền luật Trong đó, tiếp cận DBOW cho kết cao chút so với tiếp cận DM phƣơng pháp DBOW kết hợp với học chuyển cho kết tốt với độ hồi tƣởng 0.715, nghĩa 10 văn trả về, có khoảng văn trùng với tập kết đƣợc thiết lập chuyên gia Kết thêm lần chứng kĩ thuật học chuyển tốt cho toán với liệu hạn chế Cụ thể toán đo độ tƣơng tự văn luật tiếng Việt chúng tơi Cải tiến nâng cao độ xác Từ kết thực nghiệm nhận thấy phƣơng pháp học chuyển cho kết tốt nhất, trung bình 10 văn trả có văn trùng với kết đƣợc chuyên gia cung cấp Tuy nhiên, để nâng cao độ xác mơ hình, chúng tơi với chuyên gia pháp lý, ngƣời tham gia xây dựng 150 mẫu thử ban đầu, kiểm chứng lại kết trả mơ hình Các chun gia nhận thấy việc kết thử nghiệm có văn so với 10 văn do: Một số mẫu sai có độ tƣơng đồng lớn với văn mẫu đƣa vào Nguyên nhân xây dựng mẫu thử cịn sót số văn có độ tƣơng đồng với văn mẫu đƣa vào Một số văn có độ tƣơng đồng lớn tình pháp lý, tập từ chung nhƣng chúng lại có số tình tiết pháp lý có ý nghĩa lớn khác 35 ảnh hƣởng tới kết giải dẫn đến kết trả có độ tƣơng đồng cao nhƣng sau chuyên gia xem lại độ tƣơng đồng lại thấp Để khắc phục vấn đề cập nhật lại mẫu thử sau chuyên gia đánh giá lại Ngoài ra, văn luật chủ yếu án nên áp dụng từ điển pháp lý cho bƣớc tách từ phƣơng pháp thống kê, với phƣơng pháp học chuyển tơi huấn luyện mơ hình nhiều lần với từ điển pháp lý, luật tố tụng hình sự, luật tố tụng dân sự, luật hành chính,… Lý chúng tơi làm nhƣ nhận thấy cấu tạo văn luật tiếng Việt có nhiều từ ngữ pháp lý, đặc biệt với liệu thu thập để thực nghiệm, đa phần án, văn áp dụng pháp luật nên bao gồm nhiều từ ngữ pháp lý pháp luật Sau cập nhật lại mẫu huấn luyện mơ hình với từ điển pháp lý, luật tố tụng hình sự, luật tố tụng dân sự, … Chúng thực nghiệm lại với phƣơng pháp học chuyển cho kết nhƣ sau: Phƣơng pháp Độ xác TL_DBOW TL_DM Cải tiến Ban đầu Cải tiến Ban đầu 0.765 0.715 0.748 0.708 Bảng 7: Kết phƣơng pháp học chuyển cải tiến chƣa có cải tiến Bảng cho chúng tơi kết so sánh phƣơng pháp học chuyển ban đầu sau cải tiến Kết cho thấy việc cải tiến từ điển pháp lý cho thấy hiệu tích cực ban đầu việc đánh giá độ xác phƣơng pháp phƣơng pháp tự động Dƣới ví dụ án có độ tƣơng đồng cao Bản án Trương Quang Nghĩa có mâu thuẫn với anh Nguyễn Văn Quang từ trước, Ngày 16/8/2016 sau ăn sáng với Nguyễn Văn Hùng Trương Bá Nghiệp, Nghĩa kể với bạn mâu thuẫn người rủ người tìm Quang để trả thù Nghĩa cầm 01 mã tấu, điều khiển xe Yamaha Exciter màu xanh chở Nghiệp va Hùng ngồi sau cầm theo 02 bida; Khi nhóm đến ngã đường ấp 1, xã Vĩnh Lộc A, huyện Bình Chánh cách quán Ốc Đêm khoảng 500 mét Nghĩa nhìn thấy Quang đứng bên lề đường Nghĩa liền cho nhóm la lên “Nó kìa” Hùng Nghiệp liền bước xuống xe, Nghĩa tay trái cầm mã tấu đến chỗ Quang đứng Anh Quang nói “Đừng chém, có từ từ nói”, Nghĩa nói “Mày đánh tao mà cịn nói chuyện gì” Nghĩa cầm mã tấu chém thẳng vào người, vào đầu anh Quang Cùng lúc này, Nghiệp bước xuống xe cầm bida đánh vào lưng, đầu anh Quang khoảng 05 đến 06 nhát, anh Quang đứng dậy bỏ chạy đoạn vấp gã, lúc ngày Nghĩa đuổi kịp dùng mã tấu chém từ phải sang trái trúng vào tay trái anh Quang làm cánh tay gần đứt lìa Sau nhóm bỏ đi, anh Quang người nhà đưa cấp cứu Bệnh viện 115 phẩu thuật điều trị Sau gây án, đối tượng bỏ trốn, đến ngày 16/10/2016 đầu thú Cơng an huyện Bình Chánh Tại Bản kết luận giám định pháp y thương tích số 160/2016/PY-TgT ngày 18/8/2016 Trung tâm pháp y tỉnh B kết luận thương tích anh Nguyễn Văn Quang sau: 36 - Vết thương đứt lìa bàn tay trái phâu thuật vi phẫu nối bàn tay-cẳng tay; cổ tay có sẹo vịng chu vi cổ tay khâu; - Vết thương vùng đầu điều trị; vùng đầu phải vết thương để sẹo mờ kích thước (10x0,3)cm - Thương tích khơng nguy hiểm đến tính mạng đương Tỷ lệ tổn thương thể thương tích gây nên 28% Kết luận khác: Thương tích vật tày tác động mạnh gây Cục kim loại quan điều tra cung cấp gây thương tích Tại Cáo trạng số 05/CTr-VKS ngày 07 tháng 12 năm 2016 Viện kiểm sát nhân dân huyện B, thành phố Hồ Chí Minh truy tố bị cáo Trương Quang Nghĩa tội “Cố ý gây thương tích” theo khoản Điều 104 Bộ luật hình năm 1999 (đã sửa đổi, bổ sung năm 2009) Tại phiên tòa, đại diện Viện kiểm sát giữ nguyên quan điểm truy tố bị cáo tội danh cáo trạng đề nghị Hội đồng xét xử: Áp dụng khoản Điều 104; điểm b,p khoản 1, khoản Điều 46 Bộ luật hình năm 1999 (đã sửa đổi, bổ sung năm 2009) đề nghị xử phạt bị cáo Trương Quang Nghĩa từ 02 năm 06 tháng đến 03 năm tù Bản án Khoảng 15 30 phút ngày 30/9/2019, Trong lúc nhậu quán bà T, anh L T xảy mâu thuẫn T khơng uống tiếp địi về, anh L cho T khinh nên khơng uống bảo T tiếp tục uống Nhân lúc anh L vệ sinh, T bảo anh K chở T nhà số 19 đường V, khu phố D, thị trấn B, huyện P, tỉnh B Trên đường ngang qua quán nhậu “Cô Trâm” (gần nhà T), T bảo anh K tấp xe vào quán ngồi chơi với anh Phan Văn D, Võ Đình T (Đồng trú D, thị trấn B, huyện P, tỉnh B); đây, T không nhậu, anh K uống 02-03 ly rượu điều khiển xe T nhà trước Trong lúc ngồi quán “Cô Trâm”, anh L T có gọi nhiều điện thoại cho nhau, hai bên cãi vả, chửi anh L có thách thức T sử dụng khí để đánh tượng đài thị trấn B, huyện P, tỉnh B Đến khoảng 19 30 phút ngày, anh L điều khiển xe mô tô đến trụ ATM Agribank thị trấn B, huyện P, tỉnh B để chuyển tiền đến tượng đài để gặp T đánh Khi nhìn thấy đèn xe anh L vào dừng gần nhà T cầm dao chạy đến chém nhát từ xuống trúng vào xe mô tơ mang biển kiểm sốt 77H6xxx anh L; thấy vậy, anh L bước xuống xe T tiếp tục vung dao chém nhát từ trái sang phải trúng hông phải anh L, anh L liền chụp giữ dao giằng co, vật lộn với T làm hai ngã xuống đất Trong lúc giằng co, T giật lại dao dùng chân dậm phần lưỡi dao bị cong cho thẳng lại; lúc này, anh L đứng phía sau lưng T chửi T việc T chém anh L Nghe vậy, T bực tức cầm dao quay phía anh L anh L bỏ chạy dọc theo đường Võ Trọng S hướng phía Quốc lộ 1A; T cầm dao rượt theo anh L đoạn khoảng 20m anh L bị vấp chân dừng lại quay người lại đối diện với T Ngay lúc này, T nhào đến vung ngang dao chém nhát từ phải sang trái trúng vào tay trái anh L Do bị thương tích nặng nên anh Lê Tấn L chuyển đến Bệnh viện đa khoa tỉnh B cấp cứu phẩu thuật điều trị Sau gây án, đối tượng bỏ trốn, đến ngày 16/10/2019 đầu thú Cơng an huyện P Tại Bản kết luận giám định pháp y thương tích số 227/2019/PY-TgT ngày 14/11/2019 Trung tâm pháp y tỉnh B kết luận thương tích anh Lê Tấn L sau: - Vết thương đứt lìa bàn tay trái phẩu thuật vi phẫu nối bàn tay-cẳng tay; cổ tay có sẹo vịng chu vi cổ tay cịn khâu; ngón tay hồng, ấm, vận động ngón II, hạn chế vận động ngón cịn lại 37 - Vết thương vùng hơng phải với kích thước (12x0,3)cm (thể biên ghi lời khai biên hỏi cung bị can) điều trị - Thương tích khơng nguy hiểm đến tính mạng đương Tỷ lệ tổn thương thể thương tích gây nên 25% Tại cáo trạng số 129/CTr -VKS ngày 17 tháng 12 năm 2019 Viện kiểm sát nhân dân huyện Bình Chánh, Thành phố Hồ Chí Minh truy tố bị cáo Hồng Tơn tội “Cố ý gây thương tích” theo khoản Điều 104 Bộ luật hình năm 1999 sửa đổi, bổ sung năm 2009 tội “Cố ý làm hư hỏng tài sản” theo khoản Điều 143 Bộ luật hình năm 1999 sửa đổi, bổ sung năm 2009 Chúng ta thấy rằng, hai văn đƣợc chia thành đoạn với ý nghĩa khác nhau: đoạn đầu mô tả trình việc xảy ra, đoan sau thể kết việc đƣợc mô tả đoạn đầu - Đoạn mơ tả q trình việc xảy văn có độ tƣơng đồng thấp chúng chủ yếu chứa từ ngữ tên ngƣời tên địa danh, từ ngữ không ảnh hƣởng nhiều đến độ tƣơng tự ý nghĩa văn nên đƣợc loại bỏ tiến hành xử lý văn - Đoạn thứ mô tả kết đoạn đầu nhận thấy hai đoạn hai văn có độ tƣơng đồng cao số từ chung hai văn không nhiều, hay thứ tự xuất từ khác Chúng lặp lại từ pháp lý từ, cụm từ tham chiếu đến điều luật cụ thể luật luật Theo thực nghiệm, độ tƣơng tự hai văn Cosine Similarity (VB1,VB2) = 0.71338799, kết phản ánh đƣợc độ tƣơng tự hai văn Những từ ngữ ảnh hƣởng đến kết độ đo tƣơng đồng hai văn bôi đậm chủ yếu xuất đoạn thứ hai 4.4.3 Đánh giá phương pháp với truy vấn đoạn văn ngắn Các thực nghiệm phần giống với thực nghiệm phần trên, khác câu truy vấn đoạn văn ngắn Mục đích để so sánh độ xác phƣơng pháp điều kiện gần với thực tế ngƣời dùng Bảng thể kết phƣơng pháp thống kê học sâu Chúng ta thấy phƣơng pháp tiếp cận học chuyển cho kết tốt Tuy nhiên độ xác giảm nhiều so với việc truy vấn văn Lý đoạn văn truy vấn khơng đủ thơng tin nên việc tìm kiếm văn tƣơng tự trả khơng đƣợc xác Các truy vấn cho kết tốt thƣờng truy vấn từ câu trở lên (lớn 30 từ), truy vấn chứa từ khóa quan trọng theo đặc trƣng văn luật Phƣơng pháp Thống kê Jaccard Độ xác 0.153 TF-IDF 0.244 Word2Vec Sum 0.435 TFIDF 0.423 Doc2Vec DBOW 0.504 DM 0.493 Học Chuyển DBOW 0.575 Bảng 8: Kết phƣơng pháp theo tiếp cận thống kê học sâu 38 DM 0.528 Dựa vào kết thực nghiệm phân tích kết dựa chun gia, chúng tơi hi vọng đƣa đƣợc hƣớng dẫn gợi ý tìm kiếm cho ngƣời dùng, để chƣơng trình trả kết Dƣới chúng tơi lấy ví dụ việc truy vấn với từ ngữ hợp lý kết tốt hơn: Mô tả 1: không chứa từ ngữ pháp lý mà mô tả từ ngữ tự nhiên “Ngày 15/10/2019 Tôi điều khiển xe ô tô đâm vào ông A, làm ông A bị thương chết bệnh viện Khi tơi có đưa ơng A vào bệnh viện tốn tiền viện phí Cho tơi hỏi phải chịu trách nhiệm trước pháp luật?” Mô tả 2: Chứa từ ngữ pháp lý “gây tai nạn giao thông” “Ngày 15/10/2019 Tôi điều khiển xe ô tô gây tai nạn giao thông, làm ông A bị thương chết bệnh viện Sau gây tai nạn tơi có đưa ơng A vào bệnh viện tốn tiền viện phí Cho hỏi phải chịu trách nhiệm trước pháp luật?” Mô tả 3: Chứa cụm từ ngữ pháp lý theo luật “gây tai nạn giao thông dẫn đến chết người” “Ngày 15/10/2019 Tôi điều khiển xe ô tô gây tai nạn giao thông dẫn đến chết người Sau gây tai nạn tơi có đưa ông A vào bệnh viện cấp cứu toán tiền viện phí Cho tơi hỏi tơi phải chịu trách nhiệm trước pháp luật?” Chúng ta thấy rằng, mơ tả có độ dài, mơ tả tình gây tai nạn giao thông Tuy nhiên, mô tả sử dụng từ ngữ pháp lý quan trọng “gây tai nạn giao thơng dẫn đến chết người” kết trả văn theo đánh giá chuyên gia tốt hẳn so với mô tả môt tả lần lƣợt văn văn Các kết cho chúng tơi kết ban đầu tích cực cho tốn tính tốn độ tƣơng tự văn luật tiếng Việt Do đặc thù miền liệu nên theo hiểu biết chúng tôi, thử nghiệm miền liệu Với kết nhƣ cho thấy kết hứa hẹn cho nghiên cứu sau 39 CHƢƠNG 5: KẾT LUẬN VÀ CƠNG VIỆC TRONG TƢƠNG LAI 5.1 Kết luận Tính toán độ tƣơng tự văn toán đƣợc quan tâm nhiều nhà nghiên cứu nƣớc thời gian qua Bởi nguồn tài liệu Internet nhiều nhƣng việc khai thác lại gặp nhiều khó khăn Mục đích đề tài nghiên cứu thử nghiệm phƣơng pháp tính độ tƣơng tự văn Luật tiếng Việt dựa kết hợp yếu tố độ tƣơng tự ngữ nghĩa độ tƣơng tự thứ tự từ Các kết luận văn thu đƣợc: - Tìm hiểu khái niệm độ tƣơng tự, độ tƣơng tự mặt ngữ nghĩa Nghiên cứu phƣơng pháp tính độ tƣơng tự văn bản, vector hóa đặt trƣng văn Xây dựng corpus với văn luật tiếng Việt (Bản án) Thực nghiệm thành công phƣơng pháp đo độ tƣơng tự văn luật tiếng Việt Chỉ phƣơng pháp phù hợp với miền liệu văn luật tiếng Việt Mặc dù Luận văn đạt đƣợc yêu cầu mục tiêu để nhƣng thời gian trình độ cịn hạn chế nên chắn luận văn tránh khỏi thiếu sot, mong nhận đƣợc ý kiến đóng góp q thầy để luận văn đƣợc hồn thiện 5.2 Công việc tƣơng lai Giai đoạn chuyển đổi tập tin từ Word, PDF ban đầu sang dạng text loại bỏ ký tự dƣ thƣa chƣa thực tốt dẫn đến ảnh hƣởng đến kết chƣơng trình cần đƣợc cải thiện Sử dụng nhãn có 25,000 văn để nâng cao tốc độ xử lý chƣơng trình Thực nghiệm cho kết tốt, nhiên cần đƣợc hiệu chỉnh để nâng cao độ xác nhƣ tốc độ xử lý để đƣa vào ứng dụng thực tế Cần thu thập thêm liệu mẫu thử để phục vụ cho việc đánh giá đƣợc xác 40 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt Đỗ Thị Thanh Nga, “Tính tốn độ tương tự ngữ nghĩa văn dựa vào độ tương tự từ với từ”, Đại học Công nghệĐại học Quốc gia Hà Nội, 2010 Nguyễn Trung Kiên, “Ph Quốc giá Hà Nội, 2006 đ t V t sử dụ h h CRF ”, Đại học Lê Quý Tài, “Nghiên cứu phương pháp xử lý tiếng Việt, ứng dụng cho tóm tắt văn bản”, Đại học Quốc gia Hà Nội, 2011 Luật 17/2008/QH12 Quốc hội “Nghiên cứu kỹ thuật đánh giá độ tương đồng văn ứng dụng so sánh văn tiếng Việt” Th.S Nguyễn Kim Anh, Đại học Hàng hải Việt Nam, 2016 Tài liệu tiếng Anh Taeho Jo “Neural Based Approach to Keyword Extraction from Documents” May 2003 Lan H Witten: “KEA Practical Automatic Keyphrase Extraction” Le, Q and Mikolov, T., 2014, January “Distributed representations of sentences and documents InInternational conference on machine learning(pp 1188-1196).” Dishashree 2017 “Transfer learning and the art of using Pre-trained Models in Deep Learning” 10 Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean (2013), “Distributed Representations of Words and Phrasesand their Compositionality”, arXiv:1310.4546v1 11 Christopher D Manning, Prabhakar Raghavan & Hinrich Schütze (2008) "Introduction to Information Retrieval" Cambridge University Press 12 Christopher D Manning, Prabhakar Raghavan & Hinrich Schütze (2008) "Introduction to Information Retrieval" Cambridge University Press 13 Khan, Aurangzeb & Bahurdin, B & Khan, Khairullah (2009) An Overview of E-Documents Classification Proceedings of International Conference on Machine Learning and Computing (ICMLC 2009) 14 Madjid Khalilian and Shiva Hassanzadeh (2019) "Document classification methods" arXiv:1909.07368 15 Tomas Mikolov and Kai Chen and Greg Corrado and Jeffrey Dean (2013) "Efficient Estimation of Word Representations in Vector Space" arXiv:1301.3781 41 16 Fuzhen Zhuang and Zhiyuan Qi and Keyu Duan and Dongbo Xi and Yongchun Zhu and Hengshu Zhu and Hui Xiong and Qing He (2020) "A Comprehensive Survey on Transfer Learning" arXiv:1911.02685 17 George-Sebastian Pirtoaca and Traian Rebedea and Stefan Ruseti (2019) "Improving Retrieval-Based Question Answering with Deep Inference Models" arXiv:1812.02971 18 Gidi Shperber (Jul 26, 2017) “A gentle introduction to Doc2Vec” https://medium.com/wisio/a-gentle-introduction-to-Doc2Vec-db3e8c0cce5e 19 J Ramos et al., “Using TF-IDF to determine word relevance in document queries,” in Proceedings of the first instructional conference on machine learning, 2003 42 ... tài Nghiên cứu tổng quan vấn đề xử lý văn tiếng Việt số phƣơng pháp đánh giá độ tƣơng tự văn tiếng Việt Nghiên cứu đặc điểm văn luật tiếng Việt, xây dựng mơ hình biểu diễn văn luật tiếng Việt. .. phƣơng pháp đo độ tƣơng tự văn luật tiếng Việt Đề xuất giải pháp nhằm nâng cao hiệu xuất tính tốn độ tƣơng tự văn luật tiếng Việt CHƢƠNG KIẾN THỨC NỀN TẢNG 2.1 Đặc điểm văn tiếng Việt Văn tiếng Việt. .. điểm văn Luật tiếng Việt 2.3 Sự khác văn tiếng Việt văn luật tiếng Việt 2.4 Tổng quan tốn độ tƣơng tự văn 2.4.1 Khái niệm độ tƣơng tự văn 2.4.2 Ứng dụng toán đo độ tƣơng