Nguy n Th Thanh Huy n ễịềNguyễn Hoàng Đạt CH T CH HỦ ỊỘI ĐỒNG Trang 4 Lời cảm ơnLời đầu tiên, tác giả xin được gửi lời cảm ơn chân thành đến Tiến sĩ NguyễnThị Thanh Huyền bởi sự trợ giú
2019A - TỐN TIN NGUYỄN HỒNG ĐẠT CA190266 Tai ngay!!! Ban co the xoa dong chu nay!!! 17061132159731000000 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ MÔ HÌNH NGƠN NGỮ CHO MỘT SỐ BÀI TỐN XỬ LÝ NGƠN NGỮ TỰ NHIÊN NGUYỄN HỒNG ĐẠT dat.nhca190266@sis.hust.edu.vn Chun ngành Toán Tin Giảng viên hướng dẫn: TS Nguyễn Thị Thanh Huyền Viện: Toán ứng dụng Tin học HÀ NỘI, 09/2020 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Nguyễn Hoàng Đạt Đề tài luận văn: Mơ hình ngơn ngữ cho số tốn xử lý ngơn ngữ tự nhiên Chuyên ngành: Toán Tin Mã số SV: CA190266 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 23/09/2020 với nội dung sau: • Khơng sửa chữa Ngày 24 tháng 09 năm 2020 Giáo viên hướng dẫn Tác giả luận văn TS Nguyễn Thị Thanh Huyền Nguyễn Hồng Đạt CHỦ TỊCH HỘI ĐỒNG TS Lê Chí Ngọc Lời cảm ơn Lời đầu tiên, tác giả xin gửi lời cảm ơn chân thành đến Tiến sĩ Nguyễn Thị Thanh Huyền trợ giúp nhiệt tình suốt trình nghiên cứu Tác giả xin trân trọng cảm ơn Viện Tốn ứng dụng Tin học, Phịng đào tạo - Bộ phận quản lý đào tạo sau đại học, Trường Đại học Bách Khoa Hà Nội tạo điều kiện thuận lợi để để tác giả hoàn thành luận văn Đồng thời tác giả xin gửi lời cảm ơn tới Tiến sĩ Lê Chí Ngọc với tồn thể thành viên phịng nghiên cứu phát triển công ty Cổ phần Truyền thông Công nghệ iCOMM Việt Nam suốt trình làm luận văn hỗ trợ liệu góp ý chuyên mơn để tác giả nghiên cứu hồn thành đề tài Hà Nội, ngày 30 tháng năm 2020 Nguyễn Hồng Đạt Tóm tắt nội dung Trong vài năm gần đây, lĩnh vực xử lý ngôn ngữ tự nhiên có bước chuyển lớn Những nghiên cứu liên quan đến mơ hình ngơn ngữ liên tục tạo kết đột phá, gần trở thành tiêu chuẩn cho nghiên cứu ngôn ngữ tự nhiên Trong luận văn này, giới thiệu hai mơ hình xây dựng dựa mơ hình ngôn ngữ học trước, áp dụng cho toán nhận diện tên thực thể phân loại sắc thái văn Mơ hình ngơn ngữ cho phép mã hóa nhiều thơng tin quan trọng ngơn ngữ, dễ dàng đưa vào mơ hình phân loại Cả hai mơ hình đạt kết tốt cho hai toán, đồng thời linh hoạt, dễ dàng áp dụng, mở rộng cho toán phân loại khác xử lý ngôn ngữ tự nhiên Mã nguồn mơ hình viết ngơn ngữ lập trình Python, sử dụng Pytorch Từ khóa: Mơ hình ngơn ngữ, nhận diện tên thực thể, phân loại sắc thái văn bản, mạng biến đổi, chế ý, Python, Pytorch Mục lục Lời nói đầu Cơ sở lý thuyết 1.1 1.2 Xử lý ngôn ngữ tự nhiên 1.1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.1.2 Cơ sở lý thuyết ngôn ngữ tự nhiên 1.1.3 Hướng tiếp cận xử lý ngơn ngữ tự nhiên 11 1.1.4 Biểu diễn văn ngôn ngữ tự nhiên 16 Mơ hình ngơn ngữ 17 1.2.1 Giới thiệu mơ hình ngơn ngữ 17 1.2.2 Mô hình ngơn ngữ cổ điển 18 1.2.3 Mơ hình ngơn ngữ đại 21 Mơ hình ngơn ngữ áp dụng cho số toán nhận diện thực thể 2.1 2.2 31 Bài toán nhận diện tên thực thể tiếng Việt 32 2.1.1 Phát biểu toán 32 2.1.2 Nghiên cứu liên quan 34 Mô hình sử dụng 34 LUẬN VĂN THẠC SĨ 2.3 NGUYỄN HOÀNG ĐẠT 2.2.1 Hướng tiếp cận 34 2.2.2 Kiến trúc mơ hình 35 Thực nghiệm kết 40 2.3.1 Dữ liệu 40 2.3.2 Mơ hình ngơn ngữ 41 2.3.3 Thực nghiệm 42 2.3.4 Kết luận 48 Mơ hình ngơn ngữ áp dụng cho toán phân loại sắc thái văn 3.1 50 Bài toán phân loại sắc thái văn 51 3.1.1 Phát biểu toán 51 3.1.2 Nghiên cứu liên quan 53 3.2 Mơ hình sử dụng 54 3.3 Thực nghiệm kết 56 3.3.1 Dữ liệu 56 3.3.2 Mơ hình 58 3.3.3 Thực nghiệm 59 3.3.4 Kết luận 62 Kết luận 65 Các hướng nghiên cứu 66 Tài liệu tham khảo 66 Danh sách hình vẽ 1.1 Một neuron đơn giản 14 1.2 Mạng neuron lan truyền thuận 15 1.3 Mơ hình ngơn ngữ sử dụng mạng lan truyền tiến [3] 20 1.4 Cơ chế ý tích vector theo thang chế ý đa đầu [55] 23 1.5 Kiến trúc biến đổi [55] 24 1.6 Đầu vào mơ hình BERT 26 1.7 Từ bước học trước đến bước điều chỉnh BERT 28 2.1 Ví dụ nhận diện thực thể 32 2.2 Ví dụ thực thể lồng thực thể khác 32 2.3 Mơ hình xác định thực thể 36 2.4 Mơ hình xác định thực thể - biến thể 40 2.5 Giá trị hàm mát mơ hình PhoBERT câu hỏi truy vấn đầy đủ 43 2.6 Độ xác độ thu hồi tập kiểm thử 44 3.1 Hướng tiếp cận tốn phận tích sắc thái văn [52] 53 3.2 Một số mơ hình học sâu cho tốn phân tích sắc thái 54 3.3 Mơ hình đề xuất cho toán phân loại sắc thái văn 55 3.4 Độ xác thu hồi tập liệu kiểm thử 60 Danh sách bảng 2.1 Ví dụ câu hỏi cho thực thể 35 2.2 Miêu tả tập liệu VLSP-2016 41 2.3 Bộ câu hỏi đầy đủ 42 2.4 Độ xác, độ thu hồi điểm F1 nhãn tập thử 44 2.5 Độ xác, độ thu hồi điểm F1 macro micro 44 2.6 So sánh mơ hình với số nghiên cứu trước 45 3.1 Thống kê liệu VLSP 2018 58 3.3 Kết mơ hình với tập liệu nhà hàng 61 3.2 Kết mơ hình với tập liệu khách sạn 61 Lời nói đầu Trong năm gần đây, lĩnh vực nghiên cứu xử lý ngôn ngữ tự nhiên có bước chuyển vơ lớn, bước sang trang Sự chuyển đổi xuất mô hình ngơn ngữ ELMO, ULMFIT, BERT, XLNET Những mơ hình việc học trước từ khối liệu vơ lớn, nhanh chóng ghi danh hàng loạt tốn xử lý ngơn ngữ Trước đó, cơng thức chung cho phần lớn tốn xử lý ngơn ngữ tự nhiên bắt nguồn từ vector từ nhúng word2vec, Glove Tuy nhiên, biểu diễn phương pháp nhúng từ trước giống phần tảng băng chìm, chứa đựng phần thơng tin nhỏ từ Trong đó, mơ hình ngôn ngữ chứa đựng nhiều tầng thông tin, sâu hơn, trừu tượng Mơ hình ngơn ngữ dần thay vector từ nhúng nhiều toán Thay sử dụng lớp từ nhúng học trước mơ hình dùng sử dụng kiến trúc học trước, thêm vài tầng điều chỉnh để đạt kết vượt trội phương pháp khác Mơ hình tiêu biểu thời gian gần GPT-3, tự viết luận, cho thấy mơ hình ngơn ngữ bước đệm để đạt trình độ ngang người, chí chuyên gia xử lý ngôn ngữ Thúc đẩy lý trên, luận văn thạc sĩ, chọn đề tài xây