1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng xử lý ngôn ngữ tự nhiên trong phòng chống dịch

85 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 85
Dung lượng 1,36 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRONG PHỊNG CHỐNG DỊCH NGUYỄN PHÙNG HẢI CHUNG chung.nph202463m@sis.hust.edu.vn Ngành Tốn Tin Chuyên ngành Toán Tin Giảng viên hướng dẫn: Bộ mơn: TS LÊ CHÍ NGỌC Tốn Tin Viện: Tốn ứng dụng tin học HÀ NỘI, 2022 Chữ ký GVHD TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC o0o ỨNG DỤNG XỬ LÝ NGƠN NGỮ TỰ NHIÊN TRONG PHỊNG CHỐNG DỊCH LUẬN VĂN THẠC SĨ Ngành Toán Tin Chuyên ngành Toán Tin Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Học viên thực hiện: NGUYỄN PHÙNG HẢI CHUNG Mã học viên: 202463M Lớp: Toán Tin 20B HÀ NỘI, 2022 Lời cảm ơn Em xin gửi lời cảm ơn đến TS Lê Chí Ngọc, người thầy hướng dẫn giúp đỡ em suốt thời gian học tập trường Nhờ bảo thầy kiến thức thầy truyền tải, em hồn thành luận văn Tuy vậy, kiến thức cịn hạn chế, luận văn khơng tránh khỏi thiếu sót, em mong muốn nghe ý kiến đóng góp từ thầy, người đọc Em xin gửi lời cảm ơn đến thầy viện Tốn ứng dụng Tin học - Đại học Bách Khoa Hà Nội, giảng dạy giúp đỡ em bạn học thời gian chúng em học tập nghiên cứu trường Em xin chân thành cảm ơn! Hà Nội, 12 tháng 10 năm 2022 Tác giả luận văn Nguyễn Phùng Hải Chung Tóm tắt nội dung luận văn Trình bày ảnh hưởng COVID-19 người xã hội Đưa lý việc cần có ứng dụng hỗ trợ người phịng chống dịch bệnh Trình bày sở lý thuyết, khái niệm máy học xử lý ngôn ngữ tự nhiên Chỉ toán nhận dạng thực thể đặt tên áp dụng vào phương thức phịng dịch Ngồi ra, trình bày số mơ hình, thuật tốn học sâu quan trọng phương pháp đánh giá mơ hình để làm sở cho nghiên cứu Đề xuất số mơ hình phù hợp mạnh mẽ để áp dụng cho tốn nhận dạng thực thể đặt tên Trình bày phân tích hệ thống sử dụng xử lý ngơn ngữ tự nhiên với ứng dụng phịng chống dịch Trong đó, đề xuất cơng bố tập liệu nhận dạng thực thể đặt tên cho tiếng Việt với chủ đề COVID-19 Tiến hành huấn luyện mơ hình, thử nghiệm đánh giá tập liệu Qua đó, phân tích hạn chế khả ứng dụng vào thực tiễn Hà Nội, 12 tháng 10 năm 2022 Tác giả luận văn Nguyễn Phùng Hải Chung Mục lục Ký hiệu chữ viết tắt Danh sách bảng Danh sách hình vẽ Mở đầu Cơ sở lý thuyết 1.1 Máy học 1.2 Xử lý ngôn ngữ tự nhiên 12 1.2.1 Khái quát xử lý ngôn ngữ tự nhiên 12 1.2.2 Tách từ 14 1.2.3 Nhúng từ 15 1.3 Học sâu 16 1.3.1 Thuật toán học Perceptron 17 1.3.2 Mạng truyền thẳng nhiều lớp 19 1.3.3 Mạng hồi quy 20 1.3.4 Cơ chế ý 23 1.3.5 Mơ hình Transformer 24 1.4 Bài toán nhận dạng thực thể đặt tên 28 1.5 Các cách tiếp cận để giải toán NER 29 1.6 Phương pháp đánh giá mơ hình Mơ hình sử dụng 2.1 Học chuyển giao 30 31 31 2.1.1 Biểu diễn thể mã hóa hai chiều từ Transformer 33 2.1.2 Phương pháp tiền huấn luyện tối ưu cho BERT RoBERTa 35 2.1.3 Mơ hình đa ngơn ngữ kết hợp dựa RoBERTa 39 2.1.4 Mơ hình ngơn ngữ dành cho tiếng Việt - PhoBERT 40 2.2 Một số mô hình hỗ trợ 43 2.2.1 Thuật toán xếp hạng văn - BM25 43 2.2.2 Trường xác suất có điều kiện 45 Xây dựng hệ thống 47 3.1 Khảo sát nghiên cứu liên quan 48 3.2 Thiết kế hệ thống 49 3.3 Thu thập liệu 50 3.4 Các kiểu thực thể 51 3.5 Gán nhãn liệu 54 3.6 Tiền xử lý liệu 55 3.7 Huấn luyện đánh giá 56 3.8 Kết thực nghiệm 57 3.8.1 Phân tích lỗi 58 3.8.2 Ứng dụng thực tiễn 60 Tổng kết 65 Chỉ mục 67 Tài liệu tham khảo 79 Ký hiệu chữ viết tắt NLP Xử lý ngôn ngữ tự nhiên (Natural Language Processing) POS Từ loại (Part Of Speech) ASR Nhận dạng tiếng nói tự động (Automatic Speech Recognition) RNN Mạng neural hồi quy (Recurrent Neural Network) CNN Mạng neural tích chập (Convolutional Neural Network) GAN Mạng đối nghịch tạo sinh (Generative Adversarial Network) PLA Thuật toán Perceptron (Perceptron Learning Algorithm) MLP Mạng truyền thẳng nhiều lớp (Multi Layer Perceptron - MLP) NER Nhận dạng thực thể đặt tên (Named Entity Recognition) HMM Mơ hình Markov ẩn (Hidden Markov Model) SVM Máy véc-tơ hỗ trợ (Support Vector Machine) CRF Trường ngẫu nhiên có điều kiên (Conditional Random Field) XLM-R XLM-RoBERTa R tập số thực Rn không gian Euclide n chiều x∈D x, y x thuộc tập D ∥x∥ chuẩn Euclide x ∇f(x) v.đ.k véc-tơ gradient hàm f điểm x tích vơ hướng x y viết tắt cụm từ "với điều kiện" Danh sách bảng 2.1 Kết BERT tập liệu GLUE[60] 2.2 Kết BERT tập liệu SQuAD 1.1[49] 35 36 2.3 Kết BERT tập liệu SQuAD 2.0[50] 36 2.4 Kết BERT CoNLL-2003 37 2.5 So sánh phức tạp huấn luyện liệu (ppl) độ xác tập liệu với kích thước lơ (bsz) tỉ lệ học (lr) 37 2.6 So sánh chiến lược huấn luyện có khơng sử dụng hàm mát từ việc dự đoán câu 39 2.7 F1 theo hai phương pháp che tĩnh động so sánh số tập liệu [30] 39 2.8 Hiệu suất PhoBERT toán POS tagging Dependency parsing 41 2.9 Hiệu suất PhoBERT toán NER NLI 42 3.1 Mô tả kiểu thực thể 51 3.2 Thống kê tập liệu 52 3.3 Kết nhận dạng thực thể với PhoBERTlarge-CRF+CSC tập phát triển (trên) tập kiểm thử (dưới) 59 3.4 Kết nhận dạng thực thể cấp tập phát triển 61 3.5 Kết nhận dạng thực thể cấp tập kiểm thử 62 3.6 Kết nhận dạng thực thể cấp tập phát triển 63 3.7 Kết nhận dạng thực thể cấp tập kiểm thử 64 Danh sách hình vẽ 1.1 Mơ hình phân loại lĩnh vực xử lý ngơn ngữ tự nhiên 12 1.2 Biểu diễn Perceptron dạng mạng neural 18 1.3 MLP với lớp ẩn 19 1.4 Mơ hình dịch máy sử dụng kiến trúc RNN 23 1.5 Mơ hình sử dụng attention Trong ai,j điểm ý, hi trạng thái ẩn mã hóa, sj trạng thái ẩn giải mã, cj véc-tơ ngữ cảnh yj Token dự đoán 25 1.6 Kiến trúc Transformer [58] 26 1.7 Minh họa Self-attention 27 2.1 Học chuyển giao 32 2.2 So sánh 88 ngôn ngữ Wiki-100 CommonCrawl 41 2.3 Câu phân đoạn cấp tiếng (trên) phân đoạn theo cấp từ (dưới) 3.1 Hệ thống NER phòng chống COVID 41 49 3.2 Thực thể ngữ cảnh khơng nằm câu 3.3 Mô Cross-Sentence Context 55 55

Ngày đăng: 04/06/2023, 13:08

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w