Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 127 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
127
Dung lượng
1,09 MB
Nội dung
BỘ GIÁ O DỤC VÀ ĐÀO TẠO VIỆN HÀ N LÂ M KHOA HỌC VÀ CÔ NG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔ NG NGHỆ NGUYỄN THỊ THU HIỀN NGHIÊ N CỨU PHƯƠNG PHÁP CHUẨN HOÁ VĂN BẢN VÀ NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG NHẬN DẠNG TIẾNG NÓ I TIẾNG VIỆT LUẬN Á N TIẾN SĨ NGÀNH MÁY TÍNH HÀ NỘI - 2023 BỘ GIÁ O DỤC VÀ ĐÀO TẠO VIỆN HÀ N LÂ M KHOA HỌC VÀ CÔ NG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔ NG NGHỆ NGUYỄN THỊ THU HIỀN NGHIÊ N CỨU PHƯƠNG PHÁP CHUẨN HOÁ VĂN BẢN VÀ NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG NHẬN DẠNG TIẾNG NÓ I TIẾNG VIỆT LUẬN Á N TIẾN SĨ NGÀNH MÁY TÍNH Chun ngành: Hệ thống thơng tin Mã số: 48 01 04 Xác nhận Học viện Người hướng dẫn Người hướng dẫn Khoa học Công nghệ (Ký, ghi rõ họ tên) (Ký, ghi rõ họ tên) HÀ NỘI - 2023 i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết nêu luận án trung thực chưa cơng bố cơng trình khác Tác giả Nguyễn Thị Thu Hiền ii LỜI CẢM ƠN Luận án tác giả thực Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam, hướng dẫn tận tình PGS.TS Lương Chi Mai TS Nguyễn Thị Minh Huyền Tôi xin bày tỏ lịng biết ơn sâu sắc đến hai Cơ định hướng nghiên cứu, động viên hướng dẫn tận tình giúp tơi vượt qua khó khăn để hồn thành luận án Tơi xin gửi lời cảm ơn chân thành đến nhà khoa học, đồng tác giả cơng trình nghiên cứu trích dẫn luận án Đây tư liệu q báu có liên quan giúp tơi hồn thành luận án Tôi xin chân thành cảm ơn đến Ban lãnh đạo Học viện Khoa học Công nghệ, Viện Công nghệ Thông tin tạo điều kiện thuận lợi cho tơi q trình học tập, nghiên cứu Tôi xin chân thành cảm ơn Ban giám hiệu trường Đại học Sư phạm ĐH Thái Nguyên, Khoa Toán, Bộ mơn Khoa học máy tính - Hệ thống thơng tin đồng nghiệp giúp đỡ tạo điều kiện thuận lợi để tơi thực kế hoạch nghiên cứu, hồn thành luận án Tơi xin bày tỏ tình cảm lịng biết ơn vơ hạn tới người thân Gia đình, người ln dành cho tơi động viên, khích lệ, sẻ chia, giúp đỡ lúc khó khăn Tác giả Nguyễn Thị Thu Hiền iii MỤC LỤC Trang LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC TỪ VIẾT TẮT v DANH MỤC BẢNG BIỂU vii DANH MỤC HÌNH VẼ viii MỞ ĐẦU .1 CHƯƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊ N CỨU 1.1 Xử lý ngôn ngữ tự nhiên .7 1.2 Nhận dạng tiếng nói 11 1.3 Chuẩn hóa văn 16 1.4 Nhận dạng thực thể định danh 24 1.5 Tổng quan liệu 34 1.6 Kết luận Chương 36 CHƯƠNG 2: KIẾN THỨC CƠ SỞ 37 2.1 Mơ hình xử lý chuỗi 37 2.2 Mơ hình biểu diễn từ 44 2.3 Mơ hình gán nhãn chuỗi 50 2.4 Học đa tác vụ 53 2.5 Kết luận chương .56 CHƯƠNG 3: CHUẨN HÓA VĂN BẢN ĐẦU RA CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓ I TIẾNG VIỆT 57 3.1 Bài toán .57 3.2 Xây dựng liệu 58 3.3 Kiến trúc mơ hình 60 3.4 Kết thực nghiệm 68 3.5 Kết luận Chương 73 iv CHƯƠNG 4: NHẬN DẠNG THỰC THỂ ĐỊNH DANH CHO VĂN BẢN ĐẦU RA CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓ I TIẾNG VIỆT 75 4.1 Bài toán .75 4.2 Tổng quan liệu .76 4.3 Nhận dạng thực thể định danh theo hướng tiếp cận Đường ống 77 4.4 Nhận dạng thực thể định danh theo hướng tiếp cận E2E 87 4.5 Kết luận Chương 98 KẾT LUẬN .99 DANH MỤC CƠ NG TRÌNH CỦA TÁ C GIẢ 101 TÀ I LIỆU THAM KHẢO 103 v DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt ASR Từ tiếng Anh Ý nghĩa tiếng Việt Automatic Speech Nhận dạng tiếng nói tự Recognition động Bidirectional Encoder BERT Representations from Transformers BiLSTM BPE CaPu Mơ hình nhớ ngắn-dài Term Memory hạn hai chiều Byte-Pair-Encoding Mã hoá cặp byte Capitalization and Punctuation model CBOW CNN CRF dựa Transformers Bidirectional Long Short Recovering Mã hóa biểu diễn hai chiều Mơ hình khơi phục dấu câu chữ hoa Continuous Bag of Mơ hình nhúng từ “Túi từ Words liên tục” Convolutional Neural Network Mạng nơ-ron tích chập Conditional Random Trường ngẫu nhiên có điều Fields kiện DL Deep Learning Học sâu 10 DNN Deep Neural Networks Mạng nơ-ron sâu 11 ELMO Embeddings from Nhúng từ từ mơ hình ngơn Language Model ngữ 12 E2E End-to-End Mơ hình đầu - cuối 13 GloVe Global Véc-tơs for Word Mơ hình nhúng từ dựa Representation biểu diễn từ 14 GRU Gated Recurrent Unit Mạng hồi tiếp có cổng vi Generative pre-trained Mơ hình biến đổi huấn transformer luyện trước 16 HMM Hidden Markov Model Mơ hình Markov ẩn 17 LM Language Model Mơ hình ngơn ngữ Long Short Term Mơ hình nhớ ngắn-dài Memory hạn Maximum Entropy Mơ hình Entropy cực đại Maximum Entropy Mơ hình Markov Entropy Markov Model cực đại Multi-Task Learning Học đa tác vụ Named Entity Nhận dạng thực thể định Recognition danh Out-of-Vocabulary Từ nằm từ điển 15 GPT 18 LSTM 19 ME 20 MEMM 21 MTL 22 NER 23 OOV 24 RNN 25 Seq2seq 26 SLU 27 SVM 28 VLSP Recurrent Neural Network Sequence-to-Sequence Spoken Language Understanding Mô hình ánh xạ từ chuỗi sang chuỗi Hiểu ngơn ngữ nói Support Véc-tơ Machine Máy véc-tơ hỗ trợ Vietnamese Language Hội thảo xử lý ngôn ngữ and Speech Processing tiếng nói tiếng Việt 29 XLNNTN 30 TTS Mạng nơ-ron hồi quy Xử lý ngôn ngữ tự nhiên Text To Speech Hệ thống chuyển văn sang tiếng nói 31 WER Word Error Rate Tỉ lệ lỗi từ