(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	53
Dung lượng	897,83 KB

Nội dung

(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition(Luận văn thạc sĩ) Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN MINH SƠN Sử dụng Active Learning việc lựa chọn liệu gán nhãn cho toán Speech Recognition LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH HÀ NỘI – NĂM 2021 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN MINH SƠN Sử dụng Active Learning việc lựa chọn liệu gán nhãn cho tốn Speech Recognition Ngành: Cơng nghệ thơng tin Chuyên ngành: Khoa học máy tính Mã số: 8480101.01 LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN XUÂN HOÀI HÀ NỘI – NĂM 2021 Lời cảm ơn Lời xin gửi lời cảm ơn chân thành tới PGS.TS Nguyễn Xuân Hoài, người thầy bảo hướng dẫn tận tình cho tơi suốt q trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn giúp đỡ anh Đỗ Văn Hải (Trung tâm không gian mạng Viettel) định hướng tận tình giúp đỡ tơi q trình thực luận văn Tôi xin chân thành cảm ơn giúp đỡ, tạo điều kiện cho trình làm việc nghiên cứu bạn bè, đồng nghiệp Trung tâm không gian mạng Viettel Và cuối cùng, tơi xin gửi lời cảm ơn tới gia đình, người thân bạn bè - người bên tơi lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi sống cơng việc Tôi xin chân thành cảm ơn! Lời cam đoan Tơi xin cam đoan luận văn hồn thành sở nghiên cứu, tổng hợp phát triển nghiên cứu tốn nhận dạng tiếng nói nước giới thực Luận văn mới, đề xuất luận văn tơi thực hiện, qua q trình nghiên cứu đưa không chép nguyên từ nguồn tài liệu khác Hà Nội, ngày 30/05/2021 Học viên Nguyễn Minh Sơn Mục lục Bảng thuật ngữ Mở đầu Chương Giới thiệu toán 12 1.1 Tổng quan 12 1.2 Quy trình gán nhãn liệu 14 1.3 Vấn đề hệ thống gán nhãn liệu 15 1.3.1 Các phương pháp lựa chọn liệu gán nhãn 15 1.3.2 Đánh giá chất lượng gán nhãn 16 Chương Mơ hình nhận dạng tiếng nói 18 2.1 Giới thiệu 18 2.2 Kiến trúc mơ hình nhận dạng tiếng nói 20 2.2.1 Đặc trưng âm học (Acoustic Front-end) 21 2.2.2 Mô hình âm học (Acoustic Model) 23 2.2.3 Mơ hình ngơn ngữ (Language Model) 24 2.2.4 Bộ giải mã (Decoder) 25 2.3 Khảo sát mơ hình nhận dạng tiếng nói 26 2.3.1 Công cụ Kaldi 27 2.3.2 Deep Speech: Scaling up end-to-end speech recognition 30 2.3.3 Wav2letter++ Scaling Up Online Speech Recognition Using ConvNets 32 2.3.4 Mơ hình QuartzNet: Deep Automatic Speech Recognition with 1D Time-Channel Separable Convolutions 32 2.3.5 ASR PyChain: A Fully Parallelized PyTorch Implementation of LF-MMI for End-to-End 34 2.3.6 Conformer: Convolution-augmented Transformer for Speech Recognition 34 Chương Phương pháp học chủ động cho tốn nhận dạng tiếng nói 37 3.1 Cơ sở lý thuyết [11] 37 3.1.1 Định nghĩa cụ thể phương pháp học chủ động sau 37 3.1.2 Ngữ cảnh phương pháp học chủ động 38 3.1.3 Chiến lược truy vấn phương pháp học chủ động 38 3.2 Một số áp dụng phương pháp học chủ động cho tốn nhận dạng tiếng nói 39 3.2.1 Active Learning For Automatic Speech Recognition [13] 39 3.2.2 Active Learning for Speech Recognition: the Power of Gradients [14] 40 3.2.3 Active and Semi-Supervised Learning in ASR: Benefits on the Acoustic and Language Models [15] 40 Chương Cài đặt thực nghiệm 42 Chương 5: Kết luận 48 TÀI LIỆU THAM KHẢO 50 Danh sách hình ảnh, biểu đồ Ảnh Thị trường gán nhãn liệu 12 Ảnh Một số loại liệu toán gán nhãn (Lionbridge AI) 13 Ảnh Quy trình gán nhãn liệu 14 Ảnh Lịch sử phát triển hệ thống nhận dạng tiếng nói 18 Ảnh Độ xác Google Voice qua thời kỳ [2] 19 Ảnh Kiến trúc mơ hình nhận dạng tiếng nói [16] 20 Ảnh Các bước trích rút đặc trưng MFCC 23 Ảnh Các mơ hình nhận dạng liệu librispeech-test-clean [3] 26 Ảnh Kiến trúc công cụ Kaldi 27 Ảnh 10 End-to-End Deep Speech 31 Ảnh 11 Khối Time-Depth Separable 32 Ảnh 12 Kiến trúc mạng QuartzNet 33 Ảnh 13 Khối Conformer 35 Ảnh 14 Các ngữ cảnh phương pháp học chủ động [12] 38 Ảnh 15 Các bước thực phương pháp học chủ động 39 Ảnh 16 Đánh giá độ xác theo tiêu chí lựa chọn 40 Ảnh 17 Kết áp dụng phương pháp học chủ động học bán giám sát 41 Ảnh 18 Đồ thị bảng 46 Danh sách Bảng Bảng Hiệu số cơng cụ nhận đạng tiếng nói (ASR) Error! Bookmark not defined Bảng Kết so sánh QuartzNet với số mơ hình 33 Bảng Hiệu so sánh Pychain 34 Bảng Bảng so sánh độ xác Conformer 35 Bảng Tập liệu kiểm thử 42 Bảng Bảng thí nghiệm so sánh AL phương pháp ngẫu nhiên (đơn vị WER) 43 Bảng Thí nghiệm với ngưỡng alpha khác (đơn vị WER) 46 Bảng thuật ngữ Tên thuật ngữ Mô tả Deep Learning Học sâu Active Learning Phương pháp học chủ động Acoustic Model Mơ hình âm học Language Model Mơ hình ngơn ngữ Acoustic Score Trọng số mơ hình âm học Language Model Score Trọng số mơ hình ngơn ngữ HMM Hidden Markov Model Mơ hình Markov ẩn GMM Gaussian Mixture Model (Mơ hình Gaussian hỗn hợp) Hybrid Phương pháp lai RNN Mạng nơ ron hồi quy CTC layer Connectionist temporal classification Attention Cơ chế tập trung, ý LF-MMI Lattice-free maximum mutual information End-to-End WER Phương pháp học đầu-cuối mà không cần qua nhiều bước trung gian Word Error Rate - Tỉ lệ lỗi theo từ câu nhận dạng để đánh giá độ xác hệ thống nhận dạng tiếng nói (Tỉ lệ lỗi tốt có giá trị 0, tất từ nhận dạng đúng) MFCC Mel-Frequency Cepstrum Co-efficients (Một phương pháp trích rút đặc trưng biểu diễn tín hiệu âm thanh) DNN Deep Neural Network ASR Automatic speech recognition - Nhận dạng tiếng nói tự động ... pháp lựa chọn liệu gán nhãn Luận văn tập trung vào việc lựa chọn liệu gán nhãn (cụ thể cho tốn nhận dạng tiếng nói) Bước lựa chọn liệu gán nhãn bước quan trọng hầu hết hệ thống gán nhãn Trong. .. chất lượng gán nhãn tốn 1.3 Vấn đề hệ thống gán nhãn liệu Một hệ thống gán nhãn liệu thường gặp vấn đề sau đây:  Lựa chọn liệu gán nhãn: bước quan trọng hệ thống gán nhãn Lựa chọn liệu giúp giảm... động hóa… Các liệu gán nhãn đa dạng, phong phú lấy từ nhiều nguồn:  Dữ liệu văn  Dữ liệu hình ảnh  Dữ liệu âm  Dữ liệu video  Dữ liệu có cấu trúc (HTML, XML, Excel) Đối với liệu văn bản, ta

Ngày đăng: 06/01/2023, 15:10