48Kết luận và hướng phát triển50 Trang 8 Từ điển chú giảiKý hiệu Thuật ngữTạm dịchASRAutomatic Speech Recognition Nhận dạng tiếng nói tự độngDTWDynamic Time WarpingNắn chỉnh thời gian đ
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGHIÊM NGUYỄN VIỆT DŨNG CẢI TIẾN TRONG ĐỐN ĐỊNH VĂN BẢN CỦA MƠ HÌNH NHẬN DIỆN TIẾNG NÓI TRỰC TIẾP LUẬN VĂN THẠC SĨ KHOA HỌC KHOA HỌC MÁY TÍNH Hà Nội – Năm 2018 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057204866431000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGHIÊM NGUYỄN VIỆT DŨNG CẢI TIẾN TRONG ĐOÁN ĐỊNH VĂN BẢN CỦA MƠ HÌNH NHẬN DIỆN TIẾNG NĨI TRỰC TIẾP Chuyên ngành: KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS ĐỖ PHAN THUẬN Hà Nội – Năm 2018 Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học máy tính Cải tiến đốn định văn mơ hình nhận diện tiếng nói trực tiếp Học viên: Nghiêm Nguyễn Việt Dũng Giảng viên hướng dẫn: PGS Ts Đỗ Phan Thuận Ngày 21 tháng năm 2018 HV: NGHIÊM NGUYỄN VIỆT DŨNG Lời cam đoan KHMT-2016B HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Lời cảm ơn Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến thầy Đỗ Phan Thuận, người tận tình hướng đẫn tạo điều kiện cho em hoàn thành tốt luận văn tốt nghiệp Em xin cảm ơn dạy dỗ bảo tận tình tất q thầy trường Đại học Bách Khoa Hà Nội Tất kiến thức mà em thu hành trang quý giá đường học tập, làm việc nghiên cứu sau Xin trân trọng cảm ơn! Hà Nội, tháng năm 2018 Học viên Nghiêm Nguyễn Việt Dũng HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Mục lục Từ điển giải Danh sách hình vẽ Danh sách bảng Mở đầu Tổng quan 1.1 Hệ thống nhận dạng tiếng nói 1.2 Các hướng tiếp cận 1.3 Mơ hình ngơn ngữ nhận dạng 1.4 Các thách thức tiếng Mơ hình nhận dạng tiếng nói trực tiếp 2.1 Tổng quan 2.1.1 Mơ hình CTC 2.1.2 Mơ hình RNN-Transducer 2.1.3 Mơ hình Attention 2.1.4 Nhận xét đánh giá 2.2 Mơ hình nhận dạng tiếng nói trực tiếp sử 2.2.1 Kiến trúc mơ hình 2.2.2 Hàm CTC loss 2.2.3 Khối đoán định văn 2.3 Tiềm ứng dụng Tiếng Việt nói dụng CTC Thuật toán kỹ thuật đề xuất 3.1 Thuật toán Prefix Beam Search 3.2 Chuẩn hóa k phương thức tính tốn 3.3 Kỹ thuật cắt nhánh 3.4 Mơ hình ngôn ngữ n-gram kết hợp tiền tố 11 12 15 16 17 20 20 21 23 24 26 28 28 30 31 32 33 33 36 39 40 HV: NGHIÊM NGUYỄN VIỆT DŨNG Kết 4.1 4.2 4.3 4.4 thực nghiệm Thiết lập thí nghiệm Độ xác thuật tốn Prefix Beam Search Kết cải tiến bước cắt nhánh Kết cải tiến mơ hình ngơn ngữ KHMT-2016B 43 43 44 45 48 Kết luận hướng phát triển 50 Tài liệu tham khảo 52 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Từ điển giải Ký hiệu Thuật ngữ Tạm dịch ASR Automatic Speech Recognition Nhận dạng tiếng nói tự động DTW Dynamic Time Warping Nắn chỉnh thời gian động LVCSR Large Vocabulary Continuous Speech Recognition PBS Prefix Beam Search Algorithm Thuật tốn tìm kiếm tiền tố beam WER Word Error Rate Tỷ lệ lỗi nhận dạng từ Bài tốn nhận dạng tiếng nói liên tục với từ vựng lớn Trong luận văn này, số thuật ngữ dù có tạm dịch tiếng Việt dùng tiếng Anh tính xác quốc tế HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Danh sách hình vẽ 1.1 Các thành phần hệ thống ASR 13 2.1 2.2 2.3 2.4 Mơ hình CTC Mô hình RNN-Transducer Mơ hình Attention Kiến trúc mơ hình thử nghiệm 3.1 Cây biểu diễn mơ hình ngơn ngữ tiền tố 41 4.1 4.2 4.3 4.4 Biểu Biểu Biểu Biểu đồ đồ đồ đồ hiệu hiệu hiệu hiệu quả quả tính tốn phương pháp cắt nhánh tìm kiếm phương pháp cắt nhánh khơng gian tìm kiếm kết hợp hai cải tiến thời gian tính kết hợp hai cải tiến 22 24 25 29 46 47 49 49 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Danh sách bảng 2.1 So sánh mơ hình huấn luyện trực tiếp mơ hình dựa HMM 26 4.1 4.2 4.3 4.4 Sai số thuật toán Prefix Beam Search với k bé Kết giải thuật PBS Kết giải thuật PBS chuẩn hóa k Kết tỷ lệ từ lỗi mơ hình ngơn ngữ mơ hình ngơn ngữ kết hợp tiền tố 44 45 45 48