Nghiên cứu mô hình điệu nhận dạng tiếng Việt từ vựng lớn phát âm liên tục LUẬN ÁN TIẾN SĨ

BỘ GIÁO DỤC VÀO ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Họ tên tác giả luận án NGUYỄN VĂN HUY TÊN ĐỀ TÀI LUẬN ÁN Nghiên cứu mô hình điệu nhận dạng tiếng Việt từ vựng lớn phát âm liên tục LUẬN ÁN TIẾN SĨ: TOÁN HỌC HÀ NỘI – 2016 BỘ GIÁO DỤC VÀO ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Họ tên tác giả luận án NGUYỄN VĂN HUY TÊN ĐỀ TÀI LUẬN ÁN Nghiên cứu mơ hình điệu nhận dạng tiếng Việt từ vựng lớn phát âm liên tục Chuyên ngành: Cơ sở toán học cho tin học Mã số: 62460110 LUẬN ÁN TIẾN SĨ: TOÁN HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS LƢƠNG CHI MAI TS VŨ TẤT THẮNG HÀ NỘI – 2016 Lời nói đầu Các kỹ thuật nhận dạng tiếng nói phát triển, đặc biệt với số ngôn ngữ phổ dụng Anh, Pháp, Trung Quốc,… Những yếu tố ảnh hưởng đến chất lượng hệ thống nhận dạng tiếng nói như: Người nói, tốc độ nói, hồn cảnh nói, nhiễu, kích thước từ điển, cách thức phát âm,… nhiên chưa có giải pháp hoàn thiện giải tất yếu tố Các phương pháp thường sử dụng cho nhận dạng tiếng nói là: Kỹ thuật so khớp mẫu, mạng nơron, phương pháp dựa tri thức mơ hình Markov ẩn Trong phương pháp sử dụng mơ hình Markov ẩn (Hidden Markov Model HMM) sử dụng phổ biến Đối với tiếng Việt chưa có nhiều nghiên cứu nhận dạng Các công việc nghiên cứu tốn Tiếng Việt ngơn ngữ có điệu, ngồi khó khăn gặp phải tương tự việc nhận dạng ngôn ngữ khơng có điệu khác (Anh, pháp,…), nhận dạng tiếng Việt phải nghiên cứu vấn đề nhận dạng điệu Tiếng Việt có sáu điệu, cách tổng quát coi âm tiết có sáu ý nghĩa khác ghép tương ứng với sáu điệu Việc nhận dạng điệu cơng việc khó điệu tồn vùng âm hữu Vì đường đặc tính khơng liên tục chuyển tiếp hai vùng hữu vô Các đặc trưng sử dụng phổ biến nhận dạng tiếng nói MFCC (Mel Frequency Cepstral Coefficient) PLP (Perceptual Linear Prediction) lại khơng mơ tả đặc tính điệu, trước nhận dạng điệu ta phải áp dụng kỹ thuật tính tốn đặc trưng điệu tín hiệu tiếng nói Các nghiên cứu nhận dạng điệu tiếng Việt bước chủ yếu áp dụng cho tiếng nói rời rạc, có lượng từ vựng nhỏ cỡ vài trăm từ Các giải pháp chủ yếu phát triển từ nghiên cứu ngơn ngữ có điệu khác Mandarin, Thái,…, việc nghiên cứu giải pháp nhận dạng tiếng Việt từ vựng lớn phát âm liên tục thực vấn đề cấp thiết tính khoa học kinh tế Từ lý cấp thiết chọn đề tài “Nghiên cứu mơ hình điệu nhận dạng tiếng Việt từ vựng lớn phát âm liên tục” Với mục tiêu nghiên cứu vấn đề nhận dạng tiếng Việt từ vựng lớn phát âm liên tục, nghiên cứu vấn đề mơ hình điệu cho tiếng Việt Nội dung luận án trình bày thành chương với nội dung sau: - Chương 1: Giới thiệu tổng quan nhận dạng tiếng nói ứng dụng Cấu trúc tổng quan hệ thống nhận dạng tiếng nói Tình hình nghiên cứu tổng quan nhận dạng tiếng nói chung nhận dạng tiếng Việt nói riêng Giới thiệu mục tiêu phạm vi nghiên cứu luận án - Chương 2: Trình bày tổng quan cấu trúc ngữ âm tiếng Việt Mơ hình nhận dạng tiếng Việt từ vựng lớn phát âm liên tục có điệu Dữ liệu - cơng cụ sử dụng để cài đặt thử nghiệm Hệ thống nhận dạng sở Chương 3: Trình bày mơ hình điệu cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục sử dụng MSD-HMM Bao gồm quy trình tính tốn đặc trưng điệu, cấu hình mơ hình huấn luyện - Chương 4: Trình bày phương pháp tăng cường đặc trưng ngữ âm sử dụng mạng nơron cho nhận dạng tiếng Việt, bao gồm quy trình gán nhãn, huấn luyện mạng, tối ưu mạng, trích chọn đặc trưng Bottleneck cài đặt thử - nghiệm Chương 5: Trình bày phương pháp tăng cường đặc trưng điệu với đặc trưng cải tiến Tonal-Bottleneck sử dụng mạng nơron Bao gồm phương pháp gán nhãn điệu, tối ưu mạng, tính tốn đặc trưng cài đặt thử nghiệm Tôi xin gửi lời cảm ơn chân thành đến Bộ Giáo dục Đào tạo, Viện Công nghệ Thông tin – Viện Hàn lâm Khoa học Công nghệ Việt Nam, trường ĐH Kỹ thuật Công nghiệp Thái Nguyên – ĐH Thái Nguyên tạo điều kiện thuận lợi cho tơi hồn thành đề tài nghiên cứu sinh Xin gửi lời cảm ơn chân thành đến Viện công nghệ Karlshuhe – Đức, Viện Công nghệ Thông tin quốc gia Nhật Bản tạo điều kiện hỗ trợ mặt khoa học lẫn thiết bị cho để thực thử nghiệm nghiên cứu trình thực tập sinh Đức Nhật Bản Tôi xin gửi lời cảm ơn đặc biệt đến PGS TS Lương Chi Mai, TS Vũ Tất Thắng bảo, định hướng, tạo điệu kiện thuận lợi để tơi hồn thành luận án Thái Nguyên, ngày 16 tháng 08 năm 2016 Nguyễn Văn Huy Lời cam đoan Tôi xin cam đoan cơng trình nghiên cứu riêng hướng dẫn khoa học PGS.TS Lương Chi Mai TS Vũ Tất Thắng Các nội dung nghiên cứu, kết đề tài trung thực chưa công bố trước người khác Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ thử nghiệm Nếu phát có gian lận tơi xin hồn tồn chịu trách nhiệm nội dung luận án Tác giả Nguyễn Văn Huy Mục Lục Lời nói đầu Lời cam đoan Mục Lục Danh mục từ viết tắt Danh mục bảng biểu Danh mục hình ảnh Chương 1: Mở đầu 10 1.1 Tóm tắt chương 10 1.2 Tổng quan nhận dạng tiếng nói 10 1.2.1 Nhận dạng tiếng nói 10 1.2.2 Ứng dụng 11 1.2.3 Các vấn đề nhận dạng tiếng nói 13 1.3 Các thành phần hệ thống nhận dạng tiếng nói 14 1.3.1 Trích chọn đặc trưng 15 1.3.2 Mơ hình âm học 19 1.3.3 Mơ hình ngơn ngữ 22 1.3.4 Từ điển ngữ âm 24 1.4 Đánh giá chất lượng hệ thống nhận dạng tiếng nói 24 1.5 Tình hình nghiên cứu nhận dạng tiếng nói 25 1.6 Nhận dạng tiếng Việt nghiên cứu 31 1.7 Một số nghiên cứu gần ngơn ngữ có điệu 34 1.8 Kết luận, nội dung phạm vi nghiên cứu luận án 36 Chương 2: Mơ hình điệu cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục 39 2.1 Tóm tắt chương 39 2.2 Tổng quan tiếng Việt 39 2.2.1 Âm vị tiếng Việt 40 2.2.2 Thanh điệu tiếng Việt 41 2.3 Mơ hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn 42 2.4 Mơ hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn có điệu 43 2.5 Thuật toán tạo từ điển ngữ âm tự động có điệu cho tiếng Việt (VN-G2P) 45 2.6 Dữ liệu thử nghiệm 47 2.6.1 Dữ liệu huấn luyện (Training) 47 2.6.2 Dữ liệu thử nghiệm (Testing) 48 2.6.3 Đánh giá kích thước liệu 48 2.7 Tổng quan công cụ HTK& HTS cho nhận dạng tiếng nói 49 2.7.1 Tổng quan HTK 49 2.7.2 Tổng quan HTS 50 2.8 Thử nghiệm mô hình khơng có điệu (Hệ thống nhận dạng sở Baseline) 52 2.8.1 Dữ liệu 53 2.8.2 Chuẩn hoá liệu 53 2.8.3 Trích chọn đặc trưng 53 2.8.4 Từ điển 53 2.8.5 Mơ hình âm học 53 2.8.6 Mơ hình ngơn ngữ 54 2.8.7 Thử nghiệm (Testing) 54 2.9 Thử nghiệm mơ hình có điệu 54 2.9.1 Thử nghiệm với HTK 55 2.9.2 Thử nghiệm với công cụ Kaldi sử dụng sở liệu lớn 56 2.10 Kết luận chương 58 2.11 Các báo công bố liên quan đến nội dung chương 59 Chương 3: Mơ hình điệu sử dụng MSD cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục 60 3.1 Tóm tắt chương 60 3.2 Vai trò đặc trưng điệu 60 3.3 Đặc trưng điệu vấn đề không liên tục 61 3.3.1 Đặc trưng điệu NCC (giá trị tương quan chéo chuẩn hoá) 62 3.3.2 Đặc trưng điệu AMDF (độ lệch biên độ trung bình) 63 3.3.3 Trích chọn NCC AMDF sử dụng công cụ SNACK 63 3.4 Tổng quan mơ hình MSD-HMM 64 3.4.1 Định nghĩa MSD-HMM 65 3.4.2 Ước lượng tham số cho MSD-HMM 67 3.5 Các nghiên cứu công bố áp dụng MSD-HMM nhận dạng tiếng nói 70 3.6 Chuẩn hóa đặc trưng AMDF NCC cho mơ hình MSD-HMM 71 3.7 Áp dụng mơ hình MSD-HMM cho nhận dạng tiếng Việt có điệu 73 3.8 Cài đặt thử nghiệm kết 74 3.8.1 Dữ liệu, mơ hình ngơn ngữ, từ điển 75 3.8.2 Trích chọn đặc trưng 75 3.8.3 Thử nghiệm mơ hình HMM 75 3.8.4 Thử nghiệm mơ hình MSD-HMM 77 3.9 Kết luận chương 77 3.10 Các báo công bố liên quan đến nội dung chương 78 Chương 4: Tăng cường đặc trưng ngữ âm sử dụng mạng nơron 79 4.1 Tóm tắt chương 79 4.2 Tổng quan mạng nơron MLP (Multilayer Perceptron) 79 4.3 Ứng dụng mạng nơron nhận dạng tiếng nói 81 4.4 Trích chọn đặc trưng Bottleneck sử dụng mạng MLP 83 4.4.1 Tổng quan đặc trưng Bottleneck 83 4.4.2 Trích chọn đặc trưng Bottleneck (BNF) 85 4.5 Cài đặt thử nghiệm 86 4.5.1 Gán nhãn liệu huấn luyện mạng 86 4.5.2 Lựa chọn cấu hình mạng MLP 87 4.5.3 Huấn luyện mạng MLP 88 4.5.4 Áp dụng đặc trưng BNF với mô hình HMM 90 4.6 Tối ưu đặc trưng Bottleneck 91 4.6.1 Huấn luyện mạng MLP với kích thước BN thay đổi 91 4.6.2 Cài đặt thử nghiệm với đặc trưng BN có kích thước thay đổi 92 4.7 Kết luận chương 92 4.8 Các báo công bố liên quan đến nội dung chương 93 Chương 5: Cải tiến đặc trưng điệu sử dụng mạng nơron mơ hình tích hợp MSD-HMM với Bottleneck94 5.1 Tóm tắt chương 94 5.2 Trích chọn đặc trưng điệu sử dụng mạng nơron 94 5.2.1 Đặc trưng điệu Tonal Bottleneck (TBNF) 94 5.2.2 Trích chọn đặc trưng điệu TBNF 95 5.2.3 Cải tiến đặc trưng TBNF cho mơ hình MSD-HMM 97 5.3 Gán nhãn liệu 99 5.3.1 Gán nhãn mức trạng thái HMM điệu (Tone Stage Labeling - TSL) 99 5.3.2 Gán nhãn mức điệu (Tone Labeling - TL) 101 5.4 Lựa chọn cấu hình mạng MLP 102 5.4.1 Lựa chọn kích thước lớp mạng MLP 102 5.4.2 Lựa chọn kích thước lớp Bottleneck (BN) 103 5.5 Thử nghiệm đặc trưng TBNF-MSD với mơ hình MSD-HMM 104 5.5.1 Trích chọn đặc trưng TBNF-MSD 104 5.5.2 Dữ liệu, Từ điển, Mơ hình ngơn ngữ 104 5.5.3 Huấn luyện mơ hình âm học MSD-HMM kết thử nghiệm 104 5.6 Mơ hình tích hợp BNF, TBNF-MSD MSD-HMM 105 5.7 Kết luận chương 106 5.8 Các báo công bố liên quan đến nội dung chương 106 Kết luận 107 Các đóng góp luận án 112 Danh mục cơng trình khoa học công bố tác giả cộng 113 Tài liệu tham khảo 115 Phụ lục 122 TCL Script tạo từ điển ngữ âm cho tập văn tiếng Việt đầu vào 122 File cấu hình mơ hình MSD-HMM 126 TT Viết tắt ACC Danh mục từ viết tắt Nghĩa Accuracy AMDF Average Magnitude Difference Function 10 11 12 13 14 15 16 BN BNF CV DCT DFT DNN F0 FST G2P GMM GPU HMM HTK HTS Bottleneck Bottleneck Feature Cross Validation Accuracy Discrete cosine transform Discrete Fourier transform Deep Neural Network Fundamental Frequency Finite-State Transducer Grapheme to Phoneme Gaussian Mixture Model Graphical processing unit Hidden Markov Model Hidden Markov Model Toolkit HMM-based Speech Synthesis System 17 IDFT 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Invert Discrete Fourier transform Institute Of Information and Technology IOIT2013 2013 IPA International Phonetic Alphabet LDA Linear Discriminant Analysis LM Language Model MFCC Mel Frequency Cepstral Coefficients MLLT Maximum Likelihood Linear Transform MLP Multilayer Perceptron MSD Multispace Distribution NCC Normalized Cross-Correlation NN Neural Network NoTone No tone P Pitch PLP Perceptual Linear Prediction T1 Tone T2 Tone T3 Tone T4 Tone T5 Tone T6 Tone 6 37 38 39 40 41 42 TBNF VN-G2P VoiceTra VOV WER Δ Tonal Bottleneck Feature Vietnamese Grapheme to Phoneme Voice Translation Voice Of Vietnam Word Error Rate Delta Danh mục bảng biểu Bảng 2-1: Cấu trúc âm tiết tiếng Việt 40 Bảng 2-2: Ví dụ cấu trúc ngữ âm âm tiết "chuyển" 40 Bảng 2-3: Tập âm vị ngữ âm tiếng Việt 40 Bảng 2-4: Một số ví dụ phiên âm sử dụng tập âm vị có điệu 45 Bảng 2-5: Dữ liệu huấn luyện 48 Bảng 2-6: Dữ liệu thử nghiệm 48 Bảng 2-7: Ví dụ số phiên âm từ điển 53 Bảng 2-8: Kết nhận dạng hệ thống sở 54 Bảng 2-9: Kết thử nghiệm mơ hình điệu 56 Bảng 2-10: Kết thử nghiệm mơ hình điệu với Kaldi 58 Bảng 3-1: Kết thử nghiệm Pitch MFCC/PLP với HMM 76 Bảng 3-2: Kết thử nghiệm mơ hình MSD-HMM 77 Bảng 4-1: Kết huấn luyện mạng MLP với kích thước L2 L4 thay đổi 89 Bảng 4-2: Kết thử nghiệm đặc trưng BNF 91 Bảng 4-3: Kết huấn luyện mạng MLP với kích thước lớp BottleBeck thay đổi 91 Bảng 5-1: Kết huấn luyện mạng MLP hai loại nhãn TSL TL 103 Bảng 5-2: Kết thử nghiệm với kích thước lớp BN thay đổi 103 Bảng 5-3: Kết thử nghiệm TBNF-MSD với MSD-HMM 104 Bảng 5-4: Kết thử nghiệm MSD-HMM với đặc trưng BNF13+TBNF-MSD3 106 Danh mục hình ảnh Hình 1-1: Sơ đồ khối tổng quan hệ thống nhận dạng tiếng nói 14 Hình 1-2: Sơ đồ bước trích chọn đặc trưng 15 Hình 1-3: Sơ đồ khối bước tính tốn MFCC 16 Hình 1-4: Tạo khung tín hiệu tiếng nói 17 Hình 1-5: Sơ đồ khối bước tính tốn PLP 18 Hình 1-6: Mơ hình HMM-GMM Left-Right với N trạng thái 21 Hình 3-1: Đường pitch câu nói "Nhận dạng tiếng Việt" 61 Hình 3-2: Đặc tính AMDF NCC câu phát âm "xem chữa bách bệnh" 64 Hình 3-3: Mơ hình MSD-HMM trạng thái, khơng gian(Rglà khơng gian thực kích thước g chiều, Nig hàm Gaussian trang thái Si không gian ) 67 Hình 3-4: Q trình trích chọn đặc trưng điệu cho HMM MSD-HMM 71 Hình 3-5: Đặc tính AMDF sau chuẩn hố 72 Hình 3-6: Đặc trình NCC sau chuẩn hoá 73 Hình 3-7: Mơ hình MSD-HMM left-right trạng thái, luồng 74 Hình 3-8: Mơ hình MSD-HMM trạng thái, luồng đầu vào 75 Hình 4-1: Cấu trúc nút mạng 79 Hình 4-2: Mơ hình mạng MLP ba lớp 80 Hình 4-3: Mơ hình MLP lớp ứng dụng điều khiển 81 Hình 4-4: Mơ hình lai ghép HMM-NN 82 Hình 4-5: Mơ hình MLP để trích chọn đặc trưng Bottleneck 83 Hình 4-6: Sơ đồ khối bước trích chọn đặc trưng BNF 85 Hình 4-7: Gán nhãn mức monophone stage cho âm "a" 87 Hình 4-8: Cấu hình mạng MLP thử nghiệm cho tiếng Việt 88 Hình 5-1: Mơ hình mạng MLP để trích chọn đặc trưng TBNF 95 Hình 5-2: Sơ đồ khối bước tính tốn TBNF 97 Hình 5-3: Sơ đồ khối bước biến đổi TBNF sang TBNF-MSD 98 Hình 5-4: Quy trình gán nhãn điệu mức trạng thái HMM 101 Hình 5-5: Nhãn mức điệu phát âm "tất" 101 Hình 5-6: Mơ hình MSD-HMM cho đặc trưng kết hợp BNF13+TBNF-MSD3 105 Chương 1: Mở đầu 1.1 Tóm tắt chương Giới thiệu tổng quan nhận dạng tiếng nói ứng dụng Các vấn đề khó khăn cần giải lĩnh vực nhận dạng tiếng nói Giới thiệu thành phần hệ thống nhận dạng tiếng nói từ vựng lớn Giới thiệu tổng quan tình hình nghiên cứu nhận dạng tiếng Việt nước Giới thiệu nội dung nghiên cứu luận án 1.2 Tổng quan nhận dạng tiếng nói 1.2.1 Nhận dạng tiếng nói Nhận dạng tiếng nói q trình biến đổi tín hiệu âm thu người nói thành chuỗi từ có nội dung tương ứng dạng văn Nếu gọi tín hiệu tiếng nói thu miền thời gian s(t) s(t) rời rạc hóa để xử lý trích chọn thông tin quan trọng Kết thu chuỗi vector đặc trưng tương ứng X={x1, x2, x3,…, xN} Sau nhiệm vụ hệ thống nhận dạng tiếng nói tìm chuỗi từ ̂ ={ w1, w2, w3,…, wL} có nội dung tương ứng với X mặt ngữ nghĩa Công thức (1.1) [Jurafsky 2008] mơ tả mơ hình tốn học hệ thống nhận dạng tiếng nói theo nguyên lý xác suất Bayes Hầu hết hệ thống nhận dạng tiếng nói thống kê ngày dựa mơ hình ( | ) ( ) (1.1) ̂ ( | ) ( ) Trong P(W) xác suất chuỗi W, giá trị tính tốn thơng qua mơ hình ngơn ngữ n-gram hồn tồn độc lập với tín hiệu tiếng nói X P(X|W) xác suất để X W xác định thơng qua mơ hình âm học (acoustic model) Giá trị P(X) bỏ qua giá trị khơng thay đổi liệu cụ thể với tất chuỗi dự đoán W Các hệ thống nhận dạng tiếng nói phân loại theo cách sau:  Nhận dạng từ phát âm rời rạc liên tục  Nhận dạng tiếng nói phụ thuộc khơng phụ thuộc người nói  Nhận dạng với hệ thống từ vựng nhỏ (vài trăm từ) từ vựng lớn (hàng nghìn từ)  Nhận dạng tiếng nói môi trường nhiễu cao thấp 10 1.2.2 Ứng dụng Cùng với phát triển nhanh chóng thiết bị tính tốn tốc độ cao máy tính, điện thoại thông minh, vi xử lý- vi điều khiển, ngày nhận dạng tiếng nói ứng dụng cho nhiều lĩnh vực sống Có thể kể đến số ứng dụng số lĩnh vực sau:  Trong ngành cơng nghiệp ơtơ: Nhận dạng tiếng nói ứng dụng để xây dựng module tương tác người lái với xe ôtô Hãng xe Audi Đức hãng xe ứng dụng thành công phổ biến công nghệ Người lái xe tắt mở hệ thống âm thanh, điều chỉnh âm lượng, lệnh tìm đích đến cho hệ thống dẫn đường giọng nói  Trong lĩnh vực y tế: Nhận dạng tiếng nói ứng dụng để tạo hệ thống nhập tìm kiếm thơng tin bệnh nhân tự động Người bệnh trả lời câu hỏi mẫu phiếu khai tích hợp vào hệ thống nhận dạng tiếng nói khám bệnh, hệ thống nhận dạng tín hiệu tiếng nói người bệnh dịch sang dạng văn để điền tự động vào mẫu văn máy tính Đối với bệnh viện lớn, nhận dạng tiếng nói ứng dụng để xây dựng hệ thống tìm kiếm thơng tin bệnh nhân có sẵn hồ sơ bệnh viện Nếu hồ sơ bệnh nhân có bệnh viện, người bệnh cần nói câu bất kỳ, hệ thống nhận dạng tìm số hiệu bệnh nhân thơng qua giọng nói đặc trưng họ, từ tự động tìm kiếm hồ sơ sở liệu Nhận dạng tiếng nói cịn ứng dụng để ghi chép tóm tắt tự động đánh giá, nhận xét lời khuyên bác sỹ vào đơn thuốc bệnh nhân  Trong quân đội: • Đối với phi cơng lái máy chiến đấu, thông thường họ phải thực nhiều thao tác trình điều khiển máy bay Các thao tác lại yêu cầu xác nhanh Nhận dạng tiếng nói ứng dụng để xây dựng hệ thống tương tác tiếng nói hỗ trợ phi công như: thiết lập tần số radio; huy hệ thống lái tự động; thiết lập tọa độ thơng số vũ khí; kiểm sốt hiển thị chuyến bay Các hệ thống góp phần đáng kể việc giảm khối lượng công việc nâng cao hiệu độ xác việc điều khiển máy bay cho phi công Trong thực tế hệ thống không quân Mỹ Pháp ứng dụng cho máy bay chiến đấu F-161 Mirage2 http://www.f-16.net/f-16_versions_article19.html http://www.airforce-technology.com/projects/mirage/ 11 • Đối với máy bay trực thăng: Việc trao đổi thông tin qua radio máy bay trực thăng gặp nhiều khó khăn trở ngại ảnh hưởng tiếng ồn Trong trường hợp nhận dạng tiếng nói ứng dụng để xây dựng hệ thống hỗ trợ liên lạc, có chức xử lý nhận dạng tiếng nói phi cơng mơi trường ồn nhằm nâng cao độ xác thơng tin trường hợp người gặp khó khăn việc nghe thông tin từ phi công Các hệ thống nghiên cứu ứng dụng thực tế máy bay trực thăng quân đội Hoa kỳ [Womak 1996] Pháp3  Trong viễn thông giải trí: Đây lĩnh vực mà nhận dạng tiếng nói ứng dụng rộng rãi đa dạng Trong viễn thơng nhận dạng tiếng nói áp dụng để xây dựng tổng đài trả lời tự động cách nhận dạng phân loại câu hỏi người gọi, hệ thống dịch vụ tự động Trong giải trí nhận dạng tiếng nói áp dụng để tạo thiết bị cho phép người điều khiển sử dụng tiếng nói để tương tác với thiết bị Có thể kể đến nhiều hệ thống công ty lớn giới áp dụng công nghệ như: Google, Microsoft Corporation (Microsoft Voice Command), Digital Syphon (Sonic Extractor), LumenVox, Nuance Communications (Nuance Voice Control), VoiceBox Technology,…  Trong giáo dục: Các hệ thống nhận dạng tiếng nói có độ xác cao hữu ích cho người muốn học ngôn ngữ thứ hai Các hệ thống nhận dạng dùng để đánh giá độ phát âm xác người học [Ambra 2003]  Đối với người khuyết tật: Nhận dạng tiếng nói giúp người khuyết tật vận động lại xe lăn sử dụng thiết bị điện tử máy tính, điện thoại hay ti vi cách gửi lệnh điều khiển thông qua giọng nói  Trong giao tiếp: Với mục tiêu xóa bỏ rào cản ngơn ngữ, nhận dạng tiếng nói ứng dụng để xây dựng hệ thống dịch máy tự động nhằm giúp người nói chuyện với tiếng mẹ đẻ đâu giới Nhận dạng tiếng nói khâu hệ thống này, thu thập tín hiệu tiếng nói, nhận dạng chuyển thành dạng văn Sau phần dịch tự động chuyển nội dung văn sang văn khác ngôn ngữ khác với nội dung Hiện có số phần mềm đưa vào ứng dụng như: Phần mềm Siri chạy hệ điều hành IOS công ty Apple Phần mềm Voicetra chạy hệ điều hành IOS Android Viện công nghệ http://www.helis.com/database/model/84/ 12 thông tin Nhật (NICT) Hệ thống dịch giảng tự động LectureTra học viện Karlsuhe-Đức (KIT)  Còn nhiều ứng dụng khác kể cơng nghệ nhà thơng minh, nhập liệu giọng nói, robot, … Từ ứng dụng tiêu biểu cho thấy ý nghĩa khoa học ý nghĩa ứng dụng sống nhận dạng tiếng nói đa dạng hữu ích Nó khẳng định việc nghiên cứu ứng dụng nhận dạng tiếng nói sống tiếp tục đặt thách thức nhiều tốn khó cho nhà khoa học 1.2.3 Các vấn đề nhận dạng tiếng nói Nhận dạng tiếng nói dạng tốn lĩnh vực nhận dạng mẫu, tồn khó khăn tương tự tốn nhận dạng khác Ngồi cịn tồn số vấn đề khác đặc tính biến đổi ngẫu nhiên tín hiệu tiếng nói Các vấn đề ảnh hưởng đến độ xác hiệu suất làm việc hệ thống nhận dạng tiếng nói [Tebelskis 1995] [Đức 2003] [Jurafsky 2008] [Lei 2006] kể đến sau:  Vấn đề phụ thuộc người nói: Mỗi người nói có cấu trúc máy tạo âm khác dẫn đến đặc tính tiếng nói phát chịu ảnh hưởng nhiều vào người nói Ngay người nói phát âm câu tiếng nói phát khác lưu lượng khơng khí từ phổi, tình trạng cảm xúc, sức khỏe, độ tuổi khác Xét theo đặc tính phụ thuộc người nói nhận dạng tiếng nói phân chia làm hai loại Một nhận dạng tiếng nói phụ thuộc người nói, hệ thống xây dựng chuyên biệt để làm việc với tiếng nói người vài người định Loại thứ hai nhận dạng độc lập với người nói, tức hệ thống nhận dạng xây dựng để nhận dạng cho tiếng nói người Thông thường tỷ lệ lỗi nhận dạng tiếng nói hệ thống độc lập với người nói thường cao so với hệ thống nhận dạng tiếng nói phụ thuộc người nói  Vấn đề tốc độ phát âm, tượng đồng phát âm: Trong phát âm liên tục âm thường chịu ảnh hưởng lớn từ âm trước sau Vì từ phát âm rời rạc nhận dạng có độ xác cao từ phát âm liên tục Do chất lượng nhận dạng cho chuỗi phát âm liên tục phụ thuộc thêm vào việc phát biên khoảng trống hai từ Khi người nói phát âm với tốc độ cao khoảng trống biên từ bị thu hẹp dẫn đến việc phân đoạn từ bị nhầm lẫn trùm lên làm ảnh hưởng đến độ xác cho việc nhận dạng từ 13  Vấn đề kích thước từ vựng (từ điển): Kích thước từ điển số lượng tất từ khác mà hệ thống nhận dạng cụ thể có khả nhận dạng Kích thước từ điển lớn độ phức tạp hệ thống nhận dạng cao Tỷ lệ lỗi hệ thống nhận dạng ln tỷ lệ thuận với kích thước từ điển  Vấn đề nhiễu: Trong thực tế tín hiệu tiếng nói thường bị ảnh hưởng tạp âm từ mơi trường ngồi phương tiện giao thơng, tiếng động vật, hay tiếng nói nhiều người khác nói thời điểm Đối với người việc phân biệt tập trung vào người nói để hiểu phân biệt ngữ nghĩa đơn giản nhiên máy tính trường hợp gây khó khăn đặc biệt để nhận dạng micro thu loại tín hiệu âm băng tần mà làm việc Hiện áp dụng phương pháp tiền xử lý tối ưu tín hiệu thu được, đồng thời tách lọc tín hiệu người nói muốn nhận dạng chất lượng nhận dạng cho trường hợp cịn thấp  Vấn đề ngơn ngữ: Mỗi ngơn ngữ lại có ký tự, âm vị mang đặc trưng riêng Việc nghiên cứu tìm tập âm vị chuẩn cho ngơn ngữ nâng cao độ xác nhận dạng Đối với ngơn ngữ vấn đề ngữ pháp phát âm ảnh hưởng nhiều đến chất lượng nhận dạng Các phát âm theo cấu trúc cú pháp đầy đủ rõ ràng nhận dạng xác phát âm tự do, tức từ phát âm khơng có ràng buộc cụ thể ngữ pháp 1.3 Các thành phần hệ thống nhận dạng tiếng nói Tín hiệu tiếng nói (speech) Trích chọn đặc trưng (feature) Mơ hình ngơn ngữ P(W) Mơ hình âm học P(O|W) Giải mã Decoder Từ điển ngữ âm Văn (W) Hình 1-1: Sơ đồ khối tổng quan hệ thống nhận dạng tiếng nói Cấu trúc tổng quát hệ thống nhận dạng tiếng nói mơ tả Hình 1-1 14 1.3.1 Trích chọn đặc trưng Đặc trưng Tiền xử lý (Lọc thơng dải, hàm cửa sổ, ) Tính toán đặc trưng (MFCC, PLP,…) Hậu xử lý (Phân lớp, giảm số chiều,…) Hình 1-2: Sơ đồ bước trích chọn đặc trưng Khâu trích chọn đặc trưng áp dụng số kỹ thuật nhằm làm giảm độ phức tạp tín hiệu tiếng nói đầu vào, đồng thời rút trích thơng tin quan trọng có ý nghĩa cho việc mơ hình hóa nhận dạng Đầu thu chuỗi vector đặc trưng (hay gọi quan sát) ký hiệu O Khâu chia làm ba giai đoạn gồm tiền xử lý, tính tốn đặc trưng hậu xử lý mơ tả Hình 1-2 a) Khâu tiền xử lý: Có nhiệm vụ lọc nhiễu, rút trích tín hiệu nằm miền tần số mà tai người nghe (0-10kHz), chia tín hiệu tiếng nói thành khung có kích thước từ 10ms đến 30ms (còn gọi hàm cửa sổ Window), độ lệch hai khung liên tiếp thường nằm khoảng 10ms20ms b) Khâu tính tốn đặc trưng: Biến đổi tín hiệu sang miền tần số qua phép biến đổi Fourier rời rạc (DFT), thực tính tốn để thu đặc trưng Hai loại đặc trưng sử dụng phổ biến nhận dạng tiếng nói hệ số đường bao phổ tần số mel (Mel Frequency Cepstral Coefficient - MFCC) mã dự báo tuyến tính giác quan (Perceptual Linear Prediction - PLP) c) Khâu hậu xử lý: Để nâng cao chất lượng đặc trưng giảm kích thước vector đặc trưng trước đưa vào mơ hình ngôn ngữ Một phương pháp phân lớp giảm số chiều thường áp dụng nhận dạng tiếng nói phương pháp phân tích tuyến tính LDA 1.3.1.1 Đặc trưng MFCC Đây loại đặc trưng sử dụng phổ biến nhận dạng tiếng nói Ý tưởng MFCC tính tốn giá trị phổ tín hiệu cho băng tần miền tần số mà tai người dễ cảm thụ Sơ đồ khối bước để tính tốn đặc trưng MFCC tín hiệu tiếng nói đầu vào trình bày Hình 1-3 [Jurafsky 2008] 15 Tín hiệu tiếng nói MFCC Pre Emphasis DCT/IDFT Window log DFT Mel filter bank Hình 1-3: Sơ đồ khối bước tính tốn MFCC Trong đó:  Pre Emphasis: Do tai người nhạy cảm với tần số thấp nên hàm tăng cường tín hiệu theo cơng thức (1.2) cho tần số cao áp dụng trước tín hiệu đưa vào tính tốn bước sau ( ) ( ) ( ) (1.2) Trong x(n) tín hiệu vào, a hệ số (trong luận án a=0.95)  Window: Tạo khung tín hiệu gọi cửa sổ Tín hiệu tiếng nói loại tín hiệu liên tục biến đổi theo thời gian Tuy nhiên khoảng thời gian ngắn từ 10ms đến 30ms coi ổn định Đối với hệ thống nhận dạng từ vựng lớn phát âm liên tục đơn vị nhận dạng thường âm vị độ dài phát âm âm vị thường nằm khoảng thời gian Vì thay ta tính tốn đặc trưng tồn phát âm ta tính tốn khung cửa sổ (Window) có độ dài từ 10ms đến 30ms Để không bị thông tin hai khung liên tiếp cửa sổ thường xếp chồng lên với khoảng cách từ 10ms đến 20ms Hình 1-4 minh họa trình phân chia cửa sổ cho tín hiệu tiếng nói với kích thước cửa sổ 25ms khoảng cách hai khung (độ dịch khung) 10ms Hàm cửa sổ áp lên khung thường hàm Hamming với công thức sau: ( ) { /} (1.3) Khi giá trị tín hiệu sau áp dụng hàm cửa sổ là: ( ) ( ) ( ) Trong L kích thước cửa sổ, ≤ n ≤ L, s(n) giá trị tín hiệu miền thời gian thời điểm n  DFT: Biến đổi Fourier rời rạc Biến đổi DFT áp dụng để trích chọn thơng tin phổ tín hiệu đầu vào Biến đổi thực 16 khung lấy qua hàm cửa sổ Tính tốn DFT mô tả công thức (1.4) ( ) ∑ , - (1.4) 25ms 10ms … Khung n Khung n+1 … Khung n+2 Hình 1-4: Tạo khung tín hiệu tiếng nói Trong đó: L kích thước cửa sổ, w[n] giá trị tín hiệu đầu vào sau qua hàm cửa sổ  Mel Filter bank: Lọc biến đổi sang tần số Mel Tần số âm thường dao động khoảng 10kHz, nhiên tai người nhạy cảm hay nghe rõ khoảng 1kHz Các hệ thống nhận dạng cố gắng mơ lại cách thức nghe người vấn đề đặt cần biến đổi tín hiệu từ miền tần số Hz sang miền tần số mà người dễ nghe Miền tần số gọi Mel (được đặt đề xuất Steven and Volkmann, 1940) Công thức biến đổi mô tả công thức (1.5) ( ) ( ) (1.5) Các lọc băng tần thiết kế miền tần số Mel  Logarithm (log) biến đổi Cosine rời rạc (DCT): Hàm logarithm áp dụng giá trị DFT đo độ thính tai người theo hàm logarithm, việc áp dụng hàm log để đưa đặc trưng tính tốn gần giống với tín hiệu 17 mà tai người nghe Đồng thời việc sử dụng hàm log giúp cho đặc trưng tính tốn bị ảnh hưởng biến đổi ngẫu nhiên tín hiệu đầu vào Sau giá trị logarithm áp dụng hàm biến đổi Fourier ngược (hoặc dùng công thức biến đổi Cosine rời rạc) công thức (1.6) để thu giá trị MFCC , - ∑ (| , -|) (1.6) 1.3.1.2 Đặc trưng PLP Phương pháp tính tốn đặc trưng PLP dựa sở phương pháp mã dự báo tuyến tính LPC (Linear Prediction Coding) Đặc trưng tạo dựa đặc tính vật lý tai người nghe [H Hermansky 1990] Hình 1-5 miêu tả bước xử lý tính tốn PLP Tín hiệu tiếng nói (speech) Window DFT PLP Bark Filter bank LPC Equal Loudness – Pre Emphasis IDFT Intensity Loudness Hình 1-5: Sơ đồ khối bước tính tốn PLP Trong đó:  Windows DFT: Là khâu lấy cửa sổ biến đổi Fourier rời rạc Bước thực tương tự MFCC  Bark Filter bank: Tín hiệu tiếng nói sau bước DFT lọc theo thang tần phi tuyến Bark theo công thức (1.7) 18

Định dạng
Số trang	20
Dung lượng	1,36 MB