1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)

69 95 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 1,48 MB

Nội dung

Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)Nghiên cứu áp dụng mô hình mạng nơ-ron end-to-end cho nhận dạng tiếng nói tiếng Việt (Luận văn thạc sĩ)

BỘ TƯ LỆNH QUÂN KHU I ĐẠI HỌC THÁI NGUYÊN TRƯỜNG CAO DẲNG NGHỀ SỐ - BQP TRƯỜNG ĐẠI HỌC KÝ THUẬT CÔNG NGHIỆP TRẦN VĂN NGHĨA BÀI GIẢNG Mơ đun: Vi Mạch Số Lập Trình NGHIÊN CỨU ÁP DỤNG MƠ HÌNH MẠNG NƠ-RON END-TO-END NGHỀ: ĐIỆN TỬ CƠNG NGHIỆP CHO NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT TRÌNH ĐỘ: CAO ĐẲNG LUẬN VĂN THẠC SĨ KỸ THUẬT VIỄN THÔNG Năm 2014 THÁI NGUYÊN 2019 BỘ TƯ LỆNH QUÂN KHU I ĐẠI HỌC THÁI NGUYÊN TRƯỜNG CAO DẲNG NGHỀ SỐ - BQP TRƯỜNG ĐẠI HỌC KÝ THUẬT CÔNG NGHIỆP TRẦN VĂN NGHĨA NGHIÊN CỨU ÁP DỤNG MƠ HÌNH MẠNG NƠ-RON END-TO-END CHO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT Chuyên ngành: Kỹ thuật viễn thông Mã số: 8520208 LUẬN VĂN THẠC SĨ KỸ THUẬT VIỄN THÔNG KHOA CHUYÊN MÔN TRƯỞNG KHOA NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN VĂN HUY PHỊNG ĐÀO TẠO THÁI NGUN 2019 Lời nói đầu Nhận dạng tiếng nói mong ước khoa học người Những người máy hiểu tiếng người nói thực thi nhiệm vụ theo mệnh lệnh người nói Các kỹ thuật nhận dạng tiếng nói phát triển, đặc biệt với số ngôn ngữ phổ dụng Anh, Pháp, Trung Quốc,… Những yếu tố ảnh hưởng đến chất lượng hệ thống nhận dạng tiếng nói như: Người nói, tốc độ nói, hồn cảnh nói, nhiễu, kích thước từ điển, cách thức phát âm,… nhiên chưa có giải pháp hồn thiện giải tất yếu tố Các phương pháp thường sử dụng cho nhận dạng tiếng nói là: Kỹ thuật so khớp mẫu, mạng nơ-ron, phương pháp dựa tri thức mơ hình Markov ẩn Trong phương pháp sử dụng mơ hình Markov ẩn (Hidden Markov Model HMM) sử dụng phổ biến Đối với tiếng Việt chưa thực nghiên cứu rộng rãi nhận dạng Các công việc nghiên cứu toán Tiếng Việt ngơn ngữ có điệu, ngồi khó khăn gặp phải tương tự việc nhận dạng ngơn ngữ khơng có điệu khác (Anh, pháp,…), nhận dạng tiếng Việt phải nghiên cứu vấn đề nhận dạng điệu Tiếng Việt có sáu điệu, cách tổng quát coi âm tiết có sáu ý nghĩa khác ghép tương ứng với sáu điệu Việc nhận dạng điệu cơng việc khó điệu tồn vùng âm hữu Vì đường đặc tính khơng liên tục chuyển tiếp hai vùng hữu vô Các đặc trưng sử dụng phổ biến nhận dạng tiếng nói MFCC (Mel Frequency Cepstral Coefficient) PLP (Perceptual Linear Prediction) lại không mô tả đặc tính điệu, trước nhận dạng điệu ta phải áp dụng kỹ thuật tính tốn đặc trưng điệu tín hiệu tiếng nói Khi áp dụng mơ hình mạng nơ-ron (Deep Neural Network – DNN) cho nhận dạng tiếng Việt, cụ thể q trình trích chọn đặc trưng BottleNeck, giúp cải thiện chất lượng hệ thống nhận dạng Tuy nhiên, sử dụng mô i hình mạng nơ-ron truyền thống, mơ hình DNN huấn luyện tập liệu gán nhãn, cần tốn nhiều thời gian cho việc huấn luyện, chất lượng mơ hình huấn luyện phụ thuộc vào thủ tục liên kết mơ hình Do mơ hình truyền thống gồm ba phần chính: mơ hình phát âm (pronunciation model – PM), mơ hình ngữ âm (acoustic model – AM) mơ hình ngơn ngữ (language model – LM), chúng huấn luyện độc lập Vì vậy, việc nghiên cứu loại mơ hình mạng nơ-ron giúp tích hợp ba thành phần PM, AM LM mơ hình mạng nơ-ron truyền thống, vào mơ hình đơn cần thiết, việc huấn luyện thực trực tiếp tập liệu chưa gán nhãn Nghĩa việc huấn luyện yêu cầu file tiếng nói (audio file) phiên âm chúng – mơ hình End-to-End (E2E) Xuất phát từ nhận thức trên, gợi hướng Thầy giáo, TS Nguyễn Văn Huy, học viên xin trình bày luận văn tốt nghiệp Thạc sỹ chuyên ngành Kỹ thuật Viễn thông “Nghiên cứu áp dụng mơ hình mạng nơ-ron End-to-End cho nhận dạng tiếng nói tiếng Việt” Nội dung luận văn trình bày thành 03 chương với bố cục sau:  Chương 1: Mở đầu Giới thiệu tổng quan nhận dạng tiếng nói ứng dụng Các vấn đề khó khăn cần giải lĩnh vực nhận dạng tiếng nói Giới thiệu tổng quan tình hình nghiên cứu nhận dạng tiếng Việt nước Giới thiệu nội dung nghiên cứu luận văn  Chương 2: Mơ hình mạng nơ-ron học sâu End-to-End cho nhận dạng tiếng nói Giới thiệu thành phần hệ thống nhận dạng tiếng nói từ vựng lớn Mơ hình dựa mạng nơ-ron học sâu (Deep Neural Network - DNN) cho nhận dạng tiếng nói Phân loại mơ hình mạng DNN truyền thống, mạng DNN End-to-End; ứng dụng nhận dạng tiếng nói ngơn ngữ khơng phải tiếng Việt ii  Chương 3: Áp dụng mơ hình mạng nơ-ron End-to-End cho nhận dạng tiếng Việt Trình bày tổng quan cấu trúc ngữ âm tiếng Việt, đề xuất cho việc nhận dạng tiếng nói tiếng Việt thử nghiệm thực tế Tơi xin gửi lời cảm ơn đặc biệt đến TS Nguyễn Văn Huy, bảo, định hướng, tạo điệu kiện thuận lợi để tơi hồn thành luận văn Thái Nguyên, ngày tháng năm 2019 Trần Văn Nghĩa iii Lời cam đoan Tôi xin cam đoan cơng trình nghiên cứu riêng tơi hướng dẫn khoa học TS Nguyễn Văn Huy Các nội dung nghiên cứu, kết đề tài trung thực có nguồn gốc rõ ràng Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá thu thập từ thử nghiệm thực tế Nếu phát có gian lận tơi xin hoàn toàn chịu trách nhiệm nội dung luận văn Tác giả Trần Văn Nghĩa iv Mục lục Lời nói đầu i Lời cam đoan iv Mục lục v Danh mục từ viết tắt vii Danh mục bảng biểu ix Danh mục hình ảnh x Chương 1: Mở đầu 1.1 Tổng quan nhận dạng tiếng nói 1.1.1 Nhận dạng tiếng nói 1.1.2 Ứng dụng 1.1.3 Các vấn đề nhận dạng tiếng nói 1.2 Tình hình nghiên cứu nhận dạng tiếng nói 1.2.1 Về trích chọn đặc trưng 1.2.2 Về mơ hình ngữ âm (acoustic model) 1.2.3 Về mơ hình ngơn ngữ 12 1.2.4 Về giải mã 13 1.3 Nhận dạng tiếng Việt nghiên cứu 13 1.4 Một số nghiên cứu gần ngơn ngữ có điệu 18 1.5 Kết luận, nội dung phạm vi nghiên cứu luận văn 19 Chương 2: Mơ hình mạng nơ-ron học sâu End-to-End cho nhận dạng tiếng nói 22 2.1 Các thành phần hệ thống nhận dạng tiếng nói 22 2.1.1 Trích chọn đặc trưng 22 2.1.1.1 Đặc trưng MFCC 23 2.1.1.2 Đặc trưng PLP 26 2.1.2 Mơ hình ngữ âm 27 2.1.2.1 Tổng quan mơ hình HMM: 28 2.1.2.2 Áp dụng mơ hình HMM nhận dạng tiếng nói 29 2.1.3 Mơ hình ngôn ngữ 30 2.1.3.1 Tổng quan mơ hình n-gram: 31 v 2.1.3.2 Các vấn đề tồn n-gram 31 2.1.3.3 Một số phương pháp làm trơn mơ hình n-gram 32 2.2 Mơ hình mạng nơ-ron 33 2.2.1 Mơ hình mạng nơ-ron truyền thống 33 2.2.2 Mơ hình End-to-End 33 2.3 Một số cách áp dụng ngôn ngữ khác 34 2.3.1 Hàm mục tiêu CTC 38 2.3.2 Mơ hình DNN 38 2.3.3 Nhận dạng tiếng nói sử dụng E2E 40 Chương 3: Áp dụng mơ hình End-to-End cho nhận dạng tiếng nói tiếng Việt 42 3.1 Tổng quan tiếng Việt 42 3.1.1 Bộ âm vị tiếng Việt 43 3.1.2 Thanh điệu đặc trưng điệu 45 3.3 Thực nghiệm Kết 47 3.3.1 Bộ liệu huấn luyện kiểm tra 47 3.3.2 Huấn luyện mơ hình E2E 49 3.3.3 Mơ hình ngơn ngữ (LM) 49 3.3.4 So sánh với mơ hình DNN 49 3.3.5 Các kết thảo luận 50 Kết luận 52 Danh mục tài liệu tham khảo: 54 vi Danh mục từ viết tắt TT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Viết tắt AM AMDF CNN CP CTC DCT DFT DNN E2E F0 FST G2P GMM GPU HMM IDFT LDA LM LPC LSTM MFCC MLLT MLP MSD NCC NN PLP PM PP RNN T1 T2 T3 Nghĩa Acoustic Model Average Magnitude Difference Function Convolution Neural Network Character-based Phoneset Connectionist Temporal Classification Discrete cosine transform Discrete Fourier transform Deep Neural Network End-to-End Fundamental Frequency Finite-State Transducer Grapheme to Phoneme Gaussian Mixture Model Graphical processing unit Hidden Markov Model Invert Discrete Fourier transform Linear Discriminant Analysis Language Model Linear Prediction Coding Long Short-Term Memory Mel Frequency Cepstral Coefficients Maximum Likelihood Linear Transform Multilayer Perceptron Multispace Distribution Normalized Cross-Correlation Neural Network Perceptual Linear Prediction Pronunciation Model Phoneme-based Phoneset Recurrent Neural Networks Tone Tone Tone vii 34 35 36 37 38 39 40 T4 T5 T6 TDNN VN-G2P WER WT Tone Tone Tone Time Delay Deep Neural Network Vietnamese Grapheme to Phoneme Word Error Rate phoneset Without Tone informations viii Âm tiết đơn vị hệ thống đơn vị ngôn ngữ Mỗi âm tiết có khả thể từ khơng biến hình, hay nói cách khác âm tiết đồng thời hình vị Về mặt ý nghĩa ngữ pháp tiếng Việt thể chủ yếu trật tự từ Như tiếng Việt khác với số ngôn ngữ khác tiếng Anh, Pháp,… ln có ranh giới rõ ràng hai âm tiết b) Âm tiết tiếng Việt có khả biểu ý nghĩa Hầu hết âm tiết tiếng Việt đứng có khả biểu ý nghĩa xác định Như âm tiết tiếng Việt ngồi vai trị đơn vị ngữ âm cịn có vai trị từ vựng ngữ pháp c) Âm tiết tiếng Việt có cấu trúc chặt chẽ Ngồi ra, âm tiết tiếng Việt coi cấu trúc [57] mô tả Bảng I Khi sử dụng cấu trúc này, thật đơn giản để thực phiên âm cho âm tiết tiếng Việt nào: Bảng I: Cấu trúc âm tiết tiếng Việt Thanh điệu Âm đầu Vần Âm Âm đệm Âm cuối Ví dụ cấu trúc âm tiết (từ) “chuyền” phân tích thành thành phần sau: Bảng II: Ví dụ cấu trúc ngữ âm âm tiết “chuyền” Âm đầu (Ch) Thanh điệu (Thanh huyền) Vần (uyên) Âm đệm (u) Âm (yê) Âm cuối (n) 3.1.1 Bộ âm vị tiếng Việt Âm vị (phoneme) đơn vị trừu tượng nhỏ ngôn ngữ Mọi âm tiết ngôn ngữ tạo tổ hợp âm vị Trong nhận dạng tiếng nói từ vựng lớn âm vị thường chọn đơn vị 43 hệ thống nhận dạng với mục đích giảm số lượng đơn vị hệ thống Trong khoảng thời gian ngắn từ 10ms đến 40ms coi tín hiệu âm ổn định khoảng thời gian phổ biến cho âm vị Vì chọn âm vị đơn vị nhận dạng để giảm ảnh hưởng biến đổi tín hiệu tiếng nói Dựa theo cấu trúc âm tiết tiếng Việt hệ thống âm vị tiếng Việt bao gồm 21 âm đầu, âm đệm, 16 âm âm cuối [58] Các âm vị tiếng Việt theo âm vị quốc tế (IPA) cách thể chữ viết trình bày Bảng III Bảng III: Tập âm vị ngữ âm tiếng Việt /b/ /m/ /f/ /v/ Âm đầu Cách IPA Viết b /ş/ m /c/ ph /ʈ / v /ɲ / /t/ /t‟/ /d/ /n/ t th đ n IPA /l/ /k/ /χ/ /ŋ/ /z/ d, gi /ɣ / /ʐ / r /h/ /s/ x Âm đệm Âm Âm cuối Cách IPA Cách IPA Cách Viết IPA Cách Viết IPA Cách Viết Viết Viết s /w/ o, u /i/ i, y /u/ u /-p/ p ch /e/ ê /o/ ô, ôô /-t/ t tr /ε/ e /ͻ / o, oo /-k/ c, ch nh /εˇ/ a (khi đứng /ↄ ˇ/ o (khi đứng /-m/ m trước /-k/, /-ŋ/) trước /-k/, /-ŋ/) l /iˬ e/ iê, ia, yê, ya /uˬ o/uô, ua /-n/ n c, k, q /ɯ/ u /-ŋ/ ng, nh kh /ɤ / o /-ṷ / u, o ng, /a/ a /-˰ i/ i, y ngh g, gh /ɤ ˇ/ â h ă ă, a (khi đứng trươc /-ṷ /, /˰ i/) /ɯˬ ɤ ươ, / ưa Không giống tiếng Anh hay tiếng Trung, tiếng Việt ngơn ngữ đánh vần dựa quy tắc chuẩn Mỗi từ phát âm xác khơng nhìn thấy Điều có nghĩa là, quy tắc dựa thuật tốn biến đổi hình vị sang âm vị (grapheme to phoneme - G2P) [37] dựa cấu trúc mơ tả Bảng I áp dụng để tạo chuỗi âm vị cho câu Trong thuật toán này, ba loại âm vị sử dụng để tạo chuỗi âm vị cho phiên âm cho Thứ nhất, gọi âm vị dựa kí tự (Character-based Phoneset - CP), tương tự cách tiếp cận với tiếng 44 Anh [48] [51], CP chứa tất ký tự đơn xuất phiên âm thường Ví dụ CP = {a, â, à, b, } Có 97 ký tự khơng bao gồm ký hiệu trống âm câm CP Thứ hai, gọi âm vị dựa âm tiết (Phonemebased Phoneset - PP), tập hợp âm điệu xây dựng cách áp dụng G2P [37] Nó chứa 137 âm vị bao gồm Âm đầu, Âm đệm, Âm cuối ghép Âm với ký tự điệu Để đánh giá ảnh hưởng thông tin điệu áp dụng E2E mơ hình ngữ âm, tất ký tự mang điệu loại bỏ khỏi âm điệu PP để tạo âm vị thứ ba coi âm vị khơng có thơng tin điệu (phoneset Without Tone informations - WT) Số lượng âm vị WT giảm xuống 47 3.1.2 Thanh điệu đặc trưng điệu Về mặt hình thức không xét đến biến đổi điệu phụ âm dừng cuối âm tiết tiếng Việt có điệu [58] Bao gồm huyền, ngã, hỏi, sắc, nặng (khơng có điệu, thể chữ viết khơng dấu) Hình 3-1: Các đường đặc tính điệu tiếng Việt (nguồn [35]) a) Thanh bằng: (T1) điệu cao, có đường đặc tính phẳng đường số Hình 3-1; b) Thanh huyền: (T2) Là điệu thấp, đường đặc tính có dạng phẳng tương tự phần cuối có phần xuống thấp thể đường số Hình 3-1; 45 c) Thanh ngã: (T3) Đường số Hình 3-1, đường đặc tính ngã biến đổi từ ngang, thấp cao d) Thanh hỏi: (T4) Đường số Hình 3-1, thấp có đường đặc tính gãy giữa; c) Thanh sắc: (T5) Đường số Hình 3-1, đường đặc tính sắc có hướng lên; d) Thanh nặng: (T6) Đường số Hình 3-1, thấp có đường đặc tính xuống; Các từ kết hợp với điệu khác phát âm với âm tiết khác nhau, âm tiết phân biệt với âm tiết khác ký tự điệu Do đó, đặc tính tiếng nói bao gồm thông tin điệu giúp cải thiện hiệu suất Trong nghiên cứu trước [13] [37] [38] chứng minh tiếng Việt 3.2 Mơ hình End-to-End đề xuất cho nhận dạng tiếng Việt Kiến trúc E2E đề xuất cho nhận dạng tiếng Việt mô tả Hình 3.2 Có ba phần kiến trúc Phần thứ lớp đầu vào, gồm biến đổi LDA (Linear Discriminant Analysis) đóng vai trị biến đổi tạo vector đặc trưng Phần thứ hai lớp ẩn, lớp TDNN (Time Delay Deep Neural Network) trình bày Mỗi lớp gồm có 1024 đơn vị Bối cảnh trễ hai lớp lớp thứ tư (-1, 0, 1), ba lớp cuối (-3, 0, 3) lớp cịn lại Cấu hình khuyến nghị [59] Lớp ẩn lớp LSTM tùy biến, tiếp nhận kích hoạt ht từ lớp TDNN thứ tám làm đầu vào Để phục vụ việc so sánh, hai loại kiến trúc xây dựng Loại thứ nhất, bao gồm lớp LSTM lớp ẩn thứ chín, mơ hình ký hiệu TDNN + LSTM Loại thứ hai, ký hiệu TDNN, bao gồm lớp TDNN sử dụng lớp ẩn Phần thứ ba lớp đầu ra, mạng CTC Kích thước lớp kích thước âm vị cần đáp ứng 46 Hình 3-2: Kiến trúc E2E cho nhận dạng tiếng Việt Nói chung, kiến trúc coi gồm hai thành phần Ý tưởng cho thành phần đầu tiên, lớp TDNN mà lớp cấu hình linh hoạt với bối cảnh trễ cụ thể, thực thi mơ hình biến đổi đặc trưng để nén đặc trưng ngữ âm thông tin phụ thuộc ngữ cảnh thành đặc trưng bậc cao với kích thước nhỏ Thành phần thứ hai mã hóa-giải mã, gồm lớp LSTM + CTC Nhờ có khả ghi nhớ phụ thuộc dài kỳ, lớp LSTM mã hóa mơ hình hóa đặc trưng cấp cao thu từ thành phần thứ tầng trước Cuối cùng, lớp CTC giải mã dự đoán đầu Vì với kiến trúc này, ba lợi mơ hình TDNN, LSTM CTC tích hợp vào mơ hình đơn Chúng có khả mơ hình hóa đặc trưng với độ trễ tùy biến (TDNN), có khả ghi nhớ định dài kỳ trước thơng tin theo ngữ cảnh cho định (LSTM), cuối khả đào tạo không yêu cầu nhãn (CTC) 3.3 Thực nghiệm Kết 3.3.1 Bộ liệu huấn luyện kiểm tra Bộ liệu sử dụng để huấn luyện mơ hình E2E phát triển Viện nghiên cứu công nghệ FPT (FPT Technology Research Institute 47 FTRI) Tập tiếng nói co việc huấn luyện giọng đọc với câu chọn từ trang mạng diễn đàn tin tức hàng ngày Có 3059 người nói bao gồm nam nữ đến từ miền Bắc, Trung Nam Việt Nam Tất tệp âm lưu trữ chuyển đổi sang định dạng sóng với tốc độ mẫu 16 kHz độ xác chuyển đổi tương tự/số 16 bits Tổng thời lượng tệp âm 2036 Coi liệu tiếng nói sạch, áp dụng số phương pháp tăng cường bổ sung tiếng ồn thay đổi tốc độ nói âm lượng thực tế Đầu tiên, liệu lời nói chứa tiếng ồn tạo cách kết hợp mẫu tiếng ồn với tiếng nói Các mẫu tiếng ồn dùng cho việc kết hợp chọn ngẫu nhiên từ 30 loại môi trường nhiễu Khi tiếng ồn thêm vào, ta tăng/giảm tốc độ nói tương ứng 1.1 0.9 Sau cùng, ta điều chỉnh âm lượng cho tệp âm với hệ số ngẫu nhiên phạm vi từ 0.2 đến 2.0 toàn liệu tăng cường từ bước trước Kết thúc, thời lượng liệu tăng cường cuối 12216 Để đánh giá mơ hình, học viên sử dụng hai kiểm thử mô tả Bảng IV Bộ VLSP2018 phát triển nhóm nghiên cứu liên quan đến xử lý ngơn ngữ tiếng Việt [60] Nó bao gồm tập tin wav liên tục phát biểu tin tức với tổng thời lượng Âm giọng nói ghi lại mơi trường khơng tiếng ồn Khơng có thơng tin người nói Tỷ lệ phương ngữ 50%, 40% 10% cho miền Bắc, miền Nam miền Trung Bộ kiểm thử thứ hai thử nghiệm FPT phát triển Viện nghiên cứu công nghệ FPT Thử nghiệm bao gồm câu nói tự phát ghi lại đường phố, văn phịng làm việc, mà khơng có giới hạn tiếng ồn Bảng IV: Bộ liệu thử nghiệm Corpus Type Sentences Duration Speakers Domain Trainingn speech Reading speech 2,9M 2036h 3059 News VLSP2018 Reading speech 796 2h unkown News FPT-Test Spontaneous speech 18596 20h 53 Text corpus 89M Open News, Story, Daily questions and answers, 48 3.3.2 Huấn luyện mơ hình E2E Tất tập liệu huấn luyện bao gồm tệp âm phiên âm chúng sử dụng để huấn luyện mơ hình (TDNN + LSTM) TDNN Đặc trưng đầu vào hệ số đường bao phổ tần số Mel (MFCC) [61] với 40 hệ số tính tốn cửa sổ 25ms tốc độ dịch chuyển 10ms, hệ số đặc trưng điệu trích chọn công cụ Kaldi [19] 11 vector đặc trưng xếp chồng lên biến đổi thông qua ma trận LDA để giảm kích thước xuống 40, đặc trưng biến đổi tiếp tục đưa sang mơ hình DNN Các mơ hình huấn luyện Kaldi với thời kỳ, kích cỡ lơ 128, hệ số học tập khởi tạo kết thúc 0.005 0.0005 3.3.3 Mơ hình ngơn ngữ (LM) Các mơ hình E2E huấn luyện sử dụng phiên âm, LSTM mơ hình hóa đặc trưng ngữ âm từ liên quan mơ hình ngơn ngữ, CTC lại tạo chuỗi nhãn khả dụng sử dụng âm vị độc lập Ngoài ra, chủ đề phiên mã huấn luyện khơng liên quan đến chủ đề ứng dụng thực tế Vì vậy, mơ hình E2E thường xem mơ hình ngữ âm Để cải thiện độ xác, mơ hình ngơn ngữ mở rộng cần áp dụng Nó cách tiếp cận tiên tiến [48] [51] Một mơ hình ngơn ngữ 3-gram mở rộng cơng cụ SRILM [62] xây dựng cho văn mơ tả Bảng IV Mơ hình ngôn ngữ sử dụng lượt giải mã thứ hai để nối lại mạng tạo từ lượt giải mã sử dụng mơ hình E2E 3.3.4 So sánh với mơ hình DNN Để so sánh, mơ hình truyền thống (TM) huấn luyện cách sử dụng tập liệu huấn luyện liên kết bắt buộc nó, âm vị đặt PP Mơ hình mơ hình lai ghép Mơ hình Markov ẩn (HMM) Mạng nơ-ron trễ thời gian (TDNN) đề xuất [56], mơ hình tiên tiến sử dụng cơng cụ Kaldi Sau thử nghiệm loại mơ hình mơ hình cho tỉ lệ lỗi từ tốt liệu thử nghiệm Về bản, mơ 49 hình huấn luyện qua hai pha Ở pha thứ nhất, mơ hình HMM-GMM đại diện cho âm vị độc lập ngữ cảnh (mono-phone) trước hết khởi tạo huấn luyện liệu huấn luyện Sau mơ hình độc lập ngữ cảnh huấn luyện, trạng thái phụ thuộc ngữ cảnh mức tri-phone khởi tạo phân cụm thành 3136 lớp, sử dụng để huấn luyện trạng thái ràng buộc cho mơ hình HMM-GMM Mỗi tầng sử dụng 30 thành phần trộn Gaussian Đặc trưng sử dụng cho mơ hình HMM-GMM với 13 hệ số đường bao phổ tần số Mel (MFCCs) dẫn xuất thứ thứ hai chúng Trong pha thứ hai, liên kết liệu huấn luyện tạo đỉnh mơ hình HMM-GMM huấn luyện, sử dụng làm mục tiêu để huấn luyện mơ hình TDNN 3.3.5 Các kết thảo luận Kết thử nghiệm đánh giá tỷ lệ lỗi từ (WER) Bảng V: Bảng V: Kết thử nghiệm VLSP2018 Model TM (Tranditional Model) Feature MFCC+Pitch Phoneset PP (Toneme Set) MFCC MFCC+Pitch CP (Character Based Phoneset) MFCC TDNN (E2E Model) MFCC+Pitch PP (Toneme Set) MFCC MFCC+Pitch TDNN+LSTM (E2E Model) MFCC+Pitch WT (Phoneset without tones) PP (Toneme Set) FPT-Test No LM With LM No LM With LM - 6,56 - 7,43 - 12,7 - 20,56 27,59 11,5 37,11 19,45 - 11,38 - 20,25 25,13 10,48 36,29 18,44 - 14,26 - 21,93 27,98 13,07 38,27 20,64 - 9,71 - 14,41 Kết cho thấy tỉ lệ lỗi từ mơ hình truyền thống tốt đáng kể so với mơ hình E2E tốt khoảng 5% tuyệt đối Cũng tương đương kết áp dụng ngôn ngữ tiếng Anh tiếng Quan thoại nghiên cứu [1] [2] [3] Điều đưa kết luận tương tự mơ hình nhận dạng xác mơ hình truyền thống Nhưng mơ hình E2E dễ dàng nhanh cho việc huấn luyện triển khai, nhờ khả huấn luyện 50 trực tiếp tệp âm phiên âm tương ứng Kết cho thấy thông tin điệu, bao gồm điệu đặc trưng điệu thành phần quan trọng để tối ưu hóa hiệu suất cho nhận dạng tiếng Việt Đặc biệt, âm vị dựa điệu PP tốt so với âm vị khơng có điệu (WT) khoảng 1.2% tuyệt đối Bộ âm vị PP cho tỉ lệ lỗi từ (WER) tốt so sánh với âm vị CP Mặc dù mơ hình E2E phát triển theo nghĩa cách tiếp cận đơn giản kiến thức ngơn ngữ cho việc xây dựng hệ thống nhận dạng Nhưng điệu tiếng Việt dễ dàng khởi tạo, dùng để tạo chuỗi nhãn huấn luyện mơ hình E2E 51 Kết luận Trong luận văn này, học viên trình cách tiếp cận mơ hình E2E để phát triển hệ thống nhận dạng tiếng Việt Hai loại mô hình E2E đề xuất cho nhận dạng tiếng Việt Trong đó, mơ hình sử dụng kết hợp TDNN + LSTM cho kết tốt so với mô gồm TDNN, hiệu suất chúng gần tương đương với mơ hình truyền thống khoảng 5% tỉ lệ lỗi từ Vì vậy, mơ hình E2E chắn có hiệu nhận dạng tiếng Việt Nó thúc đẩy thực nhiều nghiên cứu để cải thiện, E2E giảm thời gian chi phí phát triển hệ thống Đối với câu hỏi tác dụng điệu, kết thực nghiệm chứng minh thông tin điệu bao gồm đặc trưng điệu điệu thành phần quan trọng để cải thiện hệ thống nhận dạng tiếng Việt Cụ thể, luận văn này, mơ hình có điệu tốt so với mơ hình sử dụng âm vị khơng có thơng tin điệu khoảng 1.2%, kết hợp (MFCC+Pitch) tốt MFCC khoảng 1% tuyệt đối Dựa kết này, ta kết luận thông tin điệu giải pháp để tối ưu hóa nhận dạng tiếng Việt Liên quan đến loại nhãn, so với mơ hình sử dụng âm vị dựa ký tự (CP) ta thấy mơ hình sử dụng âm vị dựa âm tiết (PP) cho tỉ lệ lỗi từ tốt khoảng 0.7% tuyệt đối Kết cho khuyến nghị phát triển hệ thống E2E cho nhận dạng tiếng Việt, Âm tiết nên sử dụng để ghi nhãn, thay sử dụng Ký tự làm âm vị Với thời gian quy định nghiên cứu luận văn, chắn khó tránh khỏi thiếu sót, hạn chế việc trình bày giải pháp kiến nghị Đồng thời, kết nghiên cứu bước khởi đầu cho áp dụng mơ hình End-to-End cho nhận dạng tiếng nói tiếng Việt Mở hướng nghiên cứu, áp dụng cho số ngơn ngữ dân tộc khác ngồi tiếng dân tộc kinh, hệ thống nhận dạng thông dịch tiếng dân tộc Kinh sang tiếng dân tộc Tày; hệ thống nhận dạng thông dịch tiếng dân tộc thiểu số khác sang tiếng dân tộc Kinh 52 Tác giả mong nhận nhiều ý kiến đóng góp quý báu thầy cô giáo, nhà khoa học bạn bè, đồng nghiệp để tác giả hồn thiện đề tài 53 Danh mục tài liệu tham khảo: [1] Jurafsky, Daniel and Martin, James H Speech and Language Processing - 2nd Edition Prentice Hall, ISBN-13: 978-0131873216, ISBN-10: 0131873210, 2008 [2] Ambra, N and Catia, C and Wilhelmus, S "Automatic Speech Recognition for second language learning: How and why it actually works." International Congress of Phonetic Sciences (ICPhS) Barcelona, 2003 [3] Tebelskis, Joe Speech Recognition using Neural Networks USA: Carnegie Mellon University, 1995 [4] Đức, Đặng Ngọc Mạng nơron mơ hình Markov ẩn nhận dạng tiếng Việt Hà Nội: Luấn án tiến sỹ, Trường ĐH Khoa học tự nhiên – ĐH Quốc gia hà Nội, 2003 [5] Lei, Xin Modeling Lexical Tones for Mandarin Large Vocabulary Continuous Speech Recognition USA: University of Washington, 2006 [6] Muda, Lindasalwa and Begam, Mumtaj and Elamvazuthi, I "Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques." journal of computing, V.2, No.2, ISSN 2151-9617, 2010 [7] Florian, Honig and Georg, Stemmer and Christian, Hacker and Fabio, Brugnara "Revising Perceptual Linear Prediction (PLP)." INTERSPEECH Lisbon, Portugal, 2005 [8] Haeb-Umbach, R and Ney, H "Linear discriminant analysis for improved large vocabulary continuous speech recognition." Acoustics, Speech, and Signal Processing (ICASSP) California, USA, 1992 13-16 [9] Sakai, M.,Denso Corp "Generalization of Linear Discriminant Analysis used in Segmental Unit Input HMM for Speech Recognition." Acoustics, Speech and Signal Processing (ICASSP) Honolulu, 2007 IV-333 - IV-336 [10] Psutka, Josef V "Benefit of Maximum Likelihood Linear Transform (MLLT) Used at Different Levels of Covariance Matrices Clustering in ASR Systems." Text, Speech and Dialogue, 10th International Conference (TSD) Czech Republic, 2007 [11] Anastasakos, T and McDonough, J and Makhoul, J "Speaker adaptive training: a maximum likelihood approach to speaker normalization." Acoustics, Speech and Signal Processing (ICASSP) Munich, 1997 1043 – 1046 [12] Martin, Karafiat and Lukas, Burget and Pavel, Matejka and Ondrej, Glembek "iVector-Based Discriminative Adaptation for Automatic Speech Recognition." Automatic Speech Recognition and Understanding (ASRU) Waikoloa: IEEE, 2011 152-157 [13] F Metze, Z A W Sheikh, A Waibel, J Gehring, K Kilgour, Q B Nguyen, and V H Nguyen, “Models of tone for tonal and non-tonal languages,” in 2013 IEEE Workshop on Automatic Speech Recognition and Understanding, Dec 2013, pp 261–266 [14] Tuerxun, M and Zhang, Shiliang and Bao, Yebo and Dai, Lirong "Improvements on bottleneck feature for large vocabulary continuous speech recognition." Signal Processing (ICSP) Hangzhou, 2014 516 – 520 [15] Ravanelli, M and Do, Van Hai and Janin, A "TANDEM-bottleneck feature combination using hierarchical Deep Neural Networks." Chinese Spoken Language Processing (ISCSLP) Singapore, 2014 113 – 117 54 [16] Kevin, K and Heck, M and Muller, Markus and Sperber, Matthias and Stuker, Sebastian and Waibe, Alex "The 2014 KIT IWSLT Speech-to-Text Systems for English, German and Italian." The International Workshop on Spoken Language Translation (IWSLT) Lake Tahoe, USA, 2014 [17] Shen, Peng and Lu, Xugang and Hu, Xinhui and Kanda, Naoyuki and Saiko, Masahiro and Hori, Chiori "The NICT ASR System for IWSLT 2014." The International Workshop on Spoken Language Translation (IWSLT) Lake Tahoe, USA, 2014 [18] Ochiai, T and Matsuda, S and Lu, Xugang and Hori, C and Katagiri, S "Speaker Adaptive Training using Deep Neural Networks." Acoustics, Speech and Signal Processing (ICASSP) Florence, 2014 6349 – 6353 [19] Daniel, Povey and Arnab, Ghoshal and Gilles, Boulianne and Lukas, Burget and Ondrej, Glembek and Nagendra, Goel and Mirko, Hannemann and Petr, Motlicek and Yanmin, Qian and Petr, Schwarz and Jan, Silovsky and Georg, Stemmer and Karel, Vesely "The Kaldi Speech Recognition Toolkit." Automatic Speech Recognition and Understanding Hawaii, US, 2011 [20] Tokuda, K and Masuko, Takashi and Miyazaki, Noboru and Kobayashi, Takao "Hidden Markov models based on multi-space probability distribution for pitch pattern modeling." Acoustics, Speech, and Signal Processing (ICASSP) Phoenix, USA, 1999 229-232 [21] Yu, Kai and Young, S "Continuous F0 Modeling for HMM Based Statistical Parametric Speech Synthesis." Audio, Speech, and Language Processing, IEEE, V 19, Issue 5, ISSN:1558-7916 [IEEE], 2010: 1071 – 1079 [22] Kunikoshi, A and Yao, Qian and Soong, F and Minematsu, N "F0 modeling and generation in voice conversion." Acoustics, Speech and Signal Processing (ICASSP) Prague, 2011 4568 – 4571 [23] Miyajima, C and Hattori Y and Tokuda, K and Masuko and Takashi and Kobayashi, T and Kitamura, T "Speaker identification using Gaussian mixture models based on multi-space probability distribution." Acoustics, Speech, and Signal Processing (ICASSP) Salt Lake City, UT, 2001 433 – 436 [24] Qian, Yao and Frank, K Soong "A Multi-Space Distribution (MSD) and two-stream tone modeling approach to Mandarin speech recognition." Speech Communication, Vol 51, 2009: 1169– 1179 [25] Chong-Jia, Ni and Wen-Ju, Liu and Bo, Xu "Prosody Dependent Mandarin Speech Recognition." International Joint Conference on Neural Networks California, USA: IEEE, 2011 197-201 [26] Ney, R K and Hermann "Improved backing-off for n-gram language modeling." Acoustics, Speech and Signal Processing Detroit: IEEE, 1995 181-184 [27] Stolcke, Andreas "Entropy-based Pruning of Backoff Language Models." DARPA Broadcast News Transcription and Understanding Virginia, 1998 270-274 [28] Katz, S "Estimation of probabilities from sparse data for the language model component of a speech recognizer." Acoustics, Speech and Signal Processing IEEE, 1987 400 - 410 [29] Frederick, Jelinek and Robert, L Mercer "Interpolated Estimation of Markov Source Parameters from Sparse Data." Pattern Recognition in The Netherlands: North-Holland, 1980 381-397 [30] Bengio, Yoshua and Rejean, Ducharme and Pascal, Vincent and Christian, Jauvin "A neural probabilistic language." Machine Learning Research, 2003: 1137–1155 [31] Schwenk, Holger "Continuous space language models." Computer Speech and Language, Vol 21, 2007: 492-518 55 [32] Dixon, P.R and Hori, C and Kashioka, H "Development of the SprinTra WFST Speech Decoder." NICT Research Journal, 2012: Journal [33] Khang, Bạch Hưng Tổng Hợp Nhận dạng tiếng Việt - Đề tài cấp nhà nước Hà Nội: Viện Công Nghệ Thông Tin, 2004 [34] Quoc Cuong, Nguyen and Yen, Pham Thi Ngoc and Castelli, E "Shape vector characterization of Vietnamese tones and application to automatic recognition." Automatic Speech Recognition and Understanding - ASRU Italy: IEEE, 2001 437 - 440 [35] Hong Quang, Nguyen and Nocera, P and Castelli, E and Van Loan, T "Tone recognition of Vietnamese continuous speech using hidden Markov model." Communications and Electronics ICCE Hoi an: IEEE, 2008 235 - 239 [36] Thang, Vu Tat and Tang, Khanh Nguyen and Le, Son Hai and Luong, Mai Chi "Vietnamese tone recognition based on multi-layer perceptron network." Conference of Oriental Chapter of the International Coordinating Committee on Speech Database and Speech I/O System Kyoto,, 2008 253–256 [37] V H Nguyen, C M Luong, and T T Vu, “Tonal phoneme based model for Vietnamese LVCSR,” in 2015 International Conference Oriental CO- COSDA held jointly with 2015 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE), Oct 2015, pp 118– 122 [38] N T Vu and T Schultz, “Vietnamese large vocabulary continuous speech recognition,” in 2009 IEEE Workshop on Automatic Speech Recognition Understanding, Nov 2009, pp 333–338 [39] Tuan, Nguyen and Hai Quan, Vu "Advances in Acoustic Modeling for Vietnamese LVCSR." Asian Language Processing Singapore: IEEE, 2009 280 - 284 [40] Sethserey, Sam and Eric, Castelli and Laurent, Besacier "Unsupervised acoustic model adaptation for multi-origin non native." INTERSPEECH Japan: IEEE, 2010 [41] Ferreira, E and Nocera, P and Goudi, M and Thi, N.D.D "YAST: A Scalable ASR Toolkit Especially Designed for Under-Resourced Languages." Asian Language Processing (IALP) Hanoi: IEEE, 2012 141 - 144 [42] Thắng, Vũ Ngọc Automatic Speech Recognition for Low-resource Languages and Accents Using Multilingual and Crosslingual Information Karlsruher - Germany: Karlsruher Instituts of Technologie - KIT, 2014 [43] Chuong, Nguyen Thien Automatic speech recognition of Vietnamese PhD Thesis, Technical University of Liberec, Czech Republic, 2014 [44] Chen, C.J and Haiping Li and Liqin Shen and Guokang Fu "Recognize tone languages using pitch information on the main vowel of each syllable." Acoustics, Speech, and Signal Processing (ICASSP) Salt Lake City, UT: IEEE, 2001 61-64 [45] Sinaporn, Suebvisai and Paisarn, Charoenpornsawat and et "Thai Automatic Speech Recognition." Acoustics, Speech, and Signal Processing (ICASSP) Philadlnphia, USA: IEEE, 2005 857-860 [46] Hermansky, H "Perceptual linear predictive (PLP) analysis of speech." Acoustical Society of America Journal, 1990: 1738–1752 [47] Levinson, N "The Wiener RMS error criterion in filter design and prediction." J Math Physics, 1947: 261–278 [48] D Amodei, R Anubhai, E Battenberg, C Case, J Casper, B Catanzaro, J Chen, M 56 Chrzanowski, A Coates, G Diamos, E Elsen, J Engel, L Fan, C Fougner, T Han, A Y Hannun, B Jun, P LeGresley, L Lin, S Narang, A Y Ng, S Ozair, R Prenger, J Raiman, S Satheesh, D Seetapun, S Sengupta, Y Wang, Z Wang, C Wang, B Xiao, D Yogatama, J Zhan, and Z Zhu, “Deep Speech 2: End-to-End Speech Recognition in English and Mandarin,” CoRR, vol abs/1512.02595, 2015 [49] C Chiu, T N Sainath, Y Wu, R Prabhavalkar, P Nguyen, Z Chen, A Kannan, R J Weiss, K Rao, K Gonina, N Jaitly, B Li, J Chorowski, and M Bacchiani, “State-of-the-art speech recognition with sequence-to-sequence models,” CoRR, vol abs/1712.01769, 2017 [Online] [50] W Chan, N Jaitly, Q V Le, and O Vinyals, “Listen, attend and spell,” CoRR, vol abs/1508.01211, 2015 [Online] Available: http://arxiv.org/abs/1508.01211 [51] R Collobert, C Puhrsch, and G Synnaeve, “Wav2Letter: an End-to-End ConvNet-based Speech Recognition System,” CoRR, vol 1609.03193, 2016 [52] A Graves, S Fernandez, and F Gomez, “Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neu- ral networks,” in In Proceedings of the International Conference on Machine Learning, ICML 2006, 2006, pp 369–376 [53] A Graves and N Jaitly, “Towards End-to-end Speech Recognition with Recurrent Neural Networks,” in Proceedings of the 31st International Conference on International Conference on Machine Learning - Volume 32 JMLR.org, 2014, pp 1764–1772 [54] S Hochreiter and J Schmidhuber, “Long Short-term Memory,” Neural computation, vol 9, pp 1735–80, 12 1997 [55] A Waibel, T Hanazawa, G Hinton, K Shikano, and K J Lang, “Phoneme recognition using time-delay neural networks,” IEEE Trans- actions on Acoustics, Speech, and Signal Processing, vol 37, no 3, pp 328 339, March 1989 [56] D Snyder, D Garcia-Romero, and D Povey, “Time delay deep neural network-based universal background models for speaker recognition,” in 2015 IEEE Workshop on Automatic Speech Recognition and Under standing (ASRU), Dec 2015, pp 92–97 [57] D T Thuat, Ngu am tieng Viet (Vietnamese Acoustic) Vietnam National University Press, Hanoi, 2003 [58] Chừ, Mai Ngọc and Nghiệu, Vũ Đức and Phiến, Hoàng Trọng Cơ sở ngôn ngữ học tiếng Việt Việt Nam: NXB Giáo Dục, 1997 [59] V Peddinti, D Povey, and S Khudanpur, “A time delay neural net- work architecture for efficient modeling of long temporal contexts,” in INTERSPEECH, 2015 [60] VLSP, “VLSP 2018 - Automatic Speech Recognition,” 2018, [Online; accessed 19-Aug-2018] [61] P Mermelstein, “Distance Measures for Speech Recognition– Psychological and Instrumental,” in Joint Workshop on Pattern Recog- nition and Artificial Intelligence, 1976 [62] A Hong Quang, “SRILM: An extensible language modeling toolkit,” in IN PROCEEDINGS OF THE 7TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING (ICSLP 2002), 2002, pp 901– 904 57 ... vực nhận dạng tiếng nói Giới thiệu tổng quan tình hình nghiên cứu nhận dạng tiếng Việt nước Giới thiệu nội dung nghiên cứu luận văn 1.1 Tổng quan nhận dạng tiếng nói 1.1.1 Nhận dạng tiếng nói Nhận. .. nhận dạng tiếng nói Phân loại mơ hình mạng DNN truyền thống, mạng DNN End-to-End; ứng dụng nhận dạng tiếng nói ngơn ngữ khơng phải tiếng Việt ii  Chương 3: Áp dụng mơ hình mạng nơ-ron End-to-End. .. online 1.3 Nhận dạng tiếng Việt nghiên cứu Nhìn chung tính đến nghiên cứu nhận dạng tiếng Việt hạn chế Phần lớn nghiên cứu dừng lại nhận dạng số nhận dạng từ phát âm rời rạc Tiếng Việt ngơn ngữ

Ngày đăng: 06/08/2020, 23:49

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w