6. Nội dung nghiên cứu
1.5. Mơ hình ngơn ngữ (language model)
1.6.4. Mạng nơ-ron học sâu ConvNet
ConvNet là một hệ thống nhận dạng tiếng nói dựa trên mạng nơ-ron học sâu, cụ thể là mạng nơ-ron tích chập (Convolutional Neural Network) [32]. ConvNet được thiết kế có thể thực hiện nhận dạng với tín hiệu tiếng nói được mã hóa sử dụng MFCC, phổ năng lượng (power Spectrum) và cũng có thể nhận dạng với tín hiệu ngun mẫu. Mơ hình âm học được huấn luyện trực tiếp với các ký tự giúp loại bỏ các bước trung gian. Mơ hình ngơn ngữ được thực hiện với mạng nơ-ron tích chập.
Đặc trưng tín hiệu ngõ vào hệ thống bao gồm 3 loại, MFCC, phổ năng lượng, và tín hiệu nguyên mẫu. MFCC là đực trưng được sử dụng phổ biến trong các mơ hình HMM-GMM bởi vì số chiều của dữ liệu được nén lại với thông thường là 13 hệ số. Trong các hệ thơng nhận dạng tiếng nói hiện đại, phổ năng lượng được sử dụng khá phổ biến. Sử dụng tín hiệu nguyên mẫu để nhận dạng được nghiên cứu trong thơi gian gần đây.
23
Mơ hình ngơn ngữ của mạng dựa trên mạng nơ-ron tích chập 1 chiều. Cấu trúc mạng được mơ tả trong hình 1.9.
Hình 1.9. Kiến trúc mạng CNN có khả năng nhận dạng giọng nói với tính hiệu âm thanh khơng qua trích rút đặc trưng với MFCC
Trong hình số 1.9, lớp đầu tiên là lớp tích chập với bước trượt. 2 lớp cuối cùng là 2 lớp this tập với kw=1, tương đương với một mạng kết nối đủ.Trường hợp tín hiệu vào
24
là phổ năng lượng hoặc MFCC thì khơng sử dụng lớp 1. Lớp cuối cùng của mạng tạo ra ngõ ra là điểm cho mỗi ký tự trong từ điển (𝑑𝑦 = |ℒ|)