Mô hình DNN

Đặc trưng tiếng nói của mỗi phát âm là một loại đặc trưng tuần tự theo thời gian, bởi vì các từ được nói theo bước thời gian liên tục, và ở thời điểm hiện tại thường phụ thuộc vào các từ trước đó. Do vấn đề phụ thuộc thời gian

này, các mô hình DNN được sử dụng làm mô hình ngữ âm, và được thiết kế sao cho chúng có thể mô hình hóa đặc trưng ngữ âm và thông tin phụ thuộc ngữ cảnh thời gian. Các mô hình được biết đến rộng rãi và thành công nhất để đáp ứng yêu cầu là Bộ nhớ dài-ngắn (Long Short-Term Memory - LSTM) [54] và Mạng nơ-ron trễ thời gian Time Delay Deep Neural Network - TDNN) [55].

LSTM được thiết kế rõ ràng để tránh vấn đề phụ thuộc thời gian trong cả dài và ngắn hạn. Ghi nhớ hoặc quên thông tin trong thời gian dài thực tế là hành vi mặc định của chúng. LSTM [54] có thể được coi là một hàm ánh xạ từ (xt, ht- 1, ct) đến (ht) và đơn vị cơ bản trong các lớp được định nghĩa như công (2.17) và được mô tả như Hình 2.10

LSTM : (xt, ht−1, ct) -> ht (2.17) it = σ(Wxi xt + Whi ht−1 + Wci ct−1 + bi) (2.18) ft= σ(Wxf xt + Whf ht−1 + Wcf ct−1 + bf) (2.19) ct = ftct−1 + ittanh(Wxcxt + Whcht−1 + bc) (2.20) ot = σ(Wxo xt + Who ht−1 + Wco ct + bo) (2.21) ht = ottanh(ct) (2.22)

Trong đó các thuật ngữ W biểu thị ma trận trọng số, các thuật ngữ b biểu thị các vector sai lệch, xt là đặc trưng đầu vào tại thời điểm t, ht-1 là vector ẩn tại thời điểm (t - 1), σ là hàm sigmoid logistic và i, f, o và c tương ứng là cổng đầu vào, cổng quên, cổng đầu ra và vector kích hoạt.

Hình 2-10: Kiến trúc của phần tử LSTM

Ưu điểm của LSTM là khả năng ghi nhớ sự phụ thuộc dài hạn, nhưng nó thường được huấn luyện trên một mạng lưới thời gian dài để giữ thông tin liên quan. Ngoài ra, tính toán tại các đơn vị của nó phức tạp hơn so với các mạng

chuyển tiếp truyền thống. Mô hình TDNN được thiết kế để giải quyết vấn đề trên. Cấu trúc của nó tương tự như mạng nơ-ron tri giác đa lớp ( MultiLayer Perceptron - MLP). Tổng trọng số đầu vào của nó được truyền qua hàm phi tuyến. Sự khác biệt trên phần tử TDNN là tổng đầu vào được tính toán không chỉ từ đầu vào tại thời điểm xt mà cả đầu vào tại thời điểm (t − D): D = {± 1, ± 2,..}. D có thể được coi là ngữ cảnh thời gian. Chẳng hạn, D được đặt thành {- 1, 0, 2}, khi đó đầu ra của đơn vị TDNN [55] được xác định như (2.23):

ht = σ(Wt−1 ht−1 + W h(t) + Wt+2 ht+2 + b) (2.23)

Hình 2-11: Kiến trúc của phần tử TDNN

Tại lớp đầu vào, ht là đặc trưng đầu vào xt. Có thể thấy rằng các phần tử TDNN có thể mô hình hóa các phụ thuộc ở mức khung đặc trưng với ít tính toán hơn so với LSTM và không cần một mạng lưới thời gian dài để huấn luyện. Hiệu suất của nó được thử nghiệm trong [56].

Tổng quan về mô hình HMM:

Nhận dạng tiếng nói sử dụng E2E