Mơ hình nhận dạng tự động tiếng nói

Một phần của tài liệu Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng việt theo phương thức phát âm (Trang 116 - 117)

Hình 4.9: Mơ hình nhận dạng tự động tiếng nói

4.1.2.2. Bộ cơng cụ nhận dạng Kaldi

Có thể liệt kê theo thời gian xuất hiện một số bộ cơng cụ nhận dạng tiếng nói đã được sử dụng phổ biến là HTK, Sphinx và Kaldi. Kaldi là một bộ công cụ nhận dạng tiếng nói mã nguồn mở của trường đại học Johns Hopkins được xây dựng bắt đầu từ năm 2009. So với các bộ cơng cụ nhận dạng tiếng nói trước đó, đặc điểm nổi bật của Kaldi là sự cách mạng trong cơng nghệ nhận dạng tiếng nói dùng mã nguồn mở và đặc trưng của hệ thống nhận dạng Kaldi là rất gần với toàn bộ các kỹ thuật đương đại LDA, MLLT, SAT, fMLLR, fMMI và DNN [24].

Như đã mơ tả ở trên, mơ hình âm học và mơ hình ngơn ngữ là những thành phần quan trọng của hệ thống nhận dạng tiếng nói. Sau đây mơ tả các thành phần này trong Kaldi.

a) Mơ hình âm học

HMM được sử dụng để huấn luyện mô hình âm học trong Kaldi. Các thơng số của HMM được ước lượng bằng huấn luyện Viterbi. Các HMM có thể biểu diễn cho âm đơn (monophone) và âm ba (triphone). Hình 4.10 mơ tả q trình huấn luyện mơ hình âm học AM (Acoustic Model). Mơ hình AM đầu tiên được huấn luyện với monophone (mono) sử dụng các đặc trưng MFCC và Delta-Delta. Sau đó, huấn luyện bằng các triphone “tri1”. Mơ hình "tri2a" được tạo ra sau khi huấn luyện lại triphone.

Huấn luyện MHAH Huấn luyện MHNN Mơ hình ngơn ngữ Kết quả nhận dạng (văn bản tương ứng) Tiếng nói cần nhận dạng Tiếng nói dùng huấn luyện Văn bản dùng huấn luyện Giải mã Từ điển phát âm Mơ hình âm học

117

Mặt khác, mơ hình "tri2b" được huấn luyện bằng cách sử dụng biến đổi tuyến tính LDA + MLLT. Từ mơ hình này, hệ thống tiếp tục huấn luyện dựa trên các đặc trưng LDA + MLLT bằng các phương pháp huấn luyện phân biệt. Các phương pháp đó là:

1. Thơng tin tương hỗ cực đại (MMI - Maximum Mutual Information): tối ưu hóa đúng đắn của một mơ hình bằng cách xây dựng một hàm mục tiêu có xu hướng tối đa hóa xác suất kết hợp 𝑃(𝑎, 𝑞) và thông tin tương hỗ [144]

2. Thông tin tương hỗ cực đại tăng cường (BMMI - Boosted Maximum Mutual Information): sử dụng biến thể của hàm giá MMI với hệ số tăng cường để làm tăng các mơ hình có thể trộn được [133].

3. Lỗi âm cực tiểu hóa (MPE - Minimum Phone Error): nhằm cực tiểu hóa lỗi âm có thể có [32].

Các phương pháp huấn luyện nêu trên cũng được mơ tả trên Hình 4.10 [125]. Ngồi ra cịn bổ sung phương pháp thích nghi người nói ký hiệu là “tri3b”.

Một phần của tài liệu Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng việt theo phương thức phát âm (Trang 116 - 117)

Tải bản đầy đủ (PDF)

(141 trang)