Huấn luyện tiếng nói rời rạc so với liên tục:- 123docz.net

Nếu ta xây dựng một HMM từ cho mỗi từ trong bộ từ vựng cho nhận dạng tiếng nói rời rạc, quá trình huấn luyện hoặc nhận dạng có thể được thực hiện một cách trực tiếp, sử dụng các thuật toán cơ bản được trình bày ở phần mô hình Markov ẩn. Để ước lượng các tham số mô hình, các mẫu của mỗi từ trong bộ từ vựng đã được thu thập. Các tham số mô hình được ước lượng từ tất cả các các mẫu sử dụng thuật toán forward-backward và công thức ước lượng lại. Không cần thiết phải xác định điểm cuối do mô hình khoảng lặng tự động xác định giới hạn của nó nếu ta móc nối các mô hình khoảng lặng với mô hình từ ở cả hai điểm đầu và cuối.

Nếu các mô hình ngữ âm được sử dụng, ta cần phải chia sẽ chúng giữa các từ khác nhau đối với nhận dạng tiếng nói trên bộ từ vựng lớn. Các đơn vị ngữ âm được móc nối để tạo thành một mô hình từ, có thể thêm các mô hình khoảng lặng tại điểm đầu và điểm cuối.

Để móc nối các ngữ âm thành dạng mô hình từ, có thể có sự chuyển đổi từ trạng thái cuối cùng của mô hình Markov ẩn ngữ âm trước sang trạng thái khởi tạo của mô hình Markov ẩn của ngữ âm kế tiếp. Có thể ước lượng các tham số của mô hình Markov ẩn móc nối. Lưu ý rằng việc thêm cung chuyển trạng thái rỗng nên thỏa mãn xác suất ràng buộc với xác suất chuyển trạng thái của mỗi mô hình Markov ẩn ngữ âm. Nếu ước lượng các tham số với mô hình móc nối, xác suất chuyển trạng thái cung rống aijg phải thỏa mãn ràng buộc:

∑ (𝑎𝑖𝑗 + 𝑎𝑖𝑗𝑔)

𝑗 = 1 (3.25)

nhỏ hơn 1. Đối với kết nối liên từ hay móc nối bao gồm nhiều cách phát âm, ta có thể sử dụng nhiều cung rỗng để móc nối các mô hình đơn lẻ với nhau.

Trong ví dụ trong hình dưới, ta có 10 chữ số tiếng Anh trong bộ từ vựng. Xây dựng một mô hình Markov ẩn cho mỗi âm tố tiếng Anh. Từ điển cung cấp thông tin cách phát âm của mỗi từ. Trong đó có một từ đặc biệt là Silence, ánh xạ với /sil/ trong mô hình Markov ẩn có dạng topology như mô hình Markov ẩn ngữ âm chuẩn. Với mỗi từ trong bộ từ vựng, đầu tiên ta dẫn xuất chuỗi ngữ âm cho mỗi từ trong từ điển. Sau đó kết nối các mô hình ngữ âm với nhau thành dạng một mô hình Markov ẩn một từ cho mỗi từ trong bộ từ vựng.

Hình 3.10. Cấu trúc của một mô hình từ rời rạc

Ví dụ với từ two, đầu tiên tạo một mô hình từ bắt đầu bởi silence /sil/, âm tố /t/, /uw/ và kết thúc bằng silence /sil/. Mô hình từ móc nối sau đó được xem như một mô hình Markov ẩn tổng hợp lớn chuẩn. Sử dụng thuật toán Forward- Backward chuẩn để ước lượng các tham số của mô hình Markov ẩn tổng hợp từ nhiều mẫu giọng nói của từ two. Sau vài lần lặp lại sẽ tự động thu được các tham số mô hình Markov ẩn cho /sil/, /t/ và /uw/. Do một âm tố có thể được chia sẻ trên các từ khác nhau, các tham số ngữ âm có thể được ước lượng từ dữ liệu âm học trong các từ khác nhau.

Khả năng tự động sắp xếp mỗi mô hình Markov ẩn đơn lẻ thành chuỗi quan sát tiếng nói không phân đoạn tương ứng là một trong những tính năng mạng mẽ nhất trong thuật toán Forward-Backward. Khi sử dụng phương pháp móc nối mô hình Markov ẩn cho tiếng nói liên tục cần phải sắp xếp nhiều từ thành dạng một mô

hình Markov ẩn câu dựa trên bản ghi của lời nói. Thuật toán Forward-Backward hấp thụ một dãy các thông tin ranh giới từ có thể của các mô hình một cách tự động, vì thế không cần phải phân đoạn tiếng nói liên tục một cách chính xác.

Để ước lượng các tham số của mô hình Markov ẩn, mỗi từ được khởi tạo với mô hình từ móc nối. Các từ trong câu được móc nối với các mô hình silence tùy chọn giữa chúng.

Nói chung, mô hình Markov ẩn câu kết nối có thể được huấn luyện sử dụng thuật toán forward-backward với chuỗi quan sát tương ứng. Do mô hình Markov ẩn toàn câu được huấn luyện trên toàn bộ chuỗi quan sát cho câu tương ứng, hầu hết các giới hạn từ có thể đều đã được xem xét. Các tham số của mỗi mô hình được dựa trên sự liên kết trạng thái với tiếng nói (state-to-speech aligments) đó. Phương pháp huấn luyện như vậy cho phép tự do hoàn toàn để liên kết các mô hình câu đối với quan sát này, và không cần phải cố gắng tìm giới hạn từ.

Trong giải mã tiếng nói, một từ có thể bắt đầu và kết thúc ở bất kỳ đâu trong phạm vi tín hiệu tiếng nói cho trước. Vì các giới hạn từ không thể được phát hiện một cách chính xác, tất cả các điểm bắt đầu và kết thúc phải được tính đến.

Hình 3.11. Mô hình Markov ẩn câu tổng hợp

Huấn luyện tiếng nói rời rạc so với liên tục:

Các phương pháp cửa sổ:

Phân tích Fourier thời gian ngắn: