Cấu trúc của một mơ hình từ rời rạc

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính (Trang 67 - 68)

Ví dụ với từ two, đầu tiên tạo một mơ hình từ bắt đầu bởi silence /sil/, âm tố /t/, /uw/ và kết thúc bằng silence /sil/. Mơ hình từ móc nối sau đó được xem như một mơ hình Markov ẩn tổng hợp lớn chuẩn. Sử dụng thuật toán Forward- Backward chuẩn để ước lượng các tham số của mô hình Markov ẩn tổng hợp từ nhiều mẫu giọng nói của từ two. Sau vài lần lặp lại sẽ tự động thu được các tham số mơ hình Markov ẩn cho /sil/, /t/ và /uw/. Do một âm tố có thể được chia sẻ trên các từ khác nhau, các tham số ngữ âm có thể được ước lượng từ dữ liệu âm học trong các từ khác nhau.

Khả năng tự động sắp xếp mỗi mơ hình Markov ẩn đơn lẻ thành chuỗi quan sát tiếng nói khơng phân đoạn tương ứng là một trong những tính năng mạng mẽ nhất trong thuật toán Forward-Backward. Khi sử dụng phương pháp móc nối mơ hình Markov ẩn cho tiếng nói liên tục cần phải sắp xếp nhiều từ thành dạng một mơ

hình Markov ẩn câu dựa trên bản ghi của lời nói. Thuật tốn Forward-Backward hấp thụ một dãy các thơng tin ranh giới từ có thể của các mơ hình một cách tự động, vì thế khơng cần phải phân đoạn tiếng nói liên tục một cách chính xác.

Để ước lượng các tham số của mơ hình Markov ẩn, mỗi từ được khởi tạo với mơ hình từ móc nối. Các từ trong câu được móc nối với các mơ hình silence tùy chọn giữa chúng.

Nói chung, mơ hình Markov ẩn câu kết nối có thể được huấn luyện sử dụng thuật tốn forward-backward với chuỗi quan sát tương ứng. Do mơ hình Markov ẩn tồn câu được huấn luyện trên toàn bộ chuỗi quan sát cho câu tương ứng, hầu hết các giới hạn từ có thể đều đã được xem xét. Các tham số của mỗi mơ hình được dựa trên sự liên kết trạng thái với tiếng nói (state-to-speech aligments) đó. Phương pháp huấn luyện như vậy cho phép tự do hồn tồn để liên kết các mơ hình câu đối với quan sát này, và khơng cần phải cố gắng tìm giới hạn từ.

Trong giải mã tiếng nói, một từ có thể bắt đầu và kết thúc ở bất kỳ đâu trong phạm vi tín hiệu tiếng nói cho trước. Vì các giới hạn từ khơng thể được phát hiện một cách chính xác, tất cả các điểm bắt đầu và kết thúc phải được tính đến.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính (Trang 67 - 68)

Tải bản đầy đủ (PDF)

(111 trang)