Đƣợc gọi là ma trận xác suất chuyển Chú ý rằng, tổng của mỗi hàng củ a phải bằng 1.

Một phần của tài liệu Bài giảng Xử lý tiếng nói: Phần 2 (Trang 59 - 63)

bằng 1.

Hình B.1 minh họa sơ đồ một chuỗi Markov rời rạc với 5 trạng thái đƣợc gán nhãn S1 – S5 và các xác suất chuyển tƣơng ứng là nhãn các nhánh aij.

Hình B.1: Minh họa một chuỗi Markov rời rạc với 5 trạng thái

MÔ HÌNH MARKOV ẨN

Trong phần trên ta ví dụ về mô hình Markov mà mỗi trạng thái tƣơng ứng với một sự kiện (vật lý) quan sát đƣợc. Tuy nhiên các mô hình nhƣ vậy có ứng dụng hạn chế trong

các bài toán thực tế. Do đó, mô hình đƣợc mở rộng bao gồm cả những trƣờng hợp việc quan sát là một hàm xác suất của trạng thái - tức là mô hình là một quá trình thống kê chồng kép với một quá trình thống kê bên trong mà không quan sát đƣợc (ẩn sâu bên trong), nhƣng có thể chỉ quan sát đƣợc thông qua một tập các quá trình thống kê khác, các quá trình mà tạo ra dãy các quan sát đƣợc. Mô hình nhƣ vậy đƣợc gọi là mô hình Markov ẩn (HMM).

Để minh họa, ta xét ví dụ các mô hình tung đồng xu nhƣ sau. Một ngƣời thực hiện việc tung đồng xu nhƣng không nói cho ta biết anh ta đã làm chính xác những gì. Anh ta chỉ thông báo cho ta kết quả của mỗi đồng xu lật. Nhƣ vậy, đối với ta, một loạt các thí nghiệm tung đồng xu đƣợc ẩn dấu, mà chỉ có dãy quan sát đƣợc về nó là dãy các kết quả chẵn và lẻ. Vấn đề đặt ra làm sao xây dựng một mô hình HMM thích hợp để mô hình dãy chẵn và lẻ quan sát đƣợc. Vấn đề đầu tiên là việc quyết định các trạng thái nào trong mô hình tƣơng ứng với và sau đó là quyết định bao nhiêu trạng thái cần thiết trong mô hình.

Hình B.2: Minh họa ba mô hình Markov có thể đối với thí nghiệm tung đồng xu ẩn Hình B.2 minh họa 3 trƣờng hợp ví dụ. Trƣờng hợp thứ nhất tƣơng ứng với giả thiết chỉ một động xu không cân đƣợc tung. Mô hình trong trƣờng hợp này là mô hình hai

PHỤ LỤC 2. MÔ HÌNH MARKOV ẨN

hình Markov trong trƣờng hợp này là quan sát đƣợc. Cũng cần chú ý rằng, ta có thể sử dụng mô hình Markov một trạng thái trong đó trạng thái tƣơng ứng với một đồng xu không cân đơn lẻ, và tham số chƣa biết là sự không cân của đồng xu.

Trƣờng hợp thứ hai tƣơng ứng với mô hình hai trạng thái trong đó mỗi trạng thái tƣơng ứng với một đồng xu không cân khác nhau đƣợc tung. Mỗi trạng thái đƣợc đặc trƣng bởi một phân bố xác suất của mặt chẵn và mặt lẻ, và các chuyển đổi giữa các trạng thái đƣợc đặc trƣng bởi một ma trận chuyển trạng thái.

Trƣờng hợp thứ ba tƣơng ứng với thí nghiệm sử dụng ba đồng xu không cân khác nhau, và việc chọn một trong ba đồng xu này đƣợc dựa trên một sự kiện xác suất.

Với một lựa chọn một trong ba trƣờng hợp trên để giải thích dãy mặt chẵn và mặt lẻ quan sát đƣợc, câu hỏi đặt ra là mô hình nào mô phỏng tƣơng đồng nhất với các quan sát thực tế. Ta thấy rằng, mô hình trong trƣờng hợp một chỉ có một tham số chƣa biết, hay nói cách khác, bậc tự do chỉ bằng một. Trong khi đó các mô hình trƣờng hợp hai và ba có bậc tự do tƣơng ứng là 4 và 9. Do đó, với bậc tự do lớn hơn, mô hình HMM lớn hơn sẽ dƣờng nhƣ có khả năng hơn trong việc mô tả một dãy các thí nghiệm tung xu so với các mô hình nhỏ hơn. Tuy nhiên cũng cần chú ý, điều nhận xét trên là đúng về mặt lý thuyết, trong thực tế có một số hạn chế với kích thƣớc của mô hình.

Một HMM đƣợc đặc trƣng bởi:

11. Số các trạng thái trong mô hình N. Mặc dù các trạng thái là ẩn, nhƣng với một số ứng dụng thực tế thƣờng có một số ý nghĩa vật lý gắn với các trạng thái hoặc một tập các trạng thái của mô hình.

12. Số các ký hiệu quan sát phân biệt với mỗi trạng thái, tức là kích thƣớc bộ chữ rời rạc.

13. Phân bố xác suất chuyển trạng thái P trong đó aij Pr[Xn1 Sj XnSi], )

, 1

( i jN . Trong trƣờng hợp đặc biệt trong đó một trạng thái bất kỳ có thể đạt đến bất kỳ trạng thái nào khác trong một bƣớc duy nhất, ta có aij 0 với mọi i, j. Với các loại HMM khác, ta có aij 0cho một hoặc nhiều hơn một cặp (i,j).

14. Phân bố xác suất ký hiệu quan sát ở trạng thái j, B{bj(k)}, trong đó ] ) ( [ Pr ) ( k t j j k v t X S b   , (1 jN,1kM).

Với các giá trị của N, M, P, B và π cho trƣớc, HMM có thể đƣợc sử dụng nhƣ một bộ tạo cho một dãy quan sát OO1O2...OT (với mỗi quan sát Ot là một ký hiệu từ tập v và T là số các quan sát trong dãy) nhƣ sau:

1. Chọn một trạng thái khởi đầu X1Si theo phân bố trạng thái khởi đầu π. 2. Đặt t=1.

3. Chọn Otvk theo phân bố xác suất ký hiệu ở trạng thái Si, tức là bi(k). 4. Chuyển sang trạng thái mới Xt1Sj theo phân bố xác suất chuyển trạng thái

cho trạng thái Sj, tức là aij.

TÀI LIỆU THAM KHẢO

TÀI LIỆU THAM KHẢO

[1]. John R. Deller, John H. L. Hassen, and John G. Proakis, Discrete-Time Processing of Speech Signals, Wiley-IEEE Press, 2000.

[2]. Editors: Rainer Martin, Ulrich Heuter and Christiane Antweiler, Advances in Digital Speech Transmission, Wiley, 2008.

[3]. Lawrence Rabiner and Biing-Hwang Juang, Fundamentals of Speech Recognition, Prentice-Hall, 1993.

[4]. Editors Jacob Benesty, M. Mohan Sondhi and Yiteng Huang, Handbook of Speech Processing, Springer-Verlag Berlin, 2008.

[5]. Antonio M. Peinado and Jose C. Segura, Speech Recognition over Digital Channels: Robustness and Standards, John Wiley \& Sons, 2006. (adsbygoogle = window.adsbygoogle || []).push({});

[6]. John Holmes and Wendy Holmes, Speech Synthesis and Recognition, second edition, Taylor and Francis, 2001.

[7]. Paul Taylor, Text-to-Speech Synthesis, Cambridge University Press, 2009. [8]. Lawrence R. Rabiner and Ronald W. Schafer, Introduction to Digital Speech Processing, Now Publishers Inc., 2007.

[9]. Lawrence R. Rabiner and Ronald Schafer, Digital Processing of Speech Signals, Prentice-Hall, 1978.

[10]. Sadaoki Furui, Digital Speech Processing, Synthesis, and Recognition, second edition, Marcel Dekker Inc., 2001.

[11]. Lawrence R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceeding of the IEEE, Vol.77, No.2, Feb. 1989, pp.257-286.

Một phần của tài liệu Bài giảng Xử lý tiếng nói: Phần 2 (Trang 59 - 63)