ở phần trên chúng ta đã xét những mô hình Markov mà trong đó mỗi trạng thái tương ứng với một sự kiện quan sát được. Do đó, đầu ra của những mô hình như vậy tại bất kỳ một trạng thái nào sẽ là không ngẫu nhiên. Vì vậy mô hình này có nhiều hạn chế trong việc ứng dụng để giải quyết các vấn đề phức tạp. Phần này sẽ mở rộng quan niệm về mô hình Markov trong tr−ờng hợp kết quả quan sát là một hàm xác suất của trạng thái, đó là mô hình Markov ẩn (Hidden Markov Model - HMM).
Mô hình Markov ẩn là một quá trình ngẫu nhiên đ−ợc nhúng hai lần, trong đó quá trình ngẫu nhiên chính không quan sát đ−ợc một cách trực tiếp (ẩn) mà chỉ có thể quan sát đ−ợc thông qua một tập hợp các quá trình ngẫu nhiên khác, chúng tạo thành một dãy quan sát.
Để minh họa các khái niệm cơ bản của mô hình Markov ẩn, chúng ta sẽ cùng nhau xét một số ví dụ đơn giản về thí nghiệm tung đồng xu.
Ví dụ 3.1: Cho một đồng xu tốt, tức là xác suất khi tung đ−ợc mặt sấp và mặt ngửa là nh− nhau: P(H) = P(T) = 0.5; trong đó H là ký hiệu của mặt sấp, T là ký hiệu của mặt ngửa. Giả sử lần đầu tung đồng xu ta đ−ợc mặt sấp (H). Hỏi:
a. Xác suất để 10 lần tung kế tiếp sẽ đ−ợc: T T H T H H T H H T b. Xác suất để 10 lần tung kết tiếp sẽ đ−ợc: T T T T T T T T T T c. Xác suất để trong 5 trong số 10 lần tung kết tiếp là H
Lời giải nh− sau:
a. Vì đồng xu tung có xác suất mặt sấp và mặt ngửa là nh− nhau P(H)=
P(T)=0.5 nên với những lần tung độc lập thì xác suất của dãy quan sát có chiều dài 10 là:
P(T T H T H H T H H T) = (0,5)10 b. T−ơng tự ta có:
P(T T T T T T T T T T) = (0,5)10
c. Xác suất để có 5 lần xuất hiện mặt sấp H trong số 10 lần tung chính là số dãy quan sát có chiều dài 10 trong đó có 5H và 5T:
P(5H, 5T) = (10/5)(0,5)10 = 0,25
Vì là có (10/5) các lấy 5H, 5T trong 10 lần tung, và mỗi dãy có xác suất 0,510 Ví dụ 3.2: Bài toán với mô hình tung đồng xu.
Giả sử bạn ở trong một căn phòng với một màn chắn và bạn không nhìn thấy
điều gì xảy ra. Phía bên kia của màn chắn có một ng−ời thực hiện thí nghiệm tung
đồng xu (sử dụng một hay nhiều đồng xu). Tại bất kỳ thời điểm nào, anh ta đều không nói với bạn anh ta đã chọn đồng xu nào để tung, anh ta chỉ cho bạn biết kết quả của mỗi lần tung đồng xu là sấp hay ngửa mà thôi. Theo cách đó, một chuỗi các thực nghiệm tung đồng xu ẩn sẽ đ−ợc thực hiện với dãy quan sát bao gồm một loạt các tr−ờng hợp sấp và ngửa. Dãy quan sát sẽ đ−ợc biểu diễn dạng:
O = O1 O2 O3 … OT = H H T T T H T T H … H
Câu hỏi đặt ra ở đây là làm thế nào chúng ta có thể xây dựng đ−ợc một mô
hình Markov ẩn để giải thích cho dãy quan sát nhận đ−ợc t ơng ứng với đồng xu − nào đ−ợc tung.
Vấn đề đầu tiên ta phải giải quyết trong bài toán này là quyết định xem những trạng thái trong mô hình sẽ t−ơng ứng với những tr−ờng hợp nào và cần có bao nhiêu trạng thái. Có một lựa chọn là giả sử rằng chỉ có một đồng xu đ−ợc tung.
Trong tr−ờng hợp này chúng ta có thể mô hình hóa tình huống với một mô hình hai trạng thái, trong đó mỗi trạng thái sẽ tương ứng với kết quả của lần tung trước đó (mặt sấp hay mặt ngửa). Mô hình này đ−ợc minh họa trong hình 2.2.
Hình 2.2: Mô hình Markov ứng với thí nghiệm tung 1 đồng xu
Trong tr−ờng hợp này mô hình Markov là quan sát đ−ợc và kết quả duy nhất của mô hình này đ−ợc xác định dựa trên giá trị tham số của mô hình.
Mô hình thứ hai minh họa trong hình 2.3 đ−ợc dùng để giải thích cho chuỗi quan sát trên. Trong tr−ờng hợp này, mô hình có hai trạng thái, mỗi trạng thái t−ơng
ứng với trường hợp đồng xu xác định được tung. Mỗi trạng thái được đặc trưng bởi phân bố xác suất của mặt sấp P1 và mặt ngửa 1 – P1 của đồng xu tương ứng. Sự chuyển đổi trạng thái đ−ợc biểu diễn bởi một ma trận chuyển trạng thái aij, với aij là xác suất chuyển từ trạng thái thứ i ở thời điểm t sang trạng thái thứ j ở thời điểm t+1.
Hình 2.3: Mô hình Markov ứng với thí nghiệm tung 2 đồng xu
Mô hình thứ ba đ−ợc minh họa trong hình 2.4. Mô hình này t−ơng ứng với trường hợp sử dụng ba đồng xu và việc lựa chọn một trong số ba đồng xu cũng là do một sự kiện mang tính xác suất.
Hình 2.4: Mô hình Markov ứng thí nghiệm tung ba đồng xu
Câu hỏi đặt ra ở đây là: Trong ba mô hình chỉ ra trong các hình 2.2, 2.3, 2.4, mô hình nào phù hợp nhất với những quan sát thực tế? Rõ ràng ta thấy mô hình một
đồng xu là mô hình đơn giản nhất, chỉ có một tham số duy nhất ch−a biết là P(H).
Còn với mô hình hai đồng xu thì có chứa đến bốn tham số ch−a biết là: a11, a22, P1, P2. Mô hình ba đồng xu có tới chín tham số ch−a biết là: a11, a12, a21, a22, a31, a32, P1,
P2, P3. Nh− vậy, với số bậc tự do càng cao thì những mô hình Markov lớn d−ờng nh − sẽ mô hình hóa thí nghiệm tung đồng xu tốt hơn so với những mô hình có kích thước nhỏ. Mặc dù về lý thuyết điều này là đúng, nh−ng trên thực tế phải có những giới hạn về kích th−ớc của mô hình.
2.2.2 Các thành phần cơ bản của mô hình Markov ẩn rời rạc
Qua các ví dụ trên, chúng ta đã có một chút hình dung sơ bộ về mô hình Markov ẩn và cách áp dụng nó vào trong một số trường hợp đơn giản. Bây giờ chúng ta sẽ định nghĩa một số thành phần cơ bản của mô hình Markov ẩn. Một mô hình Markov ẩn đ−ợc mô tả bởi các thông số sau:
1. Số trạng thái của mô hình N: Mặc dù các trạng thái là ẩn, nh−ng trong nhiều ứng dụng thực tế, mỗi trạng thái th−ờng gắn với một ý nghĩa vật lý nào
đó. Ví dụ, trong mô hình tung đồng xu, mỗi trạng thái tương ứng với một
đồng xu được tung. Nói chung, các trạng thái thường liên kết với nhau sao cho từ một trạng thái bất kỳ đều có thể chuyển đến một trạng thái bất kỳ khác. Tuy nhiên, trong phần sau, chúng ta sẽ xem xét những kiểu liên kết của các trạng thái thích hợp cho những ứng dụng nhận dạng tiếng nói. Ta định nghĩa các trạng thái độc lập là tập S = {S1, S2, … , SN}, và trạng thái ở thời
điểm t là qt.
2. Số các ký hiệu quan sát khác nhau cho mỗi trạng thái M: Các ký hiệu quan sát này th−ờng gắn với các quan sát vật lý đầu ra của hệ thống đ−ợc mô hình hóa. Ví dụ, với thí nghiệm tung đồng xu, các ký hiệu quan sát là mặt sấp và mặt ngửa. Ta ký hiệu tập các ký hiệu quan sát là: V = {v1, v2, .. , vM}
3. Ma trận phân bố xác suất chuyển trạng thái: A = {aij} trong đó aij là xác suất chuyển từ trạng thái i ở thời điểm t sang trạng thái j ở thời điểm t+1
[ 1 | ] 1 i,j N
ij t j t i
a =P q+ =S q =S ≤ ≤
Trong trường hợp từ một trạng thái bất kỳ có thể chuyển đến 1 trạng thái bất kỳ khác chỉ bằng 1 b−ớc thì ta có aij > 0 (với mọi i,j)
4. Ma trận phân bố xác suất các giá trị quan sát đ−ợc ở trạng thái j:
B={bj(k)} trong đó bj(k) là xác suất nhận đ−ợc ký hiệu quan sát vk ở trạng thái j.
k t j
(k) =P[v at t|q =S ] 1 j N 1 k M
bj ≤ ≤
≤ ≤
Và
1
( ) 1 ( j=1,2, ... , M)
M j k
b k
=
= ∀
∑
5. Ma trận phân bố xác suất trạng thái ban đầu của hệ thống:π ={ }πj trong
đó πjlà xác suất mô hình ở trạng thái i tại thời điểm ban đầu t = 1.
i 1
[ ] 1
N t
i
P q i
π π
=
= = ∑ =
Nh− vậy, một mô hình Markov ẩn với 5 tham số đặc tr−ng kể trên có thể đ−ợc ký hiệu là: λ = (A, B, π).