Mô hình Markov ẩn liên tục

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt liên tụ (Trang 33 - 38)

Mô hình Markov ẩn đã trình bày ở trên đ−ợc gọi là mô hình Markov ẩn rời rạc vì dãy quan sát bao gồm các ký hiệu nằm trong một bộ từ vựng hữu hạn. Tuy nhiên trong thực tế các dãy quan sát th−ờng là biểu diễn cụ thể của các tín hiệu liên tục, vì vậy để sử dụng đ−ợc mô hình HMM rời rạc ở trên chúng ta cần sử dụng kỹ thuật l ợng tử hóa vector để chuyển thành các ký hiệu rời rạc. Tất nhiên việc làm − này sẽ làm giảm độ chính xác của tín hiệu. Do đó để đạt hiệu quả nhận dạng, mô

hình Markov ẩn đ−ợc mở rộng sử dụng các hàm mật độ xác suất liên tục: Mô hình này đ−ợc gọi là mô hình HMM liên tục.

Xác suất của 1 dãy quan sát O tại trạng thái j là một hàm có dạng tổ hợp của các thành phần Gaussian và có dạng nh− sau:

1 0

NN Ni

a a

⎧ =

⎨ =

1

( ) ( , , ) 1 j N

K

j jk jk jk

k

b O c N O à U

=

=∑ ≤ ≤ (2.39)

Trong đó: O là vector quan sát, K là số thành phần tổ hợp

Cjk là hệ số tổ hợp của thành phần Gaussian thứ k tại trạng thái j N là hàm mật độ phân bố xác suất Gaussian.

Với vector trung bình ajk và ma trận t−ơng quan Ujk, hàm này có dạng nh− sau:

1 1

( ) (

1 2

( , , ) .

(2 ) | |

jk jk jk

O U O

jk jk n

jk

N O U e

U

à à

à π

− − −

= )

(2.40) Hệ số cjk phải thỏa mãn các điều kiện sau:

1 jk

1 1 j N

c 0;1 ;1

K jk k

c

j N k K

=

= ≤

≥ ≤ ≤ ≤ ≤

∑ (2.41)

2.4.2 Một số kiểu mô hình Marrkov ẩn liên tục

Có nhiều cách phân loại mô hình Markov ẩn liên tục. Trong đó người ta th−ờng phân loại mô hình Markov ẩn dựa vào cấu trúc ma trận chuyển trạng thái A.

Trong thường hợp tổng quát ta có mô hình Markov ẩn kết nối đầy đủ, nghĩa là mỗi trạng thái của mô hình đều có thể đạt đ−ợc từ trạng thái còn lại bất kỳ. Loại mô hình này có tính là các hệ số aij > 0.

Đối với một số ứng dụng, đặc biệt là các ứng dụng xử lý tiếng nói, để mô

hình hóa những đặc tr−ng của tín hiệu thì các mô hình kết nối đầy đủ nh− trên là không thích hợp. Ta phải cần đến những mô hình hiệu quả hơn, đó là các mô hình trái - phải hay còn gọi là mô hình Bakis. Sở dĩ mô hình có tên trái - phải là vì dãy trạng thái ẩn bên d−ới mô hình có tính chất là: Khi thời gian tăng lên thì chỉ số trạng thái cũng tăng lên hoặc giữ nguyên trạng thái cũ, tức là hệ thống chuyển trạng thái từ trái qua phải. Rõ ràng loại mô hình trái - phải này rất thích hợp khi mô hình hóa những tín hiệu mà thuộc tính của nó thay đổi theo thời gian, chẳng hạn nh− tín hiệu tiếng nói. Tính chất cơ bản của mô hình Markov ẩn trái - phải là các xác suất chuyển trạng thái đều thỏa mãn aij = 0 với mọi j < i tức là không cho phép chuyển sang trạng

thái có chỉ số nhỏ hơn chỉ số trạng thái hiện tại. Hơn nữa, xác suất trạng thái ban

®Çu cã tÝnh chÊt:

0 1 1 i=1

i

π = ⎨⎧ i≠

⎩ (2.42)

Bởi vì dãy trạng thái phải bắt đầu ở trạng thái 1 và kết thúc ở trạng thái N.

Thông thường mô hình trái – phải còn có thêm những ràng buộc nhằm đảm bảo không có sự thay đổi quá lớn về khoảng cách giữa các trạng thái. Các ràng buộc đó có dạng:

aij = 0 j > i + ∆i (2.43)

Trong ví dụ hình 2.6, ∆i = 2 tức là không đ−ợc phép nhảy quá 2 trạng thái.

Khi đó ma trận chuyển trạng thái có dạng:

11 12 13

22 23 24

33 34

44

0 0

0 0

0 0 0

a a a

a a a

A a a

a

⎡ ⎤

⎢ ⎥

=⎢

⎢⎢ ⎥

⎣ ⎦

⎥⎥ (2.44)

Hình 2.6: Ví dụ về các loại mô hình Markov ẩn a. Mô hình liên kết đầy đủ với 4 trạng thái b. Mô hình trái - phải (Bakis) với 4 trạng thái

Trạng thái cuối cùng trong mô hình trái - phải có có các hệ của ma trận vị trí là:

1 0

NN Ni

a a

⎧ =

⎨ =

⎩ , i < N (2.45)

Chú rằng những ràng buộc trên mô hình trái - phải không ảnh hưởng đến thủ tục −ớc l−ợng lại tham số dùng trong quá trình huấn luyện HMM. Đó là vì những tham số có giá trị 0 lúc khởi tạo sẽ vẫn là 0 trong suốt thủ tục ớc l ợng lại. − −

2.4.3 Một số vấn đề khi cài đặt mô hình Markov ẩn 2.4.3.1 Nhiều dãy quan sát

Trong phần trước chúng ta đã đề cập đến mô hình Markov ẩn. Điều khó khăn chính khi làm việc với mô hình Markov ẩn là vấn đề huấn luyện mô hình. Vì ta không thể chỉ dùng 1 dãy quan sát đơn để −ớc l−ợng các tham số cho nó. Đó là do bản chất tạm thời, ngắn ngủi của các trạng thái trong mô hình chỉ cho phép một số l−ợng nhỏ các quan sát ở mỗi trạng thái cho đến khi chuyển sang trạng thái kế tiếp.

Vì vậy, để nhận đ−ợc các −ớc l−ợng tham số đáng tin cậy ta phải dùng nhiều dãy quan sát để huấn luyện. Khi đó thủ tục huấn luyện lại sẽ đ−ợc bổ sung nh sau: −

Giả sử ta có tập huyến luyện gồm K dãy quan sát:

(1) (2) ( )

[ ... K ]

O= O O O (2.46)

Trong đó O(K) =(O O1( )k 2( )k,...,OTk( )k )là dãy quan sát thứ k. Giả sử mỗi dãy quan sát là

độc lập với nhau và mục tiêu của ta là hiệu chỉnh các tham số của mô hình để làm cực đại:

( )

1 1

( | ) ( | )

K K

k

k

k k

P O λ P O λ P

= =

=∏ =∏ (2.47)

Vì các công thức −ớc l−ợng dựa trên tần số xuất hiện của các sự kiện khác nhau nên ta sẽ đ−a các tần số xuất hiện riêng biệt cho một dãy quan sát vào công thức −ớc l−ợng. Các công thức đánh giá lại sẽ nh sau: −

1

( ) ( ) ( )

1 1

_

1 1

1

( ) ( )

1 1

1 ( ) ( ) ( )

1 ( ) ( )

k

k

K T

k k

t ij j t t

k k t

ij K T

k k

t t

k k t

i a b O j

a P

i i

P

α β

α β

+ +

= =

= =

= ∑ ∑

∑ ∑

k

1

( ) ( )

_

1 1

1

( ) ( )

1 1

1 ( ) ( )

( ) 1

( ) ( )

k

k

K T

k k

t t

k k t

j K T

k k

t t

k k t

j j

b l P

j j

P

α β

α β

= =

= =

=∑ ∑

∑ ∑ (2.48)

Còn πi không cần −ớc l−ợng lại do π1 = 1, πi = 0 với mọi i ≠ 1

2.4.3.2 Khởi tạo các tham số −ớc l−ợng cho mô hình

Về mặt lý thuyết, các ph−ơng trình ớc l ợng của mô hình Markov ẩn tạo ra − − các tham số tương ứng với cực đại địa phương của hàm thích hợp nhất (likehood). Vì

vậy vấn đề quan trọng đặt ra là làm thế nào để chọn các −ớc l−ợng tham số ban đầu của mô hình để cực đại địa phương bằng hay xấp xỉ với cực đại toàn cục của hàm likehood.

Về cơ bản, không có câu trả lời đơn giản và rõ ràng cho vấn đề này. Kinh nghiệm cho thấy rằng, với các tham số π và A, ta có thể khởi tạo một cách ngẫu nhiên hay khởi tạo các giá trị bằng nhau, miễn là thỏa mãn các ràng buộc thống kê, thì đều cho kết quả khá tốt trong hầu hết các trường hợp. Tuy nhiên, với tham số B, nếu các giá trị ban đầu đ−ợc khởi tạo tốt thì quá trình −ớc l−ợng sẽ nhanh chóng hội tụ về điểm tới hạn.

Ta có thể sử dụng thuật toán phân đoạn k trung bình [1] để khởi tạo ma trận B nh− sau: ứng với mỗi chuỗi quan sát O O trong tập đa quan sát ta sử dụng thuật toán Viterbi để tìm chuỗi trạng thái thích hợp nhất, dựa vào đó ta sẽ phân hoạch đ−ợc các quan sát này thành N đoạn (N là số trạng thái của mô hình). Kết quả ta có N tập quan sát, mỗi tập t−ơng ứng với một trạng thái của mô hình. Với mỗi tập xác suất thông số b

1 2

( ... )

k k k

T

O Ok

=

(1) (2) ( )

[ ... K ]

O= O O O

j(k) đ−ợc xác định nh− sau:

bj(k) = Tổng số các quan sát sao cho o 1=vk (2.49) Tổng số các quan sát

2.4.3.3 Dữ liệu huấn luyện không đầy đủ

Một vấn đề nữa liên quan đến việc huấn luyện mô hình Markov ẩn là tập quan sát huấn luyện là hữu hạn. Nh− vậy luôn tồn tại một số các sự kiện có xác suất thấp. Theo công thức −ớc l−ợng bj(k)ở ph−ơng trình 2.37 yêu cầu tính số lần kỳ vọng ở trạng thái j và quan sát vk. Nếu tập quan sát huấn luyện quá nhỏ không xảy ra sự kiện này (tức là qt = j và Ot = vk) thì bj(k) tr−ớc và sau khi −ớc l−ợng vẫn bằng 0. Kết quả là mô hình sẽ đào tạo ra xác suất 0 cho những quan sát có qt=j và Ot=vk. Nh− vậy bj(k) = 0 là không đáng tin cậy do tập huấn luyện không đầy đủ.

Cách thứ nhất để giải quyết vấn đề này là tăng kích thước của tập quan sát huấn luyện. Nh−ng thông th ờng thì điều này là không thể thực hiện đ ợc. Cách thứ − − hai là giảm bớt kích th−ớc của mô hình nh− giảm số trạng thái, giảm số ký hiệu quan sát ở mỗi trạng thái. Điều này là có thể thực hiện đ−ợc nh−ng kết quả nhận dạng sẽ không đ−ợc cao. Hơn nữa các tham số về số trạng thái và số ký hiệu quan sát thường có ý nghĩa vật lý nào đó nên trong nhiều tr ờng hợp ta không nên thay ư

đổi chúng. Cách giải quyết thứ ba và cũng là cách giải quyết đơn giản nhất là đ−a vào tham số mô hình các ràng buộc về ng−ỡng để đảm bảo không có −ớc l−ợng tham số nào dưới một mức đặt trước. Chẳng hạn ta có thể dùng ngưỡng như sau:

( ) ( ) if bj( )

otherwise.

j j

b

b k k

b k δb

δ

⎧ ≥

= ⎨⎩ (2.50)

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt liên tụ (Trang 33 - 38)

Tải bản đầy đủ (PDF)

(76 trang)