CHƯƠNG 4: MÔ HÌNH GAUSS TUYẾN TÍNH TRONG NHẬN DẠNG TIẾNG NÓI 42 4.1. Mô hình thống kê trong nhận dạng tiếng nói
4.4. Thuật toán học trong các mô hình Gauss tuyến tính
Trong phần này sẽ mô tả các thuật toán học trong các mô hình Gauss tuyến tính đã được mô tả ở mục 2.5. Trong các mô hình Gauss tuyến tính thì có hai thuật toán được sử dụng là thuật toán Maximum Likelihood (ML) và thuật toán Expectation Maximization (EM).
Các thuật toán học thường nhằm mục đích ước lượng thông số của mô hình. Đôi khi thuật toán học được dùng để lựa chọn mô hình phù hợp nhất từ một tập các mô hình chuẩn. Ví dụ, trong các mô hình không gian trạng thái thì thuật toán học nhằm mục đích xác định số phần tử trộn và kích thước của không gian trạng thái tối ưu. Trong luận văn này, tác giả chỉ đặt mục đích là tối ưu hóa các thông số của mô hình. Các thuật toán được sử dụng nhiều nhất đều dựa và việc ước lượng ML. Trong ước lượng ML các thông số tối ưu của mô hình được xác định bằng việc cực đại hóa hàm xác suất sinh dãy quan sát.
Đối với các mô hình có các biến ẩn thì việc ước lượng trực tiếp ML là rất phức tạp, bởi vậy ta có thể xuất phát từ cận dưới của giá trị logarit của hàm xác suất sinh dãy quan sát sau đó sử dụng thuật toán EM với các bước lặp để tìm bộ thông số tối ưu của mô hình.
4.4.1. Tính giá trị cận dưới của hàm logarit xác suất sinh dãy quan sát Trong các mô hình trạng thái có một số biến ẩn thì ta không thể ước lượng trực tiếp ML. Ví dụ hàm logarit của xác suất sinh dãy quan sát của mô hình được viết như sau:
( ) log ( | ) log ( , | )
L p O p O X dX (4.38)
Trong đó X { ,..., }x1 xN là tập các biến ẩn. Công thức tính tích phân (4.38) thường không dễ thực hiện, bởi vậy người ta thường dùng một số thuật toán sắp xỉ để tính. Tuy nhiên việc sử dụng các thuật toán sắp xỉ đòi hỏi khối lượng tính toán lớn. Bởi vậy, người ta đã đưa ra giải pháp sử dụng giá trị cận dưới của hàm logarit.
Giá trị cận dưới được lấy dựa vào bất đẳng thức Jensen [5]. Cho một hàm lồi f( ) và các biến mthỏa mãn Mm1m 1, bất đẳng thức Jensen được mô tả như sau ;
1 1
M M ( )
m m m m
m m
f x f x
(4.39)
Áp dụng bất đẳng thức Jensen cho biểu thức (2.23) ta có :
( , | ) ( , | )
( ) log ( ) ( )log
( ) ( )
( )log ( , | ) ( )log ( ) ( , ( ))
p O X p O X
L q X dX q X dX
q X q X
q X p O X dX q X q X dX B q X
(4.40)
Từ bất đẳng thức (2.25) ta thấy cận dưới của hàm L( ) chính là giá trị lớn nhất của hàm B( , ( )) q X . Để tìm giá trị lớn nhất của B( , ( )) q X , ta sử dụng hàm Lagrange sau :
( ( )) 1 ( ) ( , ( ))
G q X q X dX B q X
(4.41) Trong đó là nhân tử Lagarange, 1 q X dX( ) 0
. Theo tính chất của hàm Lagrange nếu ( , ( )) q Xˆ thỏa mãn cực đại hóa hàmB( , ( )) q X thì sẽ tồn tại
( , ( ), ) q Xˆ sao cho đạo hàm riêng của hàm LagrangeG q X( ( ))tại các giá trị đó bằng 0. Giải các phương trình đạo hàm riêng của hàm Lagrange ta thu được kết quả q Xˆ( ) p X O( | , ) . Thay giá trị của q Xˆ( )vào (2.25) ta có giá trị cận
dưới được tính theo, L( ) B( , ( )) q Xˆ . BNếu các biến ẩn X có giá trị rời rạc thì ta chỉ cần thay thế các hàm tích phân bằng các hàm tính tổng.
4.4.2. Thuật toán EM
Đối với các mô hình mà ta có thể dễ dàng tính được các xác suất hậu nghiệm của các biến ẩn thì việc tìm bộ tham số tối ưu của mô hình được dựa trên cơ sở cực đại hoá giá trị của hàm B( , ( )) q Xˆ . Bài toán tìm sao cho hàm
( , ( ))ˆ
B q X đạt giá trị cực đại được giải quyết bằng các thuật toán lặp mà điển hình là thuật toán EM. Thuật toán EM bao gồm hai bước được gọi là bước E và bước M. Trong bước E sẽ tính các giá trị xác suất hậu nghiệm, trong bước M sẽ tìm giá trị cực đại của cận dưới. Hai bước này sẽ được lặp cho đến khi đạt được ngưỡng sai số mong muốn L(( 1)k )L(( )k )th.
4.41
Sau bước E, giá trị cận dưới trong phương trình ( ) được viết lại như
( ( )k ) H sau:
( ) ( )
( , ( )ˆ ( , k) ( k)
B q X Q H (4.42)
Trong đó H(( )k ) là giá trị entropy của xác suất hậu nghiệm được tính toán dựa trên bộ thông số ở bước thứ k, ( )k . Q( , ( )k ) thường được gọi là auxiliarry function (hàm trung gian). Giá trị của Q( , ( )k ) được tính như sau:
( ) ( )
( , k ) log ( , | ) , k
Q E p O X O (4.43)
Với các giá trị kỳ vọng được tính dựa vào các biến ẩn. Bộ thông số mới của mô hình phải thoả mãn làm tăng giá trị logarit của hàm xác suất sinh dãy quan sát, có nghĩa là làm tăng giá trị của hàm Q, Q( , ˆ ( )k )Q( , ( )k ). Toàn bộ thuật toán được tóm tắt như sau:
Thuật toán EM Khởi tạo (1),k1
( ) ( ) ( 1)
( 1) ( )
Repeat
ˆ( ) ( | , ) {E step}
ˆ argmax ( , ) {M step}
ˆ , 1
until ( ) ( )
k k k
k k
th
q X p X O Q k k
L L
Đối với một số mô hình, ta không thể tối ưu hoá tất cả các thông số cùng một lúc. Ứng dụng thuật toán EM để tối ưu hoá bộ thông số của mô hình tại cùng một thời điểm chỉ được áp dụng cho những mô hình được trình bày trong luận văn này. Đối với những mô hình mà việc tính toán các giá trị xác suất hậu nghiệm của các biến ẩn là phức tạp thì khi đó các thuật toán sắp xỉ sẽ được sử dụng để đánh giá kết quả nhận dạng của mô hình.