Hai giả thuyết cơ bản để xây dựng hệ thống nhận dạng dựa trên HMM

Một phần của tài liệu TÌM HIỂU VỀ CÁC HỆ THỐNG NHẬN DẠNG TIẾNG NÓI. (Trang 26)

MÔ HÌNH HMM VÀ NHẬN DẠNG TIẾNG NÓ

3.3.4.Hai giả thuyết cơ bản để xây dựng hệ thống nhận dạng dựa trên HMM

về tính xác suất P(O|λi).

Trong trƣờng hợp nhận dạng âm vị mỗi âm tiết wi không tƣơng ứng với một mô hình λi. Mỗi âm tiết tƣơng ứng với một dãy các âm vị, mỗi âm vị đƣợc mô hình hóa bởi một mô hình HMM nên mỗi âm tiết đƣợc mô hình hóa bởi dãy các HMM âm vị λ1, λ2, …, λk. Vì vậy việc tính xác suất P(O|wi) đƣợc qui về tính xác suất P(O| λ1 λ2 …λk).

3.3.4.Hai giả thuyết cơ bản để xây dựng hệ thống nhận dạng dựa trên HMM HMM

Giả thuyết 1: giả thuyết về xác suất chuyển trạng thái:

Giả thiết thứ nhất dựa trên chính mô hình Markov. Vì xác suất chuyển trạng thái aij chỉ phụ thuộc vào trạng thái phía trƣớc nó, không hề phụ thuộc vào chuỗi quan sát nên ta có thể xem aij nhƣ là hằng. Xác suất chuyển trạng thái xuất hiện tại các thời điểm khác nhau và các trạng thái khác nhau nên ta có thể xem chúng là độc lập. Vì vậy việc tính xác suất của một chuỗi trạng thái wi trong một mô hình HMM λ tƣơng tự có thể qui về:

Giả thuyết 2: Giả thuyết về xác suất quan sát:

Gọi chuỗi trạng thái của mô hình HMM ứng với chuỗi vector quan sát O là chuỗi quan sát. Gọi việc tìm chuỗi trạng thái trong mô hình HMM có xác suất cao nhất ứng với 1 chuỗi quan sát O gọi là quan sát O. Từ định nghĩa của xác suất quan sát b chúng ta có thể thấy rằng xác định chuỗi quan sát O (xác định chuỗi trạng thái ứng với chuỗi vector đặc trƣng O) cũng là một tiến trình thống kê. Tuy nhiên nó không phải là chuỗi Markov. Khi một HMM tiến hành mô hình hóa một

 |   | 1 ( 1) ( )

T T

t t s t s t

i i

chuỗi quan sát của tiếng nói (tức xác định chuỗi quan sát ứng với chuỗi vector đặc trƣng sóng âm), mỗi trạng thái có thể phát sinh tại bất kì vector quan sát nào (với một số ràng buộc), nhƣng với xác suất khác nhau. Do đó sẽ không biết đƣợc trạng thái nào sẽ gán với vector nào. Nhƣ vậy sẽ không biết đƣợc chuỗi trạng thái S=s0s1...sT nào sẽ phát sinh tại chuỗi vector đặc trƣng O cho trƣớc. Đây chính là điều tiến trình Markov này đƣợc gọi là ẩn. Mặc dù xác suất của sự kiện quan sát vector ot (xác định trạng thái của Ot) tại các thời điểm t khác nhau là độc lập và hoàn toàn xác định đƣợc (điều này là rất cần thiết đối với tất cả các quá trình tính toán dựa trên HMM).

Vì vậy nên giả thiết thứ 2 là:

Cho tập hợp trạng thái S của mô hình HMM λ, ta có:

Với bst(Ot) là xác suất của vector đặc trƣng Ot đạt trạng thái s tại thời điểm t. Với P(S|λ) và P(O|λ) đƣợc tính toán theo 2 giả thiết trên ta có thể tính xác suất kết của O và S đƣợc tạo ra bởi mô hình λ nhƣ sau:

Tuy nhiên trong thực tế chuỗi trạng thái S lại không biết, vì vậy để tính P(O|λ) phải tính tổng trên các chuỗi S có thể có:

    1 | , t T s t t PP O Sb O    (3.9)  , |   |   | ,  P O S   P SP O S  (3.10) (3.11)  |   |   | ,  S P O   P SP O S

Vì vậy ta có:

Trong một số tài liệu có thêm xác suất π nhƣng HMM luôn khởi tạo từ trạng thái đầu tiên nên có thể bỏ qua xác suất khởi tạo π.

Theo công thức trên, với số trạng thái của HMM là N thì xác suất này có đến 2*T*NT phép nhân. Thậm chí với N=5 và T=100, công thức trên chứa xấp xỉ 1070 phép nhân. Độ phức tạp này quá lớn vì vậy cần có thuật toán hiệu quả hơn để xác định P(O|λ).

Một phần của tài liệu TÌM HIỂU VỀ CÁC HỆ THỐNG NHẬN DẠNG TIẾNG NÓI. (Trang 26)