Giải quyết vấn đề ƣớc lƣợng tham số cho HMM

Một phần của tài liệu TÌM HIỂU VỀ CÁC HỆ THỐNG NHẬN DẠNG TIẾNG NÓI. (Trang 31)

MÔ HÌNH HMM VÀ NHẬN DẠNG TIẾNG NÓ

3.3.5.2.Giải quyết vấn đề ƣớc lƣợng tham số cho HMM

Có 2 giải thuật để giải quyết vấn đề này là giải thuật phân đoạn K-mean và giải thuật Baum-Welch.

Giải thuật ước lượng tham số Baum-Welch: Ở đây tham số của mô hình λ=(A,B) đƣợc tính toán nhằm tăng xác suất P(O|λ) cho đến khi nó đạt giá trị cực đại. Nhƣ đã trình bày ở trên việc tính toán P(O|λ) là tính tổng tất cả các P(O,I|λ) trên tất cả các chuỗi trạng thái I chứ không phải cho một chuỗi riêng biệt nào.

Phần quan trọng của thuật toán Baum-Welch là hàm expectation- maximisation (EM). Thuật toán này đƣơc sử dụng để giải quyết tình trạng thông tin không đầy đủ trong dữ liệu huấn luyện (tức không biết đƣợc chuỗi trạng thái). Hàm EM thƣơng đƣợc sử dụng nhất trong nhận dạng tiếng nói là chuẩn maximum-likelihood (ML). Giải pháp của giải thuật ML là đƣa ra các công thức nhằm cập nhật các giá trị tham số cũ của HMM. Để quá trình huấn luyện đạt đƣợc các tham số tốt thì cần có các tập tham số khởi tạo của HMM tốt, bởi vì Baum- Welch là một thuật toán chỉ cho kết quả tốt nhất trong cục bộ.

Ý tƣởng của ML là ƣớc lƣợng các tham số của HMM λ sao cho xác suất likelihood P(O|λ) lớn nhất với tập hợp các chuỗi quan sát {O}. Một điểm nữa của ML là thuật giải không thực hiện tinh P(O|λ) trên tất cả các chuỗi quan sát mà chỉ một số chuỗi S có P(λ|S) vƣợt trội. Điều này làm giảm chi phí tính toán rất nhiều nhƣng kết quả đạt đƣợc không giảm bao nhiêu. Trong thực tế để thuận tiện cho tính toán ngƣời ta không dùng likelihood nguyên thủy mà dùng xác suất

log_likelihood (lấy logarit của likelihood).

Trong thực tế để ƣớc lƣợng các tham số của HMM ngƣời ta ít sử dụng thuật toán Baum-Welch nguyên thủy vì chi phí tính toán của nó quá lớn. Thay vào đó thuật toán Baum-Welch đƣợc tính dựa vào thuật toán Forward và Backward. Vì vậy chúng ta thƣờng nhầm thuật toán Baum-Welch và thuật toán Forward- Backward.   1 | ( ) N T i P O   i   (3.21)

Một phần của tài liệu TÌM HIỂU VỀ CÁC HỆ THỐNG NHẬN DẠNG TIẾNG NÓI. (Trang 31)