6. Bố cục của luận văn
3.3 Huấn luyện mô hình HMM thông qua nhiều chuỗi dữ liệu quan sát
Hiện nay, mô hình HMM được sử dụng nhiều trong các bài toán nhận dạng như: nhận dạng khuôn mặt, nhận dạng chữ viết tay, nhận dạng giọng nói, ….trong đó bài toán 3 (learning problem) tỏ ra rất hữu ích khi xử lý các bài toán huấn luyện nhận dạng từ mẫu cho trước thông qua ước lượng và cập nhật các tham số mô hình HMM cho đến khi hội tụ. Ví dụ: trong bài toán nhận dạng tiếng nói, ta có N tiếng
phát âm cùng một từ của một người và ta phải tìm mô hình HMM sao cho có xác xuất cao từ N các mẫu tín hiệu tiếng phát âm này.
Theo Deller, J. H. L. Hansen, & J. G. Proakis thì thông thường, trong bài toán nhận dạng thì việc huấn luyện các HMM thực hiện tách biệt trên số lượng lớn các chuỗi quan sát thì được cho là tốt hơn việc huấn luyện một HMM với nhiều chuỗi quan sát [7]. Xét trường hợp, có K chuỗi dữ liệu quan sát được cho rằng được tạo ra từ cùng một HMM và mục tiêu là xác định các tham số của HMM sao cho xác xuất tạo ra k chuỗi quan sát là cao nhất có thể.
Rabiner and Juang đề xuất thuật toán huấn luyện từ nhiều chuỗi quan sát bằng cách sử dụng k chuỗi quan sát tại mỗi thủ tục ước lượng lại của Baum-Welch để lập đi lập lại việc cập nhật các tham số của một HMM [14]. Công thức tính như sau:
Trong đó
Pk là xác xuất của mô hình hiện tại đã tạo ra chuỗi quan sát thứ k.
Tuy nhiên, một vấn đề lớn đã được biết đến với mô hình này là nó chỉ tìm ra giải pháp tối ưu cục bộ.
Do đó, một hướng tiếp cận khác là huấn luyện cho một tổ hợp các HMM, là một trong các phương pháp đề xuất bởi Mackay [12]. Trong đó, một HMM sẽ được ước lượng cho một chuỗi quan sát thứ k (k=1, .., K chuỗi quan sát), điều này sẽ tạo ra K mô hình độc lập được ước lượng từ các chuỗi huấn luyện. Sau đó, sử dụng một loạt các kỹ thuật tính trung bình đơn giản các tham số được ước lượng độc lập để tìm ra mô hình hiệu quả, công thức tính như sau:
Trong đó, Wk là hệ số trọng số cho mỗi chuỗi quan sát huấn luyện và
Davis and Lovell đã được chứng minh rằng đây là một phương pháp ưu việt hơn các phương pháp tiêu chuẩn sử dụng một mô hình đơn tìm ra sự hội tụ [4]. Davis và Lovell đưa ra các cách tính trọng số Wk như sau [5]:
Phương pháp huấn luyện Rabiner’s vector: Wk = 1/Pk
Tính trung bình cho tất cả mô hình: Wk = 1/Pkall
Tính trung bình cho tất cả mô hình: Wk = Pk all
Tính trung bình cho tất cả mô hình: Wk = Pk
Phương pháp Windsorised (phương pháp lược bớt giá trị mà chênh lệch lớn so với giá trị trung bình)
Tính trung bình trực tiếp cho các tham số cho tất cả mô hình: Wk = 1 (và một số cách tính khác)
Trong đó, phương pháp Winsorization Thresholded được chứng minh là phương pháp tốt nhất, cung cấp nhiều cải tiến cho các HHM bằng cách loại bỏ các HMM xấu và tránh bẫy cực tiểu địa phương khi sử dụng nhiều lần chạy ước lượng lại. Tuy nhiên, theo đanh giá của Eric Fang cho rằng không có mô hình đơn lẻ nào ở
trên đảm bảo đạt đến xác suất cao nhất và đề xuất nên dùng mô hình có trọng số Wk = 1 là an toàn nhất [8].
Ngoài ra, bằng cách gán nhãn lại cho các trạng thái, có thể dễ dàng thấy rằng nhiều mô hình khác nhau có thể đạt được cùng một xác suất dù rằng các mô hình có sự khác biệt lớn về cấu hình. Việc cho rằng khả năng tìm kiếm được các mô hình tốt tương đương nhau mặc dù cấu trúc các mô hình này có khác biệt lớn là một lập luận
phản biện lại phương pháp trung bình các tham số nhằm đạt được các mô hình cải tiến hơn. Nói cách khác, mô hình kết quả bằng cách lấy mức trung bình của hai mô hình tốt có thể là một mô hình rất tệ giống như trong thực tế các điểm giữa hai đỉnh núi thường là một thung lũng. Do đó, điều này chính là động cơ cho các phương pháp tìm kiếm thông qua hoán vị ngẫu nhiên các trạng thái tương đối.
Năm 2003, Davis and Lovell đưa ra phương pháp “Cải tiến mô hình huấn luyện tổ hợp HMM bằng cách hoán vị ngẫu nhiên tương đối các trạng thái” [6]. Trong đó Davis và Lovell đưa ra 02 phương pháp hoán vị khác nhau để đánh giá là:
VariableProbPerm: phương pháp này quét qua một thang xác suất từ 0 đến 1 (đại diện một xác suất của một mô hình) sẽ được hoán vị trong tổ hợp.
NumTrans: phương pháp này quét thông qua các số lượng chuyển vị ngẫu nhiên áp dụng cho mỗi mô hình. phương pháp này bị giới hạn bởi kích thước của mô hình, bởi vì việc áp dụng quá nhiều các hoạt động trao đổi tương đối trong mỗi mô hình không có lợi ích gì thêm cho trong việc tìm kiếm.
Davis and Lovell đưa ra kết quả cho rằng nhìn chung phương pháp VariableProbPerm mang lại hiệu quả tốt hơn phương pháp NumTrans [6].