Tiếp theo chúng ta định nghĩa γt(i, j) là xác suất của sự chuyển tiếp từ trạng thái i sang trạng thái j ở thời điểm t, cho trước mơ hình và dãy quan sát.
𝛾𝑡(𝑖, 𝑗) = ∝𝑡−1 (𝑖)𝑎𝑖𝑗𝑏𝑗(𝑋𝑡)𝛽𝑡(𝑗) ∑𝑁 𝛼𝑇(𝑘)
𝑘=1
Chúng ta cải tiến lặp véctơ tham biến HMM Φ = (A, B, π) bằng cách cực đại xác suất P(X|Φ) cho mỗi lần lặp. Chúng ta sử dụng 𝚽̂ để biểu thị véctơ tham biến mới đã dẫn suất từ véctơ tham biến Φ trong vịng lặp trước đó. Q trình cực
đại hóa là tương tự việc cực đại hàm Q như sau:
𝑄(𝚽, 𝚽̂ ) = ∑𝑃(𝐗, 𝐒|𝚽) 𝑃(𝐗|𝚽) log𝑃(𝐗, 𝐒|𝚽̂ ) 𝑎𝑙𝑙 𝑆 Trong đó: 𝑃(𝐗, 𝐒|𝚽) = ∏𝑇 𝑎𝑠𝑡−1𝑠𝑡𝑏𝑠𝑡(𝑋𝑡) 𝑡=1 log 𝑃(𝐗, 𝐒|𝚽) = ∑T log t=1 𝑎𝑠𝑡−1𝑠𝑡 + ∑T log t=1 𝑏𝑠𝑡(𝑋𝑡)
Hình 3.6. Sự minh họa các phép tốn u cầu cho việc tính tốn của γt(i, j).
Khi chúng ta tách hàm Q thành ba thuật ngữ độc lập, thủ tục cực đại hóa trên Q(Φ, 𝚽̂) có thể được thực hiện bằng cực đại những thuật ngữ đơn rời rạc, đối tượng hướng đến là các ràng buộc xác suất. Chúng ta đạt được mơ hình ước lượng như sau: 𝑎̂𝑖𝑗 = ∑𝑇𝑡=1𝛾𝑡(𝑖,𝑗) ∑𝑇𝑡=1∑𝑁𝑘=1𝛾𝑡(𝑖,𝑘) (3.6) 𝑏̂𝑗(𝑘) =∑𝑡∈𝑋𝑡=𝑜𝑘∑ 𝛾𝑖 𝑡(𝑖,𝑗) ∑𝑇 ∑ 𝛾𝑖 𝑡(𝑖,𝑗) 𝑡=1 (3.7)
Thuật tốn tiến lùi (hay thuật tốn Baum-Welch) có thể được mơ tả như sau:
Thuật tốn Baum-Welch:
Bước 1: Khởi tạo: chọn một ước lượng Φ.
Bước 2: E-step: tính hàm phụ trợ Q(Φ, 𝚽̂) trên cơ sở Φ.
Bước 3: M-step: tính 𝚽̂ theo ước lượng trong biểu thức (3.6) và (3.7) để cực đại hàm phụ trợ Q.
Bước 4: Quá trình lặp: thiết đặt 𝚽 = 𝚽̂, lập lại từ bước hai cho đến khi hội tụ.
3.1.3. Vấn đề thực tế trong sử dụng các HMM: 3.1.3.1. Ước lượng ban đầu: 3.1.3.1. Ước lượng ban đầu:
Về mặt lý thuyết, thuật toán lượng giá của HMM nên đạt đến chỉ số tối đa cục bộ cho khả năng xảy ra. Câu hỏi then chốt là làm sao để chọn đúng ước tính ban đầu của các tham biến HMM sao cho chỉ số tối đa cục bộ trở thành tối đa toàn cục.
Ở HMM rời rạc, nếu một xác suất được khởi tạo là khơng, nó sẽ duy trì là khơng mãi. Do đó, điều quan trọng là phải có tập hợp các ước lượng ban đầu hợp lý. Nghiên cứu theo kinh nghiệm đã cho thấy, đối với HMM rời rạc, ta có thể sử dụng phân phối đồng bộ như ước lượng ban đầu. Nó thực hiện tốt một cách hợp lý cho hầu hết ứng dụng tiếng nói, ước lượng ban đầu tốt là ln hữu ích để tính tốn các xác suất đầu ra.
3.1.3.2. Cấu trúc liên kết mơ hình:
Tiếng nói là tín hiệu khơng cố định. Mỗi trạng thái HMM có khả năng giữ một vài phân đoạn cố định trong tín hiệu tiếng nói khơng cố định. Cấu trúc từ trái sang phải, là thành phần tự nhiên để mơ hình tín hiệu tiếng nói. Nó tự chuyển tiếp đến mỗi trạng thái, điều đó có thể được dùng để mơ hình các đặc trưng tiếng nói liên tục thuộc về trạng thái giống nhau. Khi phân đoạn tiếng nói cố định rút ra, sự chuyển tiếp từ trái sang phải cho phép sự tiến triển tự nhiên của các sự thay đổi như vậy. Trong cấu trúc như vậy, mỗi trạng thái phụ thuộc phân phối xác suất đầu ra, có thể được dùng để thơng dịch tín hiệu tiếng nói quan sát được. Cấu trúc này là một cấu trúc HMM phổ biến nhất được dùng trong các hệ thống nhận dạng tiếng nói tiên tiến nhất.
Trạng thái phụ thuộc phân phối xác suất đầu ra vừa có thể phân phối rời rạc hoặc hỗn hợp chức năng mật độ liên tục. Đây là trường hợp đặc biệt của chuyển tiếp-phụ thuộc các phân phối xác suất đầu ra. Trạng thái phụ thuộc các xác suất đầu ra có thể được xem như nếu sự chuyển tiếp phụ thuộc các phân phối xác suất đầu ra đã được gắn bó đối với mỗi trạng thái.
Đối với trạng thái HMM phụ thuộc từ trái sang phải, tham biến quan trọng nhất trong xác định cấu trúc là số trạng thái. Lựa chọn của mơ hình cấu trúc tùy theo dữ liệu huấn luyện sẵn có và những gì mơ hình được dùng. Nếu mỗi HMM được dùng để đại diện cho một âm, ta cần có ít nhất ba đến năm phân phối đầu ra. Nếu mơ hình như vậy được dùng để đại diện cho một từ, nhiều hơn các trạng thái nói chung được yêu cầu, tùy vào phát âm và khoảng thời gian tồn tại của từ. Chẳng hạn như, từ tetrahydrocannabino nên có nhiều trạng thái trong so sánh với chữ a. Ta có thể dùng ít nhất 24 trạng thái cho phần trước và ba trạng thái cho phần sau. Nếu ta có số của trạng thái tùy vào khoảng thời gian tồn tại của tín hiệu, ta có lẽ cần dùng
15 đến 25 trạng thái cho mỗi giây của tín hiệu tiếng nói. Một ngoại lệ là, đối với khoảng lặng, ta có lẽ cần có một cấu trúc đơn giản hơn. Đây là vì khoảng lặng là cố định, và chỉ cần 1 hoặc 2 trạng thái sẽ đủ.