Mô phỏng khoảng thời gian tồn tại:

Một phần của tài liệu Nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính luận văn thạc sĩ (Trang 58 - 60)

Một điểm yếu chính của quy ước HMM là chúng không cung cấp biểu diễn thích đáng của cấu trúc biểu thị thời gian của tiếng nói. Đây là vì xác suất của trạng thái thời gian giảm theo hàm mũ với thời gian như đã nêu trong biểu thức bên dưới. Xác suất của t các quan sát liên tục trong trạng thái i là xác suất của sự giữ vòng tự lặp ở trạng thái i cho thời gian t, có thể được viết như sau:

𝑑𝑖(𝑡) = 𝑎𝑖𝑖𝑡(1 − 𝑎𝑖𝑖) (3.15)

Hình 3.8. Một HMM chuẩn

(a) và thời gian tồn tại quá trình HMM tương ứng (b) nơi mà các sự tự chuyển đổi được đổi chỗ với phân phối xác suất quy trình cho mỗi trạng thái

Cải tiến đến HMM chuẩn tạo ra bởi sử dụng HMM với phân phối quy trình thời gian rõ ràng cho mỗi trạng thái. Để giải thích nguyên tắc mô phỏng quy trình thời gian, quy ước HMM với mật độ quy trình trạng thái theo cấp số mũ và một quy trình thời gian HMM với các mật độ quy trình trạng thái đã xác định. Trong (a), xác suất quy trình trạng thái có một dạng theo cấp số mũ trong biểu thức (3.15). Trong (b), các xác suất tự chuyển đổi được thay thế với một phân phối xác suất quy trình rõ ràng. Ở thời điểm t, quá trình đưa vào trạng thái i cho quy trình 𝜏 với mật độ xác

suất di(𝜏), trong lúc các quá trình quan sát Xt+1, Xt+2, …𝑋𝑡+𝜏 được tạo ra. Sau đó chuyển tiếp đến trạng thái j với xác suất chuyển đổi là aij chỉ sau đó các quan sát thích hợp 𝜏 xảy ra ở trạng thái i. Vì thế, bằng thiết lập mật độ xác suất quy trình thời gian để được mật độ theo cấp số mũ của biểu thức (3.15) quy trình thời gian HMM có thể được tạo ra tương đương với HMM chuẩn. Các tham biến di(𝜏) có thể được ước lượng từ các quan sát phù hợp với các tham biến khác của HMM đó. Xét tính thiết thực, mật độ quy trình thường bị cắt xén ở giá trị quy trình cực đại Td. Để ước lượng lại các tham biến của HMM với mô phỏng quy trình thời gian, quá trình đệ quy ở trước đó phải được chỉnh sửa như sau:

∝𝑡 (𝑗) = ∑ ∑ ∝𝑡−𝜏 (𝑖)𝑎𝑖𝑗𝑑𝑗(𝜏) ∏𝜏 𝑏𝑗(𝑋𝑡−𝜏+1) 𝑙=1

𝑖,𝑖≠𝑗

𝜏 (3.16)

Sự chuyển tiếp từ trạng thái i sang trạng thái j không chỉ phụ thuộc xác suất chuyển đổi aij mà còn trên tất cả các khả năng trong khoảng thời gian 𝜏 có thể xảy ra trong trạng thái j. Biểu thức (3.16) minh họa khi trạng thái j được đạt đến từ trạng thái i trước đó, các quan sát có thể giữ ở trạng thái j cho một khoảng thời gian 𝜏 với mật độ quy trình di(𝜏), và mỗi quan sát tạo ra xác suất đầu ra của chính nó. Tất cả quy trình có khả năng phải được xem xét, với sự tổng kết mong muốn đạt đến 𝜏. Giả định độc lập của các quan sát mang đến kết quả trong thuật ngữ ∏ của các xác suất đầu ra. Tương tự, sự đệ quy ở phía sau có thể được viết như sau:

𝛽𝑡(𝑖) = ∑ ∑ 𝑎𝑖𝑗𝑑𝑗(𝜏) ∏𝜏 𝑏𝑗(𝑋𝑡+1)𝛽𝑡+𝜏(𝑗) 𝑙=1

𝑗,𝑗≠𝑖

𝜏 (3.17)

Thuật toán Baum-Welch cải tiến có thể được sử dụng trên cơ sở biểu thức (3.16) và (3.17).

Ngoài ra, mặt không thuận lợi để sử dụng mô phỏng quy trình thời gian là sự gia tăng lớn trong độ phức tạp tính toán bằng biểu thức O(D2). Vấn đề khác là số lượng lớn các tham biến thêm vào D phải được ước lượng. Một biện pháp đề suất là sử dụng hàm mật độ liên tục thay vì phân phối rời rạc di(𝜏).

Trong thực tế, các mô phỏng quy trình đã cung cấp sự cải tiến bình thường cho nhận dạng tiếng nói liên tục độc lập người nói. Nhiều hệ thống thậm chí rút ra xác suất chuyển tiếp hoàn toàn bởi vì các xác suất đầu ra mang tính chi phối. Tuy nhiên, thông tin quy trình rất hiệu quả cho việc cắt tỉa không chắc các phần tham gia trong quá trình giải mã nhận dạng tiếng nói có bộ từ vựng lớn.

Một phần của tài liệu Nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính luận văn thạc sĩ (Trang 58 - 60)

Tải bản đầy đủ (PDF)

(111 trang)