Lựa chọn các phân phối đầu ra HMM:

Một phần của tài liệu Nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính luận văn thạc sĩ (Trang 64 - 66)

Có thể sử dụng các HMM rời rạc, liên tục hoặc bán liên tục. Khi số lượng dữ liệu huấn luyện đã đủ, tham số ràng buộc trở nên không cần thiết. Một mô hình liên tục với một số lượng lớn các trộn lẫn dẫn đến độ chính xác nhận dạng tốt nhất, mặc dù độ phức tạp tính toán của nó cũng gia tăng tuyến tính với số lượng các hỗn hợp. Mặt khác, mô hình rời rạc có hiệu quả về mặt tính toán, nhưng có hiệu suất thấp nhất trong ba mô hình. Mô hình bán liên tục cung cấp một thay thế khả thi giữa khả năng huấn luyện và tính mạnh mẽ của hệ thống.

Khi một trong HMM rời rạc hay bán liên tục được sử dụng, việc dùng nhiều codebook cho một số đặc trưng sẽ nâng cao hiệu suất một cách đáng kể. Mỗi

codebook biểu diễn một tập các tham số khác nhau. Một cách để kết hợp các quan sát nhiều đầu ra là giả định rằng chúng độc lập với nhau, tính toán xác suất đầu ra như là sản phẩm của các xác suất mỗi codebook.

𝑏𝑖(𝑥) = ∏ ∑𝐿𝑘=1𝑚 𝑓𝑚( 𝑥𝑚 ∣∣ 𝑜𝑘𝑚)𝑏𝑖𝑚(𝑜𝑘𝑚)

𝑚 (3.23)

Trong đó, m biểu thị các tham số tương ứng codebook-m. Mỗi codebook gồm có các hàm mật độ liên tục hỗn hợp Lm.

Thuật toán đánh giá lại mô hình Markov ẩn dựa trên nhiều codebook (multiple-codebook-based HMM) có thể được mở rộng. Tích của mật độ xác suất đầu ra của mỗi codebook dẫn đến các term độc lập trong hàm Q, với codebook-m, ξt (j, km) có thể được chỉnh lại như sau:

𝜁𝑡(𝑗, 𝑘𝑚) = ∑ 𝛼𝑡−1(𝑖)𝑎𝑖𝑗𝑏𝑗𝑚(𝑘𝑚)𝑓𝑚( 𝑥𝑡∣∣𝑣𝑘𝑚) 𝑖 ∏ ∑ 𝑏𝑗𝑛 𝑘 𝑚≠𝑛 (𝑘𝑛)𝑓𝑛( 𝑥𝑡∣∣𝑣𝑘𝑛)𝛽𝑡(𝑗) ∑ 𝛼𝑘 𝑇𝑚(𝑘) (3.24) Sử dụng nhiều codebook có thể làm gia tăng nhanh chóng khả năng của VQ codebook và có thể cải tiến cơ bản độ chính xác nhận dạng tiếng nói. Ta có thể xây dựng một codebook điển hình cho ck, ∆ck∆∆ck lần lượt theo thứ tự. So sánh việc xây dựng một codebook đơn cho xk, như hình dưới, hệ thống multiple-codebook có thể giảm thiểu tỷ lệ lỗi hơn 10%.

Hình 3.9. Tỉ lệ lỗi từ giữa các mô hình

Có thể thấy HMM bán liên tục có mức cải tiển độ chính xác nằm giữa mô hình HMM rời rạc và HMM liên tục khi số lượng dữ liệu huấn luyện có giới hạn. Khi ta tăng kích thước dữ liệu huấn luyện, HMM mật độ hỗn hợp liên tục bắt đầu tốt hơn hẳn so với cả HMM rời rạc và HMM bán liên tục, do đó việc chia sẽ các tham số mô hình trở nên ít quan trọng hơn.

các hỗn hợp, HMM liên tục thiếu sức mạnh mô hình và nó thực sự kém hiệu quả. so với HMM rời rạc. Chỉ sau khi số lượng các hỗn hợp tăng lên đáng kể thì HMM liên tục bắt đầu gia tăng độ chính xác nhận dạng. HMM bán liên tục thường giảm thiểu tỷ lệ lỗi của HMM rời rạc từ 10-15%. HMM liên tục với 20 hàm mật độ chéo Gaussian thực thi kém hiệu quả hơn so với cả HMM rời rạc hay HMM bán liên tục khi kích thước dữ liệu huấn luyện nhỏ. Nó có hiệu suất vượt trội so với cả HMM rời rạc hay HMM bán liên tục khi có đủ dữ liệu huấn luyện. Khi số lượng huấn luyện đủ lớn, nó có thể giảm tỷ lệ lỗi của HMM bán liên tục từ 15-20%.

Một phần của tài liệu Nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính luận văn thạc sĩ (Trang 64 - 66)