Cấu trúc liên kết mô hình:

Một phần của tài liệu Nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính luận văn thạc sĩ (Trang 53 - 54)

Tiếng nói là tín hiệu không cố định. Mỗi trạng thái HMM có khả năng giữ một vài phân đoạn cố định trong tín hiệu tiếng nói không cố định. Cấu trúc từ trái sang phải, là thành phần tự nhiên để mô hình tín hiệu tiếng nói. Nó tự chuyển tiếp đến mỗi trạng thái, điều đó có thể được dùng để mô hình các đặc trưng tiếng nói liên tục thuộc về trạng thái giống nhau. Khi phân đoạn tiếng nói cố định rút ra, sự chuyển tiếp từ trái sang phải cho phép sự tiến triển tự nhiên của các sự thay đổi như vậy. Trong cấu trúc như vậy, mỗi trạng thái phụ thuộc phân phối xác suất đầu ra, có thể được dùng để thông dịch tín hiệu tiếng nói quan sát được. Cấu trúc này là một cấu trúc HMM phổ biến nhất được dùng trong các hệ thống nhận dạng tiếng nói tiên tiến nhất.

Trạng thái phụ thuộc phân phối xác suất đầu ra vừa có thể phân phối rời rạc hoặc hỗn hợp chức năng mật độ liên tục. Đây là trường hợp đặc biệt của chuyển tiếp-phụ thuộc các phân phối xác suất đầu ra. Trạng thái phụ thuộc các xác suất đầu ra có thể được xem như nếu sự chuyển tiếp phụ thuộc các phân phối xác suất đầu ra đã được gắn bó đối với mỗi trạng thái.

Đối với trạng thái HMM phụ thuộc từ trái sang phải, tham biến quan trọng nhất trong xác định cấu trúc là số trạng thái. Lựa chọn của mô hình cấu trúc tùy theo dữ liệu huấn luyện sẵn có và những gì mô hình được dùng. Nếu mỗi HMM được dùng để đại diện cho một âm, ta cần có ít nhất ba đến năm phân phối đầu ra. Nếu mô hình như vậy được dùng để đại diện cho một từ, nhiều hơn các trạng thái nói chung được yêu cầu, tùy vào phát âm và khoảng thời gian tồn tại của từ. Chẳng hạn như, từ tetrahydrocannabino nên có nhiều trạng thái trong so sánh với chữ a. Ta có thể dùng ít nhất 24 trạng thái cho phần trước và ba trạng thái cho phần sau. Nếu ta có số của trạng thái tùy vào khoảng thời gian tồn tại của tín hiệu, ta có lẽ cần dùng

15 đến 25 trạng thái cho mỗi giây của tín hiệu tiếng nói. Một ngoại lệ là, đối với khoảng lặng, ta có lẽ cần có một cấu trúc đơn giản hơn. Đây là vì khoảng lặng là cố định, và chỉ cần 1 hoặc 2 trạng thái sẽ đủ.

Hình 3.7. Mô hình Markov ẩn điển hình được dùng cho mô hình âm vị

Có 3 trạng thái (0-2) và mỗi trạng thái có một phân phối xác suất đầu ra kết hợp.

Một phần của tài liệu Nghiên cứu về nhận dạng tiếng nói tiếng việt và ứng dụng thử nghiệm trong điều khiển máy tính luận văn thạc sĩ (Trang 53 - 54)