Huấn luyện các âm ba

Một phần của tài liệu NGUYÊN tắc của hệ THỐNG NHẬN DẠNG TIẾNG nói (Trang 53)

CHƯƠNG 4: XÂY DỰNG HỆ THỐNG NHẬN DẠNG BẰNG HMM

4.2.5 Huấn luyện các âm ba

Sau khi quá trình huấn luyện các đơn vị nhận dạng độc lập ngữ cảnh kết thúc. Hệ thống đã sẵn sang để tiến hành nhận dạng. Tuy nhiên, một âm vị luôn chịu ảnh hưởng của ngữ cảnh xung quanh và hệ thống nhận dạng chỉ làm việc tốt nếu như chúng được huấn luyện vởi các đơn vị nhận dạng phụ thuộ ngữ cảnh. Trong HTK đơn vị phụ thuộc ngữ cảnh được gọi là các âm ba (triphone) để phân biệt với các âm đơn, đơn vị độc lập ngữ cảnh.

4.2.5.1 Tạo các âm ba từ các âm đơn

Âm ba (triphone) là đơn vị nhận dạng âm vị phụ thuộc ngữ cảnh được ký hiệu là a-b+c, trong đó /b/ là âm đơn, /a/ là âm vị bên trái âm vị /b/ và /c/ là âm vị bên phải âm vị /b/. Các âm ba được tạo bằng cách lấy các âm đơn tương ứng, bổ xung thêm ngữ cảnh trái và ngữ cảnh phải. Các đơn vị nhận dạng silsp không được chuyển đổi

sang âm ba vì chúng chỉ là một khoảng yên lặng, không phụ thuộc ngữ cảnh xung quanh. Có hai cách sinh ra các âm ba: âm ba với ngữ cảnh giới nội từ (word internal) và âm ba với ngữ cảnh liên từ (cross-word).

Trong trường hợp đầu các âm vị chịu ảnh hưởng của ngữ cảnh trong một từ, các từ được coi là cách nhau một khoảng yên lặng và các âm vị của các từ khác không ảnh hưởng đến nhau. Các âm vị đầu và cuối một từ trong thực tế là các âm hai (biphone) thay vì âm ba, chỉ có âm vị ở giữa từ mới là âm ba. Ví dụ sau đây là một dãy các âm đơn của một phát âm và các âm ba tương ứng:

Âm đơn: sil ea ngz sp n o i sp t ie ngz sil v ietc sp h a sp sil

Âm ba: sil ea+ngz ea-ngz sp n+o n-0+i o-i sp t+ie t-ie+ngz sp v+ietc v-ietc sp h+a h-a sp sil Trong trường hợp thứ hai, các âm vị không những chịu ảnh hưởng của các âm vị trong từ đó mà còn của các âm vị của các từ xung quanh. Ví dụ sau đây là một dãy các âm đơn của một phát âm và các âm ba tương ứng:

Âm đơn: sil ea ngz sp n o i sp t ie ngz sil v ietc sp h a sp sil

Âm ba: sil sil-ea+ngz ea-ngz+n sp ngz-n+o n-o+i o-i+t s pi-t+ie t-ie+ngz ie_ngz+sil sil sil- v+ietc v-ietc+h sp ietc-h+a h-a+sil sp sil

Việc chuyển đổi từ các âm đơn sang các âm ba được thực hiện bởi công cụ Hhed, như được miêu tả trong Hình 3.6. Các tham số của các âm ba được sao chép từ các âm đơn tương ứng bao gồm: các xác suất chuyển trạng thái ɑij, các tham số của hàm Gaussian của xác suất phát xạ quan sát bj(ok).

Âm đơn

Hhed

Âm ba

Hhed

Phiên âm theo âm ba

Hled Phiên âm theo

Hình 4.6. Dùng Hhed chuyển âm đơn sang âm ba

Sau đó tệp phiên âm các âm đơn cũng được chuyển đổi sang tệp phiên âm các âm ba tương ứng bằng công cụ Hhed. Các âm ba sau đó được huấn luyện bằng công cụ huấn luyện nhúng Herest. Các tham số của các âm ba được sao chép từ các âm đơn tương ứng sẽ được điều chỉnh lại theo phiên âm của các âm ba tạo bởi Hhed. Với các âm ba có cùng một âm đơn tương ứng, trước khi được huấn luyện bởi Herest, các xác suát chuyển trạng thái ɑij được buộc vào nhau (tied).

Điều này được thực hiện do xác suất chuyển trạng thái của một đơn vị nhận dạng ít ảnh hưởng của ngữ cảnh xung quanh so với xác suất phát xạ quan sát. Trong quá trình huấn luyện bởi Herest các xác suất chuyển trạng thái bị buộc vào nhau sẽ có cùng giá trị và được tính toán cùng với nhau.

Một phần của tài liệu NGUYÊN tắc của hệ THỐNG NHẬN DẠNG TIẾNG nói (Trang 53)

Tải bản đầy đủ (DOC)

(65 trang)
w