Huấn luyện các âm ba

Một phần của tài liệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói (Trang 85 - 88)

CHƢƠNG 4: XÂY DỰNG HỆ THỐNG NHẬN DẠNG BẰNG HMM

4.2.5Huấn luyện các âm ba

Sau khi quá trình huấn luyện các đơn vị nhận dạng độc lập ngữ cảnh kết thúc. Hệ thống đã sẵn sang để tiến hành nhận dạng. Tuy nhiên, một âm vị luôn chịu ảnh hưởng của ngữ cảnh xung quanh và hệ thống nhận dạng chỉ làm việc tốt nếu như chúng được huấn luyện vởi các đơn vị nhận dạng phụ thuộ ngữ cảnh. Trong HTK đơn vị phụ thuộc ngữ cảnh được gọi là các âm ba (triphone) để phân biệt với các âm đơn, đơn vị độc lập ngữ cảnh.

4.2.5.1 Tạo các âm ba từ các âm đơn

Âm ba (triphone) là đơn vị nhận dạng âm vị phụ thuộc ngữ cảnh được ký hiệu là a-b+c, trong đó /b/ là âm đơn, /a/ là âm vị bên trái âm vị /b/ và /c/ là âm vị bên phải âm

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

vị /b/. Các âm ba được tạo bằng cách lấy các âm đơn tương ứng, bổ xung thêm ngữ cảnh trái và ngữ cảnh phảị Các đơn vị nhận dạng sil và sp không được chuyển đổi

sang âm ba vì chúng chỉ là một khoảng yên lặng, không phụ thuộc ngữ cảnh xung quanh. Có hai cách sinh ra các âm ba: âm ba với ngữ cảnh giới nội từ (word internal) và âm ba với ngữ cảnh liên từ (cross-word).

Trong trường hợp đầu các âm vị chịu ảnh hưởng của ngữ cảnh trong một từ, các từ được coi là cách nhau một khoảng yên lặng và các âm vị của các từ khác không ảnh hưởng đến nhaụ Các âm vị đầu và cuối một từ trong thực tế là các âm hai (biphone) thay vì âm ba, chỉ có âm vị ở giữa từ mới là âm bạ Ví dụ sau đây là một dãy các âm đơn của một phát âm và các âm ba tương ứng:

Âm đơn: sil ea ngz sp n o i sp t ie ngz sil v ietc sp h a sp sil

Âm ba: sil ea+ngz ea-ngz sp n+o n-0+i o-i sp t+ie t-ie+ngz sp v+ietc v-ietc sp h+a h-a sp sil

Trong trường hợp thứ hai, các âm vị không những chịu ảnh hưởng của các âm vị trong từ đó mà còn của các âm vị của các từ xung quanh. Có sự khác nhau giữa vai trò của đơn vị nhận dạng sp và sil. Nếu như sự có mặt của sp không ảnh hưởng đến sự ảnh hưởng của ngữ cảnh đến các âm ba, ngược lại âm vị sil được coi như là khoảng lặng

chia tách ngữ cảnh và các âm vị đứng cạnh sil thì sẽ không bị ảnh hưởng bởi ngữ cảnh. Ví dụ sau đây là một dãy các âm đơn của một phát âm và các âm ba tương ứng:

Âm đơn: sil ea ngz sp n o i sp t ie ngz sil v ietc sp h a sp sil

Âm ba: sil sil-ea+ngz ea-ngz+n sp ngz-n+o n-ơi o-i+t s pi-t+ie t-ie+ngz ie_ngz+sil sil sil- v+ietc v-ietc+h sp ietc-h+a h-a+sil sp sil

Việc chuyển đổi từ các âm đơn sang các âm ba được thực hiện bởi công cụ Hhed, như được miêu tả trong Hình 3.6. Các tham số của các âm ba được sao chép từ

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

các âm đơn tương ứng bao gồm: các xác suất chuyển trạng thái ɑij, các tham số của hàm Gaussian của xác suất phát xạ quan sát bj(ok).

Hình 4.6. Dùng Hhed chuyển âm đơn sang âm ba

Sau đó tệp phiên âm các âm đơn cũng được chuyển đổi sang tệp phiên âm các âm ba tương ứng bằng công cụ Hhed. Các âm ba sau đó được huấn luyện bằng công cụ huấn luyện nhúng Herest. Các tham số của các âm ba được sao chép từ các âm đơn tương ứng sẽ được điều chỉnh lại theo phiên âm của các âm ba tạo bởi Hhed. Với các âm ba có cùng một âm đơn tương ứng, trước khi được huấn luyện bởi Herest, các xác suát chuyển trạng thái ɑij được buộc vào nhau (tied).

Điều này được thực hiện do xác suất chuyển trạng thái của một đơn vị nhận dạng ít ảnh hưởng của ngữ cảnh xung quanh so với xác suất phát xạ quan sát. Trong quá trình huấn luyện bởi Herest các xác suất chuyển trạng thái bị buộc vào nhau sẽ có cùng giá trị và được tính toán cùng với nhaụ

Âm đơn Hhed Âm ba Hhed Âm ba đã được huấn luyện Tệp thống kê stats Phiên âm theo

âm ba Hled Phiên âm theo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

Một phần của tài liệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói (Trang 85 - 88)