Huấn luyện trên mô hình âm vị phụ thuộc ngữ cảnh (- 123docz.net

5.2.4.2.1. Khởi tạo và huấn luyện mô hình triphone:

Quá trình huấn luyện trên mô hình triphone phụ thuộc ngữ cảnh có thểđược thực hiện bằng cách nhân các mô hình HMM monohone lên và huấn luyện tham số

HMM dựa vào các file gán nhãn theo âm vị triphone chứ không dựa vào các file gán nhãn monophone.

Chúng ta có thể dùng công cụ HLed để tạo ra file gán nhãn âm vị trên mô hình triphone dựa vào các HMM monophone và dựa vào các file gán nhãn monophone như sau:

Sau đó chúng ta nhân các mô hình HMM monophone được ở bước trước thành các mô hình triphone tương ứng với nó.

Quá trình huấn luyện trên mô hình triphone được thực hiện tương tự như

trong huấn luyện đối với mô hình monophones. Chỉ khác là chúng ta sử danh sách HMM cho mô hình triphone và file gán nhãn theo âm vị triphone.

5.2.4.2.2. Gom nhóm các mô hình triphone:

Chúng ta đã được mô hình các triphone trong các bước huấn luyện trước. Nếu chúng ta dùng các mô hình này để nhận dạng thì không gian tìm kiếm quá lớn, vì vậy tốc độ nhận dạng sẽ rất chậm. Thứ hai nữa là đối với mỗi âm vị triphone dữ

liệu huấn luyện rất ít vì vậy độ chính xác sẽ không cao. Vì vậy chúng ta phải gom nhóm các âm vị triphone giống nhau lại. Trạng thái trung tâm của HMM là ít chịu

ảnh hưởng của ngữ cảnh nên chúng sẽ giống nhau, còn 2 trạng thái 2 bên trạng thái trung tâm là chịu ảnh hưởng của ngữ cảnh rất nhiều. Vì vậy chúng ta sẽ gom nhóm các dựa vào mức độ giống nhau của 2 trạng thái xung quanh. Và chúng ta sẽ gom nhóm các trạng thái bên trái và gom nhóm các trạng thái bên phải của các âm vị

KHOA CNTT –

ĐH KHTN

triphone và dựa vào các cluster trạng thái này chúng ta sẽ gom nhóm các âm vị

triphone. Vì vậy gom nhóm các âm vị triphone còn gọi là buộc các trạng thái của các âm vị triphone và các mô hình HMM cho các âm vị được tạo ra trong bước này gọi là các mô hình triphone buộc trạng thái. Có hai cơ chế cho việc tiến hành buộc các trạng thái của HMM đó là Data-driven clustering và Tree-based clustering.

Phương pháp Tree based-clustering dựa vào tính chất âm học của ngữ cảnh trái và ngữ cảnh phải của âm vị triphone. Phương pháp cluster dựa vào cây quyết

định sử dụng cây quyết định âm học nhị phân để phân nhóm các âm vị triphone của cùng 1 âm vị monophone. Tại mỗi nút của cây có 1 câu hỏi đúng/sai để phân loại âm vị triphone. Câu hỏi này kiểm tra tính chất âm học của âm vị bên trái và bên phải của âm vị triphone trạng thái tại mỗi nút sẽđược quyết định. Cứ như vậy cho

đến nút lá của cây. Tại nút lá chúng ta sẽ được 1 cluster âm vị triphone. Phương pháp này rất hiệu quả tuy nhiên để tiến hành được phương pháp này chúng ta cần có những kiến thức về âm học để đặt những câu hỏi vì vậy nên chúng tôi đã không lựa chọn phương pháp này.

KHOA CNTT – ĐH KHTN BED PBrush t-i+n s-a+n Âm dừ ? h các trạng hái t i+nh L: âm vị trái R: âm vị phải

HÌNH 18 – Phương pháp góm nhóm âm vị dựa vào cây quyết định âm học

Phương pháp được chúng tôi sử dụng là data driven- clustering. Chúng ta sẽ

gom nhóm các trạng thái của các mô hình triphone dựa vào độ đo khoảng cách giữa các trạng thái. Các trạng thái cùng 1 phân nhóm sẽđược buộc vào thành 1 trạng thái. Dựa vào các nhóm trạng thái này chúng ta sẽ gom nhóm các âm vị.

Cách gom nhóm các trạng thái được tiến hành như sau. Ban đầu mỗi trạng thái sẽ nằm ở 1 cluster. Tại mỗi bước lặp, hai cluster khi trộn sau khi trộn vào có khoảng cách trung bình giữa các trạng thái trong cùng 1 cluster là nhỏ nhất sẽđược trộn lại. Quá trình được lặp cho đến khi tồn tại 1 cluster có khoảng cách trung bình giữa các trạng thái lớn hơn ngưỡng T. Nếu ngưỡng T càng lớn thì số cluster càng giảm. Ngưỡng T có vai trò rất quan trọng trong việc tăng hiệu quả của quá trình nhận dạng. Sự chính xác của nhận dạng phụ thuộc vào ngưỡng T được mô tả trong

KHOA CNTT –

ĐH KHTN

đồ thị sau. Để tìm được ngưỡng chính xác chúng tôi đã gom nhóm trên nhiều ngưỡng khác nhau để tìm ra ngưỡng tối ưu.

ịtri one óm gom

hính xác

chồng

HÌNH 19 – Buộc trạng thái theo phương pháp Data-driven-clustering

chính xác

KHOA CNTT –

ĐH KHTN

Trong quá trình thực hiện để đánh giá sự phụ thuộc của độ chính xác của nhận dạng vào ngưỡng phân nhóm T chúng tôi đã tiến hành thống kê như sau. Tất cả các quá trình huấn luyện và nhận dạng đề được thực hiện trên cùng dữ liệu huấn luyện và dữ liệu test. Quá trình được thực hiện trên các âm tiết là kết qủ của sự tổng hợp các đơn vị sau: phụ âm đầu là /d/, /đ/, /k/, /kh/, /m/, /s/, /t/; các vần được huấn luyện và nhận dạng là: /a/, /ang/, /an/, /ao/, /ăm/, /e/, /eo/, /en/, /ê/, /ôn/, /ông/, /ong/, /u/, /ung/ thành các âm tiết (không xét tới thanh điệu). Chúng ta có 18 âm vị

monophone cho tiếng nói và 2 âm vị không tiếng nói và 173 âm vị triphone. Kết quả

ngưỡng T tốt nhất tại ngưỡng T=1.4, sau khi gom nhóm chúng tôi được 53 âm vị

buộc trạng thái thì kết quả nhận dạng tốt nhất.

Sau khi gom nhóm các trạng thái chúng ta đồng thời cũng sẽ gom nhóm được các mô hình HMM. Các HMM lần lượt có 3 cặp trạng lần lượt nằm trong 3 cluster sẽđược gom nhóm lại.

Sau khi gom nhóm các cluster chúng ta sẽ tiến hành huấn luyện lại trên dữ

liệu huấn luyện đểđược các HMM cuối cùng.

Huấn luyện trên mô hình âm vị phụ thuộc ngữ cảnh (triphone)

Sơ lược về âm tiết tiếng Việ t

Mỗi âm tiết có thanh điệu riêng