5.2.4.2.1. Khởi tạo và huấn luyện mô hình triphone:
Quá trình huấn luyện trên mô hình triphone phụ thuộc ngữ cảnh có thểđược thực hiện bằng cách nhân các mô hình HMM monohone lên và huấn luyện tham số
HMM dựa vào các file gán nhãn theo âm vị triphone chứ không dựa vào các file gán nhãn monophone.
Chúng ta có thể dùng công cụ HLed để tạo ra file gán nhãn âm vị trên mô hình triphone dựa vào các HMM monophone và dựa vào các file gán nhãn monophone như sau:
Sau đó chúng ta nhân các mô hình HMM monophone được ở bước trước thành các mô hình triphone tương ứng với nó.
Quá trình huấn luyện trên mô hình triphone được thực hiện tương tự như
trong huấn luyện đối với mô hình monophones. Chỉ khác là chúng ta sử danh sách HMM cho mô hình triphone và file gán nhãn theo âm vị triphone.
5.2.4.2.2. Gom nhóm các mô hình triphone:
Chúng ta đã được mô hình các triphone trong các bước huấn luyện trước. Nếu chúng ta dùng các mô hình này để nhận dạng thì không gian tìm kiếm quá lớn, vì vậy tốc độ nhận dạng sẽ rất chậm. Thứ hai nữa là đối với mỗi âm vị triphone dữ
liệu huấn luyện rất ít vì vậy độ chính xác sẽ không cao. Vì vậy chúng ta phải gom nhóm các âm vị triphone giống nhau lại. Trạng thái trung tâm của HMM là ít chịu
ảnh hưởng của ngữ cảnh nên chúng sẽ giống nhau, còn 2 trạng thái 2 bên trạng thái trung tâm là chịu ảnh hưởng của ngữ cảnh rất nhiều. Vì vậy chúng ta sẽ gom nhóm các dựa vào mức độ giống nhau của 2 trạng thái xung quanh. Và chúng ta sẽ gom nhóm các trạng thái bên trái và gom nhóm các trạng thái bên phải của các âm vị
KHOA CNTT –
ĐH KHTN
triphone và dựa vào các cluster trạng thái này chúng ta sẽ gom nhóm các âm vị
triphone. Vì vậy gom nhóm các âm vị triphone còn gọi là buộc các trạng thái của các âm vị triphone và các mô hình HMM cho các âm vị được tạo ra trong bước này gọi là các mô hình triphone buộc trạng thái. Có hai cơ chế cho việc tiến hành buộc các trạng thái của HMM đó là Data-driven clustering và Tree-based clustering.
Phương pháp Tree based-clustering dựa vào tính chất âm học của ngữ cảnh trái và ngữ cảnh phải của âm vị triphone. Phương pháp cluster dựa vào cây quyết
định sử dụng cây quyết định âm học nhị phân để phân nhóm các âm vị triphone của cùng 1 âm vị monophone. Tại mỗi nút của cây có 1 câu hỏi đúng/sai để phân loại âm vị triphone. Câu hỏi này kiểm tra tính chất âm học của âm vị bên trái và bên phải của âm vị triphone trạng thái tại mỗi nút sẽđược quyết định. Cứ như vậy cho
đến nút lá của cây. Tại nút lá chúng ta sẽ được 1 cluster âm vị triphone. Phương pháp này rất hiệu quả tuy nhiên để tiến hành được phương pháp này chúng ta cần có những kiến thức về âm học để đặt những câu hỏi vì vậy nên chúng tôi đã không lựa chọn phương pháp này.
KHOA CNTT – ĐH KHTN BED PBrush t-i+n s-a+n Âm dừ ? h các trạng hái t i+nh L: âm vị trái R: âm vị phải
HÌNH 18 – Phương pháp góm nhóm âm vị dựa vào cây quyết định âm học
Phương pháp được chúng tôi sử dụng là data driven- clustering. Chúng ta sẽ
gom nhóm các trạng thái của các mô hình triphone dựa vào độ đo khoảng cách giữa các trạng thái. Các trạng thái cùng 1 phân nhóm sẽđược buộc vào thành 1 trạng thái. Dựa vào các nhóm trạng thái này chúng ta sẽ gom nhóm các âm vị.
Cách gom nhóm các trạng thái được tiến hành như sau. Ban đầu mỗi trạng thái sẽ nằm ở 1 cluster. Tại mỗi bước lặp, hai cluster khi trộn sau khi trộn vào có khoảng cách trung bình giữa các trạng thái trong cùng 1 cluster là nhỏ nhất sẽđược trộn lại. Quá trình được lặp cho đến khi tồn tại 1 cluster có khoảng cách trung bình giữa các trạng thái lớn hơn ngưỡng T. Nếu ngưỡng T càng lớn thì số cluster càng giảm. Ngưỡng T có vai trò rất quan trọng trong việc tăng hiệu quả của quá trình nhận dạng. Sự chính xác của nhận dạng phụ thuộc vào ngưỡng T được mô tả trong
KHOA CNTT –
ĐH KHTN
đồ thị sau. Để tìm được ngưỡng chính xác chúng tôi đã gom nhóm trên nhiều ngưỡng khác nhau để tìm ra ngưỡng tối ưu.
ịtri one óm gom
hính xác
chồng
p
HÌNH 19 – Buộc trạng thái theo phương pháp Data-driven-clustering
chính xác
KHOA CNTT –
ĐH KHTN
Trong quá trình thực hiện để đánh giá sự phụ thuộc của độ chính xác của nhận dạng vào ngưỡng phân nhóm T chúng tôi đã tiến hành thống kê như sau. Tất cả các quá trình huấn luyện và nhận dạng đề được thực hiện trên cùng dữ liệu huấn luyện và dữ liệu test. Quá trình được thực hiện trên các âm tiết là kết qủ của sự tổng hợp các đơn vị sau: phụ âm đầu là /d/, /đ/, /k/, /kh/, /m/, /s/, /t/; các vần được huấn luyện và nhận dạng là: /a/, /ang/, /an/, /ao/, /ăm/, /e/, /eo/, /en/, /ê/, /ôn/, /ông/, /ong/, /u/, /ung/ thành các âm tiết (không xét tới thanh điệu). Chúng ta có 18 âm vị
monophone cho tiếng nói và 2 âm vị không tiếng nói và 173 âm vị triphone. Kết quả
ngưỡng T tốt nhất tại ngưỡng T=1.4, sau khi gom nhóm chúng tôi được 53 âm vị
buộc trạng thái thì kết quả nhận dạng tốt nhất.
Sau khi gom nhóm các trạng thái chúng ta đồng thời cũng sẽ gom nhóm được các mô hình HMM. Các HMM lần lượt có 3 cặp trạng lần lượt nằm trong 3 cluster sẽđược gom nhóm lại.
Sau khi gom nhóm các cluster chúng ta sẽ tiến hành huấn luyện lại trên dữ
liệu huấn luyện đểđược các HMM cuối cùng.