.6 Hoạtđộng của HERest

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu và phát triển hệ thống nhận dạng tiếng việt phát âm liên tục trên bộ từ vựng nhỏ và trung bình luận văn ths máy tính 60 48 01 (Trang 41 - 43)

Trong Hình 3.6, HERest hoạt động nhƣ sau. Khi bắt đầu, nó sẽ tải toàn bộ tậpđịnh nghĩa HMM. Mỗi file huấn luyện phải đƣợc gắn với một file nhãn tƣơng ứng của nó. HERest chỉ thực hiện với chuỗi các nhãnâm vị này và bỏ qua thông tin về nhãn thời gian. Do đó những phiên âm này có thể đƣợc tạo ra tự động từ bộ ngữ pháp và từđiển phátâm.

Công cụ HERest xử lý lần lƣợt từng file huấn luyện. Sau khi tải toàn bộ vào bộ nhớ, nó sử dụng phiên âm liên quan để tạo ra một tổ hợp mô hình HMM cho toàn bộ phátâm. Tổ hợp mô hình HMM này đƣợc tạo bằng cách nối liên tiếp các mô hình HMM của cácâm vị tƣơng ứng với các nhãn trong phiên âm. Giải thuật Forward-Backward đƣợc áp dụng vào để tính toán và sau khi tất cả các file huấn luyện đƣợc xử lý, tham số ƣớc lƣợng mới đƣợc sinh ra và đƣợc cập nhật vào tập mô hình HMM đầu ra.

3.2.2.5 Gán nhãn cưỡng bức dữ liệu huấn luyện

Trong từđiển có chứa nhiều cách phát âm của một số từ, đặc biệt là các từ chức năng. Các mô hìnhâm đƣợc tạo ra cho đến thờiđiểm nàyđã có thể đƣợc sử dụng để sắp xếp lại dữ liệu huấn luyện và tạo bộ phiên âm mới. Nó cũng là khâu cuối cùng trong huấn luyện mô hình Markov ẩn của cácđơn vị nhận dạng độc lập ngữ cảnh. Theo đó thì phiên âm ở mức từ trong các lần huấn luyện trƣớc sẽ đƣợc kết hợp với từđiểm phátâm để tạo ra phiên âm mớiở mứcâm vị. Điểm khác biệtt chính giữa hoạt động này là nó tạo ra phiên âm thích hợp nhất cho dữ liệuâm học.

Khi dữ liệuđã đƣợc gán nhãn cƣỡng bức, thủ tục HERest sẽ đƣợc thực hiện lại để huấn luyệnvà ƣớc lƣợng lại tập các tham số HMM.

3.2.3 Huấn luyện âm buộc

Trải qua các bƣớcở trên ta đã nhận đƣợc một tập cácđơn vịđã đƣợc huấn luyệnở mứcđơn âm. Tậpđơn vị này đƣợc dùng cho việc nhận dạng độc lập ngữ cảnh. Do cácâm thƣờng chịuảnh hƣởng lẫn nhau trong một ngữ cảnh, nên để nâng cao độ chính xác của hệ thống nhận diện, HTK đãđƣa ra khái niệmâm ba (triphone) làđơn vị phụ thuộc ngữ cảnh so vớiâm đơn làđơn vị độc lập ngữ cảnh.

3.2.3.1 Tạo các âm ba từ các âm đơn

Cácâm ba độc lập ngữ cảnh có thể đƣợc tạo một cáchđơn giản bằng việc sao chép lại cácâm đơn rồi ƣớc lƣợng lại các tham số sử dụng các phiên âm củaâm ba.Âm ba này đƣợc khai báo theo dạng “L-X+R” ghép từ ba âm đơn, trong đóâm L làâm xuất hiện trƣớcâm X vàâm R thì xuất hiện ngay sau âm X. Dƣớiđây là ví dụ về sự chuyển đổi khai báo từâm đơn sang âm ba trong đó dòng đầu tiên là khai báo cho âm đơn và dòng thứ hai khai báo cho âm ba.

Với mô hìnhâm học cho âm ba này, về bản chất chúng ta đang đi tìmâm đơn trong ngữ cảnh của cácâm đơn khác. Từđó nó sẽ nâng cao độ chính xác trong nhận dạng vì hệ thống nhận dạng phải tìm chính xác chuỗi ba âm nối với nhau. Ngoài ra, các âm ba này còn làm giảm khả năng gây ra lỗi do nhầm lẫn âm này vớiâm khác vìhiện tại ta đang cầnđi tìm bộ chuỗi ba âm.

Mỗiâm ba đều đƣợc xây dựng bằng mô hình HMM riêng của nó, tuy nhiên có nhiều trƣờng hợpâm ba có các trạng thái tƣơng tự nhau đủ để chúng có thể chia sẽ dữ liệu giữa nhómâm ba này. Quá trình chia sẻ này đƣợc gọi là “buộc”. Có nghĩa là chúng ta có thể buộc các trạng thái của các mô hìnhâm ba này cùng sử dụng một tập dữ liệu tham số giống nhau. Bằng cách này, khi chúng ta thực hiện việc ƣớc lƣợng lại cho các tham số mới đƣợc buộc này thì ta có thể có đƣợc những kết quả ƣớc lƣợng tốt hơn. Về cơ bản, chúng ta không cóđủ dữ liệu tiếng nói để xây dựng mô hình cho tất cả cácâm ba trong tập dữ liệu huấn luyện, do đó chúng ta sẽ “gian lận” bằng cách chia sẻ các phần dữ liệu giữa cácâm ba tƣơng tự nhau để nâng cao việc nhận dạng.

Để chuyển đổi các mô hìnhâm đơn sang mô hìnhâm ba, ta sử dụng công cụ HHed, hoạt động của nó đƣợc thể hiện trong Hình 3.7.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu và phát triển hệ thống nhận dạng tiếng việt phát âm liên tục trên bộ từ vựng nhỏ và trung bình luận văn ths máy tính 60 48 01 (Trang 41 - 43)

Tải bản đầy đủ (PDF)

(54 trang)