Huấn luyện mô hình HMM

Một phần của tài liệu TÌM HIỂU VỀ CÁC HỆ THỐNG NHẬN DẠNG TIẾNG NÓI. (Trang 56)

THỰC HIỆN CHƢƠNG TRÌNH MẪU

5.3.3. Huấn luyện mô hình HMM

Công cụ để thực hiện huấn luyện Embedded training trong HTK là HERest. HERest sẽ dùng các mô hình HMM vừa khởi tạo và dữ liệu huấn luyện để huấn luyện ra các HMM âm vị độc lập ngữ cảnh monophone. Mô hình của quá trình huấn luyện nhƣ hình dƣới. Chi tiết về thuật toán huấn luyện trên dữ liệu không gán nhãn âm vị Embedded training đã đƣợc giới thiêu ở phần trên.

HERest sẽ load các mô hình HMM vừa khởi tạo chứa trong file hmmdefs

(file chứa định nghĩa các mô hình HMM) trong danh sách âm vị monophone0. Quá trình ƣớc lƣợng tham số sẽ sử dụng các file huấn luyện chứa trong danh sách file huấn luyện trains.scp và các chuỗi các âm vị tƣơng ứng nằm trong file

Các monophone đƣợc huấn luyện (các hmmdef mới) File gán nhãn âm vị (phone0.mlf) HMM đã khởi tạo (hmmdef) Danh sách HMM (monophones0) Danh sách file huấn

luyện (trains.scp)

HERest

phone.mlf để tạo ra các HMM mới. Các HMM đƣợc huấn luyện đƣợc lƣu trong thƣ mục new_hmm. Chúng ta sẽ lặp lại số lần huấn luyện nhiều lần đến khi hội tụ. Tiêu chuẩn để đánh giá hội tụ là xem sự hội của giá trị log_likelihood trung bình trên mỗi frame dữ liệu huấn luyện. Thƣờng thì số lần huấn luyện là từ 2 đến 5 lần. Nếu số bƣớc lặp huấn luyện quá ít thì mức độ chính xác của các HMM không cao. Nhƣng nếu số bƣớc lặp quá lớn, sẽ xảy ra tình trạng quá luyện dẫn đến mức độ tổng quát của các HMM lại bị giảm đi. Vì vậy chúng ta sẽ phải quyết định số lƣợng các bƣớc lặp sao cho hiệu quả nhất. Trong phạm vi đề tài, số lần huấn luyện là 3, đƣợc lƣu trong thƣ mục hmm3 tƣơng ứng.

Đối với các ngôn ngữ đa âm, để tăng độ chính xác khi nhận dạng, ngƣời ta sẽ tiếp tục tiến hành sữa thêm mô hình HMM cho “sp”, là khoảng thời gian dừng ngắn giữa các âm tiết. Tuy nhiên, tiếng Việt lại là ngôn ngữ đơn âm, mỗi từ cũng là một âm tiết nên thao tác này là không cần thiết. Nhƣ vậy, mô hình HMM ở bƣớc cuối cùng đã có thể dùng để cung cấp cho engine Julian thực hiện nhận dạng.

Một phần của tài liệu TÌM HIỂU VỀ CÁC HỆ THỐNG NHẬN DẠNG TIẾNG NÓI. (Trang 56)

Tải bản đầy đủ (PDF)

(61 trang)