KIẾN TRÚC HTK

Kiến trúc của hệ thống HTK được mô tả như hình bên dưới, bao gồm rất nhiều các thành phần, module. Tất cả các hàm API sử dụng trong HTK được viết bằng ngôn ngữ C, các hàm này là nền tảng để phát triển các chức năng trong HTK.

Hình 3.2: Kiến trúc bộ công cụ HTK

HTK Tool được thiết kế theo dạng module thực hiện các chức năng khác nhau trong xử lý ngôn ngữ tiếng nói, trong số đó có bộ công cụ HTrain phục vụ cho huấn luyện giọng nói, DAdapt phục vụ cho thích ứng giọng nói, HDict được ứng dụng cho xây dựng bộ từ điển....Trong đề tài này tập trung tìm hiểu về các thành phần trong module xây dựng nhận dạng giọng nói.

Tiếp theo đây là các thành phần xây dựng hệ thống nhận dạng giọng nói theo từng bước trình tự, các thành phần công cụ theo từng bước trình tự được trình bày cụ thể theo như hình bên dưới:

Hình 3.3 : Các công đoạn xây dựng bộ nhận dạng tiếng nói HTK

Các công đoạn nhận dạng tiếng nói như mô tả trên hình vẽ bao gồm: chuẩn bị dữ liệu, huấn luyện dữ liệu, kiểm tra và đánh giá kết quả.

Giữa các công cụ HTK thực hiện trao đổi dữ liệu thông qua tập tin, kết quả của công cụ này bao gồm một hoặc nhiều tập tin sẽ làm đầu vào cho các công cụ khác. Các tập tin này có thể là tập tin âm thanh dạng sóng âm hay vecto đặc trưng của tiếng nói, tập tin chứa dữ liệu âm thanh được gán gãn tương ứng, các tập tin định nghĩa mô hình HMM, các tập tin thông số cấu hình cho từng công cụ nhận dạng. Trong HTK đơn vị nhận dạng nhỏ nhất có thể là âm tiết hoặc một từ đơn (công cụ nhận dạng Sphinx chỉ cho phép nhận dạng trên âm tiết) các đơn vị nhận dạng được mô hình trên một HMM thường được gọi là phone. HTK

hoặc mô hình tâm phân(Tri-phone) tương ứng cho mỗi ngữ cảnh ghép giữa các phone.

Sau đây là các công cụ chính phục vụ cho công đoạn nhận dạng tiếng nói trong HTK:

- HCopy: là công cụ được sử dụng cho việc rút trích đặc trưng tiếng nói, công cụ chuyển đổi các tập tin âm thanh thành các vecto đặc trưng tương ứng, cung cụ có thể rút trích đặc trưng theo phương pháp LPC hoặc MFCC tùy vào cách chúng ta cấu hình trong tập tin cấu hình thông số làm đầu vào cho HCopy. Công cụ này có thể rút trích đặc trưng cho một tập tin hoặc cho một danh sách các tập tin âm thanh.

- HInit : công cụ khởi tạo mô hình HMM, mô hình HMM ban đầu phải có dữ liệu khởi tạo đây là dữ liệu mẫu đầu tiên, dựa trên dữ liệu này quá trình huấn luyện sẽ điều chỉnh dần dần làm cho mô hình HMM được cân chỉnh đúng với tập dữ liệu đầu vào cần huấn luyện.

- HRest : đây là công cụ ước lượng thông số dựa trên thuật toán Baum- Welch, đầu vào của công cụ này là các tập tin chứa các vector đặc trưng của dữ liệu cần huấn luyện, đầu ra là mô hình HMM đang trong quá trình huấn luyện.

- HVite : công cụ này thực hiện thuật toán Viterbi để nhận dạng tiếng nói, đầu vào là mô hình HMM đã huấn luyện và các tập tin chứa vector đặc trưng cần nhận dạng. Đầu ra là kết quả nhận dạng được.

- HResults : Công cụ để phân tích kết quả nhận dạng đã được thực hiện qua công cụ HVite, kết quả phân tích cụ thể nhận dạng được chính xác bao nhiêu phần trăm so với dữ liệu âm thanh cần nhận dạng. Đây là công cụ quan trọng trong việc đánh giá kết quả nhận dạng để từ đó phân tích và điều chỉnh mô hình phù hợp.

- HSlab : công cụ hiển thị tập tin dưới dạng đồ họa trực quan, công cụ quan trọng để gán nhãn tập tin âm thanh.

PHÂN TÍCH CÔNG CỤ QUAN TRỌNG HTK

Mô hình ngôn ngữ trong HTK