dạng tiếng nói
a/ Cấu trúc tập tin vector HTK được minh họa qua cấu trúc sau:
Struct Feature VectorFile {
long nSameples; // số mẫu trong tập tin long sampPeriod;
// tần số mẫu =tần số cửa sổ (tính theo 100ns) Short int sampSize;
FeatureVector sample [nSample]; }
Với parmKind được định nghĩa như sau: 0: WAVEFORM (sample wave)
1: LPC (Linear Prediction Filter Coeficients)
2: LPREFC (Linear Prediction Reflection Coeficients) 3: LPCEPSTRA (LPC Cepstral Cofeicients)
4: MFCC (Mel-Frequency Ceptral Cofeicients) 5: FBANK (Log Mel-Filter bank chanel outputs) 6: USER (User defined sample kind)
Ngoài ra, HTK còn hỗ trợ các dạng tập tin cho phép ta rút trích các Vector đặc trưng khác nhau như sau:
_E: Đặc trưng dạng năng lượng
_D: Trong tập Vector đặc trưng có các hệ số đạo hàm cấp 1 _A: Trong tập Vector đặc trưng có các hệ số đạo hàm cấp 2 _0: Có hệ số Ceptral thứ 0 (đầu tiên).
Hình 3.4 dưới đây là một ví dụ về sự phân bố các tham số trong một số vector đặc trưng được rút trích bằng HTK với các định dạng khác nhau:
Hình 3.4. Phân bố các tham số trong một số vector đặc trưng của HTK
b/ Cấu trúc tập tin mô hình Markov ẩn (HMM) được tạo bởi HTK
Mô hình HMM được tạo bằng HTK có cấu trúc như sau:
Trong cấu trúc tập tin HMM:
~h”hmm”: Tên mô hình như ở hình trên là mô hình hmm1 <BeginHMM>: Bắt đầu mô hình HMM
<EndHMM>: Kết thúc tập tin HMM
Phần thân được bao bọc ở giữa <BeginHMM> và <EndHMM> <NumState>: Số trạng thái của mô hình
<State> : Tên trạng thái
<TransP>: Chuyển trạng thái…
Với mô hình Markov ẩn tạo bởi HTK người dùng có thể thay đổi số chiều của vector đặc trưng cho phù hợp với mục đích của mình.
c/ Cấu trúc tập tin đánh nhãn dữ liệu
Với các dữ liệu dùng để huấn luyện hay nhận dạng sẽ được đánh nhãn (được đặt cùng tên với tập tin dữ liệu nhưng có kiểu mạc định là .lab). Mỗi dòng sẽ đánh dấu cho vị trí bắt đầu và kết thúc cho từng từ. Trong HTK có hỗ trợ nhiều dạng tập tin đánh nhãn nhưng dạng tập tin đánh nhãn Master Lable File hay được dùng, nó có cú pháp như sau:
Ví dụ ta có tập tin thu âm dữ liệu là 001.wav lưu trữ nội dung gồm các số “ba moojt nawm chisn” thì khi đó tập tin đánh nhãn của nó là: