60Uint32 fs=DSK6713_AIC23_FREQ_8KHZ;

Một phần của tài liệu Nhận dạng tiếng nói dùng giải thuật trích đặc trưng MFCC và lượng tử vector trên KIT DSKTMS320C6713 của TI (Trang 67)

Uint32 fs=DSK6713_AIC23_FREQ_8KHZ;

Việc cấu hình cho việc ghi âm được thực hiện thông qua các file hearder và file thư viện: dsk6713init.c, dsk6713_aic.h.

Hàm thư viện sample_data = input_sample(); sẽ thực hiện lấy mẫu âm thanh với tần số lấy mẫu 8Khz và lưu lại dưới biến sample_data để sử dụng cho quá trình tính toán. Dữ liệu lưu ở dạng số nguyên 32bit.

4.4.1.2 Framing windowing

Sau khi thực hiện lấy mẫu âm thanh chương trình sẽ thực hiện việc tách từ, nhận dạng vị trí bắt đầu của một từ bằng các chương trình con: block_dc.h, detect_envelop.c. Việc tách từ dựa trên việc tính toán mức năng lượng của mẫu tín hiệu âm thanh thu được, mức năng lượng này được so sánh với mức nhiễu trung bình để đưa ra kết luận vị trí bắt đầu và kết thúc của một từ. Chương trình hạn chế trong việc sử dụng những từđơn lẽ, chưa tính toán được trên một câu hoàn chỉnh.

Sơ đồ dưới mô tả vị trí của chương trình tách từ trong tổng thể chương trình Framing Windowing. Chương trình Detect_Envelop không làm thay đổi dạng của tín hiệu âm thanh ngõ ra. Sau khi tách được vị trí từ bắt đầu, những mẫu tín hiệu âm thanh sẽđược chia thành các frame với kích thước frame là 100x256. Trong đó khoảng dịch frame là 100, tức frame sau sẽ lặp lại của frame trước 156 mẫu. Việc chồng lấn và cửa sổ hóa này làm giảm những biến đổi đột ngột ở dạng phổ tín hiệu khi lấy mẫu.

Trong luận văn này tôi sử dụng cửa sổHamming để tính toán với 256 hệ số của hàm cửa sổ đư được tính toán từ trước bằng Matlab, giá trị được lưu trong file hamming_window.coeff. Việc này làm giảm khối lượng tính toán của chương trình. Kích thước 256 có thểthay đổi tùy theo việc chọn lựa số mẫu trên một frame âm thanh.

61

Một phần của tài liệu Nhận dạng tiếng nói dùng giải thuật trích đặc trưng MFCC và lượng tử vector trên KIT DSKTMS320C6713 của TI (Trang 67)

Tải bản đầy đủ (PDF)

(102 trang)