TOOLBOX VOICEBOX TRONG MATLAB

Một phần của tài liệu phương pháp nhận dạng tiếng nói và xây dựng hệ nhận dạng tiếng nói trên matlab (Trang 33 - 34)

VoiceBox là một toolbox của Matlab chuyên về xử lí tiếng nói do Mike Brookes phát triển. VoiceBox yêu cầu Matlab phiên bản 5 trở lên.

VoiceBox gồm các hàm có thể chia thành một số nhóm chức năng sau:

• Xử lí file âm thanh (đọc, ghi file wav và một số định dạng file âm thanh khác)

• Phân tích phổ tín hiệu

• Phân tích LPC

• Tính toán MFCC, chuyển đổi spectral - cepstral

• Chuyển đổi tần số (mel-scale, midi,...)

• Biến đổi Fourier, Fourier ngược, Fourier thực...

• Tính khoảng cách (sai lệch) giữa các vector và dãy vector.

• Loại trừ nhiễu trong tín hiệu tiếng nói.

Tuy nhiên chức năng quan trọng nhất là trích đặc trưng tín hiệu tiếng nói, mà ởđây là 2 loại phổ biến nhất LPC và MFCC.

Hàm tính MFCC của tín hiệu trong VoiceBox là hàm melcepst:

c=melcepst(s,fs,w,nc,p,n,inc,fl,fh)

Hàm có rất nhiều tham số, một số tham số quan trọng là:

• s là vector tín hiệu tiếng nói (có được sau khi dùng hàm wavrecord

hoặc wavread), fs là tần số lấy mẫu (mặc định là 11050).

• nc là số hệ số MFCC cần tính (tức là số phần tử của vector đặc trưng. Mặc định là 12, trong nghiên cứu chúng tôi chọn là 8).

• p là số bộ lọc mel-scale.

• w là một xâu mô tả các lựa chọn khác: nếu có ‘e’ thì tính thêm log năng lượng, có ‘d’ thì tính thêm đặc trưng delta.

Mặc dù vậy hàm có thể gọi một cách đơn giản là:

c=melcepst(s,fs);

Lời gọi hàm sinh ra ma trận c, mỗi dòng của ma trận là 12 hệ số MFCC của một frame. Để kèm thêm log năng lượng và dữ liệu delta như trong các hệ nhận dạng khác, ta dùng lệnh:

c=melcepst(s,fs,’ed’);

Khi đó mỗi dòng của c là vector 26 hệ số MFCC của frame tương ứng. Hàm melcepst được chúng tôi sử dụng để trích chọn đặc trưng MFCC trong hệ thống nhận dạng được trình bày trong chương 5.

C

CHHƯƯƠƠNNGG 44.. MMNNGG NNƠƠRROONN

N

NHHÂÂNN TTOO

Bộ não con người, dưới góc độ tính toán có thể coi là một hệ thống xử lí song song lớn và mật độ kết nối cao: phần tử xử lí là các nơ ron là một và kết nối là các dây thần kinh.

Khả năng tuyệt vời của bộ não đã gợi nên những ý tưởng về việc mô phỏng chúng trong lĩnh vực tính toán. Và mạng nơ ron nhân tạo (artificial neural network -ANN) là kết quả của những ý tưởng đó.

Một phần của tài liệu phương pháp nhận dạng tiếng nói và xây dựng hệ nhận dạng tiếng nói trên matlab (Trang 33 - 34)

Tải bản đầy đủ (PDF)

(53 trang)