Nhận dạng âm thanh

- Lựa chọn thuật toán

c. Nhận dạng âm thanh

Tệp âm thanh cần nhận dạng sẽ đƣợc thực hiện trích chọn đặc trƣng theo các bƣớc nhƣ trên để thu đƣợc vector đặc trƣng MFCC. Sau đó vector này đƣợc đối sánh với các vector đặc trƣng trong CSDL đặc trƣng bằng cách sử dụng hàm Ơclit để tính toán khoảng cách giữa 2 vector. Kết quả sau bƣớc này sẽ thu đƣợc vector đặc trƣng "gần nhất" với vector đặc trƣng của tệp âm thanh cần nhận dạng, từ đó sẽ truy lục đƣợc tệp âm thanh phù hợp nhất trong cơ sở dữ liệu.

3.3.3. Một số chức năng của chƣơng trình

Số hóa bởi Trung tâm Học liệu 62 http://www.lrc-tnu.edu.vn/ Hình 3.3: Giao diện của phần mềm SoundFinder

Chức năng thu âm trực tiếp:

Cho phép thu âm giọng nói của ngƣời dùng, lƣu lại dƣới dạng tệp .wav. Có thể tùy chỉnh tần số lấy mẫu và thời gian thu âm trên cửa sổ giao diện của chƣơng trình.

Chức năng tạo mới cơ sở dữ liệu đặc trưng:

Tạo cơ sở dữ liệu đặc trƣng từ các tệp âm thanh định dạng .wav trên máy tính

Chức năng lưu cơ sở dữ liệu đặc trưng:

Lƣu cơ sở dữ liệu đặc trƣng dƣới định dạng .mat của Matlab

Chức năng tải cơ sở dữ liệu đặc trưng đã có sẵn:

Nạp cơ sở dữ liệu đặc trƣng có sẵn trên máy vào bộ nhớ của chƣơng trình

Chức năng thêm mới người nói vào cơ sở dữ liệu:

Thêm đặc trƣng của một tệp âm thanh mới thu vào cơ sở dữ liệu đặc trƣng đã có sẵn.

Số hóa bởi Trung tâm Học liệu 63 http://www.lrc-tnu.edu.vn/

Nhận dạng tệp âm thanh trong cơ sở dữ liệu có độ tƣơng đồng cao nhất với các đặc trƣng của tệp âm thanh cần nhận dạng.

Chức năng trình diễn tệp âm thanh

Xuất tín hiệu âm thanh ra lối ra âm thanh analog của máy tính.

3.3.4. Kết quả thực nghiệm

Thử nghiệm trên tập dữ liệu âm thanh gồm 16 mẫu tiếng nói của các cán bộ Trƣờng Đại học Công nghệ Thông tin & truyền thông, các học viên lớp CK 12H

90%

Kết quả thử nghiệm cho thấy, với các tệp âm thanh đƣợc tách ra từ một lần thu âm nhƣng nội dung đọc khác nhau t

Số hóa bởi Trung tâm Học liệu 64 http://www.lrc-tnu.edu.vn/

Quá trình lọc theo thang Mel Cepstral

Chuyển đổi sang thang tần số Mel