Ng phát triển của lu năvĕn:

Một phần của tài liệu Nhận dạng tiếng nói dùng giải thuật trích đặc trưng MFCC và lượng tử vector trên KIT DSKTMS320C6713 của TI (Trang 90)

Việc đánh giá phương pháp nhận dạng có thể được tiến hành trên nhiều thông sốkhác như: kích thước FFT, mô hình bộ lọc Mel gồm số bộ lọc và kiểu của bộ lọc, các loại cửa sổ sử dụng trong quá trình tiền nhấn…. Việc đánh giá tổng hợp các thông số sẽ đưa ra giải pháp nhận dạng tối ưu nhất cho phương pháp nhận dạng.

Thực hiện nhận dạng tiếng nói sử dụng các phương pháp khác như HMM, mạng Noron. Từđó rút ra được ưu và nhược điểm đối với từng phương pháp. Rút ra kết luận trong từng trường hợp cụ thể thì phương pháp nào sẽ được sử dụng.

84

TÀI LIU THAM KHO

TI NG VIỆT

1. GS.TSKH Bạch Hưng Khang, Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt. Viện công nghệ thông tin.

2. Bài giảng xử lý tiếng nói. Trường Đại Học Hàng Hải Việt Nam – Khoa Công Nghệ Thông Tin – Bộ Môn Hệ Thống Thông Tin, 2011.

3. Lê Bá Dũng, Tài liệu tham khảo mô học Xử lý tiếng nói. Khoa Công nghệ Thông tin –Trường Đại học Hàng Hải Việt Nam.

4. Ths. Phùng Chí Dũng, Nhận dạng tiếng nói dùng mạng Noron nhân tạo.

5. PGS.TS Hoàng Đình Chiến, Nhận dạng tiếng Việt dùng mạng neuron kết hợp

trích đặc trưng dùng LPC và AMDF, 2005.

6. Hồ Tú Bảo, Lương Chi Mai, Về xử lý tiếng Việt trong công nghệ thông tin. Viện Công nghệ Thông tin – Viện khoa học và công nghệ tiên tiến Nhật Bản.

7. Nguyễn Quốc Đính, Luận văn Thiết kế bộ nhận dạng tiếng nói dựa trên nền tảng DSP TMS320C2812. ĐH Bách Khoa TPHCM.

8. Đặng Ngọc Đức, Luận văn Nghiên cứu ứng dụng mạng neuron và mô hình Markov ẩn trong nhận dạng tiếng Việt. ĐH KHTN, ĐH Quốc Gia Hà Nội.

9. Hà Thúc Phùng, Luận văn Nhận dạng tiếng Việt dùng mô hình Markov ẩn. ĐH Bách Khoa TP.HCM.

10. Nguyễn Thanh Phương, Luận văn Nhận dạng tiếng nói dùng mô hình Markov

ẩn. ĐH Bách Khoa TP.HCM.

11. Một số tài liệu trên Web đư được tải về tại các Website: mica.com.vn, bk02.sourceforge.net/vspeechsdk ……

TI NGăNƯ C NGOÀI

1. Mohamed D., Jean-Paul H., Amrance H. Improved vector quantization approach for discrete HMM speech recognition system. The international Arab Journal of Information technology.

85

2. Lawrence R., Biing-Hwang J. Fundamentals of speech recognition. Prentice-Hall International, Inc.

3. The HTK Book (Version 3.4). Cambridge University Engineering Department. 4. Andrew W. Hidden Markov Models. School of Computer Science Carnegie Mellon University.

5. TMS320C6000 Chip Support Library API Reference Guide. Texas Instruments Incorporated, 2004.

6. Jeremy Bradbury. Linear Predictive Coding.Prentice-Hall International Inc ,December 5, 2000.

7. L Tien Thuong, and H.Dinh Chien. Vietnamese Speech Recognition Applied to Robot Communications. National University of Ho Chi Minh City, Jan,2004. 8. Rulph Chassaing. Digital Signal Processing and Applications with the C6713 and C6416 DSK. A John wiley & Sons, INC,. Publication, 2004.

9. Một số tài liệu trên Web đư được tải về tại các website: TI.com, spectrumdigital.com, cmusphinx.sourceforge.net…….

86

PH L C

Một số hàm tính toán quan trọng trên chip DSP TMS320C6713 1. Hàm tính toán bi năđ i Fourier nhanh

/* Ham de tinh toan bien doi Fourier nhanh */

void fft (struct buffer *input_data, int n, int m) {/* Du lieu am thanh, n = 2^m, m = tong so tang*/

int n1,n2,i,j,k,l,row_index; /* Khai bao bien*/

float xt,yt,c,s,e,a; /* Khai bao bien luu gia tri tam

* xt,yt cho phan thuc phan ao

* c cho cosine

* s cho sine

* e va a cho tin toan ngo vao

cosine va sine

*/

for ( row_index = 0; row_index < row_length;

row_index++) { /* Cho moi frame */

/* Lap qua tat ca cac tang */

n2 = n;

for ( k=0; k<m; k++) {

n1 = n2; n2 = n2/2; e = PI/n1;

/* Tinh toan he so Twiddle */

for ( j= 0; j<n2; j++) {

a = j*e;

c = (float) cos(a);

s = (float) sin(a);

/* Thuc hien Butterflies cho 256 mau */

for (i=j; i<n; i+= n1) {

l = i+n2;

xt = input_data-

>data[row_index][i].real - input_data-

>data[row_index][l].real;

input_data->data[row_index][i].real

= input_data->data[row_index][i].real+input_data-

>data[row_index][l].real;

yt = input_data-

>data[row_index][i].imag - input_data-

87

input_data->data[row_index][i].imag

= input_data->data[row_index][i].imag+input_data-

>data[row_index][l].imag;

input_data->data[row_index][l].real

= c*xt + s*yt;

input_data->data[row_index][l].imag

= c*yt - s*yt; } } } /* Dao bit */ j = 0;

for ( i=0; i<n-1; i++) {

if (i<j) {

xt = input_data->data[row_index][j].real;

input_data->data[row_index][j].real =

input_data->data[row_index][i].real;

input_data->data[row_index][i].real = xt;

yt = input_data->data[row_index][j].imag;

input_data->data[row_index][j].imag =

input_data->data[row_index][i].imag;

input_data->data[row_index][i].imag = yt;

} }

}

return; }

Một phần của tài liệu Nhận dạng tiếng nói dùng giải thuật trích đặc trưng MFCC và lượng tử vector trên KIT DSKTMS320C6713 của TI (Trang 90)

Tải bản đầy đủ (PDF)

(102 trang)