Kết quả thử nghiệm

Một phần của tài liệu Tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói (Trang 59)

 Chế độ ghi âm: 11025KHz, 16bit, Mono, định dạng *.wav.  Các mẫu thử được đọc trực tiếp từ microphone của 12 người.  Số lần nói:

Bảng 4.1: Bảng số lượng mẫu thu thập hai từ “Có” và “Không”

Ngƣời nói Từ 1 2 3 4 5 6 7 8 9 10 11 12 Tổng “Có” 40 8 5 7 11 8 7 8 30 7 10 8 149 “Không” 40 8 5 7 11 8 7 8 30 7 10 8 149  Số mẫu lưu: o Từ “Có”: 149 mẫu o Từ “Không”: 149 mẫu

 Số mẫulưu đặc trưng vào cơ sở dữ liệu:

Trong 149 mẫu mỗi loại thì có một số mẫu được dùng để lấy đặc trưng, cụ thể theo bảng 4.2:

58

Bảng 4.2: Bảng số lượng mẫu hai từ “Có” và “Không” lưu đặc trưng vào cơ sở dữ liệu Ngƣời nói Từ 1 2 4 7 9 11 Tổng “Có” 25 8 7 7 20 10 77 “Không” 25 8 7 7 20 10 77

 Chạy chương trình và kết quả:

Bảng 4.3: Kết quả thử nghiệm chương trình với từ “Có”

Ngƣời thử Số lần thử Số lần đúng Tỷ lệ đúng (%) Người 1 15 8 53.3 Người 3 5 3 60 Người 5 11 9 81.8 Người 6 8 2 25 Người 8 8 5 62.5 Người 9 10 3 30 Người 10 7 6 85.7 Người 12 8 4 50

Bảng 4.4: Kết quả thử nghiệm chương trình với từ “Không”

Ngƣời thử Số lần thử Số lần đúng Tỷ lệ đúng (%) Người 1 15 11 73.3 Người 3 5 2 40 Người 5 11 6 54.5 Người 6 8 7 87.5 Người 8 8 2 25 Người 9 10 7 70 Người 10 7 4 57.1 Người 12 8 2 25

59 Kết quả thử nghiệm cũng cho thấy được sự chính xác nhất định khi nhận dạng hai từ “Có” hoặc “Không”.

 Các sai sót gặp phải:

o Nhận dạng chưa được chuẩn giọng người không có trong mẫu.

o Vẫn chưa tách bỏ được việc mẫu thử là các từ bất kì. Nghĩa là vẫn có trường hợp đưa ra kết quả khi mà từ đọc vào khác “Có” và “Không”.  Định hướng phát triển:

o Để nâng cao độ chính xác, cần phải tăng cường lọc “nhiễu” ở mức tiền xử lý.

o Kết hợp các tiêu chuẩn, thống kê trọng số, … để đánh giá đưa ra kết luận chính xác hơn cho từ cần nhận dạng.

60

KẾT LUẬN Kết quả đạt đƣợc

Luận văn đã tìm hiểu, nghiên cứu và ứng dụng một số thuật toán tìm đặc trưng tiếng nói, nén các đặc trưng tiếng nói để xây dựng ứng dụng nhận dạng tiếng nói.

Chương trình không tránh khỏi những sai sót rất mong sự góp ý, phê bình của các thầy giáo, cô giáo, các đồng nghiệp và những bạn quan tâm, tôi xin trân thành cảm ơn.

Hƣớng phát triển

Để nâng cao chất lượng bài toán ứng dụng nhận dạng tiếng nói, cần nghiên cứu tiếp về ngôn ngữ tiếng Việt,tăng cường lọc “nhiễu” ở mức tiền xử lý, kết hợp các tiêu chuẩn, thống kê trọng số, … để đánh giá đưa ra kết luận chính xác hơn cho từ cần nhận dạng. Cần nghiên cứu tiếp một số thuật toán nén để có thể tiếp tục nén các đặc trưng tiếng nói sau khi đã nén bằng Phép biến đổi DCT hoặc DWT nhằm giảm dung lượng cơ sở dữ liệu lưu mẫu.

61

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Nguyễn Quang Hoan (2006), Xử lý ảnh, Học viện Công nghệ Bưu chính Viễn thông, tr.99-103.

2. Nguyễn Thị Thanh Hà (2009), Watermarking dùng Wavelets đối với ảnh số, Luận văn thạc sĩ ngành Vật lý vô tuyến và Điện tử hướng kỹ thuật, Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, tr.38- 44.

3. Nguyễn Văn Xuất (2006), Mutilmedia, (Cấu trúc file wave), Học viện Kỹ thuật quân sự.

4. Trần Anh Tuấn(6/2012),Sử dụng điểm cắt zero để nén và giải nén dữ liệu âm thanh, tạp chí khoa học Đại học Cần Thơ, tr.36-39.

Tiếng Anh

5. HarmanpreetKaur, RamanpreetKaur (July-August 2012), “Speech compression and decompression using DCT and DWT”, International Journal Computer Technology &Applications,Vol (3), Issue (4), pp.1501- 1503.

6. M.V.Patil, Apoorva Gupta, Ankita Varma, Shikhar Salil (2013), “Audio and Speech Compression Using DCT and DWT Techniques”,International Journal of Innovative Research in Science, Engineering and Technology,Vol.(2), Issue (5), pp.1715-1718.

7. Musawir Ali, An Introduction to Wavelets and the Haar Transform,(http://www.cs.ucf.edu/~mali/haar/) School of Electrical Engineering and Computer Science.

8. O. Rioul and M. Vetterli (Oct. 1991), “Wavelets and Signal Processing”,

IEEE Signal Process, Mag, Vol (8), pp.14-38.

9. David Salomon (2004), Data Compression The Complete Reference,Springer, New York.

10.Scott Wilson (Jan 20, 2003), WAVE PCM soundfile format,

(https://ccrma.stanford.edu/courses/422/projects/WaveFormat/)Stanford University.

Một phần của tài liệu Tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói (Trang 59)

Tải bản đầy đủ (PDF)

(63 trang)