Giao diện chính của chương trình

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói luận văn ths công nghệ thông tin 60 48 05001 (Trang 57 - 63)

Chương trình có 2 chức năng chính là Tạo mẫu và Nhận dạng từ.

 Chức năng tạo mẫu: Được tiến hành một cách độc lập do người phát triển chương trình thực hiện, với mục đích tạo một tập các mẫu đặc trưng của nhiều người làm cơ sở cho việc nhận dạng.

Trên thanh Menu ta chọn File\Creat Samples\Creat [C-K]

Chương trình thông báo “Bạn có muốn tạo thêm mẫu không?”

Chọn “Yes” để tiếp tục. Chương trình hiện cửa sổ Browse để chọn file .wav của từ “Có”. Sau đó tiếp tục chọn file .wav của từ “Không”

 Chức năng Nhận dạng từ: Người sử dụng đọc từ đơn qua mic, chương trình tiến hành lưu mẫu, tách Zerocrossing, sau đó đối sánh với tập mẫu. Cuối cùng dựa vào các quy tắc kết luận để đưa ra kết quả về từ vừa được đọc vào.

Sau đó trên cửa sổ chứa các danh sách mẫu cần kiểm tra ta chọn Menu File\Random để các mẫ được nhận dạng ngẫu nhiên hoặc chọn Sequential để các mẫ được nhận dạng tuần tự.

Chọn Pause để tạm dừng việc nhận dạng.

Cuối cùng chương trình hiển thị kết quả nhận dạng ở màn hình chính

4.6 Kết quả thử nghiệm

 Chế độ ghi âm: 11025KHz, 16bit, Mono, định dạng *.wav.  Các mẫu thử được đọc trực tiếp từ microphone của 12 người.  Số lần nói:

Bảng 4.1: Bảng số lượng mẫu thu thập hai từ “Có” và “Không”

Ngƣời nói Từ 1 2 3 4 5 6 7 8 9 10 11 12 Tổng “Có” 40 8 5 7 11 8 7 8 30 7 10 8 149 “Không” 40 8 5 7 11 8 7 8 30 7 10 8 149  Số mẫu lưu: o Từ “Có”: 149 mẫu o Từ “Không”: 149 mẫu

 Số mẫulưu đặc trưng vào cơ sở dữ liệu:

Trong 149 mẫu mỗi loại thì có một số mẫu được dùng để lấy đặc trưng, cụ thể theo bảng 4.2:

Bảng 4.2: Bảng số lượng mẫu hai từ “Có” và “Không” lưu đặc trưng vào cơ sở dữ liệu Ngƣời nói Từ 1 2 4 7 9 11 Tổng “Có” 25 8 7 7 20 10 77 “Không” 25 8 7 7 20 10 77

 Chạy chương trình và kết quả:

Bảng 4.3: Kết quả thử nghiệm chương trình với từ “Có”

Ngƣời thử Số lần thử Số lần đúng Tỷ lệ đúng (%) Người 1 15 8 53.3 Người 3 5 3 60 Người 5 11 9 81.8 Người 6 8 2 25 Người 8 8 5 62.5 Người 9 10 3 30 Người 10 7 6 85.7 Người 12 8 4 50

Bảng 4.4: Kết quả thử nghiệm chương trình với từ “Không”

Ngƣời thử Số lần thử Số lần đúng Tỷ lệ đúng (%) Người 1 15 11 73.3 Người 3 5 2 40 Người 5 11 6 54.5 Người 6 8 7 87.5 Người 8 8 2 25 Người 9 10 7 70 Người 10 7 4 57.1 Người 12 8 2 25

Kết quả thử nghiệm cũng cho thấy được sự chính xác nhất định khi nhận dạng hai từ “Có” hoặc “Không”.

 Các sai sót gặp phải:

o Nhận dạng chưa được chuẩn giọng người không có trong mẫu.

o Vẫn chưa tách bỏ được việc mẫu thử là các từ bất kì. Nghĩa là vẫn có trường hợp đưa ra kết quả khi mà từ đọc vào khác “Có” và “Không”.  Định hướng phát triển:

o Để nâng cao độ chính xác, cần phải tăng cường lọc “nhiễu” ở mức tiền xử lý.

o Kết hợp các tiêu chuẩn, thống kê trọng số, … để đánh giá đưa ra kết luận chính xác hơn cho từ cần nhận dạng.

KẾT LUẬN Kết quả đạt đƣợc

Luận văn đã tìm hiểu, nghiên cứu và ứng dụng một số thuật toán tìm đặc trưng tiếng nói, nén các đặc trưng tiếng nói để xây dựng ứng dụng nhận dạng tiếng nói.

Chương trình không tránh khỏi những sai sót rất mong sự góp ý, phê bình của các thầy giáo, cô giáo, các đồng nghiệp và những bạn quan tâm, tôi xin trân thành cảm ơn.

Hƣớng phát triển

Để nâng cao chất lượng bài toán ứng dụng nhận dạng tiếng nói, cần nghiên cứu tiếp về ngôn ngữ tiếng Việt,tăng cường lọc “nhiễu” ở mức tiền xử lý, kết hợp các tiêu chuẩn, thống kê trọng số, … để đánh giá đưa ra kết luận chính xác hơn cho từ cần nhận dạng. Cần nghiên cứu tiếp một số thuật toán nén để có thể tiếp tục nén các đặc trưng tiếng nói sau khi đã nén bằng Phép biến đổi DCT hoặc DWT nhằm giảm dung lượng cơ sở dữ liệu lưu mẫu.

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Nguyễn Quang Hoan (2006), Xử lý ảnh, Học viện Công nghệ Bưu chính Viễn thông, tr.99-103.

2. Nguyễn Thị Thanh Hà (2009), Watermarking dùng Wavelets đối với ảnh số, Luận văn thạc sĩ ngành Vật lý vô tuyến và Điện tử hướng kỹ thuật, Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, tr.38- 44.

3. Nguyễn Văn Xuất (2006), Mutilmedia, (Cấu trúc file wave), Học viện Kỹ thuật quân sự.

4. Trần Anh Tuấn(6/2012),Sử dụng điểm cắt zero để nén và giải nén dữ liệu âm thanh, tạp chí khoa học Đại học Cần Thơ, tr.36-39.

Tiếng Anh

5. HarmanpreetKaur, RamanpreetKaur (July-August 2012), “Speech compression and decompression using DCT and DWT”, International Journal Computer Technology &Applications,Vol (3), Issue (4), pp.1501- 1503.

6. M.V.Patil, Apoorva Gupta, Ankita Varma, Shikhar Salil (2013), “Audio and Speech Compression Using DCT and DWT Techniques”,International Journal of Innovative Research in Science, Engineering and Technology,Vol.(2), Issue (5), pp.1715-1718.

7. Musawir Ali, An Introduction to Wavelets and the Haar Transform,(http://www.cs.ucf.edu/~mali/haar/) School of Electrical Engineering and Computer Science.

8. O. Rioul and M. Vetterli (Oct. 1991), “Wavelets and Signal Processing”,

IEEE Signal Process, Mag, Vol (8), pp.14-38.

9. David Salomon (2004), Data Compression The Complete Reference,Springer, New York.

10.Scott Wilson (Jan 20, 2003), WAVE PCM soundfile format,

(https://ccrma.stanford.edu/courses/422/projects/WaveFormat/)Stanford University.

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói luận văn ths công nghệ thông tin 60 48 05001 (Trang 57 - 63)