Dữ liệu thử nghiệm (testing)

Một phần của tài liệu Nghiên cứu về nhận dạng giọng nói tiếng việt và ứng dụng trong điều khiển (Trang 94)

Dữ liệu thử nghiệm là tập dữ liệu âm thanh thu âm cũng từ 2 thành viên trong nhóm, tổng số câu sử dụng trong thử nghiệm là 1000 câu với thời lượng thu âm khoảng 2 giờ đồng hồ. d. Kết quả ảng 7 Kết quả so sánh HTK và Sphinx Tỉ lệ câu đúng (%) Tỉ lệ từ đúng (%) Độ chính xác từ (%) HTK 41.60 99.97 94.38 SPHINX 68 98.2 96.7

ảng 8 Kết quả chi tiết lỗi sai

Insertions Deletions Substitutions

HTK 833 28 4

SPHINX 206 43 227

Tỉ lệ câu đúng được tính theo cách sau: một câu được nhận là đúng khi tất cả các từ trong câu đó đều đúng, nếu có ít nhất 1 từ sai thì câu đó xem như câu sai. Tỉ lệ câu đúng là số câu đúng chia cho tổng số câu thử nghiệm, trong trường hợp này là 1000 câu.

Tỉ lệ từ đúng là tỉ lệ giữa số từ mà hệ thống nhận dạng đúng so với tổng số từ cần nhận dạng.

Độ chính xác từ là tỉ lệ giữa tổng số từ sai, bao gồm các lỗi nhận dạng sai từ như Insertion (thêm từ), Deletion (xóa từ), Substitutions (thay từ). Khác với chỉ số Tỉ

lệ từ đúng, chỉ số này thể hiện độ chính xác khi nhận dạng từ của hệ thống nhận dạng. Tỉ lệ này càng cao, hệ thống nhận dạng các từ đơn càng chính xác.

4.8.3. Đánh giá kết quả

Sau quá trình thử nghiệm cùng các kết quả có được, nhóm có một số nhận xét tổng quan về 2 Framework như sau:

 Khả năng nhận dạng từ đúng của cả 2 Framework đều rất cao (>98%), trong đó HTK thể hiện tốt hơn.

 Tuy nhiên so với Sphinx thì HTK lại mắc quá nhiều lỗi Insertion-thêm từ

do đó là giảm độ chính xác của hệ thống nhận dạng xuống đáng kể. Trong đó bao gồm cả độ chính xác nhận dạng câu.

 Thời gian thực hiện thí nghiệm decode của Sphinx ngắn hơn nhiều so với HTK.

 Việc triển khai huấn luyện trên HTK thường xuyên gặp nhiều khó khăn do quy trình thực hiện bao gồm nhiều công đoạn phức tạp hơn Sphix.

 Tài liệu tìm hểu HTK tuy phong phú nhưng khá chi tiết và nặng về kỹ thuật, vì thế đối với người mới bắt đầu sẽ gặp nhiều khó khăn. Trong khi đó, Sphinx cung cấp một trang chủ [11] khá đầy đủ thông tin kèm một cộng đồng Forum thường xuyên được cập nhật và giải đáp thắc mắc. Vì thế, đối với người muốn phát triển nhanh chóng một hệ nhận dạng giọng nói cho một ngôn ngữ thì Sphinx là sự lựa chọn ưu tiên.

 Về chính sách bản quyền thì Sphinx được cung cấp hoàn toàn miễn phí, người dùng có thể sử dụng thư viện và mã nguồn cho nhiều mục đích từ nghiên cứu tới xây dựng ứng dụng thương mại. Khác với Sphinx, HTK tuy cũng là một Framework mã nguồn mở, nhưng có những điểu khoảng ràng buộc chặt chẽ đối với người dùng và yêu cầu người dùng phải đăng ký thành viên mới được download sử dụng HTK.

CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1. Kết quả đạt được 5.1. Kết quả đạt được

Sau quá trình tìm hiểu, nghiên cứu phương pháp nhận dạng giọng nói tiếng Việt, khóa luận đã đạt được những mục tiêu đề ra như sau:

a. Tìm hiểu các khái niệm có liên quan đến hệ nhận dạng tiếng nói từ đó hiểu và vận dụng được một số yếu tố quan trọng trong việc sử dụng công cụ hỗ trợ.

b. Tìm hiểu phương pháp cài đặt công cụ hỗ trợ xây dựng hệ nhận dạng tiếng nói Sphinx và HTK. Trong đó bao gồm việc chi tiết hóa từng bước cài đặt và thực hiện. Các bước xây dựng mô hình huấn luyện.

c. Xây dựng bộ huấn luyện với dữ liệu thu âm ~ 15 giờ đồng hồ.

d. Thực nghiệm so sánh khả năng áp dụng vào tiếng Việt của 2 công cụ Sphinx và HTK, trong đó bao gồm cả thử nghiệm các công cụ decode khác nhau như Hvite, Sphinx4 và Julius để từ đó rút ra được kết luận và nhận xét. e. Xây dựng chương trình mô phỏng nhận dạng tiếng nói tiếng Việt trên máy tính sử dụng mô hình âm học được huấn luyện bằng công cụ Sphinx, chương trình nhận dạng được trên 60 từ đơn, được ghép thành khoảng 100 câu lệnh điều khiển. Ngoài ra, nhóm còn thực hiện demo trên mô hình thật, vận dụng khả năng của mạch điều khiển vào việc điểu khiển mô hình thật. Kết quả đạt được trong cả 2 demo đều đạt được tỉ lệ chính xác rất cao.

5.2. Những điểm còn hạn chế

Do đây là một đề tài tương đối khó, và nhóm cũng chưa được trang bị các kiến thức về xử lý tín hiệu số, xử lý tiếng nói, các mô hình toán học,.. cũng như tài liệu về âm học, ngữ âm học còn hạn chế nên khóa luận không tránh khỏi nhiều thiếu sót.

Những mặt còn hạn chế của khóa luận:

a. Bộ từ vựng còn quá ít, so với tất cả từ đơn của tiếng Việt (hơn 7000 từ). Để có được bộ tự vựng lớn hơn đòi hỏi phải bỏ ra rất nhiều công sức bao gồm cả thu thập dữ liệu, xây dựng mô hình phiên âm chính xác, thu âm, phân tích ngữ pháp,…

b. Mô hình ngữ âm còn hạn chế, hệ thống chỉ nhận dạng được với độ chính xác cao đối với 2 thành viên trong nhóm, đối với một người chưa được

huấn luyện thì mô hình vẫn có thể nhận dạng được tiếng nói của họ nhưng độ chính xác không cao.

c. Hai demo của khóa luận chỉ tập trung xây dựng nhằm mục đích thể hiện khả năng ứng dụng của mô hình nhận dạng tiếng nói tiếng Việt tự động được xây dựng từ các framework. Tính ứng dụng thực tế vẫn còn hạn chế, tuy nhiên, để xây dựng 1 ứng dụng mang tính thực tiễn thật sự không quá khó, vấn đề quan trọng là đặt ra được mục tiêu thực tiển của 1 ứng dụng cụ thể, từ đó xây dựng mô hình âm học thích hợp.

5.3. Hướng nghiên cứu và phát triển

Hiện tại, nhóm đã thành công trong việc thử nghiệm mô hình từ điển tiếng Việt do nhóm tham khảo được từ nhiều nguồn (mô hình này chưa thật sự chuẩn xác, nhưng khả năng áp dụng ở mức chấp nhận được) vào các công cụ xây dựng hệ thống nhận dạng tiếng nói tự động, bao gồm HTK và Sphinx. Nhóm đã thực hiện thí nghiệm trên các công cụ decode khác nhau như Hvite, Julius, Sphinx4, và nhận thấy kết quả rất khả quan, đứng tại mức thành quả đạt được này sẽ có rất nhiều hướng nghiên cứu mới có thể được thực hiện cụ thể như:

Tìm hiểu, nghiên cứu xây dựng mô hình phát âm tiếng Việt, điều này có ý nghĩa to lớn cho cả việc tổng hợp và nhận dạng giọng nói. Mô hình này nếu được phát triển một cách khoa học và đúng đắn sẽ đưa độ chính xác nhận dạng của các mô hình âm học được xây dựng bởi các công cụ lên rất nhiều. Công việc này đòi hỏi sự nghiên cứu của các nhà âm học, ngữ âm học, nghiên cứu về tiếng Việt,..

Tìm hiểu sâu hơn về cấu tạo của các framework nhận dạng giọng nói trên, để từ đó, nắm được quy trình hoạt động một cách rõ ràng hơn, ta có thể xây dựng được một mô hình âm học thích hợp nhất cho tiếng Việt.

Mở rộng vốn từ vựng của bộ tự điển, thực hiện thu âm số với quy mô rộng rãi hơn, đa dạng giọng nói hơn, nhằm mục đích xây dựng một hệ nhận dạng tiếng nói đọc lập người nói.

Xây dựng các ứng dụng cụ thể hóa hơn sử dụng các mô hình đã được huấn luyện. Các ứng dụng tương tác giữa người và thiết bị bằng giọng nói, hỗ trợ sự thông minh cho thiết bị hoặc hỗ trợ hoạt động của người khuyết tật.

TÀI LIỆU THAM KHẢO

[1] B.H. Juang, Lawrence R. Rabiner, "Automatic Speech Recognition – A Brief History of the Technology".

[2] S. Furui, "50 years of progress in speech and speaker recognition".

[3] [Online]. Available: http://www.cslu.ogi.edu/toolkit/. [Accessed 7 2012].

[4] L. C. Mai, "Phát triển các kết quả tổng hợp, nhận dạng câu lệnh, chuỗi số tiếng Việt liên tục trên môi trường điện thoại di động," 2006.

[5] Đăng Ngọc Đức, Lương Chi Mai, "Tăng cường độ chính xác của hệ thống mạng

neuron nhận dạng tiếng Việt," 2003.

[6] B. H. Khang, "Báo cáo tổng kết Khoa học và Kỹ thuật đề tài Nghiên cứu phát

triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt," 2004.

[7] "Vietnamese alphabet," Wikipedia, [Online]. Available:

http://en.wikipedia.org/wiki/Vietnamese_alphabet. [Accessed 7 2012].

[8] "IPA for Vietnamese," Wikipedia, [Online]. Available:

http://en.wikipedia.org/wiki/Wikipedia:IPA_for_Vietnamese. [Accessed 7 2012].

[9] "Digital audio," [Online]. Available: http://en.wikipedia.org/wiki/Digital_audio. [Accessed 7 2012].

[10] Red Hat, [Online]. Available: http://www.cygwin.com/. [Accessed 7 2012].

[11] Carnegie Mellon University, [Online]. Available:

http://cmusphinx.sourceforge.net/. [Accessed 7 2012].

[12] "Training Acoustic Model For CMUSphinx," Carnegie Mellon University, [Online]. Available: http://cmusphinx.sourceforge.net/wiki/tutorialam. [Accessed 7 2012].

[13] [Online]. Available: http://audacity.sourceforge.net/. [Accessed 7 2012].

[14] "Recording the Test Data," [Online]. Available:

http://www.voxforge.org/home/dev/acousticmodels/windows/test/htk-- julius/data-prep/step-3. [Accessed 7 2012].

[15] "Sphinx-4 Application Programmer's Guide," Carnegie Mellon University, [Online]. Available: http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4. [Accessed 7 2012].

[16] Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw,

Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev, Phil Woodland, HTK Book, Cambridge University Engineering Department, 2009.

[17] L. Rabiner, A Tutorial on Hidden Markov Models and Selected Application in

Một phần của tài liệu Nghiên cứu về nhận dạng giọng nói tiếng việt và ứng dụng trong điều khiển (Trang 94)

Tải bản đầy đủ (PDF)

(99 trang)