.10 Cấu trúc ba lớp của mạng từ nhận dạng

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu và phát triển hệ thống nhận dạng tiếng việt phát âm liên tục trên bộ từ vựng nhỏ và trung bình luận văn ths máy tính 60 48 01 (Trang 48 - 54)

Nhƣ đã nói ở trên, để tìm đƣợc đƣờng đi có xác suất tốt nhất trong mạng nhận dạng, giải thuật truy cập xác định (Token Passing) đƣợc sử dụng. Giải thuật này nhƣ sau: coi mỗi thẻ xác thực (token) là một đoạn đƣờng đi qua mạng trong thời điểm 0 tới thời điểm t. Ở thời điểm 0, một thẻ sẽ đƣợc đặt vào bất cứ một nút có thể bắt đầu. Sau mỗi thời điểm, các thẻ này đƣợc chuyển tới các điểm dừng mà ở đó phát sinh trạng thái HMM. Khi xuất hiện nhiều điểm dừng từ một nút, thẻ này sẽ đƣợc sao chép do đó tất cả các đƣờng đi có thể sẽ đƣợc duyệt qua song song với nhau. Khi một thẻ đi đƣợc tới một nút, thì log xác suất của nó đƣợc tăng theo xác suất chuyển phát xạ. Một nút mạng có thể chứa N thẻ do đó cuối mỗi thời điểm, tất cả các thẻ ở các nút sẽ bị loại bỏ trừ N thẻ có xác suất cao nhất. Mỗi thẻ khi đƣợc chuyển qua trong mạng sẽ đƣợc ghi lại lịch sử định định tuyến của nó. Độ chi tiết của lịch sử phụ thuộc vào yêu cầu đầu ra của nhận dạng. Thông thƣờng, lịch sử này sẽ lƣu lại chuỗi các từ. Số lƣợng thẻ trên mỗi nút và độ chi tiết của lịch sử có ảnh hƣởng đáng kể đến thời gian và bộ nhớ cho việc tính toán này nên giá trị N thƣờng đƣợc cấu hình bằng một để có hiệu quả tốt nhất.

3.3.4 Đánh giá kết quả nhận dạng

Khi dữ liệu kiểm tra đã đƣợc xử lý bởi hệ thống nhận dạng thì bƣớc tiếp theo cần làm là phân tích các kết quả. HTK cung cấp công cụ HResult cho mục đích này. Công cụ này sẽ so sánh các phiên âm đầu ra đƣợc xử lý bởi HVite với các phiên âm tham chiếu gốc sau đó đƣa ra các kết quả thống kê. HResult so khớp từng chuỗi nhãn đã đƣợc nhận dạng với dữ liệu tham chiếu bằng cách thực hiện so khớp chuỗi tối ƣu sử dụng lập trình động và đƣa ra dữ liệu thống kê về

𝑪𝒐𝒓𝒓𝒆𝒄𝒕 = 𝑵 − 𝑫 − 𝑺

𝑵 × 𝟏𝟎𝟎%

𝑨𝒄𝒄𝒖𝒓𝒂𝒄𝒚 =𝑵 − 𝑫 − 𝑺 − 𝑰

𝑵 × 𝟏𝟎𝟎%

𝑾𝒐𝒓𝒅𝑬𝒓𝒓𝒐𝒓𝒓𝒂𝒕𝒆 = 𝟏𝟎𝟎% − 𝑨𝒄𝒄𝒖𝒓𝒂𝒄𝒚

Trong đó:N là tổng số từ kiểm tra, D là số từ phải xóa bỏ, I là số từ phải thêm vào, S là số từ phải thay thế. Trong các đánh giá về hệ thống nhận dạng tiếng nói, tham số về độ chính xác theo từ đƣợc sử dụng phổ biến nhất.

3.4 Chƣơng trình nhận dạng mƣời chữ số tiếng Việt phát âm liên tục liên tục

Cơ sở dữ liệu

Cơ sở dữ liệu tiếng nói sử dụng trong luận văn đƣợc trích từ bộ cơ sở dữ liệu tiếng nói điện thoại tiếng Việt của trung tâm CSLU (Center for Speech Language Understanding), Viện Sau Đại học Oregon, Mỹ. Cơ sở dữ liệu tiếng nói tiếng Việt này bao gồm các phát âm về các chữ số nhƣ số điện thoại, địa chỉ, số bƣu điện, tuổi… Các câu đƣợc ghi âm trên nhiều loại điện thoại khác nhau. Dữ liệu thu âm đa dạng về tốc độ phát âm, độ to nhỏ, độ nhiễu của tạp âm. Dữ liệu này bao gồm:

- Tập dữ liệu huấn luyện: gồm 300 câu, 1686 từ, do 158 ngƣời nói(104 nam

và 54 nữ).

- Tập dữ liệu phát triển: gồm 74 câu, 342 từ, do 38 ngƣời nói (27 nam và

11 nữ)

- Tập dữ liệu kiểm tra:gồm 68 câu, 317 từ, do 47 ngƣời nói(34 nam và 13

nữ)

Để đảm bảo tính khách quan, ngƣời nói trong bộ dữ liệu kiểm tra độc lập với ngƣời nói trong bộ dữ liệu huấn luyện.

Trích chọn đặc trƣng

Loại đặc trƣng đƣợc sử dụng trong thử nghiệm là MFCC vớikhoảng thời gian của mỗi khung (target-rate) là 10msec (HTK sử dụng đơn vị là 100ns), biến đổi Fourier (FTT) sử dụng cửa sổ Hamming với kích thƣớc 25ms và tín hiệu đƣợc tăng cƣờng với hệ số là 0.97. Kích thƣớc mỗi vector đặc trƣng là 39 với 13 hệ số MFCC (12 hệ số MFCC ban đầu [c1,..c12] và hệ số MFCC rỗng [c0] ), 13 hệ

sốdelta và 13 hệ số acceleration của MFCC tƣơng ứng và dữ liệu đầu ra đƣợc lƣu ở dạng nén.

Từ điển

Số từ vựng của hệ thống là 10 từ gồm 10 chữ số tiếng Việt từ không đến chín. Số từ vựng này có tổng số âm vị là 20 âm vị.

Mô hình âm học

Dữ liệu huấn luyện mức đơn âm (Monophone) và mức âm ba(Tri-phone) với 32 âm buộc và sử dụng 5 thành phần trộn.

Mô hình ngôn ngữ

Hệ thống nhận dạng tiếng Việt sử dụng mô hình Bi-gram theo thiết kế của công cụ HTK.

Kết quả

Độ chính xác nhận

dạng Hệ thống đơn âm Hệ thống âm buộc

Chính xác theo câu 18.92 20.26

Chính xác theo từ 75.68 77.14

Với kết quả trên có thể nhận thấy độ chính xác nhận dạng của hệ thống nhận dạng sử dụng âm buộc tốt hơn so với hệ thống nhận dạng sử dụng âm đơn. Cụ thể hệ thống nhận dạng dùng âm buộc có độ chính xác theo câu cao hơn 1,34% và độ chính xác theo từ cao hơn 1,46% so với hệ thống nhận dạng sử dụng âm đơn.

KẾT LUẬN

Các công việc đƣợc thực hiện trong đề tài:

Nghiên cứu lý thuyết

 Lý thuyết chung về nhận dạng tiếng nói. Nguyên tắc chung của hệ thống nhận dạng tiếng nói, lý thuyết về các phƣơng pháp trích trọn đặc trƣng của tiếng nói. Lý thuyết về mô hình ngôn ngữ và mô hìnhâm học.

 Mô hình Markov ẩn, các bài toán cơ bản của mô hình Markov ẩn, các giải pháp cho ba bài toán này cũng nhƣ phƣơng pháp chứng minh các công thức của bài toán này.

 Ngôn ngữ tiếng Việt, đặc điểm riêng việt của tiếng Việt. Hệ thống âm vị vàâm tiết trong tiếng Việt.

 Nghiên hệ thống nhận dang thông qua bộ công cụ HTK.

Các công việc đã thực hiện

Nghiên cứu công cụ xây dựng hệ nhận dạng tiếng nói là HTK, qua đó cài đặt và chạy thành công chƣơng trình mô phỏng, thực nghiệm nhận dạng mƣời chữ số tiếng Việt phát âm liên tục bằng phƣơng pháp nhận dạng tiếng nói HTK liên tục.

Các kiến nghị và hƣớng nghiên cứu tiếp theo

Hiện tại luận văn đã đƣa ra những nghiên cứu lý thuyết cơ bản cần nắm đƣợc trong quá trình xây dựng hệ thống nhận dạng tiếng Việt. Trên cơ sở đó, các hƣớng nghiên cứu tiếp theo của luận văn bao gồm các vấn đề sau đây:

 Nghiên cứu về mạng ANN và hệ thống nhận dạng lai ghép HMM/ANN. Lý thuyết về mạng ANN và đặc biệt là mạng Perceptron đa lớp MLP. Phƣơng pháp nhận dạng tiếng nói bằng mạng lai ghép HMM/ANN, nguyên tắc hoạt động, phƣơng pháp huấn luyện và nhận dạng.

 Nghiên cứu các hệ thống nhận dạng theo phƣơng pháp CSLU thông qua các bộ công cụ. Qua đó xây dựng hệ thống nhận dạng HMM/ANN của CSLU.

 Gán nhãn là một khâu quan trọng trong xây dựng cơ sở dữ liệu, hƣớng nghiên cứu tiếp theo sẽ là các phƣơng pháp gán nhãn cơ sở dữ liệu.

 Nghiên cứu các phƣơng pháp nâng cao khả năng nhận dạng của hệ thống, và thực hiện các thử nghiệm tiến hành để nâng cao độ chính xác nhận dạng.

TÀI LIỆU THAM KHẢO

1. Vũ Kim Bảng, Triệu Thị Thu Hƣơng, Bùi Đăng Bình (2001). "Âm tiết tiếng Việt khả năng hình thành và thực tế ứng dụng", Toàn văn Báo cáo Khoa học, Hội nghị kỷ niệm 25 năm thành lập Viện Công nghệ Thông tin, tr 525-533.

2. Vũ Ngọc Cân, Lê Đinh Tƣ (1999), Nhập môn ngôn ngữ học, Nhà xuất bản Giáo dục.

3. Nguyễn Thành Phúc (2000), Một phƣơng pháp nhận dạng lời Việt: áp dụng phƣơng pháp kết hợp mạng neuron với mô hình Markov ẩn cho các hệ thống nhận dạng lời Việt, Luận án Tiến sĩ Kỹ thuật, Đại học Bách khoa Hà nội.

4. Đỗ Xuân Tho (1997), Lê Hữu Tỉnh, Giáo trình tiếng Việt 2, Nhà xuất bản

Giáo dục.

5. Đoàn Thiện Thuật (1999), Ngữ âm Tiếng Việt, Nhà xuất bản Đại học Quốc

gia Hà nội.

6. Mai Ngọc Trừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến (1997), Cơ sở Ngôn ngữ

học và Tiếng Việt, Nhà xuất bản Giáo dục.

7. Lƣơng Chi Mai và Hồ Tú Bảo (2009). Báo cáo Tổng kết đề tài KC.01.01/06- 10 “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt” và “Về xử lý tiếng Việt trong công nghệ thông tin” (2006), Viện công nghệ thông tin, Viện Khoa học và Công nghệ Việt Nam.

8. Nguyễn Văn Huy (2016), Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục, Luận án Tiến sĩ Toán học, Học viện Khoa học và Công nghệ.

Tiếng Anh

9. Barbara S. (2001), High-Performance Automatic Speech Recognition via Enhanced Front-end Analysis and Acoustic Modeling , Ph.D. Thesis, University of California

10. Bilmes J. A. (1998), “A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gauss Mixture and Hidden Markov Models”, Technical Report ICSI-TR-97-021, University of Berkeley.

11. Bourlard H. and Morgan N. (1998). "Hybrid HMM/ANN systems for speech recognition: Overview and new research directions", Adaptive Processing of Sequences and Data Structures, Volume 1387 of Lecture Notes in Artificial Intelligence, pp. 389--417. Springer.

12. Cole R., "Tools for research and education in speech science" (1999).

Proceedings of the International Conference of Phonetic Sciences, San

13. Cosi P. , and Hosom J. P. (1999), “HMM/Neural Network-Based System for Italian Continuous Digit Recognition”. Proceedings of the 14th International

Congress of Phonetic Sciences (ICPhS ‘99), San Francisco, CA, USA, Vol. 3,

pp. 1669-1672.

14. Dong M. and Lua K. (2001), “Automatic prosodic break labeling for Mandarin Chinese speech data”, ICASSP2001, International Conference on Acoustics, Speech, and Signal Processing, Salt Palace Convention Center in Salt

Lake City, Utah, USA.

15. Hermansky H., Morgan N. (1994), “RASTA processing of speech”, IEEE Trans. Speech and Audio Processing,2(4), pp. 578–589.

16. Hieronymus J.L. (1993), “Ascii phonetic symbols for the world’s language: Worldbet”. Technical report. Bell Labs.

17. Hosom J.P. (2000), “A Comparison of Speech Recognizers Created Using Manually-Aligned and Automatically-Aligned Training Data”, Technical Report

CSE-00-002, Computer Science and Engineering, Oregon Graduate Institute,

Beaverton, OR, USA.

18. Hosom J.P. (2000), Automatic Time Alignment of Phonemes Using Acoustic-

Phonetic Information, PhD Thesis. Center for Spoken Language Understanding,

Oregon Graduate Institute.

19. Huang X.D, Ariki Y., Jack M.A. (1990), Hidden Markov Models for Speech

Recognition, Edinburgh university press. ISBN 0-7486-0162-7.

20. Joseph P. (1993), "Signal Modeling Techniques in Speech Recognition",

Proceedings of the IEEE, Vol. 81, No. 9, pp. 1215-1247.

21. Karayiannis N.B., Venetsanopoulos A.N. (1993), Artificial Neural Network- Learning Algorithms, Performance Evaluation, and Applications, Kluwer Academic Publishers.

22. Kondo K., Picone J., and Wheatley B. (1994), “A comparative analysis of Japanese an English digit recognition”, Proc. IEEE ICSSSP’94, I-101.

23. Nguyen Q.C., Castelli E., Pham N.Y. (2001), “Tone Recognition for Vietnamese”. Technical Report CLIPS-IMAG Laboratory, France

24. Rabiner L., Juang B.H. (1993). Fundamentals of Speech Recognition.

Prentice Hall, ISBN 0-13-01517-2.

25. Rabiner L. R. (1999), “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, Proc. IEEE, Vol. 77, No. 2, pp. 257-286. 26. Virach, Potipiti T., Wutiwiwatchai C. and Mittrapiyanuruk P. (2000), “The State of the Art in Thai Language Processing”, 38th Annual Meeting of the Association for Computational Linguistics, Hong Kong, China.

27. Tebelskis J. (1995), Speech Recognition using Neural Networks, PhD thesis, CMU-CS-95-142. Cambridge University Engineering Department.

28. Thubthong N., Kijsirikul B. (2000), "Improving Connected Thai Digit Speech Recognition using Prosodic Information", National Computer Science and Engineering Conference (NCSEC'2000), Thailand.

29. Trentin E. (2001), Robust Combination of Neural Nwtwork and Hidden Markov Models for Speech Recognition, PhD thesis, Universita di Firenze, V.S.

Marta, 3 –Firenze, Italy.

30. Wu J. J., Deng L., Chan J. (1996), “Modeling context-dependent phonetic units in a continuous speech recognition system for Mandarin Chinese“, IEEE International Conference on Spoken Language Processing(ICSLP), pp. 2281-

2284.

Website

31. HTK Speech Recognition Toolkit. http://htk.eng.cam.ac.uk/. 32. Ngôn ngữ học và tiếng Việt. http://ngonngu.net/.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu và phát triển hệ thống nhận dạng tiếng việt phát âm liên tục trên bộ từ vựng nhỏ và trung bình luận văn ths máy tính 60 48 01 (Trang 48 - 54)

Tải bản đầy đủ (PDF)

(54 trang)