Các chương trình thử nghiệm hoạt động tốt với các giọng nói thử. Tuy nhiên người nói cần phải làm quen với chương trình để sử dụng thành thạo. Đây là nhược điểm cần khắc phục.
Trong thử nghiệm chúng tôi thấy các chương trình đều có thể nhận dạng được các từ khác nhau trong tiếng Việt, kể cả các từ khác nhau về thanh điệu, nghĩa là các chương trình có thể phân biệt được từ "ma" với từ "má". Tuy nhiên khi chúng tôi tăng số lượng mẫu lên thì các từ bị trùng nhau khá nhiều.
Hình 5-4. Kết quả nhận dạng thanh điệu
Chúng tôi cũng thấy rằng chương trình bị nhầm lẫn các từ cùng dấu, nhất là khi nhận dạng những người có giọng trầm. Ví dụ từ "tùng" và từ "toàn" thường bị nhầm khi người nói là người có giọng trầm. Các từ không dấu như "hương" và "nguyên" cũng dễ bị nhầm với nhau do chúng cùng thanh điệu ngang và có phần đầu và phần cuối khá giống nhau.
Hình 5-5. Kết quả nhận dạng với số lượng từ tăng lên
Khi số lượng từ tăng lên và do đó số lượng mẫu tăng lên, kết quả nhận dạng giảm xuống đáng kể như chúng ta thấy trong biểu đồ 5-5. Kết quả này phụ thuộc vào rất nhiều nguyên nhân ví dụ như độ đo được chọn, tham số được chọn.
Kết luận
Đến đây chúng tôi đã trình bày các ý tưởng cơ bản cũng như các sản phẩm minh hoạ của công trình nghiên cứu trong thời gian qua của chúng tôi. Các sản phẩm minh hoạ đúng như tên gọi của nó chưa có thể đưa ra ứng dụng như các sản phẩm thương mại vì chúng chưa được phát triển hoàn chỉnh. Nhưng chúng minh chứng rằng vấn đề nhận dạng tiếng Việt có thể hiện thực hoá và chúng là cơ sở để phát triển các sản phẩm trong tương lai của chúng tôi.
Kết quảđạt được
Trong luận văn này, chúng tôi đã hình thức hoá bài toán nhận dạng dưới dạng bài toán xử lý tập tin và sau đó đơn giản hoá bài toán và giản quyết bài toán dựa trên lý thuyết chương trình dịch. Trong phần lý thuyết, chúng tôi đã phân tích kỹ các phương pháp giải quyết và đã triển khai các thư viện nhận dạng cho từng phương pháp.
Dựa vào lý thuyết mà chúng tôi xây dựng, chúng tôi đã xây dựng thử nghiệm các chương trình nhận dạng. Chương trình smartphone mô phỏng một máy điện thoại thông minh có thể quay số bằng giọng nói. Chương trình này có ứng dụng thiết thực nhằm giảm các thao tác của người dùng điện thoại khi phải quay số để gọi tới một người trong danh bạ. Chúng ta cũng có thể mở rộng chương trình này để tạo ra các chương trình tìm kiếm từ (word finding) bằng giọng nói vốn rất phổ biến trong máy tính (danh sách phông, danh sách tập tin, danh sách người dùng). Chương trình wordrec mô phỏng một bộ máy nghe đọc chính tả. Mặc dù chúng ta cần phải có nhiều cải tiến để chương trình có thể được ứng dụng vào các hệ thống cá nhân khác nhau, nhưng nó chỉ ra rằng lý thuyết nhận dạng tiếng nói có thể được hiện thực hoá.
Trong luận văn, chúng tôi cũng đưa ra một số vấn đề và giải pháp xử lý tín hiệu tiếng nói. Một số vấn đề được chúng tôi nghiên cứu và giải quyết trực tiếp bằng thực nghiệm, một số được chúng tôi triển khai và cải tiến từ các tài liệu đã
trình bày. Đây là tư liệu cần thiết cho quá trình nhận dạng vì các tham số tạo ra trong quá trình xử lý tín hiệu ảnh hưởng mạnh tới độ chính xác và tốc độ của quá trình nhận dạng.
Ngoài ra, chúng tôi đã áp dụng các kiến thức về tín hiệu và mô hình toán để phân tích tiếng Việt một cách định lượng. Dựa trên hệ thống kiến thức về tiếng Việt của các nhà ngôn ngữ đã xây dựng và những quan sát trên các công cụ thí nghiệm mà chúng tôi tự viết, chúng tôi đưa ra các nhận xét mang tính thực nghiệm về tiếng Việt. Các kiến thức này được áp dụng trực tiếp vào các triển khai của chúng tôi.
Đề xuất phát triển
Trong thời gian tới, chúng tôi hy vọng được phát triển tiếp các hệ thống tiếng nói hoàn chỉnh với hệ thống lý thuyết mà chúng tôi đã xây dựng. Và chúng tôi sẽ hoàn thiện các chương trình có sẵn để mang đến với người dùng. Một trong các phát triển mà chúng tôi định làm ngay đó là tích hợp hệ thống nhận dạng từ vào Windows dưới dạng thông điệp móc nối (hook message) để chương trình của chúng tôi giống như ứng dụng của Vietkey đã làm.
Chúng tôi cũng muốn có thời gian dài hơn để phân tích định lượng kỹ hơn về tiếng Việt, qua đó chúng tôi tiếp tục mô hình hoá tiếng Việt chính xác hơn và cải tiến hơn nữa chất lượng của nhận dạng. Mặc dù trong thời gian vừa qua chúng tôi đã bỏ nhiều công sức để phân tích tiếng Việt với số liệu ít ỏi cũng như các công cụ đơn giản mà chúng tôi tự viết. Nhưng để có kết quả áp dụng rộng rãi, chúng tôi cần có lượng dữ liệu lớn hơn và các công cụ chính xác hơn để nghiên cứu. Và chúng tôi cũng hy vọng áp dụng các hệ thống tham số phức tạp hơn để có thể phản ánh các đặc trưng phức tạp của tiếng Việt so với các ngôn ngữ khác.
Mục tiêu trong thời kỳ tới của chúng tôi là phát triển các hệ thống nhận dạng tiếng nói liên tục và tự nhiên. Nghĩa là người nói có thể nói với bất kỳ giọng điệu nào như giao tiếp giữa hai người. Đây không chỉ là mong muốn của chúng tôi mà cũng là mong muốn chung của các nhà sản xuất phần mềm khác như Microsoft. Mặt khác đây cũng là nhu cầu của mỗi người dùng khi sử dụng các phần mềm nhận dạng tiếng nói.
Tài liệu tham khảo
Tiếng Việt
1. Diệp Quang Ban - Ngữ pháp tiếng Việt (2) – nhà xuất bản Giáo Dục – 1988.
2. Diệp Quang Ban, Hoàng Văn Thung - Ngữ pháp tiếng Việt (1) – nhà xuất bản Giáo Dục – 1988
3. Bùi Tiến Bảo, Đặng Xuân Thu - Giáo trình lý thuyết dịch - Xưởng in trường Đại học Ngoại Ngữ Hà Nội - 1999, tr.16, ch. 2
4. Vũ Ngọc Cân, Lê Đình Tư - Nhập môn Ngôn ngữ học - Xưởng in trường Đại học Ngoại Ngữ Hà Nội - 1999 - tr.63, ch. 4; tr. 129, ch. 129
5. Nguyễn Tài Cẩn - Ngữ pháp tiếng Việt – nhà xuất bản Đại Học Quốc Gia Hà Nội - 1998 - tr.23, ch.2
6. Đỗ Đức Giáo - Cơ sở toán trong lập trình - nhà xuất bản Khoa Học Kỹ Thuật – 1998
7. Nguyễn Thiện Giáp, Đoàn Thiện Thuật, Nguyễn Minh Thuyết - Dẫn luận Ngôn ngữ học - nhà xuất bản Giáo dục - 1996 - tr.8, ch.1; tr.60, ch.4; tr.214, ch.6
8. Quách Tuấn Ngọc - Xử lý tín hiệu số - Nhà xuất bản giáo dục - 1999 - tr.134, ch.3
9. Trần Ngọc Thêm - Ngữ pháp văn bản - Xí nghiệp in quận I - 1996 - tr.25, ch.2; tr.112, ch.4
10.Nguyễn Quốc Trung - Xử lý tín hiệu và lọc số (tập 1) - nhà xuất bản khoa học kỹ thuật - 2001 - tr.7, ch.1; tr.155, ch.3
11.Đinh Mạnh Tường - Cấu trúc dữ liệu và thuật toán - nhà xuất bản Khoa Học Kỹ Thuật - 2000
Tiếng Anh
12.Alfred V. Aho, Ravi Sethi, Jeffrey D. Ullman - Compilers Principles, Techniques, and Tools - Addison Wesley Publishing Company - 1986 - pp.83, ch.3; pp.159, ch.4
13.Steven B.Davis, Paul Mermelstein - Comparison Parametric Representations for Monosyllabic Word Recognition in Continuous Spoken Sentences – March 1980
14.J. Earley - An Efficient Context-Free Parsing Algorithm, PhD Dissertation - Computer Science Department, Carnegie Mellon University, August 1968
15.Gordon E. Pelton - Voice Processing - McGraw-Hill - 1993 - pp.83, ch.4 16.Guojun Lu - Multimedia Database Management Systems - Artech House -
1999
17.John Lyons - Introduction to Theoretical Linguistics - Cambridge University Press - 1996, pp. 5-65, ch. 1
18.Milan Milenkovic - Operating Systems, Concepts and Design - McGraw- Hill, 1992
19.Annedore Paeseler - Modification of Earley's Algorithm for Speech Recognition
20.Lawrence Rabiner, Biing-Hwang Juang - Fundamentals of Speech Recognition - pp.3, ch.69; pp.321, ch.6; pp.434, ch.8
21.Lawrence R. Rabiner - A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition - October 1988
22.L. R. Rabiner, R. W. Schafer - Digital Processing of Speech Signals - Prentice Hall - 1978
23.Steve Young, Dan Kershaw, Julian Odell, Dave Ollason, Valtcho Valtchev, Phil Woodland - The HTK Book - July 2000
24.F. Jelinek - Self-organized language modeling for speech recognition - in "Readings in Speech Recognition", volume 2, pp. 447-506
25.Ronald W.Chafer and Lawrence R. Rabiner - Digital Representation of Speech Signals - 1975