5.3.1 Mụi trƣờng phỏt triển chƣơng trỡnh
Chương trỡnh đó được thử nghiệm để đỏnh giỏ hiệu năng của hệ thống nhận dạng. Thử nghiệm này thực hiện trờn cơ sở đỏnh giỏ tỷ lệ nhận dạng cỏc file õm thanh thu sẵn với định dạng wave PCM Mono 16 bit, tần số lấy mẫu là 20.05kHz. Mỗi từ cần được nhận dạng (cỏc số từ 0 đến 9), đặc trưng bởi 12 giỏ trị chớnh là 12 thụng số MFCC được trớch ra từ quỏ trỡnh trớch chọn đặc trưng của õm thanh để đưa vào 12 nơron đầu vàọ
Tiếng núi được thu trong điều kiện phũng làm việc bỡnh thường, bao gồm giọng núi của một số ngườị
TT Họ Và Tờn Tuổi Giới tớnh Quờ quỏn 1 Hồ Văn Hương 26 Nam Nghệ An 2 Hoàng Thị Xuõn 25 Nữ Nghệ An 3 Nguyễn Quốc Thành 22 Nam Hưng Yờn
Điều kiện thu õm: phũng làm việc, micro loại tai nghe hóng Sony loại thường.
5.3.2 Kết quả nhận dạng
TT Họ Và Tờn Kết quả 1 Hồ Văn Hương 94% 12222 2 Hoàng Thị Xuõn 96%
3 Nguyễn Quốc Thành 94.5%
Đối với cỏc mẫu khụng cho mạng huấn luyện trước, kết quả đạt được TT Họ Và Tờn Kết quả
1 Hồ Văn Hương 74%
2 Hoàng Thị Xuõn 84% 3 Nguyễn Quốc Thành 75%
Kết luận: Hệ thống cú khả năng nhận dạng đỳng cỡ từ 70% đến 90%. Kết quả đạt được hơi thấp do cú lỗi, nhưng cũng chấp nhận được.
Nhận xột: Mặc dự kết quả nhận dạng những từ khụng được mạng huấn luyện
trước là khụng caọ Nhưng kết quả này cũng cú thể chấp nhận được trong điều kiện thiết bị thu õm chưa tốt và điều kiện phũng thu õm cũng chưa đạt yờu cầụ Để nõng cao kết quả nhiều kỹ thuật cần được nghiờn cứu tiếp. Vớ dụ, tăng thờm nỳt ẩn, lớp ẩn. Tuy nhiờn, độ phức tạp tớnh toỏn tăng.
Kết luận và định hƣớng nghiờn cứu
Luận văn đó thực hiện được cỏc mục tiờu đó đề ra:
Đó thiết kế mạng nơron lan truyền ngược để nhận dạng và phõn tớch cỏc tham số của mạng.
Đó thử nghiệm nhận dạng với ba người núi và cho kết quả khỏ tốt. Điều này khảng định rằng mạng nơron là một cụng cụ hứa hẹn sẽ cho nhiều thành cụng trong lĩnh vực nhận dạng tiếng núị
Tuy một số trường hợp cũn nhận dạng sai hoặc khụng nhận dạng được là do cũn tồn tại một số hạn chế chớnh như: chưa cú cơ sở tiếng núi tiếng Việt đủ lớn, chương trỡnh mới được tiến hành trờn một số mỏy tớnh cỏ nhõn cho kết quả chưa cao, chưa cú thiết bị thu õm chuẩn…, tức là cú nhiều thụng số chưa được lựa chọn tối ưụ Vỡ vậy, ta hoàn toàn cú thể nõng cao độ chớnh xỏc của hệ thống nhận dạng thờm nữạ
Phương phỏp mới được ỏp dụng để nhận dạng cỏc từ đơn.
Vỡ vậy, phương hướng nghiờn cứu phỏt triển đề tài tiếp theo là: xõy dựng cơ sở dữ liệu mẫu đủ lớn. So sỏnh với kết quả cỏc phương phỏp kinh điển và truyền thống. Thử mở rộng và phong phỳ cấu trỳc mạng. Tiến hành thực nghiệm trờn nhiều mỏy cỏ nhõn, kết hợp phương phỏp sử dụng mạng nơron với giải thuật di truyền và một số phương phỏp hiện đại trong việc nhận dạng tiếng núi nhằm nõng cao kết quả nhận dạng.
Đi sõu thờm nữa là tăng số lượng từ vựng nhận dạng, kết hợp với phõn tớch ngữ phỏp để cú thể nhận dạng được những cõu tiếng núi tiếng Việt đơn giản và cú độ chớnh xỏc caọ
Tài liệu tham khảo Tiếng Việt
1. Mai Ngọc Chừ, Vũ Đức Nghệu, Hoàng Trọng Phiến (2000), Cơ sở ngụn ngữ học và Tiếng Việt, Nhà xuất bản Giỏo dục.
2. Bựi Cụng Cường, Nguyễn Doón Phước (2002), Hệ mờ mạng nơron và ứng dụng, Nhà xuất bản Khoa học kỹ thuật.
3. Đặng Ngọc Đức, Lương Chi Mai (3/2004), Tăng cường độ chớnh xỏc của hệ thống mạng nơron nhận dạng tiếng Việt, Tạp chớ Bưu chớnh Viễn thụng, số 11.
4. Nguyễn Quang Hoan (1996), Ổn định mạng nơron Hopfield và khả năng ứng dụng trong điều khiển Robot, Luận ỏn Tiến sỹ.
5. Nguyễn Quang Hoan, Nguyễn Mạnh Tựng, Phạm Thượng Hàn (2002), Ứng dụng mạng nơron tương tỏc bậc cao cho bài toỏn phõn lớp cú giới hạn, tr.126-131, Tuyển tập bỏo cỏo khoa học, Hội nghị toàn Quốc lần thứ năm về tự động hoỏ.
6. Ngụ Hoàng Huy, Lương Chi Mai, Bựi Quang Trung, Nguyễn Thị Thanh Mai, Vũ Kim Bảng, Vũ Thị Thanh Hà (2003), Thiết kế cỏc hệ thống nhận dạng tiếng Việt trong thời gian thực, Kỷ yếu hội thảo Fair. 7. Nguyễn Thanh Phỳc (2000), Một phương phỏp nhận dạng lời Việt: Áp
dụng phương phỏp kết hợp mạng nơron với mụ hỡnh Markov ẩn cho cỏc hệ thống nhận dạng lời Việt, Luận Văn Tiến Sỹ kỹ thuật, Đại học Bỏch khoa Hà nộị
Tiếng Anh
8. Cart G. Looney (1997), Parttern Recognition Using Neural Network,
Oxfoxd University Press.
9. Chin – Teng Lin, C. S. George Lee (1996), Neural Fuzzy Systems: A Neuro-Fuzzy Synergism to Intelligent Systems, Prentice-Hall International, Inc.
10.Claudio Becchetti and Lucio Prina Ricotti (1999), Speech Recognition Theory and C++ Implementation, Printed and Bound Great Britain by Antony Rowe Ltd, Chippenham, Wiltshire.
11.Hong–Goo Kang (2003), Speech Signal Processing, Yonsei Universitỵ
12.Hunt, K. J and Others (1992), Neural Networks for Control System – A Survey, Automaticạ. Vol. 28, Nọ6, pp. 1080-1120.
13.Josộ C. Principe, Neil R. Euliano, W. Curt Lefebvre (1999), Neural and Adaptive Systems: Fundamentals through Simulations, John Wiley and Sons, Inc.
14.L.R Rabiner, R.W.Sharfer (1978), Digital Processing of Speech Signals, Prentice-Hall.
15.Ravi P. Ramachandra, Kevin R. Farell, Roopashri Ramachandra, Richard J. Mammone (2002), Speaker Recognition - General Classifier Approaches and Data Fusion Methods
16.Qifeng Zhu and Abeer Alwan (2003), Non-linear Feature Extraction for Robust Speech Recognition in Stationary and Non-Stationary Noise, Q. Zhu, Ạ Alwan/Computer Speech and Language .
17.Sadaoki Furui (2001), Digital Speech Processing, Synthesis and Recognition, Marcel Dekker.
18.Simon Haykin (1999), Neural Networks A Comprehensive Foundation, Prentice Hall International, Inc.
19. Veronique Stouten, Huge Van Hamme, Kris Demuynck, Patrick Wambacq (2003), Robust Speech Recognition Using Model-Based Feature Enhancement, Center for Processing Speech and Images (PSI) Dept of Electrical Engeneering–ESAT Katholieke Universiteit Leuven, Belgium.
20.Wu Chou and Biing Hwang Juang (2003), Parttern Recognition in Speech and Language Processing, CRC Press LLC.