Chúng tôi thực hiện 2 chương trình
Chương trình nhận dạng từđơn. Chúng tôi thực hiện 2 chương trình.
KHOA CNTT –
ĐH KHTN
câu. Các câu huấn luyện và test được phát sinh ngẫu nhiên và được nói ở tốc độ
bình thường: Số câu huấn luyện 100 Số từ huấn luyện 768 Số câu test 80 Số từ test 628 Số câu đúng 79 Số từ sai 1 BẢNG 3 – Kết quả nhận dạng các tiếng là chữ sốđọc liên tục
Đối với chương trình nhận dạng từđơn, chúng tôi xây dựng như sau:
Có 18 âm vị monophone được huấn luyện: /kh/, /o6/, /m/, /t/, /e/, /ê/, /a/, /i/, /n/, /ng/, /a8/, /s/, /o/, /u/, /ch/, /k/, /d/, /đ/.
Có 104 âm tiết (gồm 5 thanh /ngang/, /sắc/, /hỏi/, /huyền/, /nặng/) sau được huấn luyện và nhận dạng: DA, D9A, KA, KHA, SA, MA, TA, KAO, KHAO, DAO, D9AO, MAO, SAO, TAO, DAN, D9AN, KAN, MAN, KHAN, SAN, TAN, KANG, DANG, D9ANG, KHANG, MANG, SANG, TANG, DA8M6, D9A8M, KA8M, KHA8M, MA8M, SA8M, TA8M, DE, D9E, KE, KHE, ME, TE, DE67, D9E6, KE6, KHE6, ME6, SE6, TE6, DEN, D9EN, KEN, KHEN, MEN, SEN, TEN, DEO, D9EO, KEO, KHEO, MEO, TEO, D9I, KI, KHI, MI, SI, TI, D9O, DO, KO, KHO, MO, SO, TO, KONG, DONG, D9ONG, MONG, SONG, TONG, DO6NG, D9O6NG, KO6NG, MO6NG, SO6NG, TO6NG, DO6N, D9O6N, KO6N, KHO6N, MO6N, TO6N, DU, KHU, MU, SU, TU, DUNG, D9UNG, KHUNG, KUNG, MUNG, SUNG, TUNG.
Vì vậy các phụ âm đầu được huấn luyện là /d/, /dd/, /k/, /kh/, /m/, /s/, /t/; các vần
được huấn luyện và nhận dạng là: /a/, /ang/, /an/, /ao/, /a8m/, /e/, /eo/, /en/, /e6/,
/o6n/, /o6ng/, /ong/, /u/, /ung/.
Kết quả số âm vị triphone buộc trạng thái sau khi gom nhóm là 53 âm vị.
6 /a8/: ký hiệu cho âm vị /ă/ trong tiếng Việt
KHOA CNTT –
ĐH KHTN
Mỗi âm tiết được huấn luyện trên 20, 30, 40 hoặc 50 mẫu. Tổng số mẫu huấn luyện: 3240 mẫu
Quá trình kiểm tra thực hiện kiểm tra mỗi âm tiết là 20 mẫu. Số mẫu test là 2080 mẫu.
Kết quả có 21 mẫu sai. Độ chính xác 99%. Sai nằm vào các trường hợp sau: /e/ - > ê, /ong/ -> /ông/, /t/ <-> /d9/.
Số mẫu huấn luyện 3240 Số mẫu đánh giá 2080
Kết quả nhận dạng 99%
BẢNG 4 – Kết quả nhận dạng từ đơn
5.3.2. Nhận xét
Chương trình nhận được số lượng từ tương đối lớn với độ chính xác khá cao. Trong khi tiếng Việt chưa có được những kho dữ liệu có gán nhãn âm vị, hướng tiếp cận nhận dạng âm vị tựđộng với công việc huấn luyện trên dữ liệu không gán nhãn âm vị là một hướng tiếp cận hợp lý. Đây sẽ là hướng tiếp cận trong tương lai dùng
để nhận dạng toàn bộ âm tiết tiếng Việt. Tuy nhiên, còn một số hạn chế sau:
Xây dựng kho dữ liệu chưa đầy đủ Xử lý lọc nhiễu còn hạn chế Chưa có công đoạn hậu xử lý
Chương trình nhận dạng tốt trong môi trường ít tiếng ồn, nhưng hiệu suất sẽ giảm khi nhận dạng trong môi trường có tiếng ồn lớn.
5.3.3. Hướng phát triển
Kết hợp với nhận dạng thanh điệu Tiếng Việt để tăng số lượng từ nhận dạng. Xây dựng mô hình ngôn ngữ để nâng kết quả nhận dạng trong nhận dạng
KHOA CNTT –
ĐH KHTN
Kết hợp thêm mô hình tương thích giọng người nói để có thể xây dựng hệ
nhận dạng độc lập người nói.
Xây dụng thuật giải huấn luyện tăng cường để mỗi khi tăng lượng dữ liệu học mẫu sẽ không tốn thời gian huấn luyện lại từđầu.
KHOA CNTT –
ĐH KHTN
TÀI LIỆU THAM KHẢO
[1] Mathew Magimai. Doss, Todd A. Stephenson, Herv Bourlard, and Samy Bengio, Phoneme-Grapheme Based Speech Recognition System, Dalle Molle Institute for Artificial Intelligence
[2] Ahmed M. Abdelatty Ali et al, An Acoustic-phonetic feature-based system
for automatic phoneme recognition in continuous speech, Dept. of Electrical
Engineering, University of Pennsylvania
[3] Guido Aversano et al, A New Text-Independent Method for Phoneme
Segmentation, a Dipartimento di Fisica “E.R. Caianiello”, Universit`a di Salerno.
[4] Youngjoo Suh and Youngjik Lee, Phoneme segmentation of continuous
speech using multi-layer perceptron, Electronics and Telecommunications Research
Institute, 1996.
[5] Jesper Salomon , Support Vector Machines for Phoneme Classification,
Master of Science, school of Artificial Intelligence, Division of Informatics, University of Edinburgh, 2001.
[6] Barbara Resch, Gaussian Statistics and Unsupervised Learning, A Tutorial
for the Course Computational Intelligence, Signal Processing and Speech Communication Laboratory, IEEE International Workshop on Circuits and System. [7] Giuseppe Riccardi and Dilek Hakkani , Active And Unsupervised Learning For Automatic Speech Recognition, AT&T Labs-Research
KHOA CNTT –
ĐH KHTN
[8] Steve Young, HTKBook (version 3.2), Cambridge University Engineering
Department.
[9] Lawrence R. Rabiner, A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, IEEE, 1989
[10] Đinh Lê Thư - Nguyễn Văn Huệ, Cơ cấu ngữ âm Tiếng Việt, NXB Giáo Dục, 1998
[11] Thái Hùng Văn, Luận án thạc sĩ, khoa Công nghệ thông tin, Đại học Khoa học Tự nhiên, 2000
[12] Đỗ Xuân Đạt – Võ Văn Tuấn, Luận văn tốt nghiêp khoa Công nghệ thông tin,
Đại học Khoa học Tự nhiên, 2003
[13] Tarun Agarwal, Pre-Processing of Noisy Speech for Voice Coders,
Department of Electrical & Computer Engineering, McGill University, Montreal, Canada, January 2002
[14] Ing Yann Soon and Soo Ngee Koh, Speech Enhancement Using 2-D Fourier
Transform, IEEE Transactions On Speech And Audio Processing, VOL. 11, NO. 6,
NOVEMBER 2003 (pages 717 through 724)
[15] John H.L. Hansen, Bryan Pellom, An Effective Quality Evaluation Protocol
For Speech Enhancement Algorithms, ICSLP-98: Inter. Conf. On Spoken Language
Processing, Sydney, Australia, Nov. 30 – Dec. 4, 1998.
[16] Hagai Attias John C. Platt Alex Acero Li Deng, Speech Denoising and
Dereverberation Using Probabilistic Models, Microsoft Research
[17] James G. Droppo III , Time-Frequency Features For Speech Recognition, Doctor of Philosophy thesis, University of Washington, 2000
KHOA CNTT –
ĐH KHTN
[18] C.J.Long and S.Datta, Wavelet Based Feature Extraction for Phoneme Recognition, Department of Electronic and Electrical Engineering, Loughborough
University of Technology
[19] Amit Juneja and Carol Espy-Wilson, Segmentation Of Continuous Speech
Using Acoustic-Phonetic Parameters And Statistical Learning, ECE Department,
University of Maryland
[20] Ryuta Terashima, Estimating Speech-Recognizer Performance Based on Log-Likelhood Difference Distribution of Word-Pairs, Special Issue Speech-Based