Đánh giá kết quả và hướng phát triển:

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt theo hướng tiếp cận nhận dạng âm vị tự động (Trang 85)

Chúng tôi thực hiện 2 chương trình

Chương trình nhận dạng từđơn. Chúng tôi thực hiện 2 chương trình.

KHOA CNTT –

ĐH KHTN

câu. Các câu huấn luyện và test được phát sinh ngẫu nhiên và được nói ở tốc độ

bình thường: Số câu huấn luyện 100 Số từ huấn luyện 768 Số câu test 80 Số từ test 628 Số câu đúng 79 Số từ sai 1 BẢNG 3 – Kết quả nhận dạng các tiếng là chữ sốđọc liên tục

Đối với chương trình nhận dạng từđơn, chúng tôi xây dựng như sau:

ƒ Có 18 âm vị monophone được huấn luyện: /kh/, /o6/, /m/, /t/, /e/, /ê/, /a/, /i/, /n/, /ng/, /a8/, /s/, /o/, /u/, /ch/, /k/, /d/, /đ/.

ƒ Có 104 âm tiết (gồm 5 thanh /ngang/, /sắc/, /hỏi/, /huyền/, /nặng/) sau được huấn luyện và nhận dạng: DA, D9A, KA, KHA, SA, MA, TA, KAO, KHAO, DAO, D9AO, MAO, SAO, TAO, DAN, D9AN, KAN, MAN, KHAN, SAN, TAN, KANG, DANG, D9ANG, KHANG, MANG, SANG, TANG, DA8M6, D9A8M, KA8M, KHA8M, MA8M, SA8M, TA8M, DE, D9E, KE, KHE, ME, TE, DE67, D9E6, KE6, KHE6, ME6, SE6, TE6, DEN, D9EN, KEN, KHEN, MEN, SEN, TEN, DEO, D9EO, KEO, KHEO, MEO, TEO, D9I, KI, KHI, MI, SI, TI, D9O, DO, KO, KHO, MO, SO, TO, KONG, DONG, D9ONG, MONG, SONG, TONG, DO6NG, D9O6NG, KO6NG, MO6NG, SO6NG, TO6NG, DO6N, D9O6N, KO6N, KHO6N, MO6N, TO6N, DU, KHU, MU, SU, TU, DUNG, D9UNG, KHUNG, KUNG, MUNG, SUNG, TUNG.

ƒ Vì vậy các phụ âm đầu được huấn luyện là /d/, /dd/, /k/, /kh/, /m/, /s/, /t/; các vần

được huấn luyện và nhận dạng là: /a/, /ang/, /an/, /ao/, /a8m/, /e/, /eo/, /en/, /e6/,

/o6n/, /o6ng/, /ong/, /u/, /ung/.

ƒ Kết quả số âm vị triphone buộc trạng thái sau khi gom nhóm là 53 âm vị.

6 /a8/: ký hiệu cho âm vị /ă/ trong tiếng Việt

KHOA CNTT –

ĐH KHTN

ƒ Mỗi âm tiết được huấn luyện trên 20, 30, 40 hoặc 50 mẫu. Tổng số mẫu huấn luyện: 3240 mẫu

ƒ Quá trình kiểm tra thực hiện kiểm tra mỗi âm tiết là 20 mẫu. Số mẫu test là 2080 mẫu.

ƒ Kết quả có 21 mẫu sai. Độ chính xác 99%. Sai nằm vào các trường hợp sau: /e/ - > ê, /ong/ -> /ông/, /t/ <-> /d9/.

Số mẫu huấn luyện 3240 Số mẫu đánh giá 2080

Kết quả nhận dạng 99%

BẢNG 4 – Kết quả nhận dạng từ đơn

5.3.2. Nhận xét

Chương trình nhận được số lượng từ tương đối lớn với độ chính xác khá cao. Trong khi tiếng Việt chưa có được những kho dữ liệu có gán nhãn âm vị, hướng tiếp cận nhận dạng âm vị tựđộng với công việc huấn luyện trên dữ liệu không gán nhãn âm vị là một hướng tiếp cận hợp lý. Đây sẽ là hướng tiếp cận trong tương lai dùng

để nhận dạng toàn bộ âm tiết tiếng Việt. Tuy nhiên, còn một số hạn chế sau:

ƒ Xây dựng kho dữ liệu chưa đầy đủ ƒ Xử lý lọc nhiễu còn hạn chế ƒ Chưa có công đoạn hậu xử lý

ƒ Chương trình nhận dạng tốt trong môi trường ít tiếng ồn, nhưng hiệu suất sẽ giảm khi nhận dạng trong môi trường có tiếng ồn lớn.

5.3.3. Hướng phát triển

Kết hợp với nhận dạng thanh điệu Tiếng Việt để tăng số lượng từ nhận dạng. Xây dựng mô hình ngôn ngữ để nâng kết quả nhận dạng trong nhận dạng

KHOA CNTT –

ĐH KHTN

Kết hợp thêm mô hình tương thích giọng người nói để có thể xây dựng hệ

nhận dạng độc lập người nói.

Xây dụng thuật giải huấn luyện tăng cường để mỗi khi tăng lượng dữ liệu học mẫu sẽ không tốn thời gian huấn luyện lại từđầu.

KHOA CNTT –

ĐH KHTN

TÀI LIỆU THAM KHẢO

[1] Mathew Magimai. Doss, Todd A. Stephenson, Herv Bourlard, and Samy Bengio, Phoneme-Grapheme Based Speech Recognition System, Dalle Molle Institute for Artificial Intelligence

[2] Ahmed M. Abdelatty Ali et al, An Acoustic-phonetic feature-based system

for automatic phoneme recognition in continuous speech, Dept. of Electrical

Engineering, University of Pennsylvania

[3] Guido Aversano et al, A New Text-Independent Method for Phoneme

Segmentation, a Dipartimento di Fisica “E.R. Caianiello”, Universit`a di Salerno.

[4] Youngjoo Suh and Youngjik Lee, Phoneme segmentation of continuous

speech using multi-layer perceptron, Electronics and Telecommunications Research

Institute, 1996.

[5] Jesper Salomon , Support Vector Machines for Phoneme Classification,

Master of Science, school of Artificial Intelligence, Division of Informatics, University of Edinburgh, 2001.

[6] Barbara Resch, Gaussian Statistics and Unsupervised Learning, A Tutorial

for the Course Computational Intelligence, Signal Processing and Speech Communication Laboratory, IEEE International Workshop on Circuits and System. [7] Giuseppe Riccardi and Dilek Hakkani , Active And Unsupervised Learning For Automatic Speech Recognition, AT&T Labs-Research

KHOA CNTT –

ĐH KHTN

[8] Steve Young, HTKBook (version 3.2), Cambridge University Engineering

Department.

[9] Lawrence R. Rabiner, A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, IEEE, 1989

[10] Đinh Lê Thư - Nguyễn Văn Huệ, Cơ cấu ngữ âm Tiếng Việt, NXB Giáo Dục, 1998

[11] Thái Hùng Văn, Luận án thạc sĩ, khoa Công nghệ thông tin, Đại học Khoa học Tự nhiên, 2000

[12] Đỗ Xuân Đạt – Võ Văn Tuấn, Luận văn tốt nghiêp khoa Công nghệ thông tin,

Đại học Khoa học Tự nhiên, 2003

[13] Tarun Agarwal, Pre-Processing of Noisy Speech for Voice Coders,

Department of Electrical & Computer Engineering, McGill University, Montreal, Canada, January 2002

[14] Ing Yann Soon and Soo Ngee Koh, Speech Enhancement Using 2-D Fourier

Transform, IEEE Transactions On Speech And Audio Processing, VOL. 11, NO. 6,

NOVEMBER 2003 (pages 717 through 724)

[15] John H.L. Hansen, Bryan Pellom, An Effective Quality Evaluation Protocol

For Speech Enhancement Algorithms, ICSLP-98: Inter. Conf. On Spoken Language

Processing, Sydney, Australia, Nov. 30 – Dec. 4, 1998.

[16] Hagai Attias John C. Platt Alex Acero Li Deng, Speech Denoising and

Dereverberation Using Probabilistic Models, Microsoft Research

[17] James G. Droppo III , Time-Frequency Features For Speech Recognition, Doctor of Philosophy thesis, University of Washington, 2000

KHOA CNTT –

ĐH KHTN

[18] C.J.Long and S.Datta, Wavelet Based Feature Extraction for Phoneme Recognition, Department of Electronic and Electrical Engineering, Loughborough

University of Technology

[19] Amit Juneja and Carol Espy-Wilson, Segmentation Of Continuous Speech

Using Acoustic-Phonetic Parameters And Statistical Learning, ECE Department,

University of Maryland

[20] Ryuta Terashima, Estimating Speech-Recognizer Performance Based on Log-Likelhood Difference Distribution of Word-Pairs, Special Issue Speech-Based

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt theo hướng tiếp cận nhận dạng âm vị tự động (Trang 85)

Tải bản đầy đủ (PDF)

(91 trang)