.Kết quả thử nghiệm

Một phần của tài liệu Nghiên cứu một số phương pháp tổng hợp tiếng nói (Trang 78 - 82)

Kết quả thử nghiệm là độ chính xác của việc gán nhãn đƣợc đánh giá dựa trên công thức sau

Accuracy of a subcategory =

Subcategory Độ chính xác trong test 1 Độ chính xác test 2

date:dmy 100% 100% date:dm 100% 100% date:my 100% 100% date:d 100% 100% date:m 100% 100% number:frac 100% 100% duration:hms duration:hm 80% duration:y 94% 100% score 100% 100% mesuare 100% 98% number:float 100% 100% number:integer 99,7% 100% number:ordinal 100% 100% number:digits number:roman 71,4% 87,5% telephone 100% 100% address 100% 100% Average 97,67% 97,84% Độ chính xác trong nhóm NUMBERS

Subcategory Độ chính xác test 1 Độ chính xác test2

acronym 98,54% 99,5%

Average 98,54% 99,5%

Độ chính xác trong nhóm LETTERS

Subcategory Độ chĩnh xác test 1 Độ chính xác test 2

Currency 50% 90%

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Đánh giá kết quả

Precision Recall F-score

98,55% 96,13% 97,32%

Đánh giá theo các độ đo

net:email

net:uri 100%

Average 75% 96,7%

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

KẾT LUẬN VÀ HƢƠNG PHÁT TRIỂN

Kết quả đạt đƣợc

Qua thời gian nghiên cứu và cài đặt, luận văn đã đóng góp đƣợc những vấn đề sau:

- Giúp ngƣời đọc hiểu đƣợc chi tiết các thành phần cơ bản của hệ tổng hợp tiếng nói,

- Giới thiệu và đánh giá một số phƣơng pháp tổng hợp tiếng nói hiện nay,

- Trình bày đƣợc các cách phƣơng pháp nâng cao chất lƣợng tiếng nói tổng hợp, đặc biệt giới thiệu các kỹ thuật phân tích ngôn điệu thƣờng sử dụng để cải tiến chất lƣợng tiếng nói,

-Thử nghiệm đƣa ra đƣợc tập luật cho việc thay đổi biên độ, năng lƣợng, trƣờng độ và tần số cơ bản trong hệ tổng hợp tiếng Việt, cải thiện đáng kể chất lƣợng của TTS

Hƣớng phát triển

Do thời gian làm luận văn có hạn nên chƣa thực hiện đƣợc mọi khía cạnh để có thể nâng cao chất lƣợng tiếng nói tổng hợp. Những định hƣớng tiếp theo của đề tài là: - Tiếp tục nghiên cứu quy luật biến đổi thanh điệu trong cụm từ, trong câu thay vì mức từ đôi nhƣ hiện nay,

- Cải tiến chất lƣợng phụ âm đầu, đặc biệt là các phụ âm m, n, nh,

- Thử nghiệm mô hình Xu [TLTK] trong việc hiệu chỉnh đƣờng F0, mô hình này đã áp dụng đƣợc cho tiếng Trung Quốc,

- Xây dựng cơ sở dữ liệu tiếng nói lớn để ứng dụng mô hình markov ẩn trong việc lựa chọn đơn vị tổng hợp trong các ngữ cảnh khác nhau. Đây là cách tiếp cận mang hứa hẹn đem lại tiếng nói có chất lƣợng cao.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

TÀI LIỆU THAM KHẢO Tiếng việt

1. Ngô Hoàng Huy, Nguyễn Thị Thanh Mai, Bùi Quang Trung (2002),

“Chuẩn hoá và phân tích tiếng việt”, kỷ yếu Hội thảo quốc gia về công nghệ thông tin, Nha Trang.

2. Nguyễn Thị Thanh Mai, Nghiên cứu các phƣơng pháp nâng cao chất lƣợng tổng hợp tiếng việt và thử nghiệm cho phần mềm VnVoice, Luận văn thạc sĩ, Trƣờng Đại học công nghệ, Đại học Quốc gia Hà Nội.

3.Trịnh Anh Tuấn, Nghiên cứu các đặc trƣng để phân tích và tổng hợp tín hiệu âm tần, Luận án tiến sĩ, Học viện Công nghệ Bƣu chính viễn thông.

4. Lƣu Hồng Việt, Hệ thống điều khiển nhúng, bài giảng tại Bộ môn điều khiển tự động, Trƣờng Đại học Bách khoa Hà nội.

Tiếng Anh

[Abrantes et al. 91] A.J. ABRANTES, J.S. MARQUES, I.M. TRANSCOSO, "Hybrid

Sinusoïdal Modeling of Speech without Voicing Decision", EUROSPEECH 91, pp. 231-234.

[Allen 85] J. ALLEN, "A Perspective on Man-Machine Communication by Speech",

Proceedings of the IEEE, vol. 73, n°11, November 1985, pp. 1541-1550.

7.[Allen et al. 87] J. ALLEN, S. HUNNICUT, D. KLATT, From Text To Speech, The

MITTALK System, Cambridge University Press, 1987, 213 pp. [Bachenko & Fitzpatrick 90] J. BACHENKO, E. Fitzpatrick,

"Acomputational grammar of discourse-neutral prosodic phrasing in English",

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

[Benello et al. 88] J. BENELLO, A.W. MACKIE, J.A. ANDERSON, "Syntactic category disambiguation with neural networks", Computer Speech and Language, 1989, n°3, pp.203-217.

[Carlson et al. 82] R. CARLSON, B. GRANSTRÖM, S. HUNNICUT, "A multi-language

Text-To-Speech module", ICASSP 82, Paris, vol. 3, pp. 1604-1607.

[Coker 85] C.H. COKER, "A Dictionary-Intensive Letter-to-Sound Program",

J. Ac. Soc. Am., suppl. 1, n°78, 1985, S7.

[Coker et al. 90] C.H. COKER, K.W. CHURCH, M.Y. LIBERMAN,

"Morphology and rhyming : Two powerful alternatives to letter-to-sound rules for speech synthesis", Proc. of the ESCA Workshop on Speech Synthesis,

Autrans (France), 1990, pp. 83-86.

[Daelemans & van den Bosch 93] W. DAELEMANS, A. VAN DEN BOSCH, "TabTalk : Reusability in data-oriented grapheme-to-phoneme conversion",

Proc. Eurospeech 93, Berlin, pp. 1459-1462.

[Dutoit 93] T. DUTOIT, H. LEICH, "MBR-PSOLA : Text-To-Speech

Synthesis based on an MBE Re-Synthesis of the Segments Database", Speech Communication, Elsevier Publisher, November 1993, vol. 13, n°3-4.

[Dutoit 96] T. DUTOIT, An Introduction to Text-To-Speech Synthesis¸ Kluwer Academic Publishers, 1996, 326 pp.

[Flanagan 72] J.L. FLANAGAN, Speech Analysis, Synthesis, and Perception, Springer

Một phần của tài liệu Nghiên cứu một số phương pháp tổng hợp tiếng nói (Trang 78 - 82)