Các hướng nghiên cứu phát triển tiếp theo- 123docz.net

Đề tài tổng hợp tiếng nói tiếng Việt sử dụng phương pháp ghép nối diphone mà tôi thực hiện còn nhiều hạn chế, còn rất nhiều hướng để có thể tiếp tục nghiên cứu, phát triển tiếp:

Ta có thể xây dựng lại tập phone đầy đủ (có dấu) cho tiếng Việt. Phát triển theo hướng tự đánh nhãn, không phụ thuộc vào giọng đọc của Festival. Cách làm này sẽ rất vất vả trong việc đánh nhãn do sẽ phải thực hiện toàn bộ bằng tay, nhưng sẽ mang lại một giọng nói tổng hợp chính xác về thanh điệu, trơn chu và tự nhiên.

Ta có thể phát triển tiếp theo hướng nghiên cứu sâu hơn về kỹ thuật sửa đổi sóng âm để có thể tạo ra thanh điệu. Nếu thành công, đây sẽ là cách tổng hợp hiệu quả nhất, cả về chất lượng cũng như tiết kiệm về cơ sở dữ liệu phải lưu trữ.

Tập trung nghiên cứu về ngữ điệu của tiếng Việt và thực hiện một hệ thống TTS có ngữ điệu.

Tài liệu tham khảo

[1]Mai Ngọc Chử, Vũ Đức Nghiệu, Hoàng Trọng Phiến: “Cơ sở ngôn ngữ học và Tiếng Việt”, NXB Giáo dục (2000)

[2]Nguyễn Thị Hương, “Tổng hợp tiếng nói từ văn bản tiếng Việt bằng

phương pháp ghép nối diphone”, (2005)

[3]Đoàn Thiện Thuật, “Ngữ âm tiếng Việt”, NXB Đại học Quốc Gia Hà Nội (1999)

[4]http://vi.wikipedia.org/wiki/Tổng_hợp_giọng_nói

[5]Alan W Black, Paul Taylor, Richard Caley, “The Festival Speech

Synthesis System” (1999)

[6]Alan W Black, Paul Taylor, Richard Caley, Simon King, “Edinburgh

Speech Tools Library”, (1999)

[7]Alan W Black, Kevin A Lenzo, “Building Synthetic Voices”, (2007)

[8]Nguyen Tien Dung, Hansjörg Mixdorff, Luong Chi Mai, Ngo Huy Hoang, Vu Kim Bang, “Fujisaki Model based F0 contours in Vietnamese TTS”

(2004)

[9]Tran Do Dat, Eric Castelli, Jean-Francois Serignat, Trinh Van Loan, Le Xuan Hung, “Influence of F0 on Vietnamese syllable perception”

[10] Thierry Dotoit “High Quality Text-to-Speech Synthesis: A Comparison

of Four Candidate Algorithms” (1994)

[11] Janet Fletcher “Intonation and Prosody in Australian English and New Zealand English”, STT 2006 workshop Auckland, New Zeland

[12] Carolie Hemptinne “Intergration of the harmonic plus noise model (HNM) into the hidden Markov model-based speech synthesis system

(HTS)” (2006)

[13] James L.Hieronymus, Bell Laboratories, Murray Hill, “ASCII Phonetic Symbols for the World’s Languages”

[14] Sami Lemetty, “Review of Speech Synthesis Technology”, (1999)

Synthesis System and Recommendations for Improvements”

[16] Yannis Stylianou, Thierry Dutoit, Juergen Schroeter “Diphone Concatenation using a Harmonic plus Noise Model of Speech”

[17] David Vandromme “Harmonic Plus Noise Model for Concatnenative

Speech Synthesis” (2005)

Các hướng nghiên cứu phát triển tiếp theo

Xây dựng tập các diphone:

Các bước để lấy pitchmark tốt