Đánh giá kết quả chất lượng tiếng Việt tổng hợp

Một phần của tài liệu tổng hợp tiếng việt chất lượng tốt (Trang 85 - 90)

Chúng tôi đã đề nghị 30 người nghe đánh giá chất lượng tiếng Việt tổng hơp. Trong 20 từ được đưa ra, việc đánh giá chất lượng tổng hợp là tốt tỏ ra vượt trội về phía các từ đã được cải thiện. Đặc biệt đối với từ “tải” thì 100% người nghe chọn từ này sau cải tiến có chất lượng tốt hơn, ngoài ra có một số từ khác có kết quả tương tự cũng khá cao như từ “đến”, “cần”, “cuộc”, “đại”, “đối”,… Có một số từ như “tử”, “với” thì số người đánh giá cho các từ chưa được cải thiện có chất lượng tốt là khá cao, song con số này vẫn ít hơn so với số người

đánh giá cho từ đã được cải thiện là tốt hơn. Nguyên nhân có thể là do người nghe không được tập trung, hoặc chưa có phân tích tinh tế khi nghe, hoặc thậm chí cũng bị ảnh hưởng bởi thứ tự phát âm khi nghe(thường từ phát sau được đánh giá nhỉnh hơn nếu chất lượng của chúng không khác nhau nhiều). Chính vì những lý do này mà một số từ có sự khác nhau không nhiều sẽ được chọn cho từ chưa được cải tiến hoặc chọn đáp án là chất lượng giống nhau.

Hình 9 – Kết quả đánh giá chất lượng của 20 từ trước và sau khi được cải thiện Bảng 1 chỉ ra kết quả đánh giá chất lượng của 20 từ tổng hợp theo phương pháp MOS. Kết quả của mỗi từ được tính điểm trung bình cộng của 30 người nghe. Kết quả này cho thấy, giá trị trung bình của 30 người nghe trong 20 từ đều có giá trị lớn hơn 4.

Bảng 1 – Kết quả đánh giá chất lượng của 20 từ tiếng nói tổng hợp Từ Điểm TB cộng (30 người nghe) Từ Điểm TB cộng (30 người nghe) Tải 4.467 Đóng 4.1 Đến 4.433 Cuộc 4.566 Hội 4.267 Đại 4.5

Cần 4.7 Tể 4.467 Giới 4.467 Tử 4.466 Tiến 4.667 Tăng 4.267 Giầy 4.4 Với 4.6 Bao 4.3 Của 4.633 Dưới 4.567 Phòng 4 Tính 4.533 Đối 4.633

Trong quá trình thử nghiệm kết quả tổng hợp, những từ sẽ được chọn ra để đánh giá theo bảng 1 là những từ theo cảm nhận chủ quan của chúng tôi, nên được ưu tiên đánh giá chất lượng hơn cả. Điều này có nghĩa là, sẽ có những từ mà chất lượng trước và sau khi cải thiện hầu như đều tốt như nhau, do trước khi cải thiện chất lượng đã rất tốt và như vậy, không nhất thiết phải ưu tiên đưa vào danh sách các từ cần đánh giá. Những từ được đưa vào đánh giá là những từ có sự chênh lệnh về mặt tham số tương đối lớn ở vị trí ghép nối trước khi được cải thiện chất lượng. Chính vì vậy, những kết quả bước đầu cho thấy, các đề xuất được chúng tôi sử dụng nhằm cân bằng các tham số tín hiệu tiếng nói tại vị trí ghép nối là rất tốt, chất lượng tiếng Việt của những từ tổng hợp là rất giống với tiếng nói tự nhiên.

5. Kết luận

Chúng tôi đã đề xuất phương pháp xây dựng bộ tổng hợp tiếng Việt chất lượng tốt bằng phương pháp ghép nối. Trong đó có các đề xuất nhằm nâng cao chất lượng tiếng Việt tổng hợp bằng cách làm trơn các tham số như biên độ, tần số F0 và phổ của tín hiệu tiếng nói tổng hợp tại ví trị ghép nối. Những kết quả đánh giá bước đầu cho thấy, các đề xuất được chúng tôi sử dụng nhằm cân bằng các tham số tín hiệu tiếng nói tại vị trí ghép nối là rất tốt, đồng thời kết quả cho thấy chất lượng từ tổng hợp đạt mức tự nhiên khá cao.

Tài liệu tham khảo

[1]. Trịnh Văn Loan, Đinh Đồng Lưỡng, Phạm Thị Kim Ngoan, “Xây dựng cơ sở dữ liệu cho tổng hợp tiếng Việt chất lượng tốt”, Hội nghị: Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông , Biên Hòa 2009.

[2]. Baris Bozkurt, Thierry Dutoit, Romain Prudon, Christophe D’Alessandro, Vincent , “Improving quality of mbrola synthesis for non-uniform units synthesis

“, Park, B-7000 Mons, Belgium.

[3]. Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Lê Xuân Hùng, Trịnh Văn Loan. “Influence of F0 on Vietnamese syllable perception”. Proc. of Interspeech 2005, Lisbon, pp 1697-1700, 2006.

[4]. Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Trịnh Văn Loan, Lê Xuân Hùng. “Linear F0 Contour Model for Vietnamese Tones and Vietnamese

Syllable Synthesis with TD-PSOLA”. Proc. TAL 2006, La Rochelle, April 2006.

[5]. M. Edgington and A. Lowry,”Residual-Based Speech Modification Algorithms for Text-to-Speech Synthesis”, BT Laboratories, Martlesham Heath, IPSWICH, IP5 7RE, U.K.

[6]. Hansjörg Mixdorff, Nguyen Hung Bach, Hiroya Fujisaki, Mai Chi Luong, “Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese”, EuroSpeech 2003 – GENEVA.

[7]. Nguyen Thanh Kien, Nguyen Duc Thang, Le Thai Hoa, Trinh Van Loan,”DSP-based Embedded System for Text to Speech Synthesis of Vietnamese”, Proceeding of the 2nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp 215-219.

[8]. Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc, “Building a large Vietnamese Speech Database”. Tạp chí Khoa học và Công nghệ (ISBN 0868- 3980) Vol 46/47, February 2004, pp 13-17.

[9]. Lê Trung Dũng, “Xây dựng công cụ khảo sát ảnh hưởng của các tham số cơ bản đến chất lượng tiếng nói bộ tổng hợp tiếng Việt dùng TD-PSOLA” , Luận văn Cao học, Đại học Bách khoa, năm 2007.

[10]. Lã Thế Vinh “Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760” Luận văn cao học, Đại học Bách khoa, năm 2007.

[11]. Lã Thế Vinh, Trịnh Văn Loan, “Vietnamese Recognition and Synthesis with T-engine Embedded System”, Proceeding of the 2nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp133-137.

[12]. Thierry Dutoit "An Introduction to Text-to-Speech Synthesis" 1997

[13]. Xuedong Huang, Alejandro Acero, Hsiao-Wuen Hon,” PH Spoken Language Processing - A Guide to Theory, Algorithm and System Developmen” October 2000.

[14]. Phần mềm: Praat, WaveSufer, WASP, Adobe Audition 1.5.

[15]. URL: http://ngonngu.net

Tóm tắt luận văn

Đề tài “Tổng hợp tiếng Việt chất lượng tốt” được thực hiện bởi học viên Đinh Đồng Lưỡng dưới sự hướng dẫn của TS.Trịnh Văn Loan, đã đặt ra nhiệm vụ nhằm xây dựng bộ tổng hợp tiếng Việt chất lượng tốt với cách tiếp cận mới về tổng hợp tiếng Việt, trong đó yếu tố chất lượng tổng hợp thanh điệu được đưa lên hàng đầu. Nội dung của luận văn bao gồm 2 phần chính:

Xây dựng bộ cơ sở dữ liệu cho tổng hợp tiếng Việt chất lượng tốt: - Xây dựng danh sách đơn vị âm đầu và đơn vị âm cuối

- Xây dựng kịch bản thu - Chọn giọng và thu âm

Xây dựng bộ tổng hợp tiếng Việt chất lượng tốt.

- Xây dựng bộ tổng hợp tiếng Việt bằng phương pháp ghép nối

- Xây dựng một số giải thuật đề xuất nhằm nâng cao chất lượng tiếng Việt tống hợp tại vị trí ghép nối

+ Cân bằng tần số cơ bản F0 + Cân bằng biên độ

+ Cân bằng phổ

Kết quả thực hiện của đề tài cho thấy chất lượng tiếng Việt được tổng hợp là tự nhiên.

Một phần của tài liệu tổng hợp tiếng việt chất lượng tốt (Trang 85 - 90)