So sánh chất lượng giọng tổng hợp giữa chương trình thử nghiệm với hệ tổng hợp

Một phần của tài liệu Nghiên cứu các phương pháp tổng hợp tiếng Việt cho hệ thống có tài nguyên hạn chế (Trang 64)

hệ tổng hợp VnVoice và phiên bản VnSpeech chạy trên nền tảng Window Mobile

Trong [2], tác giả đã đưa ra một số đánh giá về chất lượng giọng tổng hợp của các chương trình: VietVoice, VnVoice1.0, VnSpeech, VnMobileSpeech. Trong đó, về phương diện bộ nhớ, VnVoice1.0 và VnSpeech hoàn toàn có thể chuyển đổi để tích hợp trong các hệ thống hạn chế tài nguyên. Hiện nay, VnSpeech đã có phiên bản trên WinCE [5] (có thể chạy trên Pocket PC).

Dựa trên cơ sở đó, tôi đã tiến hành khảo sát để đánh giá chất lượng giọng tổng hợp của VnPDA với phiên bản VnSpeech trên WinCE và hệ tổng hợp VnVoice. Trong đó, chúng ta đều biết VnVoice là một trong những hệ tổng hợp tiếng Việt cho chất lượng giọng tổng hợp rất tốt.

Các câu, từ được chọn khảo sát cố định được bao trong bảng 4.3.1. Ngoài ra, mỗi người nghe sẽ yêu cầu thêm khoảng 3 đến 5 câu từ ngẫu nhiên khác.

Khảo sát được thực hiện với 30 người ở những trình độ khác nhau. Điểm chất lượng sẽ được tính theo thang 100. Giả sử coi chất lượng giọng tổng hợp của VnVoice luôn là 100 thì khảo sát cho kết quả trung bình trên số người như trong bảng 4.3.2. Với kết quả này, chúng ta có thể thấy rằng chất lượng giọng tổng hợp của hệ tổng hợp VnPDA giảm xuống rất ít so với hệ tổng hợp cơ sở là VnVoice.

Bảng 4.3.1: Thống kê và so sánh một số chương trình tổng hợp tiếng Việt hiện nay [2].

STT Sản phẩm

(dung lượng) Nơi phát triển PP tổng hợp Ưu điểm/nhược điểm

1 VietVoice4.0 (81MB)

Giáo sư Lê Tang Hồ, Đại học Moscton, New Brunswick, Canada.

Diphone Nhược điểm: Tổng hợp thanh điệu kém, phụ âm không rõ, đặc biệt âm mũi

Ưu điểm: Dễ sử dụng, người dùng có thể tự phát

triển dựa trên bộ mã nguồn viết cho tiếng Anh.

2 VnSpeech1.0 (317KB)

Trung tâm Công nghệ Vi điện tử và Tin học - Viện Ứng dụng Công nghệ Hà Nội.

Formant Nhược điểm: Chất lượng kém, nghe không rõ âm tiết. Giọng nói máy móc, không tự nhiên, khó cải tiến.

Ưu điểm: CSDL nhỏ, mềm dẻo, dễ tích hợp trong

các ứng dụng nhúng. 3 VnMobile Speech (800KB) Phòng Nhận dạng và Công nghệ tri thức, Viện CNTT, Viện Khoa học Việt Nam.

Tổng hợp ghép nối

Nhược điểm: đọc rời rạc, chưa xử lý ngôn điệu

Ưu điểm: CSDL nhỏ, thích hợp với các ứng dụng

yêu cầu bộ nhớ nhỏ, đặc biệt là trên môi trường điện thoại di động.

4 VnVoice1.0 (6.4MB)

Phòng Nhận dạng và Công nghệ tri thức, Viện CNTT, Viện Khoa học Việt Nam.

Ghép nối âm vị Nhược điểm: đọc rời rạc, chưa xử lý ngôn điệu

Hình 4.3.1: Câu “Tôi đang học nói tiếng Việt” trong phần mềm VnSpeech 1.0. Tổng hợp Formant [2].

Hình 4.3.2: Câu “Tôi đang học nói tiếng Việt” trong phần mềm VnVoice1.0. Tổng hợp ghép nối [2].

Bảng 3.4.1: Các âm tiết, từ, cụm từ, câu sử dụng cho khảo sát

STT Nội dung

1 Tôi

2 Tôi yêu em

3 Tôi yêu em đến nay chừng có thể

4 Đừng để tháng năm làm mệt mỏi trái tim chờ đợi

5 Học

6 Tiếng Việt

7 Tôi đang học tiếng Việt

8 Hôm qua

9 Hôm qua em tới trường

10 Sao có thể cùng nhau vượt qua gian khổ 11 Sao khó bên nhau chia ngọt xẻ bùi 12 Tập đọc

13 Sao anh không về chơi thôn vĩ 14 Hoàng Hoa Thám 15 Đội cấn 16 Bưởi 17 Hai Bà Trưng 18 Nguyễn Trường Tộ 19 Phạm Văn Đồng 20 Nguyễn Chí Thanh

Bảng 4.3.2: Thống kê chất lượng giọng tổng hợp

Phân loại Số lượng VnVoice VnPDA VnSpeech

Trên 60 tuổi 5 người 100 100 10

Trên 40 tuổi, dưới 60 tuổi 5 người 100 98 25

Trên 30 tuổi, dưới 40 tuổi 5 người 100 97 30

Trên 20 tuổi, dưới 30 tuổi 6 người 100 97 30

Trên 10 tuổi, dưới 20 tuổi 6 người 100 97 30

KẾT LUẬN

Kết quả đạt được

Trải qua hơn một năm nghiên cứu và thử nghiệm, luận văn đã đóng góp một số kết quả sau:

 Đề xuất giải pháp tối ưu về kích thước bộ nhớ và tính toán để xây dựng hệ tổng hợp tiếng nói dựa trên ghép nối trên hệ thống tài nguyên hạn chế.

 Xây dựng chương trình thử nghiệm tổng hợp tiếng nói dựa trên ghép nối trên Pocket PC chạy Windows Mobile.

Hướng phát triển

Do thời gian thực hiện có hạn, luận văn chưa thể khai thác được tất cả những khía cạnh có liên quan đến vấn đề tổng hợp tiếng nói trên hệ thống hạn chế tài nguyên. Hướng phát triển tiếp theo của đề tài là:

 Nghiên cứu giải pháp khắc phục hạn chế phương pháp tổng hợp dựa trên tham số thống kê với bộ tổng hợp HTS.

 Nghiên cứu giải pháp xây dựng hệ tổng hợp tiếng Việt trên các vi điều khiển không có hệ điều hành.

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Ngô Hoàng Huy, Nguyễn Thị Thanh Mai, Bùi Quang Trung (2002), “Chuẩn hóa và

phân tích tiếng Việt cho tổng hợp tiếng Việt”, Kỷ yếu Hội thảo quốc gia về công nghệ

thông tin, Nha Trang.

2. Nguyễn Thị Thanh Mai, Nghiên cứu các phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice, Luận văn Thạc sĩ, Trường Đại học

Công nghệ, Đại học Quốc gia Hà Nội.

3. Trịnh Anh Tuấn, Nghiên cứu các đặc trưng để phân tích và tổng hợp tín hiệu âm tần,

Luận án Tiến sĩ, Học viện Công nghệ Bưu chính Viễn thông.

4. Lưu Hồng Việt, Hệ thống điều khiển nhúng, bài giảng, Bộ môn Điều khiển tự động,

Trường Đại học Bách khoa Hà Nội.

5. http://www.vnisg.com/vnisg-sanpham-181-0-0-0.html

Tiếng Anh

6. J. Allen, M. Sharon Hunnicutt and Klatt (1987), From text To speech – The MITalk Systems, Cambridge University Press.

7. Bamini, Praveen Kumar (2003), FPGA-based Implementation of Concatenative Speech

Synthesis Algorithm, Theses and Dissertations.

8. D. Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, and CostelIlas (2004), An Optimized TTS System Implementation Using a Motorola Starcore C140-Based Processor, Proceedings of the International Conference on Acoustics, Speech, and Signal Processing ICASSP 2004.

9. P. Dent, Aaron Aboagye (2002), G.726 Adaptive Differential Pulse Coding Modulation

(ADPCM) on the TMS320C54x DSP, Texas Instrument.

10. S. Dey, Monu Kedia, Anupam Basu (2007), Architectural Optimizations for Text to Speech Synthesis in Embedded Systems, Proceedings of the Asia and South Pacific

Design Automation Conference (ASP-DAC '07) 2007.

11. T. DUTOIT, H. LEICH (1993), "MBR-PSOLA : Text-To-Speech Synthesis based on an MBE Re-Synthesis of the Segments Database", Speech Communication, Elsevier

Publisher, November, vol. 13, n°3-4.

12. M.J. LIBERMAN, K.W. CHURCH (1992), "Text analysis and word pronunciation in

text-to-speech synthesis", in Advances in Speech Signal Processing, S. Furuy, M.M.

Sondhi eds., Dekker, New York, pp.791-831.

13. J. Patton (2007), ELEC 484 Project – Pitch Synchronous Overlap-Add,

http://www.ece.uvic.ca/~jpatton/yeshua1984/Elec484/Elec484_files/ELEC%20484%2 0-%20PSOLA%20Final%20Project%20Report.pdf.

14. H. Sheikhzadeh, Etienne Cornu, Robert Brennan, and Todd Schneider (2002), Real- Time Speech Synthesis on An Ultra Low-Resource, Programable DSP System,

Proceedings of the International Conference on Acoustics, Speech, and Signal Processing ICASSP 2002.

15. Styger, T., Keller, E., Formant synthesis. In E.keller (ed.), Fundamental of Speech Synthesis and Speech Recognition: Basic concepts, State of the Art, and Future Challenges, (pp. 109-128), Chichester: Jonh Wiley. (from Internet).

16. Xuedong H. (1997), Recent Improvement on Microsoft’s Trainable Text-to-Speech Systems, ICASSP.

17. J. Yu, Meng Zhang, Jianhua Tao, Xia Wang (2007), A Novel HMM-Based TTS System Using Both Continuous HMMs and Discrete HMMs, Proceedings of the

International Conference on Acoustics, Speech, and Signal Processing ICASSP 2007. 18. H. Zen, Takashi Nose, Junichi Yamagishi, Shinji Sako, Takashi Masuko, AlanW.

Black, Keiichi Tokuda (2007), The HMM-basedSpeech Synthesis System (HTS) Version 2.0, 6th ISCA Workshop on Speech Synthesis, Bonn, Germany.

19. https://www5.dialogic.com/products/docs/appnotes/10532_Dialogic_ADPCM_Algorit hm_an.pdf 20. http://www.ebroadcast.com.au/lookup/encyclopedia/te/Text_to_speech.html 21. http://hts.sp.nitech.ac.jp/. 22. http://www.fon.hum.uva.nl/praat/

Một phần của tài liệu Nghiên cứu các phương pháp tổng hợp tiếng Việt cho hệ thống có tài nguyên hạn chế (Trang 64)

Tải bản đầy đủ (PDF)

(70 trang)