hệ tổng hợp VnVoice và phiên bản VnSpeech chạy trên nền tảng Window Mobile
Trong [2], tác giả đã đưa ra một số đánh giá về chất lượng giọng tổng hợp của các chương trình: VietVoice, VnVoice1.0, VnSpeech, VnMobileSpeech. Trong đó, về phương diện bộ nhớ, VnVoice1.0 và VnSpeech hoàn toàn có thể chuyển đổi để tích hợp trong các hệ thống hạn chế tài nguyên. Hiện nay, VnSpeech đã có phiên bản trên WinCE [5] (có thể chạy trên Pocket PC).
Dựa trên cơ sở đó, tôi đã tiến hành khảo sát để đánh giá chất lượng giọng tổng hợp của VnPDA với phiên bản VnSpeech trên WinCE và hệ tổng hợp VnVoice. Trong đó, chúng ta đều biết VnVoice là một trong những hệ tổng hợp tiếng Việt cho chất lượng giọng tổng hợp rất tốt.
Các câu, từ được chọn khảo sát cố định được bao trong bảng 4.3.1. Ngoài ra, mỗi người nghe sẽ yêu cầu thêm khoảng 3 đến 5 câu từ ngẫu nhiên khác.
Khảo sát được thực hiện với 30 người ở những trình độ khác nhau. Điểm chất lượng sẽ được tính theo thang 100. Giả sử coi chất lượng giọng tổng hợp của VnVoice luôn là 100 thì khảo sát cho kết quả trung bình trên số người như trong bảng 4.3.2. Với kết quả này, chúng ta có thể thấy rằng chất lượng giọng tổng hợp của hệ tổng hợp VnPDA giảm xuống rất ít so với hệ tổng hợp cơ sở là VnVoice.
Bảng 4.3.1: Thống kê và so sánh một số chương trình tổng hợp tiếng Việt hiện nay [2].
STT Sản phẩm
(dung lượng) Nơi phát triển PP tổng hợp Ưu điểm/nhược điểm
1 VietVoice4.0 (81MB)
Giáo sư Lê Tang Hồ, Đại học Moscton, New Brunswick, Canada.
Diphone Nhược điểm: Tổng hợp thanh điệu kém, phụ âm không rõ, đặc biệt âm mũi
Ưu điểm: Dễ sử dụng, người dùng có thể tự phát
triển dựa trên bộ mã nguồn viết cho tiếng Anh.
2 VnSpeech1.0 (317KB)
Trung tâm Công nghệ Vi điện tử và Tin học - Viện Ứng dụng Công nghệ Hà Nội.
Formant Nhược điểm: Chất lượng kém, nghe không rõ âm tiết. Giọng nói máy móc, không tự nhiên, khó cải tiến.
Ưu điểm: CSDL nhỏ, mềm dẻo, dễ tích hợp trong
các ứng dụng nhúng. 3 VnMobile Speech (800KB) Phòng Nhận dạng và Công nghệ tri thức, Viện CNTT, Viện Khoa học Việt Nam.
Tổng hợp ghép nối
Nhược điểm: đọc rời rạc, chưa xử lý ngôn điệu
Ưu điểm: CSDL nhỏ, thích hợp với các ứng dụng
yêu cầu bộ nhớ nhỏ, đặc biệt là trên môi trường điện thoại di động.
4 VnVoice1.0 (6.4MB)
Phòng Nhận dạng và Công nghệ tri thức, Viện CNTT, Viện Khoa học Việt Nam.
Ghép nối âm vị Nhược điểm: đọc rời rạc, chưa xử lý ngôn điệu
Hình 4.3.1: Câu “Tôi đang học nói tiếng Việt” trong phần mềm VnSpeech 1.0. Tổng hợp Formant [2].
Hình 4.3.2: Câu “Tôi đang học nói tiếng Việt” trong phần mềm VnVoice1.0. Tổng hợp ghép nối [2].
Bảng 3.4.1: Các âm tiết, từ, cụm từ, câu sử dụng cho khảo sát
STT Nội dung
1 Tôi
2 Tôi yêu em
3 Tôi yêu em đến nay chừng có thể
4 Đừng để tháng năm làm mệt mỏi trái tim chờ đợi
5 Học
6 Tiếng Việt
7 Tôi đang học tiếng Việt
8 Hôm qua
9 Hôm qua em tới trường
10 Sao có thể cùng nhau vượt qua gian khổ 11 Sao khó bên nhau chia ngọt xẻ bùi 12 Tập đọc
13 Sao anh không về chơi thôn vĩ 14 Hoàng Hoa Thám 15 Đội cấn 16 Bưởi 17 Hai Bà Trưng 18 Nguyễn Trường Tộ 19 Phạm Văn Đồng 20 Nguyễn Chí Thanh
Bảng 4.3.2: Thống kê chất lượng giọng tổng hợp
Phân loại Số lượng VnVoice VnPDA VnSpeech
Trên 60 tuổi 5 người 100 100 10
Trên 40 tuổi, dưới 60 tuổi 5 người 100 98 25
Trên 30 tuổi, dưới 40 tuổi 5 người 100 97 30
Trên 20 tuổi, dưới 30 tuổi 6 người 100 97 30
Trên 10 tuổi, dưới 20 tuổi 6 người 100 97 30
KẾT LUẬN
Kết quả đạt được
Trải qua hơn một năm nghiên cứu và thử nghiệm, luận văn đã đóng góp một số kết quả sau:
Đề xuất giải pháp tối ưu về kích thước bộ nhớ và tính toán để xây dựng hệ tổng hợp tiếng nói dựa trên ghép nối trên hệ thống tài nguyên hạn chế.
Xây dựng chương trình thử nghiệm tổng hợp tiếng nói dựa trên ghép nối trên Pocket PC chạy Windows Mobile.
Hướng phát triển
Do thời gian thực hiện có hạn, luận văn chưa thể khai thác được tất cả những khía cạnh có liên quan đến vấn đề tổng hợp tiếng nói trên hệ thống hạn chế tài nguyên. Hướng phát triển tiếp theo của đề tài là:
Nghiên cứu giải pháp khắc phục hạn chế phương pháp tổng hợp dựa trên tham số thống kê với bộ tổng hợp HTS.
Nghiên cứu giải pháp xây dựng hệ tổng hợp tiếng Việt trên các vi điều khiển không có hệ điều hành.
TÀI LIỆU THAM KHẢO Tiếng Việt
1. Ngô Hoàng Huy, Nguyễn Thị Thanh Mai, Bùi Quang Trung (2002), “Chuẩn hóa và
phân tích tiếng Việt cho tổng hợp tiếng Việt”, Kỷ yếu Hội thảo quốc gia về công nghệ
thông tin, Nha Trang.
2. Nguyễn Thị Thanh Mai, Nghiên cứu các phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice, Luận văn Thạc sĩ, Trường Đại học
Công nghệ, Đại học Quốc gia Hà Nội.
3. Trịnh Anh Tuấn, Nghiên cứu các đặc trưng để phân tích và tổng hợp tín hiệu âm tần,
Luận án Tiến sĩ, Học viện Công nghệ Bưu chính Viễn thông.
4. Lưu Hồng Việt, Hệ thống điều khiển nhúng, bài giảng, Bộ môn Điều khiển tự động,
Trường Đại học Bách khoa Hà Nội.
5. http://www.vnisg.com/vnisg-sanpham-181-0-0-0.html
Tiếng Anh
6. J. Allen, M. Sharon Hunnicutt and Klatt (1987), From text To speech – The MITalk Systems, Cambridge University Press.
7. Bamini, Praveen Kumar (2003), FPGA-based Implementation of Concatenative Speech
Synthesis Algorithm, Theses and Dissertations.
8. D. Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, and CostelIlas (2004), An Optimized TTS System Implementation Using a Motorola Starcore C140-Based Processor, Proceedings of the International Conference on Acoustics, Speech, and Signal Processing ICASSP 2004.
9. P. Dent, Aaron Aboagye (2002), G.726 Adaptive Differential Pulse Coding Modulation
(ADPCM) on the TMS320C54x DSP, Texas Instrument.
10. S. Dey, Monu Kedia, Anupam Basu (2007), Architectural Optimizations for Text to Speech Synthesis in Embedded Systems, Proceedings of the Asia and South Pacific
Design Automation Conference (ASP-DAC '07) 2007.
11. T. DUTOIT, H. LEICH (1993), "MBR-PSOLA : Text-To-Speech Synthesis based on an MBE Re-Synthesis of the Segments Database", Speech Communication, Elsevier
Publisher, November, vol. 13, n°3-4.
12. M.J. LIBERMAN, K.W. CHURCH (1992), "Text analysis and word pronunciation in
text-to-speech synthesis", in Advances in Speech Signal Processing, S. Furuy, M.M.
Sondhi eds., Dekker, New York, pp.791-831.
13. J. Patton (2007), ELEC 484 Project – Pitch Synchronous Overlap-Add,
http://www.ece.uvic.ca/~jpatton/yeshua1984/Elec484/Elec484_files/ELEC%20484%2 0-%20PSOLA%20Final%20Project%20Report.pdf.
14. H. Sheikhzadeh, Etienne Cornu, Robert Brennan, and Todd Schneider (2002), Real- Time Speech Synthesis on An Ultra Low-Resource, Programable DSP System,
Proceedings of the International Conference on Acoustics, Speech, and Signal Processing ICASSP 2002.
15. Styger, T., Keller, E., Formant synthesis. In E.keller (ed.), Fundamental of Speech Synthesis and Speech Recognition: Basic concepts, State of the Art, and Future Challenges, (pp. 109-128), Chichester: Jonh Wiley. (from Internet).
16. Xuedong H. (1997), Recent Improvement on Microsoft’s Trainable Text-to-Speech Systems, ICASSP.
17. J. Yu, Meng Zhang, Jianhua Tao, Xia Wang (2007), A Novel HMM-Based TTS System Using Both Continuous HMMs and Discrete HMMs, Proceedings of the
International Conference on Acoustics, Speech, and Signal Processing ICASSP 2007. 18. H. Zen, Takashi Nose, Junichi Yamagishi, Shinji Sako, Takashi Masuko, AlanW.
Black, Keiichi Tokuda (2007), The HMM-basedSpeech Synthesis System (HTS) Version 2.0, 6th ISCA Workshop on Speech Synthesis, Bonn, Germany.
19. https://www5.dialogic.com/products/docs/appnotes/10532_Dialogic_ADPCM_Algorit hm_an.pdf 20. http://www.ebroadcast.com.au/lookup/encyclopedia/te/Text_to_speech.html 21. http://hts.sp.nitech.ac.jp/. 22. http://www.fon.hum.uva.nl/praat/