Nghiêncứucácphươngpháptổnghợptiếng
Việt chocáchệthốngcótàinguyênhạnchế
Nguyễn Tu Trung
Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số: 60 48 10
Người hướng dẫn: PGS.TS. Lương Chi Mai
Năm bảo vệ: 2011
Abstract: Tổng quan về tổnghợptiếng nói và hệthốnghạnchếtài nguyên. Trình bày
khái quát về tổnghợptiếng nói và lịch sử phát triển cũng như ứng dụng của nó và một
số phươngpháptổnghợptiếng nói. Một số đặc điểm của ngữ âm, ngôn điệu tiếng
Việt. Giới thiệu sơ lược về cáchệthốnghạnchếtài nguyên. Tổnghợptiếng nói từ văn
bản và yêu cầu trên hệthốngtàinguyênhạn chế. Trình bày thành phần cơ bản của hệ
tổng hợptiếng nói từ văn bản. Phân tích về vấn đề tổnghợptiếng nói trên hệthốngtài
nguyên hạnchế và đưa ra những yêu cầu, điều kiện cần thiết để một hệtổnghợp trên
máy tính có thể chuyển xuống hệthống này. Giới thiệu và phân tích về hai hệtổng
hợp tiếngViệtcó khả năng chuyển vào hệthốngtàinguyênhạn chế. Tối ưu hóa lưu
trữ và tính toán tín hiệu tiếng nói chohệtổnghợp VnVoice. Khả năng áp dụng biểu
diễn số dấu chấm tĩnh để giảm thiểu bộ nhớ và tăng tốc độ tính toán. Phân tích cách
thức tối ưu hóa lưu trữ và một số thao tác tính toán của hệtổnghợp VnVoice để thực
sự đáp ứng các yêu cầu trên hệthốnghạnchếtài nguyên. Xây dựng thử nghiệm hệ
thống tổnghợptiếngViệt trên hệthốngtàinguyên bộ nhớ hạn chế. Phân tích, thiết kế
thử nghiệm hệtổnghợptiếngViệt trên hệthốnghạnchếtàinguyên bộ nhớ. Tổng
quan về việc tích hợp lõi thư viện của chương trình thử nghiệm vào chương trình bản
đồ (tích hợp trong phần mềm ArcPad) chạy trên nền WinCE. Trình bày một thử
nghiệm so sánh chất lượng giọng tổnghợptiếngViệt giữa chương trình demo với
phiên bản VnSpeech trên WinCE và với chính hệtổnghợp VnVoice.
Keywords: Xử lý tín hiệu; Âm thanh; Tiếng Việt; Công nghệ phần mềm
Content
MỞ ĐẦU
Xử lý tiếng nói là sự nghiêncứutiếng nói của con người dưới dạng tín hiệu và các
phương pháp xử lý tín hiệu này. Tín hiệu tiếng nói thường được thể hiện dưới dạng số, tức là
được “số hóa”. Do đó, xử lý tiếng nói có thể được coi là giao của xử lý tín hiệu số và xử lý
ngôn ngữ tự nhiên. Trên thế giới, xử lý tiếng nói đã được nghiêncứu từ rất lâu. Ở Việt Nam,
khoảng hơn chục năm trở lại đây đã có một số sản phẩm ra đời cả về tổnghợp và nhận dạng
tiếng nói.
Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan, người
ta đã nghĩ đến việc nghiêncứu xây dựng hệ xử lý tiếng nói trên cáchệthốngcótàinguyên
hạn chế để đáp ứng những mục đích về giao tiếp tiếng nói trên cáchệthống này. Do đặc thù
2
của hệthốngtàinguyênhạn chế, cáchệtổnghợp chạy trên cáchệthống này cũng cần sử
dụng lượng bộ nhớ và chí phí tính toán đủ nhỏ. Và các nhà nghiêncứu trên thế giới đã đạt
được những thành công ngay cả trên những hệthốngcótàinguyên rất khiêm tốn như các loại
chip với khả năng lưu trữ và tính toán rất thấp.
Ở Việt Nam, nhu cầu nghiêncứu giải pháp xây dựng hệ xử lý tiếng nói trên cáchệ
thống tàinguyênhạnchế cũng đã xuất hiện trong một số năm gần đây. Các đề tàinghiêncứu
về việc chuyển hệ xử lý tiếng nói lên cáchệthống di động cầm tay và hệthống nhúng đã và
đang triển khai đã minh chứng cho nhu cầu này.
Trên cơ sở đó, mục đích của luận văn nhằm nghiêncứu một số phươngpháptổnghợp
tiếng nói và đề xuất cách thức tối ưu trên hệthốnghạnchếtài nguyên.
Luận văn sẽ được chia thành 4 chương bao gồm:
Chương 1: Tổng quan về tổnghợptiếng nói và hệthốnghạnchếtài nguyên.
Chương này trình bày khái quát về tổnghợptiếng nói và lịch sử phát triển cũng như ứng dụng
của nó và một số phươngpháptổnghợptiếng nói. Chương 1 cũng chỉ ra một số đặc điểm của
ngữ âm, ngôn điệu tiếng Việt. Ngoài ra, chương 1 còn giới thiệu sơ lược về cáchệthốnghạn
chế tài nguyên.
Chương 2: Tổnghợptiếng nói từ văn bản và yêu cầu trên hệthốngtàinguyên
hạn chế. Chương này giúp người đọc nắm được về các thành phần cơ bản của hệtổnghợp
tiếng nói từ văn bản. Tiếp theo, chương 2 phân tích về vấn đề tổnghợptiếng nói trên hệthống
tài nguyênhạnchế và đưa ra những yêu cầu, điều kiện cần thiết để một hệtổnghợp trên máy
tính có thể chuyển xuống hệthống này. Cuối cùng, chương 2 giới thiệu và phân tích về hai hệ
tổng hợptiếngViệtcó khả năng chuyển vào hệthốngtàinguyênhạn chế.
Chương 3: Tối ưu hóa lưu trữ và tính toán tín hiệu tiếng nói chohệtổnghợp
VnVoice. Chương này chỉ ra khả năng áp dụng biểu diễn số dấu chấm tĩnh để giảm thiểu bộ
nhớ và tăng tốc độ tính toán. Chương 3 còn phân tích cách thức tối ưu hóa lưu trữ và một số
thao tác tính toán của hệtổnghợp VnVoice để thực sự đáp ứng các yêu cầu trên hệthốnghạn
chế tài nguyên.
Chương 4: Xây dựng thử nghiệm hệthốngtổnghợptiếngViệt trên hệthốngtài
nguyên bộ nhớ hạn chế. Chương này trình bày việc phân tích, thiết kế thử nghiệm hệtổng
hợp tiếngViệt trên hệthốnghạnchếtàinguyên bộ nhớ. Sau đó, chương 4 trình bày sơ lược
về việc tích hợp lõi thư viện của chương trình thử nghiệm vào chương trình bản đồ (tích hợp
trong phần mềm ArcPad) chạy trên nền WinCE. Sau đó, chương 4 cũng trình bày một thử
nghiệm so sánh chất lượng giọng tổnghợptiếngViệt giữa chương trình demo với phiên bản
VnSpeech trên WinCE và với chính hệtổnghợp VnVoice.
Trong luận văn, các trích dẫn của các tác giả khác liên quan đến lĩnh vực nghiêncứu đặt trong
dấu ngoặc vuông [].
References
Tiếng Việt
1. Ngô Hoàng Huy, Nguyễn Thị Thanh Mai, Bùi Quang Trung (2002), “Chuẩn hóa và phân
tích tiếngViệtchotổnghợptiếng Việt”, Kỷ yếu Hội thảo quốc gia về công nghệ thông tin,
Nha Trang.
3
2. Nguyễn Thị Thanh Mai, Nghiêncứucácphươngpháp nâng cao chất lượng tổnghợptiếng
Việt và thử nghiệm cho phần mềm VnVoice, Luận văn Thạc sĩ, Trường Đại học Công nghệ,
Đại học Quốc gia Hà Nội.
3. Trịnh Anh Tuấn, Nghiêncứucác đặc trưng để phân tích và tổnghợp tín hiệu âm tần, Luận
án Tiến sĩ, Học viện Công nghệ Bưu chính Viễn thông.
4. Lưu Hồng Việt, Hệthống điều khiển nhúng, bài giảng, Bộ môn Điều khiển tự động,
Trường Đại học Bách khoa Hà Nội.
5. http://www.vnisg.com/vnisg-sanpham-181-0-0-0.html
Tiếng Anh
6. J. Allen, M. Sharon Hunnicutt and Klatt (1987), From text To speech – The MITalk
Systems, Cambridge University Press.
7. Bamini, Praveen Kumar (2003), FPGA-based Implementation of Concatenative Speech
Synthesis Algorithm, Theses and Dissertations.
8. D. Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, and CostelIlas (2004), An
Optimized TTS System Implementation Using a Motorola Starcore C140-Based Processor,
Proceedings of the International Conference on Acoustics, Speech, and Signal Processing
ICASSP 2004.
9. P. Dent, Aaron Aboagye (2002), G.726 Adaptive Differential Pulse Coding Modulation
(ADPCM) on the TMS320C54x DSP, Texas Instrument.
10. S. Dey, Monu Kedia, Anupam Basu (2007), Architectural Optimizations for Text to
Speech Synthesis in Embedded Systems, Proceedings of the Asia and South Pacific Design
Automation Conference (ASP-DAC '07) 2007.
11. T. DUTOIT, H. LEICH (1993), "MBR-PSOLA : Text-To-Speech Synthesis based on an
MBE Re-Synthesis of the Segments Database", Speech Communication, Elsevier
Publisher, November, vol. 13, n°3-4.
12. M.J. LIBERMAN, K.W. CHURCH (1992), "Text analysis and word pronunciation in
text-to-speech synthesis", in Advances in Speech Signal Processing, S. Furuy, M.M.
Sondhi eds., Dekker, New York, pp.791-831.
13. J. Patton (2007), ELEC 484 Project – Pitch Synchronous Overlap-Add,
http://www.ece.uvic.ca/~jpatton/yeshua1984/Elec484/Elec484_files/ELEC%20484%20-
%20PSOLA%20Final%20Project%20Report.pdf.
14. H. Sheikhzadeh, Etienne Cornu, Robert Brennan, and Todd Schneider (2002), Real-Time
Speech Synthesis on An Ultra Low-Resource, Programable DSP System, Proceedings of
the International Conference on Acoustics, Speech, and Signal Processing ICASSP 2002.
15. Styger, T., Keller, E., Formant synthesis. In E.keller (ed.), Fundamental of Speech
Synthesis and Speech Recognition: Basic concepts, State of the Art, and Future
Challenges, (pp. 109-128), Chichester: Jonh Wiley. (from Internet).
16. Xuedong H. (1997), Recent Improvement on Microsoft’s Trainable Text-to-Speech
Systems, ICASSP.
17. J. Yu, Meng Zhang, Jianhua Tao, Xia Wang (2007), A Novel HMM-Based TTS System
Using Both Continuous HMMs and Discrete HMMs, Proceedings of the International
Conference on Acoustics, Speech, and Signal Processing ICASSP 2007.
4
18. H. Zen, Takashi Nose, Junichi Yamagishi, Shinji Sako, Takashi Masuko, AlanW. Black,
Keiichi Tokuda (2007), The HMM-basedSpeech Synthesis System (HTS) Version 2.0, 6th
ISCA Workshop on Speech Synthesis, Bonn, Germany.
19.
https://www5.dialogic.com/products/docs/appnotes/10532_Dialogic_ADPCM_Algorithm
_an.pdf
20. http://www.ebroadcast.com.au/lookup/encyclopedia/te/Text_to_speech.html
21. http://hts.sp.nitech.ac.jp/.
22. http://www.fon.hum.uva.nl/praat/
. nghiệm hệ
thống tổng hợp tiếng Việt trên hệ thống tài nguyên bộ nhớ hạn chế. Phân tích, thiết kế
thử nghiệm hệ tổng hợp tiếng Việt trên hệ thống hạn chế tài. Nghiên cứu các phương pháp tổng hợp tiếng
Việt cho các hệ thống có tài nguyên hạn chế
Nguyễn Tu Trung
Trường Đại học Công nghệ
Luận văn