NHIỆM VỤ VÀ NỘI DUNG:- Tìm hiểu về các mô hình tổng hợp giọng nói, các công trình liên quan, các phươngpháp giải quyết bài toán, ưu và nhược điểm của các phương pháp, đặc biệt làphương p
Trang 1ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA
—————————————
HỒ MINH HOÀNG
TỔNG HỢP GIỌNG NÓI SỬ DỤNG HỌC SÂU
CHO TIẾNG BAHNAR
Chuyên ngành: Khoa học Máy tính
Mã số: 8480101
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 1 năm 2024
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM
Cán bộ hướng dẫn khoa học: PGS.TS Quản Thành Thơ
Cán bộ chấm nhận xét 1: TS Huỳnh Lương Huy Thông
2 Thư ký: TS Trần Tuấn Anh
3 Phản biện 1: TS Huỳnh Lương Huy Thông
4 Phản biện 2: TS Ngô Đức Thành
5 Ủy viên: TS Nguyễn Tiến Thịnh
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyênngành sau khi luận văn đã được sửa chữa (nếu có)
KỸ THUẬT MÁY TÍNH
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: HỒ MINH HOÀNG MSHV: 2170532
Ngày, tháng, năm sinh: 01/06/1999 Nơi sinh: Phú Yên
Chuyên ngành: Khoa học Máy tính Mã số: 8480101
I TÊN ĐỀ TÀI:
Tổng hợp giọng nói sử dụng học sâu cho tiếng Bahnar
Speech synthesis using deep learning for Bahnaric languge
II NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu về các mô hình tổng hợp giọng nói, các công trình liên quan, các phương pháp giải quyết bài toán, ưu và nhược điểm của các phương pháp, đặc biệt là
phương pháp sử dụng các mô hình học sâu.
- Nghiên cứu và đề xuất cải thiện các mô hình cho Bài toán tổng hợp giọng nói trên ngôn ngữ ít dữ liệu, thu thập và xử lý dữ liệu cho mô hình đề xuất.
- Thực nghiệm, đánh giá kết quả của các mô hình đề xuất huấn luyện trên tập dữ liệu thu thập.
III NGÀY GIAO NHIỆM VỤ : 04/09/2023
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 18/12/2023
V.CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ
Trang 4LỜI CẢM ƠN
Để hoàn thành luận văn tốt nghiệp này, học viên đã nhận được sự hỗ trợ tíchcực từ rất nhiều phía Đầu tiên và quan trọng nhất, em xin gửi lời cảm ơn chânthành đến giảng viên hướng dẫn trực tiếp của em, thầy PGS.TS Quản ThànhThơ Thầy là người định hướng chính, cung cấp tài liệu cũng như theo dõi quátrình thực hiện đề tài và hỗ trợ khi em gặp khó khăn
Em xin được tỏ lòng biết ơn sự tận tình dạy dỗ, giúp đỡ của quý thầy côtrong khoa Khoa học và Kỹ thuật Máy tính nói riêng cũng như trường Đại họcBách khoa TP Hồ Chí Minh nói chung Những kiến thức nhận được từ quý thầy
cô là vô cũng quý giá và bổ ích, hỗ trợ rất lớn cho em có thể hoàn thành luận văntốt nghiệp này
Em cũng xin được gửi lời cảm ơn đến các anh/bạn trong nhóm TTS đã gíup
đỡ em, chia sẻ kinh nghiệm trong quá trình hoàn thành luận văn này
Cuối cùng, em muốn gửi lời cảm ơn đến gia đình, người thân, bạn bè, nhữngngười đã quan tâm, động viên, giúp đỡ cả về thể chất lẫn tinh thần để em có đủnghị lực, sức khỏe hoàn thành tốt luận văn tốt nghiệp này
Với lòng biết ơn chân thành, em xin gửi lời chúc sức khỏe cũng như nhữnglời chúc tốt đẹp nhất đến các quý thầy cô trong Khoa Khoa học và Kỹ thuật Máytính - Trường Đại Học Bách Khoa Đại Học Quốc Gia Thành phố Hồ Chí Minh
TP Hồ Chí Minh, tháng 12 năm 2023
Trang 5TÓM TẮT LUẬN VĂN
Bài toán về việc tổng hợp giọng nói từ văn bản và đồng thời các bài toán liênquan đến việc tạo ra giọng nói của con người, đã được nghiên cứu và ứng dụngtrong thực tiễn từ nhiều năm trước Trong những năm trở lại đây, bài toán này
đã được quan tâm và trở nên phổ biến hơn do sự phát triển mạnh mẽ của các môhình học sâu có khả năng xử lý tốt tính tuần tự đã đạt được những thành tựu tolớn trong nhiều tác vụ của lĩnh vực Xử lý ngôn ngữ tự nhiên và tái tạo giọng nói.Tuy nhiên, hầu hết các nghiên cứu trước đó đều tập trung trên các ngôn ngữ cónguồn dữ liệu lớn, dồi dào như tiếng Anh, tiếng Trung Với các ngôn ngữ ít tàinguyên như tiếng Việt, tiếng dân tộc thiểu số thì các kết quả, nghiên cứu ít hơnrất nhiều Do đó, trong luận văn này, dựa trên cơ sở mô hình Grad-TTS và môhình StarGANv2, học viên sẽ tập trung khai thác và đề xuất cách kết hợp để cóthể tạo ra mô hình tổng hợp giọng nói có tính tự nhiên nhất cho tiếng người dântộc thiểu số Bahnar - một ngôn ngữ có ít nguồn dữ liệu
Trang 6ABSTRACT OF THESIS
The problem of synthesizing speech from text, along with related tasks volving the generation of human-like speech, has been researched and applied inpractice for many years In recent years, this problem has garnered increased at-tention and popularity due to the robust development of deep learning modelscapable of effectively handling sequential information, achieving significant break-throughs in various tasks within the Natural Language Processing (NLP) field andspeech synthesis However, most previous studies have primarily focused on lan-guages with abundant resources, such as English and Chinese For languages withfewer resources, such as Vietnamese and minority languages, there is a significantscarcity of research results Therefore, this thesis, based on the Grad-TTS modeland the StarGANv2 model, will concentrate on exploring and proposing an ap-proach to combine these models to create a speech synthesis model that exhibitsthe most natural characteristics for the Bahnar minority language - a languagewith limited available data
Trang 7in-LỜI CAM ĐOAN
Học viên xin cam đoan luận văn tốt nghiệp: “TỔNG HỢP GIỌNG NÓI SỬDỤNG HỌC SÂU CHO TIẾNG BAHNAR” là công trình nghiên cứu của bảnthân Những phần tài liệu được sử dụng trong luận văn đã được nêu rõ trong phầnTài liệu tham khảo Các số liệu, kết quả trình bày trong luận văn là hoàn toàntrung thực, nếu có sai sót học viên xin chịu hoàn toàn trách nhiệm và chịu mọi kỷluật của bộ môn và nhà trường đề ra
Học viên
Hồ Minh Hoàng
Trang 8Mục lục
1.1 Giới thiệu chung 1
1.2 Mục tiêu và nhiệm vụ của luận văn 3
1.3 Giới hạn đề tài 4
1.4 Đóng góp của luận văn 4
1.5 Tóm tắt nội dung 5
2 CƠ SỞ LÝ THUYẾT 7 2.1 Mel-spectrogram 7
2.2 Mô hình Artificial Neural Network - ANN 8
2.3 Mạng tích chập Convolutional Neural Network - CNN 11
2.4 Mô hình mạng Generative Adversarial Networks 13
2.4.1 Mô hình sinh (Generator) 14
2.4.2 Mô hình phân biệt (Discriminator) 15
2.5 Mô hình mạng Long short term memory 16
3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 19 3.1 Các kỹ thuật cho bài toán tổng hợp tiếng nói từ văn bản 19
3.1.1 Phương pháp tổng hợp khớp nối (Articulatory synthesis) 20
3.1.2 Phương pháp tổng hợp hình thái (Formant synthesis) 21
3.1.3 Phương pháp tổng hợp nối tiếp (Concatenative Synthesis) 22 3.1.4 Phương pháp tổng hợp tham số thống kê (Statistical Para-metric Speech Synthesis) 24
3.1.5 Các thành phần chính của mô hình cho bài toán TTS hiện đại sử dụng học sâu 25
Trang 93.1.5.1 Phân tích văn bản 25
3.1.5.2 Mô hình âm thanh 26
3.1.5.3 Bộ phát âm 27
3.2 Các kỹ thuật cho bài toán Chuyển đổi giọng nói 28
3.2.1 Hướng tiếp cận sử dụng mã hoá tự động (Auto encoder) 28 3.2.2 Hướng tiếp cận sử dụng Mô hình mạng sinh đối nghịch (GAN) 30
3.2.3 Hướng tiếp cận sử dụng Mô hình tổng hợp giọng nói 31
4 MÔ HÌNH ĐỀ XUẤT 33 4.1 Mô hình tham khảo 33
4.1.1 Mô hình Grad-TTS 33
4.1.2 Mô hình StarGANv2-VC 36
4.1.3 Mô hình HiFi-GAN 38
4.2 Hệ thống âm vị cho tiếng Bahnar 39
4.3 Mô hình đề xuất 41
4.3.1 Tổng quan mô hình đề xuất BN-TTS-VC 41
4.3.2 Grad-TTS cho tổng hợp tiếng Bahnar 42
4.3.3 Mô hình HiFi-GAN-BN huấn luyện trên tiếng Bahnar cho bộ phát âm của mô hình Grad-TTS 44
4.3.4 Chuyển đổi giọng nói cho tiếng Bahnar bởi mô hình Star-GANv2 47
4.4 Tập dữ liệu và phương pháp xử lí 50
4.5 Kết quả thực nghiệm và thảo luận 51
5 KẾT LUẬN 53 5.1 Kết quả đạt được 53
5.2 Hạn chế và vấn đề tồn đọng 54
5.3 Hướng phát triển 54
Tài liệu tham khảo 55 A Phụ lục 59 A.1 Phụ lục 1 59
Trang 10A.2 Phụ lục 2 60A.3 Phụ lục 3 61
Trang 11Danh sách hình vẽ
1.1 Quá trình xử lý tổng hợp giọng nói từ văn bản 2
2.1 Ảnh mel-spectrogram của âm thanh 8
2.2 Cấu trúc của một Perceptron 9
2.3 Các hàm phi tuyến được sử dụng trong Perceptron 10
2.4 Mô hình CNN cơ bản 11
2.5 Mô hình mạng Generative Adversarial Networks 13
2.6 Mô hình sinh (Generator) 14
2.7 Mô hình phân biệt (Discriminator) 15
2.8 Kiến trúc của LSTM 17
3.1 Các hướng tiếp cận cho bài toán tổng hợp giọng nói 19
3.2 Phương pháp tổng hợp hình thái 22
3.3 Phương pháp tổng hợp nối tiếp 23
3.4 Kiến trúc cơ bản của mô hình TTS 25
4.1 Mô hình xác suất khuếch tán cho mel-spectrograms [21] 35
4.2 Kiến trúc mô hình Grad-TTS [21] 35
4.3 Mô hình StarGANv2-VC [22] 37
4.4 Bộ sinh (Generator) của mô hình HiFi-GAN [13] 38
4.5 Bộ phân biệt (Discriminator) của mô hình HiFi-GAN [13] 39
4.6 Ví dụ về phiên âm tiếng Bahnar 40
4.7 Bảng chữ cái tiếng Bahna sau khi xử lý 40
4.8 Minh hoạ quá trình xử lý tiếng Bahnar 40
4.9 Minh hoạ quá trình xử lý của mô hình BN-TTS-VC 42 4.10 Minh hoạ quá trình xử lý của mô hình Grad-TTS cho tiếng Bahnar 43
Trang 12Danh sách bảng
4.1 Bảng kết quả đánh giá mô hình StarGANv2-VC 514.2 Bảng kết quả đánh giá MOS 52A.1 Thông số cho mô hình đề xuất HiFi-GAN ở lớp convolution 59A.2 Thông số huấn luyện mô hình HiFi-GAN 60A.3 Thông số huấn luyện mô hình StarGANv2-VC 61
Trang 13Thuật ngữ & từ viết tắt
AI Artificial Intelligence
ANN Artificial Neural Network
CNN Convolution Neural Network
DNN Deep Neural Network
GAN Generative Adversarial Networks
HMM Hidden Markov Models
MOS Mean Opinion Score
MPD Multi Period Discriminator
NLP Natural Language Processing
MRF Multi-receptive Field Fusion
MSD Multi Scale Discriminator
RNN Recurrent Neural Network
TTS Text-to-speech
VC Voice Conversion
Trang 14Chương 1
GIỚI THIỆU ĐỀ TÀI
1.1 Giới thiệu chung
Bài toán tổng hợp giọng nói từ văn bản hay Text-To-Speech (TTS) là quátrình chuyển đổi văn bản thành tín hiệu âm thanh giọng nói Tổng hợp giọng nói
là một lĩnh vực nghiên cứu phổ biến với nhiều ứng dụng công nghiệp Nó tìm cáchtạo ra lời nói tự nhiên và dễ hiểu từ văn bản đầu vào Tuy nhiên, do phụ thuộcnhiều vào dữ liệu, đây dường như là một nhiệm vụ khó khăn, đặc biệt đối với cácngôn ngữ đa phương ngữ và nhạy cảm
Các hệ thống chuyển văn bản thành giọng nói tạo ra nhằm giúp những ngườikhuyết tật về thị giác bằng cách cung cấp công cụ để có thể đưa văn bản thành
âm thanh nói để họ có thể nghe và tiếp nhận được Không chỉ vậy , TTS còn giúpcác cá nhân có thể nghe và tiếp thu các nội dung trên dạng giấy văn bản khi đang
di chuyển hoặc bất kỳ khu vực nào thuận tiện TTS giúp cho các thông tin củanhân loại có sẵn ở nhiều định dạng giúp mọi người có thể truy cập nhanh hơn,tăng cường khả năng truyền thông đến mọi người
Công nghệ ngày càng phát triển, các mô hình mới hầu như đều có thể tạo rakết quả đúng cho câu truy vấn cần tổng hợp giọng nói, tuy nhiên nhìn chung các
Trang 15Hình 1.1: Quá trình xử lý tổng hợp giọng nói từ văn bản
mô hình tạo ra giọng nói đang đi theo bước tái tạo lại giọng nói của dữ liệu vàotạo giọng nói đầu ra vẫn còn kém tự nhiên và cảm xúc Không chỉ vậy, TTS đòihỏi cần nó một khối lượng lớn ghi âm khổng lồ để có thể đạt được kết quả tốt
Hiện nay, có khoảng 6500 ngôn ngữ trên thế giới Trong số đó, tiếng Anh vàtiếng Trung là phổ biến nhất và có nguồn dữ liệu dồi dào nhất cho các tác vụ huấnluyện trong bài toán tổng hợp giọng nói Tuy nhiên, vẫn còn một số ngôn ngữ íttài nguyên khác như tiếng Việt chưa được khai thác tốt Bất kể ngôn ngữ đó cótài nguyên phong phú hay ít, thì cần phải có một lượng lớn dữ liệu để xây dựng
và đào tạo một hệ thống như vậy Quy trình điển hình là thuê một người bản ngữchuyên nghiệp để đọc hàng chục giờ tài liệu trong một môi trường rõ ràng Hơnnữa, môi trường phải đi kèm với micrô chất lượng cao, duy trì sự nhất quán trongchất lượng giọng nói của diễn viên
Người Bahnar là dân tộc thiểu số ở Việt Nam, được chính phủ ưu tiên bảotồn văn hóa, truyền thống và ngôn ngữ của họ Với sự đổi mới của công nghệ AIngày nay, việc tổng hợp giọng nói Bahnar có tiềm năng rất lớn trong nỗ lực này
Sự tiến bộ của công nghệ chuyển đổi giọng nói đã cải thiện đáng kể chất lượng
và tính tự nhiên của giọng nói tổng hợp Tuy nhiên, những tiến bộ này chủ yếutập trung vào các ngôn ngữ được sử dụng rộng rãi, khiến các ngôn ngữ có nguồntài nguyên thấp, chẳng hạn như họ ngôn ngữ Bahnaric, có nguồn lực hạn chế đểtổng hợp giọng nói Việc xây dựng mô hình TTS cho tiếng Bahnar là ngôn ngữcủa một dân tộc thiểu số ở Việt Nam giúp cho việc tiếp cận thông tin và giáo dụccho họ dễ dàng hơn Nó mở ra cánh cửa cho việc tạo ra tài liệu, sách giáo trình,
Trang 16tài liệu hướng dẫn và nhiều nguồn thông tin khác được chuyển đổi thành giọngnói dễ hiểu hơn Không chỉ vậy, việc đưa ra được mô hình TTS cho tiếng Bahnarcòn khắc phục rào cản giao tiếp giữa các dân tộc anh em hơn, với TTS có thể gópphần tạo ra một phương tiện mới để truyền đạt ý kiến, tương tác xã hội và thamgia vào cộng đồng một cách dễ dàng hơn Ngoài ra, nó góp phần trong việc bảotồn ngôn ngữ này Do đó việc ứng dụng và xây dựng mô hình TTS cho tiếng ngườidân tộc thiểu số Bahnar sẽ là bài toán có ích cho cuộc sống tuy nhiên sẽ tháchthức về mặt xử lý và làm giàu dữ liệu vì nguồn dữ liệu cho việc tạo ra mô hìnhTTS cho ngôn ngữ này khá hạn chế.
Luận văn này giải quyết thách thức trong việc tổng hợp giọng nói có âm tựnhiên trong các ngôn ngữ có nguồn tài nguyên thấp bằng cách khám phá ứng dụng
kỹ thuật chuyển đổi giọng cho ngôn ngữ Bahnaric Trong luận văn này, học viênxin được đề xuất mô hình hợp hệ thống chuyển văn bản thành giọng nói dựa trênGradTTS và kỹ thuật chuyển đổi giọng nói dựa trên StarGANv2, được điều chỉnhcho phù hợp với ngôn ngữ Bahnaric GradTTS cho phép hệ thống phát âm các từtiếng Bahnaric mà không bị giới hạn từ vựng, trong khi StarGANv2 nâng cao tính
tự nhiên của lời nói tổng hợp khi có nguồn gốc từ các ngôn ngữ có nguồn tài nguyênthấp như tiếng Bahnaric Ngoài ra, mô hình cũng có sự đóng góp với HifiGAN đượctinh chỉnh với tiếng Bahnaric giúp cải thiện chất lượng giọng nói với giọng bản địa
1.2 Mục tiêu và nhiệm vụ của luận văn
Mục tiêu của luận văn hướng đến việc nghiên cứu và xây dựng mô hình tổnghợp giọng nói sử dụng học sâu từ văn bản Cụ thể:
– Nắm được các phương pháp giải quyết cho Bài toán tổng hợp giọng nói vàcác kiến thức liên quan, đặc biệt là các phương pháp gần đây sử dụng các môhình học sâu
– Đưa ra được đề xuất có thể cải thiện hiệu suất của mô hình dựa trên thựcnghiệm
Trang 17Từ những mục tiêu trên, học viên đề ra các nhiệm vụ cần thực hiện trong quátrình hoàn thiện luận văn:
– Tìm hiểu về các mô hình tổng hợp giọng nói, các công trình liên quan, cácphương pháp giải quyết bài toán, ưu và nhược điểm của các phương pháp,đặc biệt là phương pháp sử dụng các mô hình học sâu
– Nghiên cứu và đề xuất cải thiện các mô hình cho Bài toán tổng hợp giọngnói, đặc biệt là với ngôn ngữ có ít dữ liệu
– Thu thập tập dữ liệu thực tế và thực hiện xử lý dữ liệu để cho quá trình huấnluyện và đánh giá cho mô hình đề xuất
– Thực nghiệm, đánh giá kết quả của các mô hình đề xuất trên các tập dữ liệu
đã được xử lý trước đó
– Chỉ ra những hạn chế và vấn đề tồn đọng, đề xuất các giải pháp cải tiến và
mở rộng của bài toán trong tương lai
1.3 Giới hạn đề tài
Tổng hợp giọng nói là một bài toán rộng và có nhiều tác vụ cũng như nhiềucách tiếp cận khác nhau, vì vậy nội dung của luận văn sẽ được giới hạn như sau:– Đề tài tập trung chủ yếu vào việc tổng hợp giọng nói
– Tập dữ liệu được sử dụng là tập tiếng dân tộc thiểu số Bahnar
– Tìm hiểu các phương pháp và đưa ra đề xuất cho bài toán
– Xây dựng được mô hình có thể tổng hợp tiếng Bahnar với độ chính xác, tựnhiên và có giọng đọc tự nhiên
1.4 Đóng góp của luận văn
Trong luận văn, học viên đề xuất mô hình kết hợp các mô hình để có kết quảtốt nhất trên tập dữ liệu tiếng Bahnar
Trang 18– Thực hiện việc thu thập và tiền xử lý dữ liệu tệp âm thanh cho quá trìnhhuấn luyện
– Đề xuất mô hình kết hợp các mô hình để có kết quả tốt nhất trên tập dữ liệutiếng Bahnar
vi của đề tài Cuối cùng là nhiệm vụ và cấu trúc của luận văn
– Chương 2, CƠ SỞ LÝ THUYẾT: tổng hợp những vấn đề học thuật liênquan nhất sẽ áp dụng để giải quyết bài toán, tập trung chủ yếu vào nội dungcủa học sâu, từ Mạng nơ ron nhân tạo (Artificial Neural Network), Mạng đốinghịch (Generative Adversarial Networks) và các kiến thức liên quan
– Chương 3, CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: trìnhbày một cách tổng quát về những nghiên cứu liên quan đã và đang được thựchiện, cũng như xu hướng chung hiện nay trong việc giải quyết bài toán Phầnnày cũng đưa ra những bàn luận và đánh giá cho các phương pháp kể trên vì
đó là cơ sở quan trọng cho những nghiên cứu của học viên trong quá trìnhthực hiện luận văn
– Chương 4, MÔ HÌNH ĐỀ XUẤT: giới thiệu mô hình cơ sở cho bài toán.Đồng thời đưa ra các cải tiến và động lực cho các đề xuất đó Cuối cùng, họcviên trình bày các bước tiến hành thí nghiệm trên những tập dữ liệu khácnhau và đánh giá kết quả của những cải tiến so với mô hình cơ sở
– Chương 5, KẾT LUẬN: tổng hợp các kết quả đạt được trong quá trìnhthực hiện luận văn từ bước nghiên cứu và xây dựng giả thuyết đến triển khaithực nghiệm Phần này cũng trình bày những hạn chế và vấn đề tồn đọng,cuối cùng đề xuất các giải pháp cải tiến trong tương lai
Trang 19Mục lục, Danh sách hình vẽ, Danh sách bảng, Thuật ngữ và từ viết tắtđược cung cấp ở đầu luận văn Tài liệu tham khảo sẽ được trình bày ở cuối luậnvăn.
Trang 20Chương 2
CƠ SỞ LÝ THUYẾT
2.1 Mel-spectrogram
Audio Data có được bằng cách lấy mẫu từ Sound Analog Signal theo một chu
kỳ thời gian và đo đặc giá trị của biên độ tại mỗi thời điểm lấy mẫu đó AudioData được lưu lại thành file theo một trong các định dạng nén (.mp3, wav, ).Khi đọc lên bằng các thư viện xử lý, nó được giải nén và chuyển thành một NumpyArray Mảng dữ liệu này là giống nhau cho dù Audio Data được lưu dưới bất kỳđịnh dạng nào
Trong bộ nhớ, Audio có thể coi là một chuỗi các giá trị của biên độ theo thờigian Ví dụ, nếu tần số lấy mẫu là 16800Hz thì cứ 1s Audio sẽ có 16800 giá trịbiên độ Khoảng giá trị của biên độ được quy định bởi thông số bit-length Ví dụ,bit-length bằng 16 có nghĩa là biên độ có thể có giá trị trong khoảng từ 0 đến 15 Bit-length càng lớn thì chất lượng của Audio càng tốt Đây là dạng nguyên thủycủa spectrogram và chúng ta không thể thấy rõ được các thông tin về tần số, biên
độ mà spectrogram thể hiện Điều này được giải thích là do khả năng nhận thức
âm thanh của con người Hầu hết những âm thanh mà chúng ta nghe được đềutập trung xung quanh một dải tần số và biên độ khá hẹp
Trang 21Để giải quyết vấn đề này, spectrogram được chuyển sang một dạng mới, gọi
là mel-spectrogram mà ở đó:
• Tần số được thay thế bằng giá trị logarithmic của nó, gọi là Mel Scale
• Biên độ được thay thế bằng giá trị logarithmic của nó, gọi là Decibel Scale
Hình 2.1: Ảnh mel-spectrogram của âm thanh [1]
2.2 Mô hình Artificial Neural Network - ANN
Mô hình Artificial Neural Network - ANN (Mạng nơ-ron nhân tạo) [2] là môhình tính toán được xây dựng lấy ý tưởng từ cấu trúc và cách hoạt động của mạngnơ-ron thần kinh trong não người nhằm thực hiện một tác vụ nào đó với tập thôngtin đầu vào Một mạng nơ-ron thần kinh được tạo nên từ nhiều nơ-ron sinh họckết nối và hoạt động cùng nhau Chúng hoạt động bằng cách tiếp nhận các thôngtin đưa vào từ các đuôi gai (dendrite), tính toán và tổng hợp tại thân nơ-ron (cellbody), sau đó lan truyền kết quả đến các nơ-ron khác thông qua sợi trục (axon)
Có thể dễ dàng rút ra nhận xét rằng nơ-ron sinh học nhận nhiều thông tinđầu vào nhưng chỉ đưa ra một kết quả duy nhất thông qua quá trình
xử lý trung gian phức tạp
Trang 22Tương tự như cách thức hoạt động nêu trên của mạng nơ-ron thần kinh,ANN cũng được cấu thành từ nhiều nơ-ron được gọi là perceptron có cấu trúc nhưHình 2.2 Trong đó:
– x1, x2, x3, , xn lần lượt là các biến đại diện cho dữ liệu đầu vào
– phép cộng (summation) và hàm kích hoạt (activation function) là các phéptính toán và tổng hợp các thông tin dữ liệu đầu vào
– w1, w2, w3, , wn là các trọng số cần phải học, đóng vai trò tham gia quá trìnhtính toán và chuyển đổi các thông tin đầu vào thành thông tin đầu ra.– y là output của tiến trình, đại diện cho dữ liệu đầu ra
Hình 2.2: Cấu trúc của một Perceptron
Cụ thể hơn, phương thức tính toán và tổng hợp dữ liệu của một perceptronđược mô tả theo từng bước sau:
1 Perceptron thực hiện phép cộng bằng cách tính tổng giá trị tất cả các tích sốcủa từng cặp dữ liệu đầu vào và giá trị trọng số tương ứng:
Trang 232 Kết quả a của phép cộng được đưa qua một hàm kích hoạt phi tuyến nhưSigmoid, Tanh, ReLU, LeakyReLU được minh họa ở Hình 2.3.
Hình 2.3: Các hàm phi tuyến được sử dụng trong Perceptron
3 Sau đó, perceptron thực hiện phép so sánh giá trị nhận được từ hàm kíchhoạt f(a) với một giá trị ngưỡng (threshold ) cho trước nhằm xác định giá trịđầu ra ˆy như là tín hiệu kích hoạt của perceptron
ˆ
y =
(
1 iff (a) ≥ threshold
0 iff (a) < threshold (2.2)
Bằng cách kết hợp nhiều perceptron với nhau sẽ tạo nên cấu trúc mô hìnhmạng ANN Mạng ANN bao gồm nhiều perceptron như là các nút mạng tính toánlàm tăng tính phức tạp cũng như khả năng học cho mạng, các perceptron đó hìnhthành nên các tầng như sau:
– Tầng đầu vào (input layer): là tầng đầu tiên, thể hiện các dữ liệu đầu vàocủa mô hình
– Tầng ẩn (hidden layer): là tầng nằm giữa gồm các phép tính toán nhằmchuyển đổi dữ liệu đầu vào sang dữ liệu đầu ra
Trang 24– Tầng kết quả (output layer): là tầng cuối cùng thể hiện dữ liệu đầu ra củamạng.
Số lượng tầng ẩn trong mô hình ANN là không giới hạn và được xác định tùythuộc vào bài toán cần giải quyết Đặc biệt, khi số lượng tầng ẩn lớn hơn 1 thì môhình ANN được gọi là mô hình Học sâu (Deep learning)
2.3 Mạng tích chập Convolutional Neural
Trang 25kích thước là m × n và áp dụng phép tích vô hướng để tính toán, cho ra một giátrị duy nhất Đầu ra của phép tích chập là một tập các giá trị ảnh được gọi làmạng đặc trưng (features map).
Phép tích chập đơn giản là phép tìm biên ảnh Sau khi cho qua bộ lọc nó sẽlàm hiện lên các đặc trưng của đối tượng trong ảnh như đường vẽ xung quanh đốitượng, các góc cạnh,v.v , và các layer tiếp theo sẽ lại trích xuất tiếp các đặc trưngcủa đặc trưng của các đối tượng đó, việc có nhiều layer như vậy cho phép chúng
ta chia nhỏ đặc trưng của ảnh tới mức nhỏ nhất có thể
ReLU Layer: ReLU layer áp dụng các kích hoạt (activation function) max(0,x)lên đầu ra của Conv Layer, có tác dụng đưa các giá trị âm về thành 0 Layer nàykhông thay đổi kích thước của ảnh và không có thêm bất kì tham số nào Mụcđích của lớp ReLu là đưa ảnh một mức ngưỡng, ở đây là 0 Để loại bỏ các giátrị âm không cần thiết mà có thể sẽ ảnh hưởng cho việc tính toán ở các layer sau đó
Pool Layer: Pool Layer thực hiện chức năng làm giảm chiều không gian củađầu và giảm độ phức tạp tính toán của model ngoài ra Pool Layer còn giúp kiểmsoát hiện tượng overffiting Thông thường, Pool layer có nhiều hình thức khácnhau phù hợp cho nhiều bài toán, tuy nhiên Max Pooling là được sử dụng nhiềuvào phổ biến hơn cả với ý tưởng cũng rất sát với thực tế con người đó là: Giữ lại chitiết quan trọng hay hiểu ở trong bài toán này chính giữ lại pixel có giá trị lớn nhất
Fully Connected Layer (FC): Tên tiếng việt là Mạng liên kết đầy đủ Tạilớp mạng này, mỗi một nơ-ron của layer này sẽ liên kết tới mọi nơ-ron của lớpkhác Để đưa ảnh từ các layer trước vào mạng này, buộc phải dàn phẳng bức ảnh
ra thành 1 vector thay vì là mảng nhiều chiều như trước Tại layer cuối cùng sẽ
sử dụng 1 hàm kinh điển trong học máy softmax để phân loại đối tượng dựa vàovector đặc trưng đã được tính toán của các lớp trước đó
Trang 262.4 Mô hình mạng Generative Adversarial
Net-works
Generative Adversarial Networks [3] hay còn gọi Mạng đối nghịch tạo sinh(GAN) là một kiến trúc học sâu GAN đào tạo hai mạng neuron cạnh tranh vớinhau nhằm tạo ra dữ liệu mới xác thực hơn từ một tập dữ liệu đào tạo nhất định.GAN được gọi là đối nghịch vì đào tạo hai mạng khác nhau và để hai mạng nàycạnh tranh với nhau Một mạng tạo ra dữ liệu mới bằng cách lấy mẫu dữ liệu đầuvào và sửa đổi mẫu đó nhiều nhất có thể Mạng còn lại cố gắng dự đoán liệu đầu
ra dữ liệu được tạo có thuộc tập dữ liệu ban đầu hay không Nói cách khác, mạng
dự đoán sẽ xác định liệu dữ liệu được tạo là dữ liệu giả hay thật Hệ thống tạo racác phiên bản giá trị dữ liệu giả mới hơn và được cải thiện cho đến khi mạng dựđoán không thể phân biệt được dữ liệu giả và dữ liệu gốc nữa
Có nhiều loại mô hình GAN khác nhau, tùy thuộc vào công thức toán học được
Hình 2.5: Mô hình mạng Generative Adversarial Networks
sử dụng và các cách khác nhau để máy tạo và máy phân biệt tương tác với nhau.Các mô hình GAN chủ yếu gồm:
• Mô hình GAN đơn thuần
• Mô hình GAN có điều kiện
• Mô hình GAN tích chập
Trang 27• Mô hình GAN siêu phân giải
2.4.1 Mô hình sinh (Generator)
Mô hình sinh nhận vào một vector ngẫu nhiên có độ dài cố định làm đầu vào
và tạo ra một mẫu trong miền dữ liệu Vector này được rút ra ngẫu nhiên từ phânphối Gaussian, và vector này được sử dụng để khởi tạo quá trình tạo sinh Sau quátrình huấn luyện, các điểm trong không gian vector đa chiều này sẽ tương ứng vớicác điểm trong miền dữ liệu, tạo thành một biểu diễn nén của phân phối dữ liệu.Không gian vector này được gọi là không gian ẩn, hoặc một không gian vector bao
Hình 2.6: Mô hình sinh (Generator)
gồm các biến ẩn Biến ẩn là những biến quan trọng cho một miền dữ liệu nhưngkhông thể quan sát trực tiếp
Chúng ta thường đề cập đến biến ẩn, hoặc không gian ẩn, như là việc chiếu hayviệc nén của một phân phối dữ liệu Nói cách khác, không gian ẩn cung cấp mộtphép nén hoặc khái niệm cấp cao về dữ liệu thô quan sát như phân phối dữ liệuđầu vào Trong trường hợp của GANs, mô hình sinh áp dụng ý nghĩa cho các điểmtrong không gian ẩn được lựa chọn, sao cho các điểm mới được rút ra từ khônggian ẩn có thể được cung cấp cho mô hình sinh làm đầu vào và được sử dụng đểtạo ra các mẫu mới và khác nhau Sau quá trình huấn luyện, mô hình sinh có thểđược giữ và dùng để tạo ra các mẫu mới
Trang 282.4.2 Mô hình phân biệt (Discriminator)
Mô hình phân biệt nhận một mẫu giá trị từ miền dữ liệu làm đầu vào (thực
tế hoặc được tạo ra) và dự đoán một nhãn lớp nhị phân là thực tế hoặc giả mạo(được tạo ra) Mẫu thực tế được lấy từ bộ dữ liệu huấn luyện Các mẫu được tạo
ra bởi lấy từ đầu ra của mô hình sinh
Mô hình phân biệt là một mô hình phân loại thông thường trong học máy Sau
Hình 2.7: Mô hình phân biệt (Discriminator)
quá trình huấn luyện, mô hình discriminator bị loại bỏ vì chúng ta quan tâm đến
Trang 292.5 Mô hình mạng Long short term memory
Trong các bài toán phần tích ngôn ngữ tự nhiên (NLP), dữ liệu đầu vào củacác mô hình thường là một câu gồm nhiều từ, độ dài của câu không cố định vàgiữa các từ lại có quan hệ ngữ nghĩa với nhau Do đó ta không thể chỉ sử dụngANN để giải quyết các bài toán NLP Recurrent Neural Networks (RNN) đã đượcphát triển để giải quyết vấn đề này Ý tưởng chính của RNN là việc tính toán chođầu ra tại thời điểm thứ t sẽ phụ thuộc vào đầu vào tại thời điểm t và đầu ra tạithời điểm t − 1, vì sử dụng lại đầu ra tại các thời điểm trước đó là một đặc điểmcủa hồi quy (Recurrent) vì vậy, kiến trúc mạng như thế này được gọi là RecurrentNeural Network
Một vấn đề khi sử dụng RNN đó là vấn đề phụ thuộc gần xa, tức là RNNkhông thể nhớ được các thông tin quá dài, nói cách khác với các câu quá dài,RNN sẽ quên dần các thông tin ở đầu câu khi tính toán cho các từ ở cuối câu
Về lý thuyết, RNN có thể sử dụng tất cả các thông tin từ bước đầu tiên cho đếnbước hiện tại để tính toán giá trị đầu ra ở bước hiện tại, nhưng vì càng qua nhiềubước tính toán, đạo hàm càng tiêu biến dẫn đến việc RNN "quên" các thông tin ởquá xa so với bước hiện tại Để giải quyết vấn đề này, có nhiều biến thể của RNNđược đề xuất, phổ biến nhất là Gated Recurrent Unit (GRU) và Long Short TermMemory (LSTM) Tuy nhiên trong phần này, học viên chỉ trình bày LSTM vì nóđược sử dụng rộng rãi nhất
Kiến trúc của LSTM [4] phức tạp hơn RNN rất nhiều Để nhớ được nhiềuthông tin, LSTM sử dụng các cổng để giữ lại các thông tin quan trọng và bỏ đinhững thông tin dư thừa Thành phần quan trọng nhất của LSTM là cell state,đây chính là bộ nhớ của LSTM, ngoài ra còn một thành phần khác là hiddenstate Cell state và hidden state ở thời điểm t được kí hiệu là Ct và ht Cell state
và hidden state sẽ lần lượt được cập nhật ở mỗi thời điểm thông qua các cổng, chitiết như sau:
• Cổng forget giúp tính toán các thông tin cần loại bỏ:
ft= σ (Wf[ht−1, xt] + bf) (2.3)
Trang 32Chương 3
CÔNG TRÌNH NGHIÊN
CỨU LIÊN QUAN
3.1 Các kỹ thuật cho bài toán tổng hợp tiếng nói
từ văn bản
Hình 3.1: Các hướng tiếp cận cho bài toán tổng hợp giọng nói
Tổng hợp giọng nói từ văn bản là một lĩnh vực nghiên cứu phổ biến trong cáclĩnh vực giọng nói, ngôn ngữ và máy học với nhiều ứng dụng Phát triển một hệthống tổng hợp giọng nói từ văn bản dường như là một nhiệm vụ khó khăn vì nó
Trang 33đòi hỏi sự hiểu biết về ngôn ngữ và cách tạo ra giọng nói của con người, cũng nhưchuyên môn trong nhiều lĩnh vực như ngôn ngữ học, âm học, xử lý tín hiệu số vàhọc máy.
Các cách tiếp cạn và phương pháp cho việc xây dựng một hệ thống tổng hợpgiọng nói từ văn bản đã có từ thế kỷ 12 Về hệ thống xây dựng trên máy tính,
hệ thống tổng hợp giọng nói đầu tiên ra đời vào nửa sau thế kỷ 20 Các hệ thốngnày tận dụng các phương pháp cổ điển bao gồm tổng hợp khớp nối, tổng hợp địnhdạng và tổng hợp nối tiếp Bên cạnh đó, các phương pháp theo hướng tiếp cậnbằng xác suất nói chung và phương pháp tiếp cận bằng các mô hình học máy họcsâu phát triển cho ra các kết quả đầy hứa hẹn với nhịp điệu, trọng âm, cao độ và
âm điệu, tất cả đều mang thông tin cảm xúc và ý nghĩa bên cạnh các từ
3.1.1 Phương pháp tổng hợp khớp nối (Articulatory
syn-thesis)
Tổng hợp giọng nói dựa trên phương pháp tổng hợp khớp nói sử dụng môhình về các cơ quan nói cơ bản như lưỡi, và khí quản, để tạo ra âm thanh Thay vìtập trung vào cấu trúc hình thái và quy tắc như trong tổng hợp hình thái, phươngpháp tổng hợp khớp nối tập trung vào mô phỏng chính xác các chuyển động cơhọc của các cơ quan nói khi hình thành tiếng
Mô hình hoá cơ quan mô phỏng giọng nói: phương pháp tổng hợp khớp nối
mô hình hoá các cơ quan cơ bản của cơ thể người phụ trách cho việc phát ra giọngnói như lưỡi, môi, phế quản, Mỗi cơ quan nói được biểu diễn như một bộ phậncủa mô hình và được điều khiển để tạo ra các chuyển động phù hợp với ngữ cảnh
và nội dung của văn bản
Mô phỏng các chuyển động cơ học: các chuyển động của các cơ quan nói, baogồm cả việc mở đóng cửa cơ bản, di chuyển của lưỡi, và thay đổi hình dạng củamôi, cần được mô phỏng chính xác trong phương pháp tổng hợp khớp nối Cácthông số như tốc độ, giai đoạn, và độ lớn của các chuyển động được tính toán đểtạo ra âm thanh phù hợp
Trang 34Do đó, phương pháp này có thể tạo ra giọng nói với tính linh hoạt, rõ ràng
và tự nhiên cao Có thể điều chỉnh chi tiết các cơ quan nói để tạo ra các giọng nóikhác nhau, từ giọng trẻ trung đến giọng già, từ giọng nam tính đến giọng nữ tínhvới khả năng mô phỏng chính xác các chuyển động cơ học
Tuy nhiên, để đạt được việc mô hình hoá chính xác các bộ phận để mô phỏnggiọng nói và các chuyển động cơ học kèm theo là một thách thức, và phức tạp vìcần hiểu rõ về cách tương tác để tạo ra âm thanh tự nhiên Đồng thời, việc kếthợp các mô hình lại cũng đòi hỏi rất nhiều tính toán để đạt được kết quả đầu ra
Tổng quát, phương pháp tổng hợp khớp nối là một phương pháp tổng hợpgiọng nói từ văn bản mà nỗ lực mô phỏng cơ bản cụ thể của cơ quan nói, mang lạikết quả âm thanh có chất lượng cao nhưng đòi hỏi nhiều tài nguyên, chi phí tínhtoán cao cùng nhiều dữ liệu đào tạo và kiến thức vững về cấu trúc cơ quan nói
3.1.2 Phương pháp tổng hợp hình thái (Formant synthesis)
Phương pháp tổng hợp hình thái cho tổng hợp giọng nói tập trung vào việctạo ra âm thanh bằng cách mô phỏng các hình thái âm sắc và các đặc điểm phổkhác của tiếng nói Âm sắc là các đỉnh của phổ âm thanh được tạo ra bởi cấutrúc của đường ống nói và cơ quan nói Phương pháp tổng hợp hình thái sử dụngmột mô hình của quá trình nguồn-lọc trong sản xuất tiếng nói Nó giả định rằng
âm thanh tiếng nói có thể được mô tả bằng một nguồn âm (source) và một bộ lọc(filter) tương ứng Nguồn âm thường được mô tả bằng các hàm sóng cơ bản, chẳnghạn như xung vuông, và bộ lọc được biểu diễn bằng các formant Các formant làcác đỉnh trên đồ thị phổ âm thanh, và mỗi formant được đặc trưng bởi tần số và
độ lớn của nó Người nói có thể tạo ra các âm thanh khác nhau bằng cách thayđổi vị trí và độ lớn của các formant Điều này có thể được kiểm soát bằng cách
sử dụng một tập hợp quy tắc được xác định bởi những người nghiên cứu về ngônngữ và giọng nói
Trang 35Hình 3.2: Phương pháp tổng hợp hình thái
Phương pháp Formant synthesis linh hoạt trong việc tạo ra các loại âm thanhkhác nhau Bằng cách điều chỉnh tần số và độ lớn của các dao động sóng, người
ta có thể tạo ra các giọng nói khác nhau và các giọng địa phương khác nhau
Phương pháp này không đòi hỏi một lượng lớn dữ liệu đào tạo, và tính toáncủa nó thường ít hơn so với một số phương pháp khác.Tuy nhiên, do sự phụ thuộcvào quy tắc và cấu hình thủ công của bộ lọc, mặc dù khó xác định, nhưng khôngthể bắt chước hoàn toàn giọng nói của con người, nên giọng nói được tạo ra sẽnghe kém tự nhiên hơn và có thể khá giả tạo
Phương pháp tổng hợp hình thái thường được sử dụng trong các ứng dụngnơi cần tạo ra giọng nói nhân tạo, chẳng hạn như trong hệ thống trợ lý ảo, cácứng dụng học tiếng, và trong môi trường nghiên cứu âm thanh Phương pháp nàycung cấp một cách tiếp cận linh hoạt và hiệu quả để tổng hợp giọng nói từ vănbản, mặc dù với một số hạn chế liên quan đến sự tự nhiên của âm thanh và đòihỏi sự chính xác trong cách tạo ra quy tắc, bộ lọc và cấu hình
3.1.3 Phương pháp tổng hợp nối tiếp (Concatenative
Syn-thesis)
Phương pháp tổng hợp nối tiếp là một trong những phương pháp phổ biếntrong tổng hợp giọng nói từ văn bản, dựa trên việc kết hợp các đoạn giọng nóithực tế để tạo ra câu nói hoặc đoạn văn Đơn vị cơ bản trong tổng hợp nối tiếp
Trang 36được gọi là "đoạn giọng nói" (units), và thường là các đoạn ngắn từ nguồn dữ liệugiọng nói thực tế, thường dài khoảng từ 10ms đến vài giây Các đoạn này có thể
là các từ, từ phụ âm, nguyên âm, hoặc thậm chí là các câu ngắn, tùy thuộc vàomức độ chi tiết mà hệ thống mong muốn
Để có thể tổng hợp giọng nói dựa trên phương pháp tổng hợp nối tiếp, cần
có một cơ sở dữ liệu lớn của giọng nói đã được ghi âm từ người nói thực tế Cơ sở
dữ liệu này chứa các đoạn giọng nói đã được phân đoạn và gán nhãn Để có thểtổng hợp giọng nói dựa trên phương pháp tổng hợp nối tiếp, cần có một cơ sở dữliệu lớn của giọng nói đã được ghi âm từ người nói thực tế Cơ sở dữ liệu này chứacác đoạn giọng nói đã được phân đoạn và gán nhãn Các đoạn giọng nói trong cơ
sở dữ liệu được phân đoạn và gán nhãn để xác định điểm đầu và điểm cuối củatừng đoạn, cũng như thông tin về âm giai đoạn và các thuộc tính khác như cường
độ, tần số
Trong quá trình tổng hợp, một bước quan trọng là chọn lựa đoạn giọng nói
từ cơ sở dữ liệu để kết hợp thành câu nói Điều này thường được thực hiện thôngqua một thuật toán "unit selection" để chọn những đoạn giọng nói tốt nhất dựatrên tiêu chí như mức độ mượt mà và tự nhiên của giọng
Hình 3.3: Phương pháp tổng hợp nối tiếp
Một thách thức trong phương pháp tổng hợp nối tiếp là tạo ra các liên kếtmượt mà giữa các đoạn giọng nói khác nhau Các thuật toán chuyển tiếp cố gắng
Trang 37làm cho các đoạn nối với nhau một cách tự nhiên nhất có thể Lợi ích chính củaphương pháp này là khả năng tạo ra giọng nói tự nhiên và có chất lượng cao, đặcbiệt là khi có một cơ sở dữ liệu lớn và đa dạng về người nói và ngữ cảnh.
Tuy nhiên, hạn chế của phương pháp này bao gồm kích thước lớn của cơ sở
dữ liệu, đòi hỏi tài nguyên tính toán cao, và khả năng hạn chế trong việc tạo ragiọng nói động và giọng nói đầu ra kém cảm xúc
3.1.4 Phương pháp tổng hợp tham số thống kê (Statistical
Parametric Speech Synthesis)
Phương pháp tổng hợp tham số thống kê trong tổng hợp giọng nói sử dụngcác mô hình thống kê để mô tả đặc điểm giọng nói Các mô hình này thường đượchuấn luyện trên cơ sở dữ liệu giọng nói lớn để học các mối quan hệ thống kê giữacác đặc trưng của giọng nói và văn bản đầu vào Các đặc trưng đầu vào thườngbao gồm văn bản, đặc trưng ngôn ngữ như từ loại, cấu trúc ngữ pháp, và các thôngtin ngữ cảnh khác như giọng địa phương, tình cảm
Các mô hình thống kê như Hidden Markov Models (HMMs) và GaussianMixture Models (GMMs) thường được sử dụng để mô hình hóa các đặc trưngcủa giọng nói Mỗi đặc trưng có thể được mô tả bằng một phân phối thống kê.Các mô hình cũng có thể mô tả các quá trình giọng nói như pitch, độ lớn, và độ dài
Khi có một đoạn văn bản mới, phương pháp sử dụng mô hình đã được huấnluyện để dự đoán các đặc trưng giọng nói tương ứng Các đặc trưng này sau đóđược sử dụng để tổng hợp giọng nói Nhờ vậy phương pháp tổng hợp tham sốthống kê có khả năng tạo ra giọng nói tự nhiên và linh hoạt với khả năng điềuchỉnh các đặc trưng như tốc độ, giọng địa phương, và tình cảm Nó có thể áp dụngcho nhiều ngôn ngữ và giọng địa phương do có thể huấn luyện trên cơ sở dữ liệu
đa dạng
Các hướng tiếp cận của phương pháp tổng hợp giọng nói sử dụng thống kê: