Tổng hợp giọng nói sử dụng học sâu cho tiếng Bahnar nhằm nâng cao khả năng giao tiếp

MỤC LỤC

GIỚI THIỆU ĐỀ TÀI

Không chỉ vậy, việc đưa ra được mô hình TTS cho tiếng Bahnar còn khắc phục rào cản giao tiếp giữa các dân tộc anh em hơn, với TTS có thể góp phần tạo ra một phương tiện mới để truyền đạt ý kiến, tương tác xã hội và tham gia vào cộng đồng một cách dễ dàng hơn. – Chương 2, CƠ SỞ LÝ THUYẾT:tổng hợp những vấn đề học thuật liên quan nhất sẽ áp dụng để giải quyết bài toán, tập trung chủ yếu vào nội dung của học sâu, từ Mạng nơ ron nhân tạo (Artificial Neural Network), Mạng đối nghịch (Generative Adversarial Networks) và các kiến thức liên quan.

Hình 1.1: Quá trình xử lý tổng hợp giọng nói từ văn bản

CƠ SỞ LÝ THUYẾT

Mô hình mạng Generative Adversarial Net- works

Sau khi cho qua bộ lọc nó sẽ làm hiện lên các đặc trưng của đối tượng trong ảnh như đường vẽ xung quanh đối tượng, các góc cạnh,v.v., và các layer tiếp theo sẽ lại trích xuất tiếp các đặc trưng của đặc trưng của các đối tượng đó, việc có nhiều layer như vậy cho phép chúng ta chia nhỏ đặc trưng của ảnh tới mức nhỏ nhất có thể. Thông thường, Pool layer có nhiều hình thức khác nhau phù hợp cho nhiều bài toán, tuy nhiên Max Pooling là được sử dụng nhiều vào phổ biến hơn cả với ý tưởng cũng rất sát với thực tế con người đó là: Giữ lại chi tiết quan trọng hay hiểu ở trong bài toán này chính giữ lại pixel có giá trị lớn nhất. Ý tưởng chính của RNN là việc tính toán cho đầu ra tại thời điểm thứ t sẽ phụ thuộc vào đầu vào tại thời điểm t và đầu ra tại thời điểm t−1, vì sử dụng lại đầu ra tại các thời điểm trước đó là một đặc điểm của hồi quy (Recurrent) vì vậy, kiến trúc mạng như thế này được gọi là Recurrent Neural Network.

Về lý thuyết, RNN có thể sử dụng tất cả các thông tin từ bước đầu tiên cho đến bước hiện tại để tính toán giá trị đầu ra ở bước hiện tại, nhưng vì càng qua nhiều bước tính toán, đạo hàm càng tiêu biến dẫn đến việc RNN "quên" các thông tin ở quá xa so với bước hiện tại.

Hình 2.1: Ảnh mel-spectrogram của âm thanh [1]

CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Các kỹ thuật cho bài toán tổng hợp tiếng nói từ văn bản

Bên cạnh đó, các phương pháp theo hướng tiếp cận bằng xác suất nói chung và phương pháp tiếp cận bằng các mô hình học máy học sâu phát triển cho ra các kết quả đầy hứa hẹn với nhịp điệu, trọng âm, cao độ và âm điệu, tất cả đều mang thông tin cảm xúc và ý nghĩa bên cạnh các từ. Tổng quát, phương pháp tổng hợp khớp nối là một phương pháp tổng hợp giọng nói từ văn bản mà nỗ lực mô phỏng cơ bản cụ thể của cơ quan nói, mang lại kết quả âm thanh có chất lượng cao nhưng đòi hỏi nhiều tài nguyên, chi phí tính toán cao cùng nhiều dữ liệu đào tạo và kiến thức vững về cấu trúc cơ quan nói. Phương pháp này không đòi hỏi một lượng lớn dữ liệu đào tạo, và tính toán của nó thường ít hơn so với một số phương pháp khác.Tuy nhiên, do sự phụ thuộc vào quy tắc và cấu hình thủ công của bộ lọc, mặc dù khó xác định, nhưng không thể bắt chước hoàn toàn giọng nói của con người, nên giọng nói được tạo ra sẽ nghe kém tự nhiên hơn và có thể khá giả tạo.

Trong bài toán tổng hợp giọng nói từ văn bản, với hướng tiếp cận sử dụng mô hình thống kê và các phương pháp con của nó đã mang lại những tiến bộ đáng kể trong lĩnh vực tổng hợp giọng nói, giúp tạo ra giọng nói tự nhiên và linh hoạt cho nhiều ứng dụng, từ trợ lý ảo đến giao tiếp người máy.

Hình 3.2: Phương pháp tổng hợp hình thái

Các kỹ thuật cho bài toán Chuyển đổi giọng nói

Phương pháp Autoencoder trong voice conversion có thể được ứng dụng trong nhiều lĩnh vực như công nghiệp giải trí, hệ thống trợ lý ảo, và xử lý ngôn ngữ tự nhiên để tạo ra giọng nói mới mà vẫn giữ lại tính cá nhân của người nói. Trong tóm tắt, phương pháp Autoencoder trong bài toán voice conversion là một kỹ thuật mạnh mẽ để chuyển đổi giọng nói từ một người sang người khác bằng cách học biểu diễn giọng nói ẩn và ánh xạ giữa không gian giọng nói của người nói nguồn và đích. Phương pháp sử dụng mô hình GAN (Generative Adversarial Network) trong bài toán voice conversion là một cách tiếp cận độc đáo để tạo ra giọng nói mới dựa trên dữ liệu giọng nói của người nói nguồn và người nói đích.

Hàm mất mát sinh thường được thiết kế để khuyến khích mô hình sinh tạo ra giọng nói giống với người nói đích, trong khi hàm mất mát phân biệt đảm bảo rằng mô hình sinh tạo ra dữ liệu không thể được phân biệt với dữ liệu thực tế.

MÔ HÌNH ĐỀ XUẤT

Mô hình tham khảo

Trong bài báo, các tác giả giới thiệu Grad-TTS, một mô hình chuyển văn bản thành giọng nói mới với bộ giải mã dựa trên điểm số tạo ra mel-spectrogram bằng cách biến đổi dần âm thanh được dự đoán bởi bộ mã hóa và căn chỉnh với đầu vào văn bản bằng Monotonic Alignment Search. Framework của các phương trình khác nhau ngẫu nhiên giúp chúng ta khái quát hóa các mô hình xác suất khuếch tán thông thường cho trường hợp tái tạo dữ liệu từ tiếng nói với các tham số khác nhau và cho phép làm cho việc tỏi tạo này trở nờn linh hoạt bằng cỏch kiểm soỏt rừ ràng sự đỏnh đổi giữa chất lượng âm thanh và tốc độ suy luận. Mô hình đã áp dụng kiến trúc tương tự cho việc chuyển đổi giọng nói, coi mỗi giọng nói là một miền riêng và đã thêm tính năng phát hiện và phân loại khớp được đào tạo trước (JDC [24]) F0 mạng trích xuất để đạt được chuyển đổi phù hợp F0.

Bằng cách tìm hiểu những tính năng nào nằm ngoài miền đầu vào ngay cả sau khi chuyển đổi, trình phân loại có thể cung cấp phản hồi về các tính năng bất biến đối với trình tạo nhưng đặc trưng cho miền ban đầu, theo đó trình tạo sẽ cải thiện để tạo ra mẫu tương tự hơn trong miền đích.

Hình 4.1: Mô hình xác suất khuếch tán cho mel-spectrograms [21]

Hệ thống âm vị cho tiếng Bahnar

Mô hình tập trung vào một vấn đề quan trọng khác mà chưa được giải quyết; vì âm thanh nói bao gồm các tín hiệu hình sin với các chu kỳ khác nhau, các mẫu chu kỳ đa dạng ẩn sau trong dữ liệu âm thanh cần phải được xác định. Để đạt được điều này, HiFi-GAN dùng bộ phân biệt đa chu kỳ (MPD) gồm nhiều bộ phân biệt con mỗi bộ xử lý một phần của tín hiệu chu kỳ của âm thanh đầu vào. Ngoài ra, để bắt kịp các mẫu liền kề và phụ thuộc lâu dài, mô hình sử dụng bộ phân biệt đa tỉ lệ (MSD) được đề xuất trong MelGAN [25], đánh giá liên tục các mẫu âm thanh ở các cấp độ khác nhau.

Ở luận văn này, sử dụng bảng chữ cái của tiếng Bahnar [26] có thể phù hợp làm đầu vào cho hệ thống TTS cho hệ thống phân tích ngữ nghĩa và sử dụng vPhon [27] để phân tích cú pháp.

Mô hình đề xuất

Trong lĩnh vực tổng hợp giọng nói cho ngôn ngữ thiểu số Bahnar, vì có sự tồn tại của một số đặc điểm khác nhau giữa tiếng Bahnar và các ngôn ngữ phổ biến khác, việc áp dụng các kỹ thuật mang lại hiệu quả cao trong các ngôn ngữ đó vào tiếng Bahnar là một vấn đề hết sức phức tạp. Mel-spectrogram loss Để cải thiện hiệu suất huấn luyện của bộ tạo và độ trung thực của âm thanh tổng hợp, mô hình thêm hàm mất mát mel-spectrogram loss vào mục tiêu GAN với kỳ vọng rằng điều kiện đầu vào cũng có ảnh hưởng đến việc tập trung nhiều hơn vào việc cải thiện chất lượng cảm nhận do các đặc điểm của hệ thống thính giác của con người. Để giảm các tham số mô hình của HiFi-GAN và cải thiện tốc độ suy luận mà không làm giảm chất lượng giọng nói, mô hình đề xuất sử dụng chiến lược depth-wise separable convolution (DSC) [30] để cải thiện mô hình HiFi-GAN và chi tiết được mô tả trong các mô-đun con sau.

(4.12) Speech consistency loss Để đảm bảo rằng giọng nói được chuyển đổi có cùng nội dung ngôn ngữ với nguồn, StarGANv2 sử dụng hàm mất mát speech consistency loss bằng cách sử dụng các mạng tích chập từ mạng VGG-BLSTM kết hợp với CTC-attention [31] được huấn luyện trước, được cung cấp trong bộ công cụ Espnet [32].

Hình 4.9: Minh hoạ quá trình xử lý của mô hình BN-TTS-VC

Kết quả thực nghiệm và thảo luận

Các file âm thanh được tạo ra từ các mô hình được đặt chung với âm thanh gốc để có thể so sánh với nhau. Đối với các mô hình chuyển đổi giọng nói, mô hình gốc VC và BN-TTS-VC được huấn luyện với lượng dữ liệu phù hợp trong miền nguồn được lấy từ đầu ra của Grad-TTS, và mô hình Grad-TTS dùng mô hình HiFi-GAN gốc vẫn có các mẫu đánh giá kém. Kết quả đầu ra vẫn còn một số khuyết điểm, đôi khi xuất hiện các tệp âm thanh được sinh ra có chất lượng kém không đạt được mức tự nhiên chấp nhận được.

Hiện tại mô hình vẫn còn dựa vào một số thành phần mạng có kết quả pretrain trên tập tiếng Anh để sử dụng, do vậy có thể đề xuất việc xây dựng lại các mô hình pretrain bằng tập dữ liệu tiếng Bahnar để có thể được mô hình mới có kết quả tốt hơn hiện tại.