Thành phần cuối cùng trong kiến trúc đề xuất là Flowtron. Kiến trúc này được công bố vào giữa năm 2020 với ngôn ngữ tiếng anh và chưa có nghiên cứu nào được công bố sử dụng trong tiếng Việt. Flowtron là một mạng khởi tạo theo luồng tự đồng hồi quy cho tổng hợp tiếng nói, tăng cường khả năng kiếm soát các đặc trưng của giọng nói cũng như khả năng biến đổi giữa các giọng nói nhờ đặc trưng âm thanh. Đó chính là ưu điểm so với kiến trúc Tacotron-2 đã từng là SoTA mô hình.
26 Để đạt được âm thanh giống với con người thì cao độ, trường độ, sự nhấn nhá, nhịp điệu cũng như phong cách, cảm xúc của người nói là những yếu tố cực kỳ quan trọng. Đa phần những yếu tố kia, Tacotron2 chưa kiểm soát được và Flowtron ra đời để giải quyết những vấn đề đó. Biến đổi phong cách, cảm xúc của người nói huấn luyện thành cảm xúc phong cách trong trò chuyện của người nói đích đến hay tự nội suy giọng nói huấn luyện mang cảm xúc, phong cách của người nói đích. Điều này giúp tiết kiệm rất nhiều chi phí và nguồn lực cũng như tăng cường khả năng mở rộng của hệ thống.
Flowtron khởi tạo chuỗi các khung mel spectrogram bằng cách sản xuất ra từng mel spectrogram. Flowtron bắt đầu với 3 phần chính: phần mã hóa, phần chú ý và phần giải mã.
Phần mã hóa được dùng để biểu diễn nội dung văn bản kết hợp với biểu diễn mã hóa của mã người nói, phần này cũng chính là để chuẩn hóa đầu vào cho phần tiếp theo.
Tương tự như ở Tacotron2, instance-norm được sử dụng thay thế cho batch- norm. Batch normalization và Instance Normalization là hai phương pháp chuẩn hóa các đặc trưng hiệu quả khi huấn luyện mô hình mạng neural, cả hai tương tự nhau về công thức nhưng khác nhau về số lượng, phạm vi ảnh hưởng. Với batch- norm, công thức sẽ chuẩn hóa hàng loạt, tất cả các vị trí trong câu và tạo ra phân phối của toàn bộ còn với instance-norm, công thức sẽ chuẩn hóa các phần tử của từng batch một cách độc lập, tức là chỉ trên từng vị trí hay còn hiểu là instance- norm làm cho mỗi phân phối riêng lẻ gần giống nhau. Trong bài toán tổng hợp tiếng Việt có cảm xúc, tác giả sử dụng instance-norm thay thế cho batch-norm để loại bỏ nhiễu trong quá trình huấn luyện cũng như tăng cường khả năng học được các từ quan trọng mang cảm xúc, nhịp điệu trong câu.
Cuối cùng, bộ giãi mã được triển khai. Theo như nghiên cứu có nhắc đến khả năng tổng quát hóa và khởi tạo các phổ mel bằng Maximum Likelihood với dữ liệu, do đó kiến trúc sẽ xóa đi hai lớp Pre-net và Post-net. Nối tiếp là biến đổi Afin giúp mô hình có khả năng đảo ngược nhờ các biến scale, bias. Hệ thống áp dụng cơ chế gate để giảm thiểu chi phí tính toán, biến đổi thời gian của câu khởi tạo linh hoạt không bị cố định theo như giá trị đã khởi tạo trước. Thay vì sử dụng giá trị nhị
27 phân (0/1) cho cơ chế gate sẽ làm cho mạng gặp vấn đề đạo hàm khi lan truyền ngược, hệ thống sử dụng hàm sigmoid khi kết quả đến gần nhất với giá trị z. Lớp ghép nối Afin bao gồm ba phần Attention, Decoder và biến đổi Afin. Tác giả thực hiện lặp lại một số lần với lớp ghép nối Afin. Với những giá trị lẻ (K =1, 3, 5 ..), mạng sẽ thực hiện lan truyền tiến từ đầu đến cuối câu và ngược lại, với những giá trị chẵn (K = 2, 4, 6,..), mạng sẽ thực hiện lan truyền ngược và học từ cuối câu về đầu. Mục đích của cách làm này để kiểm soát khả năng học của mô hình, đảm bảo tại từng vị trí câu học được những thành phần phía trước và phía sau. Mô hình có thể học được sự chú ý của lan truyền tiến và lan truyền ngược trong cùng một thời điểm. Do đó, khi triển khai thí nghiệm, tác giả thực hiện lần lượt từng bước, bắt đầu với K=1 để mô hình có thể hội tụ nhanh hơn, tiếp theo đó là K=2 để cải thiện nâng cao chất lượng, cải thiện độ chính xác. Và nếu chất lượng vẫn chưa thực sự tốt có thể tăng K dần lên cho đến khi âm thanh thu được đạt đến sự kỳ vọng. Nhờ phép biến đổi Afin, mô hình có thể học được khả năng đảo ngược của hàm ánh xạ phân phối đặc trưng của giọng nói (mel spectrogram, văn bản) tới không gian tiềm ẩn z tham số bởi phân phối Gaussian. Trong không gian tiềm ẩn z, ta có thể tìm và lựa chọn các vùng khác nhau, từ đó có thể khởi tạo các mẫu đặc trưng của giọng nói tương ứng (mel spetrogram) với vùng lựa chọn đó.
2.5. Biến đổi phong cách, cảm xúc của tiếng nói 2.5.1. Sơ đồ quá trình tạo tiếng nói bình thường 2.5.1. Sơ đồ quá trình tạo tiếng nói bình thường