2.7.2. Thí nghiệm 01 – Mô hình M1
Bộ dữ liệu sử dụng: AnSpeech. Trong đó có 9696 câu dành cho huấn luyện và 100 câu dành cho kiểm thử. Tác giả sử dụng kiến trúc mô hình: Tacotron 2 với sự thay thế hàm batch-norm bằng instance-norm ở bộ Decoder, giữ nguyên các lớp PreNet và PostNet ở bộ Decoder (khác với việc loại bỏ 2 lớp này khi áp dụng trong kiến trúc Flowtron ở các thí nghiệm sau). Thí nghiệm được thực hiện trên siêu máy tính NVIDIA A100. Mô được thực hiện trong điều kiện không sử dụng pretrained- model và một số tham số cơ bản như learning rate = 1e-3, weight decay = 1e-6 với kích thước cho mỗi batch là 12. Sử dụng kích thước này để đảm bảo có thể tối đa dung lượng bộ nhớ 40GB GPU của máy tính nhưng vẫn đảm bảo được thời gian huấn luyện sau từng iteration là hợp lý. Thử nghiệm quá trình khởi tạo âm thanh sau 1 số bước nhất định nên cần đảm bảo thời gian huấn luyện phù hợp. Hệ thống tự động thực hiện lưu trữ mô hình sau mỗi 1,000 iteration tương ứng 24 phút. Mô hình được dừng lại quá trình huấn luyện sau 302,000 iteration. Mô hình hình được gọi là M1.
32
2.7.3. Thí nghiệm 02 – Mô hình M2
Giống như sơ đồ tổng quan hệ thống đề xuất, tác giả sử dụng kiến trúc Flowtron với bộ dữ liệu AnSpeech. Tác giả thực hiện ba lần với lần đầu không sử dụng pretrained-model là mô hình M1 và những lần còn lại sử dụng mô hình tốt nhất của Thí nghiệm 01.
Trong lần thử nghiệm đầu tiên, kích thước của mỗi batch được giảm xuống 6 và sử dụng thêm lớp Attention Conditioning thay vì chỉ sử dụng lớp Location Attention và LinearNorm ở Tacotron2. Việc sử dụng lớp Attention này khiến thời gian huấn luyện tăng lên gấp 3 lần so với bình thường. Kết quả thu được sau 100,000 iteration được tác giả đánh giá là âm thanh tương đối tự nhiên nhưng không rõ ngữ nghĩa.
Trong lần thử nghiệm thứ hai, tác giả đã sử dụng mô hình M1 để làm điểm khởi đầu cho mô hình học. Điều này sẽ giúp mô hình học được sự chú ý tốt hơn và khả năng hội tụ nhanh hơn. Cùng với đó không sử dụng lớp Attention Conditioning, gia tăng kích thước batch trở lại 12. Thời gian huấn luyện là 28 phút cho mỗi 1,000 iterations. Chương trình được dừng lại ở 129,000 iteration, mô hình đã hội tụ và đạt kết quả tốt hơn 1 chút so với Tacotron. Tuy nhiên hiện tượng với rất nhiều văn bản đầu vào có độ dài khác nhau, câu đầu ra vẫn có thời gian cố định. Nguyên nhân được dự đoán là do mô hình chưa học được cơ chế gate. Và trong lần cuối cùng, tác giả thực hiện tương tự như trên nhưng điều chỉnh kích thước từng batch xuống 6. Tăng learning rate từ 1e-4 lên 5e-4. Với 14 phút huấn luyện hoàn thành 1,000 iterations và sau 200,000 iterations, cơ chế gate đã bắt đầu thấy hiện tượng hội tụ, giá trị hàm mất mát ở mức rất thấp. Mô hình tốt nhất được lưu trữ với tên gọi M2.
2.7.4. Thí nghiệm 03 – Mô hình M3
Tiếp tục với duy nhất bộ dữ liệu AnSpeech, tác giả tăng giá trị K cũng là số flows của lớp Afin ghép nối lên 2 và kết hợp với mô hình tốt nhất của Thí nghiệm
33 02, các tham số khác vẫn được giữ nguyên. Kết quả thu được là vượt trội so với các kết quả khác. Sau 39,000 iteration, mô hình đã học được sự hội tụ và dừng chạy chương trình sau 90,000 iterations. Tổng thời gian huấn luyện cho mô hình M3 là 450 phút.
2.7.5. Thí nghiệm 04 – Mô hình M4
Trên sự gia tăng chất lượng câu nói từ mô hình M1 đến mô hình M3, tác giả triển khai thí nghiệm 04 bằng cách tăng K lên 3. Nhận thấy chất lượng âm thanh đã tự nhiên, dễ hiểu nhưng sự ngắt nghỉ chưa tốt, sự ảnh hưởng của dấu câu xuất hiện ở một số thử nghiệm nhưng chưa rõ rệt trên toàn bộ tập kiểm thử, tác giả thực hiện xử lý dữ liệu văn bản của AnSpeech với duy nhất đấu “,” để ngắt nghỉ và dấu “.” ở kết thúc tất cả các câu. Theo tác giả, nguyên nhân là do bộ dữ liệu AnSpeech không phải dữ liệu tự nhiên nên các dấu câu như “?”, “!”. “;” sẽ không có sự khác biệt trong cách phát âm của âm thanh. Do đó, tác giả sẽ loại bỏ hết các dấu câu này. Độ dài của câu được giới hạn từ 5 đến 25 từ trong 1 câu. Kết quả thu được tốt nhất sau 7,000 iterations tương ứng 28 phút huấn luyện. Câu tổng hợp đã có sự ngắt nghỉ sau các bước xử lý trên. Mô hình M4 được lưu trữ. Tác giả nhận thấy chất lượng mô hình đã đảm bảo, kích thước lưu trữ cho mỗi mô hình cũng lên đến gần 1GB nên sẽ dừng thử nghiệm không tăng giá trị K để chuyển sang nhóm thử nghiệm thứ hai.
2.7.6. Thí nghiệm 05 – Chuyển đổi cảm xúc