2 CÁC CƠNG TRÌNH LIÊN QUAN
2.4 Nhận xét về cách ướng tiếp cận
Với các hướng tiếp cận đã trình bày trong phần 2.1.1, chúng tơi nhận thấy hướng tiếp cận dùng mơ hình luật Klatt tuy dễ cài đặt nhưng khĩ xây dựng được đầy đủ các luật để xác định chính xác các trường hợp trong thực tế. Hướng tiếp cận dùng mơ hình Sums-of- products cho kết quả tốt hơn nhưng việc xây dựng các hệ số cho các đặc trưng và phân lớp các cơng thức địi hỏi nhiều cơng sức và kiến thức chuyên mơn. Mơ hình CART cài đặt đơn giản, cho kết quả tương đối tốt nhưng cĩ thể khơng đảm bảo tốt khả năng dựđốn các mẫu chưa được huấn luyện.
Mơ hình sử dụng mạng nơ-ron chứng tỏ khả năng ưu việt với khả năng tự phát hiện các mối liên hệ giữa các đặc trưng âm tiết ởđầu vào và các thơng số ngữđiệu ởđầu ra. Mơ hình này cịn cĩ khả năng dựđốn khá chính xác cho các mNu chưa được huấn luyện và việc cài đặt cũng khơng phức tạp. Do đĩ, chúng tơi chọn sử dụng mơ hình này để xử lý xác định các thơng số ngữđiệu cho các âm tiết. (Xem chương 3)
Đối với việc xử lý tần số cơ bản F0, mơ hình Fujisaki thể hiện ưu điểm vượt trội và được ứng dụng rất thành cơng trong các hệ thống tổng hợp tiếng nĩi. Tuy nhiên, do mức độảnh hưởng của tần số F0 đối với bộ phát âm tiếng Việt khơng địi hỏi quá nghiêm ngặt so với các yếu tố cịn lại nên chúng tơi tạm thời bỏ qua chưa xử lý yếu tố này. Hệ thống sẽ giữ nguyên cao độ của các âm tiết khi thực hiện tổng hợp ghép nối âm tiết.
Phần xử lý tổng hợp tín hiệu tiếng nĩi, chúng tơi chọn cách tiếp cận ghép nối âm tiết vì tính đơn giản trong xử lý, tiếng nĩi tổng hợp rõ ràng tự nhiên, kích thước dữ liệu lưu trữ chấp nhận được đối với các hệ thống máy tính hiện tại. Việc xử lý biến đổi ngữđiệu cĩ thể được thực hiện với các kỹ thuật time-stretching và pitch-shifting [48] để biến đổi trường độ và cao độ; cường độđược điều chỉnh dễ dàng bằng cách thay đổi biên độ tín hiệu. (Xem mục 4.2.2)
Trang 32