5. Ý nghĩa khoa học và thực tiễn
2.2.2. Mô hình Gaussian hỗn hợp
Mô hình Gaussian hỗn hợp (Gaussian Mixture Model - GMM) là một hàm tham số mật độ xác suất được biểu diễn như là một tổng trọng số của các
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
mật độ Gaussian thành phần. GMM được sử dụng rộng rãi như là một mô hình tham số của phân phối xác suất của các phép đo liên tục hay tính năng trong một hệ thống sinh trắc học. Các tham số GMM được đánh giá từ việc huấn luyện dữ liệu sử dụng thuật toán lặp cực đại hóa kỳ vọng (Expectation Maximization – EM) hoặc tối đa hậu nghiệm (Maximum A Posteriori – MAP) Một mô hình GMM là tổng thành phần của M thành phần mật độ Gaussian được cho bởi công thức:
1 ( | ) ( | ; ) M i i i i p x g x (2.14) Trong đó:
M là số thành phần, mỗi thành phần mật độ là một hàm Gaussian như định nghĩa trong công thức 2.14.
i
là trọng số của các thành phần thỏa mãn điều kiện
1 1 M i i
Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng mô hình pha trộn GMM là phương pháp đáp ứng được nhu cầu thực tế đó là áp dụng được cho nhiễu không dừng, đây là loại nhiễu mà rất khó để ước lượng chính xác. Phương pháp biến đổi phổ có thể khắc phục những phương pháp truyền thống bằng việc thay vì sử dụng phương pháp tổng hợp nguồn/bộ lọc truyền thống để tổng hợp tiếng nói bị méo, ở đây tiếng nói có nhiễu được lọc thành tiếng nói sạch bởi các thông số dự đoán tuyến tính (LP) của nguồn và đích. Phương pháp này không sử dụng bất kì sự ước lượng nguồn (F0) nào cho tiếng nói có nhiễu; do đó nó khôi phục hiệu quả tiếng nói sạch từ tiếng nói có nhiễu. Chi tiết về phương pháp này sẽ được trình bày ở phần sau.