MỤC LỤC
Trong môi trường sinh hoạt hàng ngày, chất lượng tiếng nói biến động rất lớn do chịu ảnh hưởng của các yếu tố ngoại cảnh, tâm và sinh lý người nói: một câu của cùng một người nói khi thâu vào máy sẽ khác nhau nếu nói ở hai tâm trạng khác nhau (lúc vui nói khác, lúc giận nói khác,…), sức khoẻ khác nhau (lúc khoẻ nói khỏc, lỳc bệnh núi khỏc), tốc độ núi khỏc nhau (núi chậm thỡ rừ hơn núi nhanh), mụi trường xung quanh khác nhau (môi trường có tiêng ồn thì âm thu vào sẽ bị nhiễu), v.v… Và còn nhiều yếu tố khác nữa tác động lên chất lượng của lời nói như thiết bị thu không tốt, tín hiệu bị nhiễu điện,… Do đó, việc nhận dạng trở nên rất khó khăn. Trong tiếng Việt, các cấu âm bổ sung có vai trò quan trọng hơn cả là: hiện tượng bật hơi tức là kèm theo một lưu lượng không khí lớn khi chỗ tắc được bật ra (ví dụ: phụ âm th); hiện tượng thanh hầu hóa - bổ sung động tác tắc kèm theo sự nâng lên của thanh hầu; và yết hầu hóa - bổ sung động tác khép của yết hầu.
Khi một HMM tiến hành mô hình hóa 1 chuỗi quan sát của tiếng nói (tức xác định chuỗi quan sát ứng với chuỗi vector đặc trưng sóng âm), mỗi trạng thái có thể phát sinh tại bất kì vector quan sát nào (với 1 số ràng buộc), nhưng với xác suất khác nhau. Mặc dù xác suất của 1 chuỗi chuỗi trạng thái ứng với O là không biết được nhưng tuy nhiên xác suất của sự kiện quan sát vector ot (xác định trạng thái của Ot ) tại các thời điểm t khác nhau là độc lập và hoàn toàn xác định được (điều này là rất cần thiết đối với tất cả các quá trình tính toán dựa trên HMM). Chi phí để chuyển từ trạng thái i sang trạng thái j là trọng số - ln(aij bj (Ot) ) ( với aij bj (Ot) là xác suất chuyển từ trạng thái i sang trạng thái j tại thời điểm t và vector đặc trưng Ot đạt trạng thái j) với Ot là vector đặc trưng được chọn trong chuỗi O=O1, O2, …, OT khi chuyển tới trạng thái j.
Ví dụ mô hình CI-HMM λa của âm vị /a/ sẽ chứa tất cả các thông tin của a trong tất cả các âm tiết /ba/, /bang/, /sanh/, /hoan/, … Tuy nhiên sự thay đổi tính chất của âm vị còn phụ thuộc vào ngữ cảnh (ví dụ sự ảnh hưởng của các âm vị xung quanh nó nên nếu mô hình hóa tất cả các thể hiện của 1 âm vị vào 1 monophone HMM có thể không hiệu quả.
Thực hiện tốt quá trình tiền xử lý sẽ nâng cao đáng kể chất lượng nhận dạng. Tuy nhiên trên thực tế, quá trình tiền xử lý chỉ hạn chế những ảnh hưởng không mong muốn tác động xấu đến kết quả nhận dạng chứ không thể triệt tiêu hết được chúng.
Sử dụng phép trừ phi tuyến, hệ số trừ sẽ giảm ở các thành phần phổ có tỉ lệ SNR cao và tăng ở các thành phần phổ có tỉ lệ SNR thấp. Thêm vào đó, mô hình tiếng ồn được mở rộng bằng cách sử dụng cả phổ tiếng ồn trung bình và phổ tiếng ồn vượt ngưỡng. Ephraim và Malah đề xuất thuật toán này để áp dụng cho các thành phần biên độ phổ tiếng ồn ngắn kỳ.
Trong phương pháp này, các thành phần phổ của tiếng nói và tiến ồn được mô hình thành các biến ngẫu nhiên Gaussian.
Davis và Mermelstein đưa ra thuật ngữ hệ số cepstral theo tần số Mel (Mel- frequency Cepstral Coefficients - MFCC) vào năm 1980 khi họ kết hợp các bộ lọc cách khoảng không đều với biến đổi Cosine rời rạc (DCT) thành một thuật toán đầu-cuối ứng dụng trong lĩnh vực nhận dạng tiếng nói liên tục. Điểm khác biệt là sau bước phân chia cửa sổ, phổ tín hiệu được tính thông qua phép biến đổi dự báo tuyến tính LPC thay vì dùng các phép biến đổi Fourier. Nguyên nhân có thể do hiệu ứng làm mượt vùng tần số cao của bộ lọc tỉ lệ Mel, làm giảm đi các yếu tố cao thất thường trong vòng tần số cao bằng cách nâng cao băng thông của các dãy bộ lọc.
Đối với tiếng nói không bị pha tạp tiếng ồn hoặc tiếng nói giống tiếng nói đã học mẫu, phương pháp LPC có hiệu suất kém hơn FFT (cả 2 đều dùng bộ lọc tỉ lệ Mel), nhưng đối với tiếng nói ở môi trường ồn ào hoặc không giống dạng tiếng nói đã học mẫu, ước lượng spectral LPC có hiệu suất cao hơn.
HRest sẽ load mô hình HMM khởi tạo λao và quá trình ước lượng tham số sử dụng tất cả các đoạn dữ liệu được gán nhãn (được xác định trong file đánh nhãn) cho âm vị /a/ áp dụng thuật toán Baum-Welch để ước lượng các tham số cho HMM λa theo hình vẽ trên. Embedded training xử lý mỗi file huấn luyện như sau: Sau khi load toàn bộ file dữ liệu chương trình sẽ sử dụng file gán nhãn (như đã nói ở trên) để xây dựng 1 mô hình HMM tổng hợp cho toàn bộ câu. Tính toán αj(t) và βj (t) trên tất cả các trạng thái j và tất cả các thời điểm t là không cần thiết vì nhiều tính toán trong số đó là không có ảnh hưởng đáng kể tới kết quả.
Do đó áp dụng prunning sẽ giảm số trạng thái được xét αi(t) và βi(t).Giảm tính toán trên forward αj (t) luôn luôn được thực hiện vì nó không ảnh hưởng nhiều tới kết quả và trong HTK, nó được thực hiện tự động.
Giải pháp thứ nhất được HERest (thư viện HTK) sử dụng: cắt bớt những tính toán không cần thiết trong công thức của thuật toán forward-backward. Các công thức ước lượng tham số của embedded training cần phải thay đổi để sao cho trạng thái đầu của HMM có thể xuất hiện bất cứ lúc nào do kết quả của sự đi ra khỏi mô hình trước. Trong quá trình huấn huấn luyện Embedded training, HMM trên toàn bộ chuỗi quan sát O là mô hình HMM phức bao gồm Q mô hình HMM âm vị móc nối với nhau.
Giả sử tại thời điểm t giá trị α và β tương ứng với trạng thái mở đầu và trạng thái kết thúc của 1 HMM tại thời điểm t-∆t và t+ ∆t với ∆t tương đối nhỏ.
Ý tưởng của cách khởi tạo này là dựa vào các dữ liệu huấn luyện được đưa vào, chúng ta sẽ khởi tạo các HMM sao cho chúng có vector trung bình và hiệp phương sai bằng nhau và bằng với vector trung bình toàn cục và vector hiệp phương sai toàn cục của dữ liệu huấn luyện. Trong trường hợp bình thường ngưỡng prunning là tương đối nhỏ (chỉ 1 số trường hợp đặc biệt thì ngưỡng này hơi lớn) nhưng trong 1 số trường hợp do lỗi của dữ liệu huấn luyện (thường là do gán nhãn sai hoặc dữ liệu Tiếng nói bị nhiễu quá nhiều) thì ngưỡng này sẽ phải lớn hơn. Tuy nhiên, trong 1 số trường hợp chúng ta loại bỏ 1 số câu huấn luyện mà nó là 1 hiện tượng ngữ âm ít xuất hiện trong dữ liệu huấn luyện nên bị xem như là dữ liệu sai (thường xảy ra là do gán nhãn không chính xác hoặc các âm tiết gần nhau quá không tách được).
Quá trình huấn luyện trên mô hình triphone phụ thuộc ngữ cảnh có thể được thực hiện bằng cách nhân các mô hình HMM monohone lên và huấn luyện tham số HMM dựa vào các file gán nhãn theo âm vị triphone chứ không dựa vào các file gán nhãn monophone.
Ở mức độ từ, nếu biết trước được n-1 từ chúng ta sẽ đoán được từ thứ n thông qua các qui luật ngữ pháp trong mô hình ngôn ngữ và như vậy không gian tìm kiếm sẽ hạn chế đi rất nhiều và độ chính xác sẽ lớn hơn. Đối với mức độ âm vị khi biết được n âm vị của 1 từ chúng ta sẽ đoán được âm vị tiếp theo nằm trong 1 số lượng hạn chế các âm vị, và như vậy quá trình tìm kiếm cũng nhanh hơn và chính xác hơn. Trong nhận dạng, chúng ta áp dụng thuật giải Vitebi, sử dụng các mô hình HMM vừa huấn luyện được và sử dụng mạng các từ và mạng các mô hình HMM để tìm ra các chuỗi các âm vị có xác suất cao nhất trên chuỗi sóng âm đã được rút trích đặc trưng.
Trong khi tiếng Việt chưa có được những kho dữ liệu có gán nhãn âm vị, hướng tiếp cận nhận dạng âm vị tự động với công việc huấn luyện trên dữ liệu không gán nhãn âm vị là một hướng tiếp cận hợp lý.
[13] Tarun Agarwal, Pre-Processing of Noisy Speech for Voice Coders, Department of Electrical & Computer Engineering, McGill University, Montreal, Canada, January 2002. [14] Ing Yann Soon and Soo Ngee Koh, Speech Enhancement Using 2-D Fourier Transform, IEEE Transactions On Speech And Audio Processing, VOL.