Hidden Markov Model)
Có 3 loại mô hình Markovẩn ñược sử dụng trong nhận dạng tiếng nói: mô hình Markovẩn rời rạc, bán liên tục, và liên tục:
Mô hình Markov ẩn rời rạc gặp phải một số ñiểm yếu vì sử dụng codebook là các ñiểm rời rạc trong khi tín hiệu tiếng nói là liên tục, mặc khác, huấn luyện cho mô hình Markovẩn rời rạc cũng gặp khó khăn khi số lượng mẫu lớn, khó huấn luyện thêm mẫu mới.
Mô hình Markov ẩn bán liên tục là mô hình tích hợp của hai công cụ: lượng hoá vector (Vector Quantisation) và HMM rời rạc. Quá trình lượng hoá vector cho phép chuyển ñổi từ tín hiệu quan sát dạng liên tục sang tín hiệu rời rạc bằng cách tìm một vector trong codebook gần với tín hiệu vào nhất. Nhưng trong trường hợp này, quá trình lượng hoá vector chia không gianñặc trưng thành các miền riêng biệt vì vậy có thể gây ra mất thông tin nhiều ñối với tín hiệu vào, ñể cải tiến, SCHMM
ñưa ra một cách tổ chức VQ codebook với các hàm phân phối chồng nhau. Mỗi codeword trong VQ codebook ñại diện bởi một hàm mật ñộ, và chúng liên kết với nhau trong quá trìnhñánh giá xác suất của một vectorñưa vào.
Mặc dù mô hình Markovẩn bán liên tục làm giảmñi sự sai biệt khi lượng hoá các vector, nhưng dù sao vẫn còn một số sai biệt. Mô hình Markov ẩn liên tục là mô hình có những hàm mật ñộ quan sát trực tiếp dùng ñầu vào là tín hiệu liên tục. CHMM gồm có nhiều trạng thái, trongñó mỗi trạng thái chứa các hàm phân phối (hàm Gauss ) trên miền quan sát.
Vì vậy trong ñề tài, chúng tôi sử dụng mô hình Markov ẩn liên tục ñể có
ñược ñộchính xác cao, kích thước từñiển lớn hơn, dễ dàng thêm mẫu mới. 1. Hàm mật ñộ quan sát liên tục
Biểu diễn tổng quát của hàm mật ñộ quan sát liên tục theo công thức ước lượng tham số của mô hình Markovẩn là:
Trong ñó, S là số trạng thái của mô hình Markov ẩn, o là vector quan sát, cjk là hệ số trộn của thành phần trộn thứ k ở trạng thái j, và N là hàm mật ñộ Gauss
nhiều chiều có vector trung bình jkvà ma trận hiệp phương sai Ujk của thành phần trộn thứ k ở trạng thái j là:
với n là số chiều của vector quan sát o. Để chuẩn hoá ñúng bj(o), hệ số trộn cjkphải không âm và thoã mãn ràng buộc:
2. Khởi tạo giá trị ban ñầu cho CDHMM
CDHMM ñược biểu diễn bằng ma trận xác suất chuyển trạng thái A = {aij}, với aij là xác suất chuyển từ trạng thái i ở thời ñiểm t ñến trạng thái j ở thời ñiểm t+1, bj(o) là hàm mật ñộ liên tục của vector quan sát o khi mô hìnhñangở trạng thái j theo công thức (3.1) và ma trận xác suất trạng thái ban ñầu = { i}, với ilà xác suất mô hìnhở trạn thái itại thời ñiểm t = 1. Nếu chúng ta khởi tạo tốt các tham số
ban ñầu cho CDHMM thì thuật toán ước lượng sẽ hội tụ ñúng và nhanh. Thông
thường trong nhận dạng tiếng nói, người ta chọn mô hình Bakis có bước nhảy 2,
ởñó:
Để khởi tạo các tham số ban ñầu cho jk ,Ujk và cjk, ñầu tiên chúng ta phải phân ñoạn các quan sát của mỗi chữ số ñã biết thành các trạng thái, có thể phân
ñoạn tuyến tính hay phân ñoạn ñều.
Thuật toán khỏi tạo giá trịñầu của CDHMM như sau:
a. Gọi Nj là số lượng các vector quan sát o ở trạng thái j, sử dụng thuật toán phân nhóm k-trung bình của Linde-Buzo-Gray, chúng ta có ñược M vector trung bình jkcủa các quan sát trên, gọi Njk là số lượng các vector quan sát o của thành phần trộn thứ k ở trạng thái j, nên
Có thể giả thiết các phần tử của vector quan sát này là không tương quan với các phần tử của vector quan sát kia nên ma trận hiệp phương sai Ujk
trở thành ma trận ñường chéo. Ngoài ra, các phần tử aij cũng ñược xác ñịnh bằng cách ñếm số lần chuyển từ trạng thái i sang trạng thái j và chia cho số
lần ở trạng thái i. Như vậy, chúng ta ñã có mô hình Markov ẩn 1 ở thời
ñiểm này. Tiếp theo, sử dụng thuật toán Viterbi ñể tính xác suất tạo ra mỗi chữ số tươngứng với mô hình Markovẩn 1và gọi là P1, ñồng thời thu ñược chuỗi các trạng thái tươngứng với các vector quan sát ñã cho.
b. Thực hiện lại bước a và chúng ta lại có ñược mô hình Markovẩn 2và P2. Nếu P2 > P1, nghĩa là mô hình Markov ẩn 2 tốt hơn 1, gán P1=P2,
1= 2rồi lặp lại bước b.
Quá trình lặp chấm dứt khi không thể chọn mô hình Markovẩn mới nào tốt hơn mô hình Markovẩn trước ñó.
3. Ước lượng các tham số của CDHMM
Gọi t(j,k) là xác suất ñang ở trạng thái j tại thời ñiểm t với thành phần trộn thứ k của quan sát ot, 1 t T, trong ñó T là số lượng quan sát của một từ. Ta có
trong ñó, t(j) = P(o1o2…ot, qt =j| ) là xác suất miền quan sát o1 o2 … ot (ñến thời ñiểm t) với trạng thái j ở thời ñiểm t, và t(j) = P(o1+1o2+2…oT, qT=j| ) là xác suất của miền quan sát từ t+1 ñến cuối T, với trạng thái j ở thời ñiểm t, ứng với
mô hình CDHMM . Chúng ta sử dụng thuật toán Baum-Welch thuận và nghịch ñể
tính t(j) và t(j).
Do ñịnh nghĩa t(j,k) như trên, nên hệ số trộn cjklà tỷ số giữa kỳ vọng số lần
ở trạng thái j dùng thành phần trộn thứ k và kỳ vọng số lần ở trạng thái j
Tương tự, vector jklà trung bình có trọng và ma trận Ujklà hiệp phương sai có trọng của các quan sát ot
trong ñó, H là vector chuyển vị. Các công thức (8), (9), (10) chỉ dùng ñể học một chữ số, trong quá trìnhước lượng, mỗi chữ sốñược nói nhiều lấn nên cần thêm phép tổng
L
l1
với L là số từ, phía trước tử số và mẫu số trong các công thức trên. Ngoài ra, công thức ước lượng của aij cũng giống như của mô hình Markov ẩn có mật ñộ quan sát rời rạc.
Chương 4.
Một số khảo sát về thanh ñiệu tiếng Việt
Các thông số cơ bản của thanh ñiệu bao gồm: tần số cơ bản, cường ñộ, và trường ñộ. Tuy nhiên, khác với tần số cơ bản và trường ñộ, cường ñộ không ñóng vai trò chủ yếu ñối với việc xác ñịnh những ñặc trưng của thanh ñiệu. Tuỳ theo ngữ
cảnh và những sắc thái tình cảm trong giao tiếp bằng ngôn ngữ cường ñộ có thể bị
biến ñổi. Do ñó, ñặc trưng này thuộc ngữ ñiệu câu, và chỉ là một hiện tượng ñi kèm với thanh ñiệu. Khi miêu tả tần số cơ bản, hai thuộc tính ngữ âm ảnh hưởng trực tiếp ñến các ñặc trưng của thanh ñiệu là: sự vận ñộng của F0 và âm vực. Đường nét của tần số cơ bản thể hiện như một hàm thời gian, chỉ tồn tại trong âm hữu thanh. Âm vực là ñộ cao tương ñối của tần số cơ bản trong sự vận ñộng của nó. Trường ñộ
của thanh ñiệu là hàm thời gian của tần số cơ bản trong một âm tiết. Tần số cơ bản
chỉ tồn tại trong các âm hữu thanh, phản ánh trực tiếp trường ñộ của thanh ñiệu. Do ñó, trường ñộ của thanh ñiệu không phải bao giờ cũng trùng với trường ñộ của
âm tiết.
Sự vận ñộng tần số cơ bản của thanh ñiệu trong từng âm tiết ñược phân chia thành 2 giai ñoạn. Riêng thanh 3 (thanh ngã) có trường hợp bị gián ñoạn thành 2 phần. Gọi các ñiểm mốc là: ñiểm ñầu(E), ñiểm giữa(M), ñiểm cuối(A). Thanh ngã khi bị gián ñoạn có 6 ñiểm mốc.