Mô hình Markov ẩn liên tục (CDHM M Continuous Densities

Một phần của tài liệu Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt (Trang 61 - 65)

Hidden Markov Model)

Có 3 loại mô hình Markovẩn được sử dụng trong nhận dạng tiếng nói: mô hình Markovẩn rời rạc, bán liên tục, và liên tục:

Mô hình Markov ẩn rời rạc gặp phải một số điểm yếu vì sử dụng codebook là các điểm rời rạc trong khi tín hiệu tiếng nói là liên tục, mặc khác, huấn luyện cho mô hình Markovẩn rời rạc cũng gặp khó khăn khi số lượng mẫu lớn, khó huấn luyện thêm mẫu mới.

Mô hình Markov ẩn bán liên tục là mô hình tích hợp của hai công cụ: lượng hoá vector (Vector Quantisation) và HMM rời rạc. Quá trình lượng hoá vector cho phép chuyển đổi từ tín hiệu quan sát dạng liên tục sang tín hiệu rời rạc bằng cách tìm một vector trong codebook gần với tín hiệu vào nhất. Nhưng trong trường hợp này, quá trình lượng hoá vector chia không gianđặc trưng thành các miền riêng biệt vì vậy có thể gây ra mất thông tin nhiều đối với tín hiệu vào, để cải tiến, SCHMM

đưa ra một cách tổ chức VQ codebook với các hàm phân phối chồng nhau. Mỗi codeword trong VQ codebook đại diện bởi một hàm mật độ, và chúng liên kết với nhau trong quá trìnhđánh giá xác suất của một vectorđưa vào.

Mặc dù mô hình Markovẩn bán liên tục làm giảmđi sự sai biệt khi lượng hoá các vector, nhưng dù sao vẫn còn một số sai biệt. Mô hình Markov ẩn liên tục là mô hình có những hàm mật độ quan sát trực tiếp dùng đầu vào là tín hiệu liên tục. CHMM gồm có nhiều trạng thái, trongđó mỗi trạng thái chứa các hàm phân phối (hàm Gauss ) trên miền quan sát.

Vì vậy trong đề tài, chúng tôi sử dụng mô hình Markov ẩn liên tục để có

được độchính xác cao, kích thước từđiển lớn hơn, dễ dàng thêm mẫu mới. 1. Hàm mật độ quan sát liên tục

Biểu diễn tổng quát của hàm mật độ quan sát liên tục theo công thức ước lượng tham số của mô hình Markovẩn là:

Trong đó, S là số trạng thái của mô hình Markov ẩn, o là vector quan sát, cjk

nhiều chiều có vector trung bình jkvà ma trận hiệp phương sai Ujk của thành phần trộn thứ k ở trạng thái j là:

với n là số chiều của vector quan sát o. Để chuẩn hoá đúng bj(o), hệ số trộn cjkphải không âm và thoã mãn ràng buộc:

2. Khởi tạo giá trị ban đầu cho CDHMM

CDHMM được biểu diễn bằng ma trận xác suất chuyển trạng thái A = {aij}, với aij là xác suất chuyển từ trạng thái i ở thời điểm t đến trạng thái j ở thời điểm t+1, bj(o) là hàm mật độ liên tục của vector quan sát o khi mô hìnhđangở trạng thái j theo công thức (3.1) và ma trận xác suất trạng thái ban đầu = { i}, với ilà xác suất mô hìnhở trạn thái itại thời điểm t = 1. Nếu chúng ta khởi tạo tốt các tham số

ban đầu cho CDHMM thì thuật toán ước lượng sẽ hội tụ đúng và nhanh. Thông

thường trong nhận dạng tiếng nói, người ta chọn mô hình Bakis có bước nhảy 2,

ởđó:

Để khởi tạo các tham số ban đầu cho jk ,Ujk và cjk, đầu tiên chúng ta phải phân đoạn các quan sát của mỗi chữ số đã biết thành các trạng thái, có thể phân

đoạn tuyến tính hay phân đoạn đều.

Thuật toán khỏi tạo giá trịđầu của CDHMM như sau:

a. Gọi Nj là số lượng các vector quan sát o ở trạng thái j, sử dụng thuật toán phân nhóm k-trung bình của Linde-Buzo-Gray, chúng ta có được M vector trung bình jkcủa các quan sát trên, gọi Njk là số lượng các vector quan sát o của thành phần trộn thứ k ở trạng thái j, nên

Có thể giả thiết các phần tử của vector quan sát này là không tương quan với các phần tử của vector quan sát kia nên ma trận hiệp phương sai Ujk trở thành ma trận đường chéo. Ngoài ra, các phần tử aij cũng được xác định bằng cách đếm số lần chuyển từ trạng thái i sang trạng thái j và chia cho số

lần ở trạng thái i. Như vậy, chúng ta đã có mô hình Markov ẩn 1 ở thời

điểm này. Tiếp theo, sử dụng thuật toán Viterbi để tính xác suất tạo ra mỗi chữ số tươngứng với mô hình Markovẩn 1và gọi là P1, đồng thời thu được chuỗi các trạng thái tươngứng với các vector quan sát đã cho.

b. Thực hiện lại bước a và chúng ta lại có được mô hình Markovẩn 2và P2. Nếu P2 > P1, nghĩa là mô hình Markov ẩn 2 tốt hơn 1, gán P1=P2,

1= 2rồi lặp lại bước b.

Quá trình lặp chấm dứt khi không thể chọn mô hình Markovẩn mới nào tốt hơn mô hình Markovẩn trước đó.

3. Ước lượng các tham số của CDHMM

Gọi t(j,k) là xác suất đang ở trạng thái j tại thời điểm t với thành phần trộn thứ k của quan sát ot, 1 t T, trong đó T là số lượng quan sát của một từ. Ta có

trong đó, t(j) = P(o1o2…ot, qt =j| ) là xác suất miền quan sát o1 o2 … ot

(đến thời điểm t) với trạng thái j ở thời điểm t, và t(j) = P(o1+1o2+2…oT, qT=j| ) là xác suất của miền quan sát từ t+1 đến cuối T, với trạng thái j ở thời điểm t, ứng với

mô hình CDHMM . Chúng ta sử dụng thuật toán Baum-Welch thuận và nghịch để

tính t(j) và t(j).

Do định nghĩa t(j,k) như trên, nên hệ số trộn cjklà tỷ số giữa kỳ vọng số lần

ở trạng thái j dùng thành phần trộn thứ k và kỳ vọng số lần ở trạng thái j

Tương tự, vector jklà trung bình có trọng và ma trận Ujklà hiệp phương sai có trọng của các quan sát ot

trong đó, H là vector chuyển vị. Các công thức (8), (9), (10) chỉ dùng để học một chữ số, trong quá trìnhước lượng, mỗi chữ sốđược nói nhiều lấn nên cần thêm phép tổng L

l1

với L là số từ, phía trước tử số và mẫu số trong các công thức trên. Ngoài ra, công thức ước lượng của aij cũng giống như của mô hình Markov ẩn có mật độ quan sát rời rạc.

Chương 4.

Mt s kho sát v thanh điu tiếng Vit

Các thông số cơ bản của thanh điệu bao gồm: tần số cơ bản, cường độ, và trường độ. Tuy nhiên, khác với tần số cơ bản và trường độ, cường độ không đóng vai trò chủ yếu đối với việc xác định những đặc trưng của thanh điệu. Tuỳ theo ngữ

cảnh và những sắc thái tình cảm trong giao tiếp bằng ngôn ngữ cường độ có thể bị

biến đổi. Do đó, đặc trưng này thuộc ngữ điệu câu, và chỉ là một hiện tượng đi kèm với thanh điệu. Khi miêu tả tần số cơ bản, hai thuộc tính ngữ âm ảnh hưởng trực tiếp đến các đặc trưng của thanh điệu là: sự vận động của F0 và âm vực. Đường nét của tần số cơ bản thể hiện như một hàm thời gian, chỉ tồn tại trong âm hữu thanh. Âm vực là độ cao tương đối của tần số cơ bản trong sự vận động của nó. Trường độ

của thanh điệu là hàm thời gian của tần số cơ bản trong một âm tiết. Tần số cơ bản

chỉ tồn tại trong các âm hữu thanh, phản ánh trực tiếp trường độ của thanh điệu. Do đó, trường độ của thanh điệu không phải bao giờ cũng trùng với trường độ của

âm tiết.

Sự vận động tần số cơ bản của thanh điệu trong từng âm tiết được phân chia thành 2 giai đoạn. Riêng thanh 3 (thanh ngã) có trường hợp bị gián đoạn thành 2 phần. Gọi các điểm mốc là: điểm đầu(E), điểm giữa(M), điểm cuối(A). Thanh ngã khi bị gián đoạn có 6 điểm mốc.

Một phần của tài liệu Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt (Trang 61 - 65)

Tải bản đầy đủ (PDF)

(116 trang)