Các thành phần chính của HMM

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt theo hướng tiếp cận nhận dạng âm vị tự động (Trang 33 - 35)

HÌNH 6 – Mô hình HMM 5 trạng thái 1 2 3 4 5 Thời gian Trạng thái a22 a33 a44 a12 a23 a34 a45 b3(o6) b2(o1) b 4(o7) O1 O2 O3 O4 O5 O6 O7

KHOA CNTT –

ĐH KHTN

Đầu tiên S={si , i=1,…, n} (với n là số trạng thái của HMM) là tập hợp các trạng thái của mô hình HMM.

Tập hợp tham số thứ nhất được gọi là xác suất chuyển trạng thái (transition probabilities) được định nghĩa như sau:

ai j=P(st=j|st-1=i).

Tập hợp các xác suất khởi tạo mô hình HMM i : π={πi}.

Tuy nhiên trong nhận dạng tiếng nói các mô hình HMM chủ yếu được khởi tạo tại trạng thái đầu tiên nên ta bỏ qua tập xác suất khởi tạo mô hình HMM.

Ý nghĩa của ai j là : xác suất chuyển trạng từ trạng thái i tại thời điểm t-1 sag trạng thái j tại thời điểm t. Chúng ta gọi ma trận A={ai j } là ma trận chuyển trạng thái. Đối với mô hình Markov, khi trạng thái trước được xác định thì xác suất chuyển trạng thái tới trạng thái tiếp theo cũng hoàn toàn xác định.

Để áp dụng HMM vào các sóng âm thanh, 1 hàm thống kê sẽđược gắn vào các trạng thái. Đầu tiên sóng âm tiếng nói sẽ được chuyển đổi thành chuỗi các vector đặc trưng theo thời gian (sẽ được giới thiệu trong phần rút trích đặc trưng sóng âm). Chuỗi các vector đặc trưng này gọi là chuỗi các vector quan sát O=o1,o2,…,oT , với ot là vector đặc trưng cho chuỗi sóng âm tại t. Xác suất mà hàm thống kê nói trên tính là xác suất vector đặc trưng ot đạt trạng thái j tại thời điểm t. Xác suất này gọi là xác suất quan sát hay xác suất output và nó đặc trưng cho tập tham số thứ hai của HMM:

bj (ot)=P(ot|st=j), (t=1,2,…,T; j=1,2,…,n)

Đặt B={bj (ot)}.

Tổng quát mô hình HMM có thể khởi tạo tại bất kì trạng thái nào, Xác xuất mô hình HMM khởi tạo tại trạng thái i kí hiệu là πi . Tập xác suất π= {πi}, gọi là tập

xác suất khởi tạo mô hình HMM, là tập trạng thái thứ 3 của mô hình HMM. Tuy nhiên trong bài toán nhận dạng tiếng nói hầu hết các mô hình HMM đều khởi tạo tại trạng thai đầu tiên nên chúng ta không cần tới tập xác suất thứ 3 này.

KHOA CNTT –

ĐH KHTN

Như vậy ta trong nhận dạng tiếng nói một mô hình HHM λ sẽđược đặc trưng bởi tập trạng thái và 2 tập tham số A và B nói trên: λ=(A, B).

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt theo hướng tiếp cận nhận dạng âm vị tự động (Trang 33 - 35)

Tải bản đầy đủ (PDF)

(91 trang)