ˆm w mm
5.6.5 Hệ thống nhận dạng dựa trên mô hình Markov ẩn (HMM)
Hầu hết các hệ thống nhận dạng liên tục hiện nay dựa trên các mô hình Markov ẩn (HMM). Mặc dù nền tảng của các hệ thống nhận dạng liên tục (CSR) dựa trên HMM có trƣớc hàng thập kỷ, đến gần đây mới có đƣợc một số tiến bộ trong việc cải thiện công nghệ để giảm nhỏ sự phụ thuộc của các giả thiết cố hữu và tính thích ứng các mô hình cho các ứng dụng và các môi trƣờng nhất định.
Hình 5.18 Sơ đồ cấu trúc một hệ thống nhận dạng tiếng nói dựa trên mô hình HMM Các thành phần chính của một hệ thống CSR làm việc với bộ từ vựng lớn đƣợc mô tả trong hình 5.18. Dạng sóng âm thanh đầu vào từ một mi-cờ-rô đƣợc chuyển đổi thành một dãy có độ dài cố định các véc-tơ âm y y1,...,yT nhờ một quá trình trích chọn mẫu. Bộ giải mã sau đó cố gắng tìm kiếm một dãy từ ww1,...,wK có khả năng cao nhất đã tạo ra y. Nói cách khác, bộ giải mã cố gắng giải bài toán:
ˆ arg axm p |
w
w w y (3.31)
Tuy nhiên, vì p(wy) rất khó xác định trong thực tế, do đó bằng cách áp dụng công thức Bayes ta có:
ˆ arg axm p | p
w
w y w w (3.32)
Độ tƣơng đồng p(yw) đƣợc xác định bằng một mô hình âm và xác suất tiên nghiệm p(w) đƣợc xác định bằng mô hình ngôn ngữ. Trong thực tế, mô hình âm (acoustic model) không đƣợc chuẩn hóa và mô hình ngôn ngữ thƣờng đƣợc tỷ lệ bằng một hằng số đƣợc xác định một cách thực nghiệm và một tham số bất lợi của việc chèn từ đƣợc thêm vào. Nói cách khác, lô-ga-rít của độ tƣơng đồng tổng đƣợc tính bằng
) ( ) ( )) (
log(p yw p w p w , trong đó là giá trị phổ biến trong khoảng 8-20 và phổ Bộ giải mã Trích chọn đặc trƣng Các vector đặc trƣng Mô hình âm thanh Từ điền phát âm Mô hình ngôn ngữ Các từ Tiếng nói
CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI
biến trong khoảng từ 0 đến -20. Đơn vị cơ bản của âm đƣợc biểu diễn bởi mô hình âm là âm vị (phone). Ví dụ từ bat trong tiếng Anh gồm ba âm vị là /b/, /ae/ và /t/. Đối với tiếng Anh cần có khoảng 40 âm vị nhƣ vậy.
Với mỗi w cho trƣớc, mô hình âm tƣơng ứng đƣợc tổng hợp bằng cách chắp nối các mô hình âm vị để tạo ra các từ nhƣ đã đƣợc quy định bằng một từ điển phát âm. Các tham số của các mô hình âm vị này đƣợc ƣớc lƣợng từ các dữ liệu huấn luyện bao gồm các dạng sóng tín hiệu và các bản ghi hệ thống chính tả của chúng. Mô hình ngôn ngữ thƣờng là một mô hình N-gram trong đó xác suất của mỗi từ chỉ phụ thuộc điều kiện vào N-1 thành phần trƣớc nó. Các tham số của mô hình N-gram đƣợc ƣớc lƣợng bằng cách đếm các tuýp N trong một tập (corpora: corpus - a collection of recorded utterances used as a basis for the descriptive analysis of a language) chữ thích hợp. Bộ giải mã hoạt động bằng cách tìm kiếm qua tất cả các dãy từ có thể, nó sử dụng phƣơng pháp chặt (prune) để loại bỏ các giả thiết gần nhƣ không xảy ra và bằng cách đó giữ cho việc tìm kiếm có thể kiểm soát đƣợc. Khi việc tìm kiếm đến tiến đến phần cuối cùng, dãy từ có sự tƣơng đồng nhất chính là kết quả. Trong các bộ giải mã hiện đại, thay vì sử dụng các phƣơng pháp vừa nêu, bộ giải mã sinh ra các lƣới chứa các biểu diễn gọn của hầu hết các giả thiết có khả năng nhất.