Hệ thống nhận dạng dựa trên mô hình Markov ẩn (HMM)

Một phần của tài liệu BÀI GIẢNG XỬ LÝ TIẾNG NÓI (Trang 90 - 93)

Hầu hết các hệ thống nhận dạng liên tục hiện nay dựa trên các mô hình Markov ẩn (HMM). Mặc dù nền tảng của các hệ thống nhận dạng liên tục (CSR) dựa trên HMM có trước hàng thập kỷ, ñến gần ñây mới có ñược một số tiến bộ trong việc cải thiện công nghệñể giảm nhỏ sự phụ thuộc của các giả thiết cố hữu và thích ứng các mô hình cho các ứng dụng và các môi trường nhất ñịnh.

Hình 5.18 Sơñồ cấu trúc một hệ thống nhận dạng tiếng nói dựa trên mô hình HMM

Các thành phần chính của một hệ thống CSR làm việc với bộ từ vựng lớn ñược mô tả trong hình 5.18. Dạng sóng âm thanh ñầu vào từ một mi-cờ-rô ñược chuyển ñổi thành một dãy có ñộ dài cốñịnh các véc-tơ âm y= y1,...,yT nhờ một quá trình trích chọn mẫu. Bộ giải mã sau ñó cố gắng tìm kiếm một dãy từ w=w ,..., w1 K có khả năng cao nhất ñã tạo ra y . Nói

cách khác, bộ giải mã cố gằng giải bài toán:

( )

ˆ =arg axm p | 

w

w w y (5.31)

Tuy nhiên, vì p w y( | ) rất khó xác ñịnh trong thực tế, do ñó bằng cách áp dụng công thức Bayes chúng ta có:

( ) ( )

ˆ =arg axm p | p 

w

w y w w (5.32)

ðộ tương ñồng p y w( | ) ñược xác ñịnh bằng một mô hình âm và xác suất tiên nghiệm

( )

không ñược chuẩn hóa và mô hình ngôn ngữ thường ñược tỷ lệ bằng một hằng số ñược xác ñịnh một cách thực nghiệm và một tham số bất lợi của việc chèn từñược thêm vào. Nói cách khác, lô-ga-rít của ñộ tương ñồng tổng ñược tính bằng log(p(y w| ))+αp( )w +β|w|, trong ñó α là giá trị phổ biến trong khoảng 8-20 và β phổ biến trong khoảng từ 0 ñến -20. ðơn vị cơ bản của âm ñược biểu diễn bởi mô hình âm là âm vị (phone). Ví dụ từ bat trong tiếng Anh gồm ba âm vị là /b/, /ae/ và /t/. ðối với tiếng Anh cần có khoảng 40 âm vị như vậy.

Với mỗi w cho trước, mô hình âm tương ứng ñược tổng hợp bằng cách chắp nối các mô hình âm vịñể tạo ra các từ nhưñã ñược quy ñịnh bằng một từñiển phát âm. Các thám số của các mô hình âm vị này ñược ước lượng từ các dữ liệu huấn luyện bao gồm các dạng sóng tín hiệu và các bản ghi hệ thống chính tả của chúng. Mô hình ngôn ngữ thường là một mô hình N-gram trong ñó xác suất của mỗi từ chỉ phụ thuộc ñiều kiện vào N-1 thành phần trước nó. Các tham số của mô hình N-gram ñược ước lượng bằng cách ñếm các tuýp N trong một tập (corpora: corpus - a collection of recorded utterances used as a basis for the descriptive analysis of a language) chữ thích hợp. Bộ giải mã hoạt ñộng bằng cách tìm kiếm qua tất cả các dãy từ có thể, nó sử dụng phương pháp chặt (prune) ñể loại bỏ các giả thiết gần như không xảy ra và bằng cách ñó giữ cho việc tìm kiếm có thể kiểm soát ñược. Khi việc tìm kiếm ñến tiến ñến phần cuối cùng, dãy từ có sự tương ñồng nhất chính là kết quả. Trong các bộ giải mã hiện ñại, thay vì sử dụng các phương pháp vừa nêu, bộ giải mã sinh ra các lưới chứa các biểu diễn gọn của hầu hết các giả thiết có khả năng nhất.

a)Trích chọn ñặc trưng

Nhưñã ñề cập, việc trích chọn ñặc trưng tìm các tạo ra một biểu diễn (thường là dạng mã hóa) tối ưu tín hiệu tiếng nói. Quá trình này cũng phải ñảm bảo giảm thiểu sự mất mát thông tin và tạo ra một sự phù hợp tốt nhất với các giả thiết phân tán tạo ra bởi các mô hình âm. Các véc-tơñặc trưng thường ñược tính toán trong mỗi khung có ñộ dài khoảng 10ms và sử dụng các hàm cửa sổ phân tích chồng lấn nhau. Phương pháp trích trọn phổ biến nhất trong các ứng dụng nhận dạng sử dụng mô hình HMM là phương pháp MFCC như ñã trình bày trong phần trên.

b)Các mô hình âm học HMM

Nhưñã ñề cập, các từ ñược phát ra trong w ñược phân tách thành một dãy các âm cơ bản ñược gọi là các âm vị cơ sở. ðể cho phép các thay ñổi phát âm có thể, ñộ tương ñồng

( | )

p y w có thểñược tính trên các phương án phát âm:

( | ) ( | ) ( | )

Q

p y w =∑p y Q p Q w (5.33) Các bộ nhận dạng thường xấp xỉ công thức này bằng phép tính cực ñại do ñó các phương pháp phát âm khác nhau có thểñược giải mã như thể chúng là các giả thiết từ thay thế. Mỗi Q là một dãy các phát âm của từ Q1, …, QK trong ñó mỗi phương án phát âm là một dãy các âm vị cơ sở Qk =q1( )k ,q2( )k ,.... Khi ñó chúng ta có: ( ) ( ) 1 | | K k k k p Q p Q w = =∏ w (5.34)

Chương 5: Nhận dạng tiếng nói

Ở ñây p Q( k|wk) là xác suất từ w k ñược phát âm dựa trên dãy các âm vị cơ sở Q .

Trong thực tế, chỉ có rất ít số khả năng có thể các phương án phát âm Qk cho mỗi từ wk, ñiều này cho phép tổng (5.33) dễ dàng kiểm soát ñược.

Hình 5.19 Mô hình âm vị cơ sở dựa trên mô hình HMM

Mỗi âm cơ sở q ñược biểu diễn bởi một mô hình Markov ẩn mật ñộ liên tục (HMM) ñược minh họa trong hình 5.19. Trong minh họa này, các tham số dịch chuyển là { }aij và các phân bố quan sát ñầu ra {bj( )}. Các phân bố quan sát ñầu ra thường là sự pha trộn của các phân bố chuẩn Gausse: (adsbygoogle = window.adsbygoogle || []).push({});

( ) 1 ; , M j jm jm m jm b y c y µ =   = ℵ    ∑ ∑ (5.35)

ℵ biểu diễn phân bố chuẩn với giá trị trung bình µjm và covariance ∑ jm . Số lượng các thành phần trong công thức (5.35) thường lấy trong khoảng 10 ñến 20. Vì kích thước của các véc-tơ âm y thường tương ñối lớn, các covariance thường ñược giới hạn là các ma trận ñường chéo. Các trạng thái ñầu và kết thúc là các trạng thái không phát xạ (nonemitting) và chúng ñược thêm vào nhằm ñơn giản hóa quá trình chắp nối các mô hình âm vịñể tạo ra các từ.

Cho trước một HMM tổng hợp với Q ñược tạo ra bằng các chắp nối tất cả các âm vị cơ sở cấu thành, ñộ tương ñồng âm ñược tính bởi:

( | ) ( , | )

X

p y Q =∑p x y Q (5.36)

Trong ñó X =x( )0 ,...,x T( ) là một dãy các trạng thái trong toàn bộ mô hình tổng hợp và ( ) ( ) ( )0 , 1 ( ) ( ) ( ), 1 1 , | T x x x t x t x t t p x y Q a b a + = = ∏ (5.37)

Các tham số mô hình âm { }a và ij {bj( )} có thểñược ước lượng một cách hiệu quả từ tập các bộ huấn luyện bằng phương pháp cực ñại kỳ vọng.

Một phần của tài liệu BÀI GIẢNG XỬ LÝ TIẾNG NÓI (Trang 90 - 93)