Hầu hết các hệ thống nhận dạng liên tục hiện nay dựa trên các mô hình Markov ẩn (HMM). Mặc dù nền tảng của các hệ thống nhận dạng liên tục (CSR) dựa trên HMM có
trƣớc hàng thập kỷ, đến gần đây mới có đƣợc một số tiến bộ trong việc cải thiện công nghệ để giảm nhỏ sự phụ thuộc của các giả thiết cố hữu và tính thích ứng các mô hình cho các ứng dụng và các môi trƣờng nhất định.
Hình 5.18 Sơ đồ cấu trúc một hệ thống nhận dạng tiếng nói dựa trên mô hình HMM Các thành phần chính của một hệ thống CSR làm việc với bộ từ vựng lớn đƣợc mô tả trong hình 5.18. Dạng sóng âm thanh đầu vào từ một mi-cờ-rô đƣợc chuyển đổi thành một dãy có độ dài cốđịnh các véc-tơ âm y y1,...,yT nhờ một quá trình trích chọn mẫu. Bộ giải mã sau đó cố gắng tìm kiếm một dãy từ ww1,...,wK có khảnăng cao nhất
đã tạo ra y. Nói cách khác, bộ giải mã cố gắng giải bài toán:
ˆ arg axm p |
w
w w y (3.31)
Tuy nhiên, vì p(wy) rất khó xác định trong thực tế, do đó bằng cách áp dụng công thức Bayes ta có:
ˆ arg axm p | p
w
w y w w (3.32)
Độ tƣơng đồng p(yw) đƣợc xác định bằng một mô hình âm và xác suất tiên nghiệm p(w) đƣợc xác định bằng mô hình ngôn ngữ. Trong thực tế, mô hình âm
(acoustic model) không đƣợc chuẩn hóa và mô hình ngôn ngữ thƣờng đƣợc tỷ lệ bằng một hằng số đƣợc xác định một cách thực nghiệm và một tham số bất lợi của việc chèn từ đƣợc thêm vào. Nói cách khác, lô-ga-rít của độ tƣơng đồng tổng đƣợc tính bằng
) ( ) ( )) (
log(p yw p w p w , trong đó là giá trị phổ biến trong khoảng 8-20 và phổ
Bộ giải mã Trích chọn đặc trƣng Các vector đặc trƣng Mô hình âm thanh Từđiền phát âm Mô hình ngôn ngữ Các từ Tiếng nói
CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI
140
biến trong khoảng từ0 đến -20. Đơn vịcơ bản của âm đƣợc biểu diễn bởi mô hình âm là âm vị (phone). Ví dụ từbat trong tiếng Anh gồm ba âm vịlà /b/, /ae/ và /t/. Đối với tiếng Anh cần có khoảng 40 âm vịnhƣ vậy.
Với mỗi w cho trƣớc, mô hình âm tƣơng ứng đƣợc tổng hợp bằng cách chắp nối các mô hình âm vịđể tạo ra các từnhƣ đã đƣợc quy định bằng một từđiển phát âm. Các tham số của các mô hình âm vịnày đƣợc ƣớc lƣợng từ các dữ liệu huấn luyện bao gồm các dạng sóng tín hiệu và các bản ghi hệ thống chính tả của chúng. Mô hình ngôn ngữ thƣờng là một mô hình N-gram trong đó xác suất của mỗi từ chỉ phụ thuộc điều kiện vào N-1 thành phần trƣớc nó. Các tham số của mô hình N-gram đƣợc ƣớc lƣợng bằng cách
đếm các tuýp N trong một tập (corpora: corpus - a collection of recorded utterances used as a basis for the descriptive analysis of a language) chữ thích hợp. Bộ giải mã hoạt động bằng cách tìm kiếm qua tất cả các dãy từ có thể, nó sử dụng phƣơng pháp chặt (prune) để
loại bỏ các giả thiết gần nhƣ không xảy ra và bằng cách đó giữ cho việc tìm kiếm có thể
kiểm soát đƣợc. Khi việc tìm kiếm đến tiến đến phần cuối cùng, dãy từ có sựtƣơng đồng nhất chính là kết quả. Trong các bộ giải mã hiện đại, thay vì sử dụng các phƣơng pháp
vừa nêu, bộ giải mã sinh ra các lƣới chứa các biểu diễn gọn của hầu hết các giả thiết có khảnăng nhất.
5.6.5.1. Trích chọn đặc trƣng
Nhƣ đã đề cập, việc trích chọn đặc trƣng tìm các tạo ra một biểu diễn (thƣờng là dạng mã hóa) tối ƣu tín hiệu tiếng nói. Quá trình này cũng phải đảm bảo giảm thiểu sự
mất mát thông tin và tạo ra một sự phù hợp tốt nhất với các giả thiết phân tán tạo ra bởi các mô hình âm. Các véc-tơ đặc trƣng thƣờng đƣợc tính toán trong mỗi khung có độ dài khoảng 10ms và sử dụng các hàm cửa sổ phân tích chồng lấn nhau. Phƣơng pháp trích trọn phổ biến nhất trong các ứng dụng nhận dạng sử dụng mô hình HMM là phƣơng pháp MFCC nhƣ đã trình bày trong phần trên.
5.6.5.2. Các mô hình âm học HMM
Nhƣ đã đề cập, các từđƣợc phát ra trong wđƣợc phân tách thành một dãy các âm
cơ bản đƣợc gọi là các âm vị cơ sở. Để cho phép các thay đổi phát âm có thể, độtƣơng đồng p(yw) có thểđƣợc tính trên các phƣơng án phát âm:
| | |
Q
p y w p y Q p Q w (3.33)
Các bộ nhận dạng thƣờng xấp xỉ công thức này bằng phép tính cực đại do đó các phƣơng pháp phát âm khác nhau có thể đƣợc giải mã nhƣ thể chúng là các giả thiết từ
CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI
thay thế. Mỗi Q là một dãy các phát âm của từ Q1,...,QK trong đó mỗi phƣơng án phát
âm là một dãy các âm vịcơ sở 1(k), 1(k),...
K q q Q . Khi đó ta có: 1 | K k | k k p Q p Q w w (3.34)
Ởđây p(QK wk) là xác suất từ wk đƣợc phát âm dựa trên dãy các âm vịcơ sở Q. Trong thực tế, chỉ có rất ít số khảnăng có thểcác phƣơng án phát âm QK cho mỗi từ wk,
điều này cho phép tổng (3.33) dễ dàng kiểm soát đƣợc.
Hình 5.19 Mô hình âm vịcơ sở dựa trên mô hình HMM
Mỗi âm cơ sởq đƣợc biểu diễn bởi một mô hình Markov ẩn mật độ liên tục (HMM)
đƣợc minh họa trong hình 5.19. Trong minh họa này, các tham số dịch chuyển là {aij} và các phân bố quan sát đầu ra {bj()}. Các phân bố quan sát đầu ra thƣờng là sự pha trộn của các phân bố chuẩn Gausse:
1 ; , M j jm jm m jm b y c y (3.35)
biểu diễn phân bố chuẩn với giá trị trung bình jm và covariance jm. Số lƣợng các thành phần trong công thức (3.35) thƣờng lấy trong khoảng 10 đến 20. Vì kích
thƣớc của các véc-tơ âm y thƣờng tƣơng đối lớn, các covariance thƣờng đƣợc giới hạn là các ma trận đƣờng chéo. Các trạng thái đầu và kết thúc là các trạng thái không phát xạ (nonemitting) và chúng đƣợc thêm vào nhằm đơn giản hóa quá trình chắp nối các mô hình âm vịđể tạo ra các từ. 1 2 3 4 5 ) ( 1 2 y b b2(y2) b2(y3) b2(y5) Y= y1 y2 y3 y4 y5
Dãy vector âm Mô hình Markov ) ( 4 2 y b
CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI
142
Cho trƣớc một HMM tổng hợp với Q đƣợc tạo ra bằng các chắp nối tất cả các âm vịcơ sở cấu thành, độtƣơng đồng âm đƣợc tính bởi:
| , |
X
p y Q p x y Q (3.36)
Trong đó X x(0),...,x(T) là một dãy các trạng thái trong toàn bộ mô hình tổng hợp và 0 , 1 , 1 1 , | x x T x t x t x t t p x y Q a b a (3.37)
Các tham số mô hình âm {aij} và {bj()} có thểđƣợc ƣớc lƣợng một cách hiệu quả
từ tập các bộ huấn luyện bằng phƣơng pháp cực đại kỳ vọng.