CHƢƠNG 5 NHẬN DẠNG TIẾNG NÓI
5.6. GIỚI THIỆU MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG TIẾNG NÓ
5.6.5 Hệ thống nhận dạng dựa trên mơ hình Markov ẩn (HMM)
Hầu hết các hệ thống nhận dạng liên tục hiện nay dựa trên các mơ hình Markov ẩn (HMM). Mặc dù nền tảng của các hệ thống nhận dạng liên tục (CSR) dựa trên HMM có
trƣớc hàng thập kỷ, đến gần đây mới có đƣợc một số tiến bộ trong việc cải thiện công
nghệ để giảm nhỏ sự phụ thuộc của các giả thiết cố hữu và tính thích ứng các mơ hình
cho các ứng dụng và các mơi trƣờng nhất định.
Hình 5.18 Sơ đồ cấu trúc một hệ thống nhận dạng tiếng nói dựa trên mơ hình HMM
Các thành phần chính của một hệ thống CSR làm việc với bộ từ vựng lớn đƣợc mơ tả trong hình 5.18. Dạng sóng âm thanh đầu vào từ một mi-cờ-rơ đƣợc chuyển đổi thành một dãy có độ dài cố định các véc-tơ âm y y1,...,yT nhờ một q trình trích chọn mẫu. Bộ giải mã sau đó cố gắng tìm kiếm một dãy từ ww1,...,wK có khả năng cao nhất
đã tạo ra y. Nói cách khác, bộ giải mã cố gắng giải bài toán:
ˆ arg axm p |
w
w w y (3.31)
Tuy nhiên, vì p(wy) rất khó xác định trong thực tế, do đó bằng cách áp dụng cơng thức Bayes ta có:
ˆ arg axm p | p
w
w y w w (3.32)
Độ tƣơng đồng p(yw) đƣợc xác định bằng một mơ hình âm và xác suất tiên nghiệm p(w) đƣợc xác định bằng mơ hình ngơn ngữ. Trong thực tế, mơ hình âm
(acoustic model) khơng đƣợc chuẩn hóa và mơ hình ngơn ngữ thƣờng đƣợc tỷ lệ bằng
một hằng số đƣợc xác định một cách thực nghiệm và một tham số bất lợi của việc chèn từ đƣợc thêm vào. Nói cách khác, lơ-ga-rít của độ tƣơng đồng tổng đƣợc tính bằng
) ( ) ( )) (
log(p yw p w p w , trong đó là giá trị phổ biến trong khoảng 8-20 và phổ
Bộ giải mã Trích chọn đặc trƣng Các vector đặc trƣng Mơ hình
âm thanh Từ điền
phát âm
Mơ hình ngơn ngữ
Các từ Tiếng nói
CHƢƠNG 5. NHẬN DẠNG TIẾNG NĨI
140
biến trong khoảng từ 0 đến -20. Đơn vị cơ bản của âm đƣợc biểu diễn bởi mơ hình âm là âm vị (phone). Ví dụ từ bat trong tiếng Anh gồm ba âm vị là /b/, /ae/ và /t/. Đối với tiếng Anh cần có khoảng 40 âm vị nhƣ vậy.
Với mỗi w cho trƣớc, mơ hình âm tƣơng ứng đƣợc tổng hợp bằng cách chắp nối các mơ hình âm vị để tạo ra các từ nhƣ đã đƣợc quy định bằng một từ điển phát âm. Các tham số của các mơ hình âm vị này đƣợc ƣớc lƣợng từ các dữ liệu huấn luyện bao gồm các dạng sóng tín hiệu và các bản ghi hệ thống chính tả của chúng. Mơ hình ngơn ngữ
thƣờng là một mơ hình N-gram trong đó xác suất của mỗi từ chỉ phụ thuộc điều kiện vào
N-1 thành phần trƣớc nó. Các tham số của mơ hình N-gram đƣợc ƣớc lƣợng bằng cách
đếm các tuýp N trong một tập (corpora: corpus - a collection of recorded utterances used
as a basis for the descriptive analysis of a language) chữ thích hợp. Bộ giải mã hoạt động bằng cách tìm kiếm qua tất cả các dãy từ có thể, nó sử dụng phƣơng pháp chặt (prune) để loại bỏ các giả thiết gần nhƣ không xảy ra và bằng cách đó giữ cho việc tìm kiếm có thể kiểm sốt đƣợc. Khi việc tìm kiếm đến tiến đến phần cuối cùng, dãy từ có sự tƣơng đồng nhất chính là kết quả. Trong các bộ giải mã hiện đại, thay vì sử dụng các phƣơng pháp vừa nêu, bộ giải mã sinh ra các lƣới chứa các biểu diễn gọn của hầu hết các giả thiết có khả năng nhất.
5.6.5.1. Trích chọn đặc trƣng
Nhƣ đã đề cập, việc trích chọn đặc trƣng tìm các tạo ra một biểu diễn (thƣờng là
dạng mã hóa) tối ƣu tín hiệu tiếng nói. Q trình này cũng phải đảm bảo giảm thiểu sự mất mát thông tin và tạo ra một sự phù hợp tốt nhất với các giả thiết phân tán tạo ra bởi các mơ hình âm. Các véc-tơ đặc trƣng thƣờng đƣợc tính tốn trong mỗi khung có độ dài khoảng 10ms và sử dụng các hàm cửa sổ phân tích chồng lấn nhau. Phƣơng pháp trích trọn phổ biến nhất trong các ứng dụng nhận dạng sử dụng mơ hình HMM là phƣơng pháp
MFCC nhƣ đã trình bày trong phần trên.
5.6.5.2. Các mơ hình âm học HMM
Nhƣ đã đề cập, các từ đƣợc phát ra trong w đƣợc phân tách thành một dãy các âm
cơ bản đƣợc gọi là các âm vị cơ sở. Để cho phép các thay đổi phát âm có thể, độ tƣơng đồng p(yw) có thể đƣợc tính trên các phƣơng án phát âm:
| | |
Q
p y w p y Q p Q w (3.33)
Các bộ nhận dạng thƣờng xấp xỉ cơng thức này bằng phép tính cực đại do đó các
CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI
thay thế. Mỗi Q là một dãy các phát âm của từ Q1,...,QK trong đó mỗi phƣơng án phát âm là một dãy các âm vị cơ sở 1(k), 1(k),...
K q q Q . Khi đó ta có: 1 | K k | k k p Q p Q w w (3.34)
Ở đây p(QK wk) là xác suất từ wk đƣợc phát âm dựa trên dãy các âm vị cơ sở Q. Trong thực tế, chỉ có rất ít số khả năng có thể các phƣơng án phát âm QK cho mỗi từ wk,
điều này cho phép tổng (3.33) dễ dàng kiểm sốt đƣợc.
Hình 5.19 Mơ hình âm vị cơ sở dựa trên mơ hình HMM
Mỗi âm cơ sở q đƣợc biểu diễn bởi một mơ hình Markov ẩn mật độ liên tục (HMM)
đƣợc minh họa trong hình 5.19. Trong minh họa này, các tham số dịch chuyển là {aij} và các phân bố quan sát đầu ra {bj()}. Các phân bố quan sát đầu ra thƣờng là sự pha trộn của các phân bố chuẩn Gausse:
1 ; , M j jm jm m jm b y c y (3.35)
biểu diễn phân bố chuẩn với giá trị trung bình jm và covariance jm. Số
lƣợng các thành phần trong công thức (3.35) thƣờng lấy trong khoảng 10 đến 20. Vì kích thƣớc của các véc-tơ âm y thƣờng tƣơng đối lớn, các covariance thƣờng đƣợc giới hạn là
các ma trận đƣờng chéo. Các trạng thái đầu và kết thúc là các trạng thái không phát xạ
(nonemitting) và chúng đƣợc thêm vào nhằm đơn giản hóa q trình chắp nối các mơ
hình âm vị để tạo ra các từ. 1 2 3 4 5 ) ( 1 2 y b b2(y2) b2(y3) b2(y5) Y= y1 y2 y3 y4 y5
Dãy vector âm Mơ hình Markov ) ( 4 2 y b
CHƢƠNG 5. NHẬN DẠNG TIẾNG NĨI
142
Cho trƣớc một HMM tổng hợp với Q đƣợc tạo ra bằng các chắp nối tất cả các âm
vị cơ sở cấu thành, độ tƣơng đồng âm đƣợc tính bởi:
| , |
X
p y Q p x y Q (3.36)
Trong đó X x(0),...,x(T) là một dãy các trạng thái trong toàn bộ mơ hình tổng hợp và 0 , 1 , 1 1 , | x x T x t x t x t t p x y Q a b a (3.37)
Các tham số mơ hình âm {aij} và {bj()} có thể đƣợc ƣớc lƣợng một cách hiệu quả từ tập các bộ huấn luyện bằng phƣơng pháp cực đại kỳ vọng.