CHƢƠNG 5 NHẬN DẠNG TIẾNG NÓI
5.4. CẤU TRÚC HỆ NHẬN DẠNG TIẾNG NÓI
Hình 5.1 trình bày cấu trúc nguyên lý của một hệ thống nhận dạng tiếng nói. Tín hiệu tiếng nói trƣớc hết đƣợc xử lý bằng cách áp dụng một trong các phƣơng pháp phân tích phổ ngắn hạn hay cịn đƣợc gọi là q trình trích chọn đặc trƣng hoặc quá trình tiền xử lý (front-end processing). Kết quả thu đƣợc sau q trình trích chọn đặc trƣng là tập các đặc
trƣng âm học (acoustic features) đƣợc tạo dựng thành một véc-tơ. Thông thƣờng khoảng
100 véc-tơ đặc trƣng âm học đƣợc tạo ra tại đầu ra của q trình phân tích trong một đơn vị thời gian một giây.
Hình 5.1 Cấu trúc tổng quát của một hệ thống nhận dạng tiếng nói
Việc so sánh (matching) trƣớc hết thực hiện bằng việc huấn luyện xây dựng các đặc
trƣng, sau đó sử dụng để so sánh với các tham số đầu vào để thực hiện việc nhận dạng.
Trong quá trình huấn luyện hệ thống chuỗi véc-tơ các đặc trƣng đƣợc đƣa vào hệ thống
để ƣớc lƣợng các tham số của các mẫu tham khảo (reference patterns). Một mẫu tham
khảo có thể mơ phỏng (model) một từ, một âm đơn (a single phoneme) hoặc một đơn vị tiếng nói nào đó (some other speech unit). Tùy thuộc vào nhiệm vụ của hệ thống nhận dạng, quá trình huấn luyện hệ thống sẽ bao gồm một q trình xử lý phức tạp hoặc khơng. Chẳng hạn với hệ thống nhận dạng phụ thuộc ngƣời nói (speaker dependent recognition), có thể chỉ bao gồm một vài hoặc duy nhất một biểu diễn (utterances) cho mỗi từ cần
đƣợc huấn luyện. Tuy nhiên, đối với hệ thống nhận dạng độc lập với ngƣời nói, có thể
bao gồm hàng ngàn biểu diễn tƣơng ứng với tín hiệu của mẫu tham khảo mong muốn. Những biểu diễn này thƣờng là bộ phận (part) của một cơ sở dữ liệu tiếng nói đã đƣợc thu thập trƣớc đây. Cần chú ý rằng việc trích chọn các đặc trƣng tiêu biểu (representative features) và xây dựng một mơ hình tham khảo (a reference model) là một quá trình tốn thời gian và là một cơng việc phức tạp.
Trong q trình nhận dạng, dãy các véc-tơ đặc trƣng đƣợc đem so sánh với các mẫu tham khảo. Sau đó, hệ thống tính tốn độ tƣơng đồng (likelihood - độ giống nhau) của
Tiếng nói
đầu vào Tiền xử lý Trích chọn
đặc trƣng So sánh tƣơng đồng Vector đặc trƣng Mơ hình âm học Mơ hình ngơn ngữ Từ điển Giải mã Đầu ra
CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI
dãy véc-tơ đặc trƣng và mẫu tham khảo hoặc chuỗi mẫu tham khảo. Việc tính tốn độ giống nhau thƣờng đƣợc tính tốn bằng cách áp dụng các thuật toán hiệu quả chẳng hạn
nhƣ thuật toán Viterbi. Mẫu hoặc dãy mẫu có độ tƣơng đồng (likelihood) cao nhất đƣợc
cho là kết quả của quá trình nhận dạng.
Hiện nay, các phƣơng pháp trích chọn đặc trƣng phổ biến thƣờng là các mạch lọc Mel (Mel filterbank) kết hợp với các biến đổi phổ Mel sang miền cepstral. Ta sẽ tìm hiểu
sơ đồ tiền xử lý đƣợc tiêu chuẩn hóa nhƣ một phƣơng pháp tiền xử lý bởi ETSI. Mơ hình
mẫu tham chiếu thƣờng là các mơ hình Markov ẩn (HMMs).