CẤU TRÚC HỆ NHẬN DẠNG TIẾNG NÓI

CHƢƠNG 5 NHẬN DẠNG TIẾNG NÓI

5.4. CẤU TRÚC HỆ NHẬN DẠNG TIẾNG NÓI

Hình 5.1 trình bày cấu trúc nguyên lý của một hệ thống nhận dạng tiếng nói. Tín hiệu tiếng nói trƣớc hết đƣợc xử lý bằng cách áp dụng một trong các phƣơng pháp phân tích phổ ngắn hạn hay cịn đƣợc gọi là q trình trích chọn đặc trƣng hoặc quá trình tiền xử lý (front-end processing). Kết quả thu đƣợc sau q trình trích chọn đặc trƣng là tập các đặc

trƣng âm học (acoustic features) đƣợc tạo dựng thành một véc-tơ. Thông thƣờng khoảng

100 véc-tơ đặc trƣng âm học đƣợc tạo ra tại đầu ra của q trình phân tích trong một đơn vị thời gian một giây.

Hình 5.1 Cấu trúc tổng quát của một hệ thống nhận dạng tiếng nói

Việc so sánh (matching) trƣớc hết thực hiện bằng việc huấn luyện xây dựng các đặc

trƣng, sau đó sử dụng để so sánh với các tham số đầu vào để thực hiện việc nhận dạng.

Trong quá trình huấn luyện hệ thống chuỗi véc-tơ các đặc trƣng đƣợc đƣa vào hệ thống

để ƣớc lƣợng các tham số của các mẫu tham khảo (reference patterns). Một mẫu tham

khảo có thể mơ phỏng (model) một từ, một âm đơn (a single phoneme) hoặc một đơn vị tiếng nói nào đó (some other speech unit). Tùy thuộc vào nhiệm vụ của hệ thống nhận dạng, quá trình huấn luyện hệ thống sẽ bao gồm một q trình xử lý phức tạp hoặc khơng. Chẳng hạn với hệ thống nhận dạng phụ thuộc ngƣời nói (speaker dependent recognition), có thể chỉ bao gồm một vài hoặc duy nhất một biểu diễn (utterances) cho mỗi từ cần

đƣợc huấn luyện. Tuy nhiên, đối với hệ thống nhận dạng độc lập với ngƣời nói, có thể

bao gồm hàng ngàn biểu diễn tƣơng ứng với tín hiệu của mẫu tham khảo mong muốn. Những biểu diễn này thƣờng là bộ phận (part) của một cơ sở dữ liệu tiếng nói đã đƣợc thu thập trƣớc đây. Cần chú ý rằng việc trích chọn các đặc trƣng tiêu biểu (representative features) và xây dựng một mơ hình tham khảo (a reference model) là một quá trình tốn thời gian và là một cơng việc phức tạp.

Trong q trình nhận dạng, dãy các véc-tơ đặc trƣng đƣợc đem so sánh với các mẫu tham khảo. Sau đó, hệ thống tính tốn độ tƣơng đồng (likelihood - độ giống nhau) của

Tiếng nói

đầu vào Tiền xử lý Trích chọn

đặc trƣng So sánh tƣơng đồng Vector đặc trƣng Mơ hình âm học Mơ hình ngơn ngữ Từ điển Giải mã Đầu ra

CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI

dãy véc-tơ đặc trƣng và mẫu tham khảo hoặc chuỗi mẫu tham khảo. Việc tính tốn độ giống nhau thƣờng đƣợc tính tốn bằng cách áp dụng các thuật toán hiệu quả chẳng hạn

nhƣ thuật toán Viterbi. Mẫu hoặc dãy mẫu có độ tƣơng đồng (likelihood) cao nhất đƣợc

cho là kết quả của quá trình nhận dạng.

Hiện nay, các phƣơng pháp trích chọn đặc trƣng phổ biến thƣờng là các mạch lọc Mel (Mel filterbank) kết hợp với các biến đổi phổ Mel sang miền cepstral. Ta sẽ tìm hiểu

sơ đồ tiền xử lý đƣợc tiêu chuẩn hóa nhƣ một phƣơng pháp tiền xử lý bởi ETSI. Mơ hình

mẫu tham chiếu thƣờng là các mơ hình Markov ẩn (HMMs).

Biểu diễn phổ tín hiệu tiếng nói

MỘT SỐ ĐẶC ĐIỂM NGỮ ÂM