1. Tổng quan về mạng Nơ ron sâụ
1.2.1. Cấu trúc của một hệ thống nhận dạng tiếng nói
Cấu trúc cơ bản của hệ thống nhận dạng tiếng nói:
Mô hình âm học Mô hình ngôn ngữ Bộ giải mã Bộ thích nghi Khối xử lý tín hiệu Tiếng nói Ứng dụng
38
Hình 1.13 mô tả cấu trúc một hệ thống nhận dạng tiếng nói điển hình. Hệ thống bao gồm các thành phần cơ bản sau:
- Khối xử lý tín hiệu: xử lý tín hiệu tiếng nói đầu vào, trích chọn các vector đặc trưng.
- Bộ giải mã: nhận các vector đặc trưng từ khối xử lý tín hiệu, kết hợp với các tri thức của mô hình âm học và mô hình ngôn ngữ để tìm ra chuỗi từ thích hợp nhất với vector đặc trưng tương ứng.
- Bộ thích nghi: nhận thông tin từ bộ giải mã và thay đổi các tham số của các mô hình âm học, mô hình ngôn ngữ nhằm nâng cao kết quả nhận dạng. - Mô hình âm học: tri thức về âm học, ngữ âm, sự đa dạng về môi trường ghi âm, microphone và cả các đặc tính của người ghi âm như giới tính, tuổi, hình thái ngôn ngữ (tiếng địa phương)…
- Mô hình ngôn ngữ: tri thức về các yếu tố tạo nên từ, xác suất xuất hiện của các từ, cụm từ, chuỗi từ liên tục, các quy tắc ngữ pháp, ngữ nghĩa… Đầu vào của một hệ thống nhận dạng tiếng nói là tín hiệu tiếng nói từ hệ thống thu âm, hoặc từ hệ thống lưu trữ. Các ứng dụng nhận kết quả của hệ thống, và có thể dùng các kết quả này để thích nghi một số thành phần của hệ thống. Trong đề tài này, đầu ra của hệ thống là văn bản và nội dung của đề tài này là tập trung vào tìm hiểu và xây dựng hệ thống nhận dạng tiếng Việt nóị