1. Tổng quan về mạng Nơ ron sâụ
1.2.3. Các phương pháp nhận dạng tiếng nói
Có 3 phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói hiện nay là:
1. Phương pháp âm học - ngữ âm học; 2. Phương pháp nhận dạng mẫu;
3. Phương pháp áp dụng trí tuệ nhân tạọ
a) Phương pháp âm học - ngữ âm học:
Phương pháp này dựa trên lý thuyết về âm học. Quá trình nhận dạng gồm 2 bước:
Bước 1: Phân đoạn và gán nhãn. Ở bước này tín hiệu tiếng nói được chia thành các đoạn có đặc tính âm học đặc trưng cho một hoặc một vài đơn vị ngữ âm, đồng thời gán cho mỗi đoạn âm thanh đó một hay nhiều nhãn ngữ âm phù hợp.
40
Bước 2: Nhận dạng. Bước này dựa trên một số điều kiện ràng buộc về từ vựng, ngữ pháp,… để xác định một hoặc một chuỗi từ đúng trong các chuỗi nhãn ngữ âm đươc tạo ra sau bước 1.
b) Phương pháp nhận dạng mẫu:
Phương pháp này không cần xác định đặc tính âm học mà sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong quá trình nhận dạng. Hệ thống nhận dạng theo phương pháp này thực hiện qua hai bước.
Bước 1: Sử dụng tập mẫu tiếng nói (cơ sở dữ liệu tiếng nói) để huấn luyện các mẫu tiếng nói đặc trưng hoặc các tham số tiếng nóị
Bước 2: Đối sánh mẫu tiếng nói từ ngoài với các mẫu đặc trưng để đưa ra quyết định.
Hiện nay, một số kỹ thuật nhận dạng mẫu được áp dụng thành công trong nhận dạng tiếng nói là lượng tử hóa vector, so sánh thời gian động (DTW), mô hình Markov ẩn (HMM), mạng Nơ ron nhân tạo (ANN).
c) Phương pháp ứng dụng trí tuệ nhân tạo
Có thể coi đây là phương pháp kết hợp của các phương pháp trên với ý tưởng tận dụng tối đa các ưu điểm của từng phương pháp, đồng thời cố gắng mô phỏng khả năng tuyệt hảo của con người trong sự phân tích và cảm nhận các sự kiện bên ngoài nói chung và tiếng nói nói riêng.
Đặc điểm chung của các hệ thống nhận dạng theo phương pháp này là : - Sử dụng hệ chuyên gia để phân đoạn, gán nhãn ngữ âm. Điều này làm đơn
giản hóa hệ thống so với phương pháp nhận dạng ngữ âm.
- Sử dụng mạng nơ ron để học mối quan hệ giữa các ngữ âm. Sau đó dùng mạng này để nhận dạng tiếng nóị
Việc sử dụng hệ chuyên gia ở đây là nhằm mục đích tận dụng các nguồn kiến thức của con người vào trong hệ thống nhận dạng, đó là :
- Kiến thức về âm học: Nhằm để phân tích phổ và xác định đặc tính âm học của các mẫu tiếng nói đầu vàọ
41
- Kiến thức về từ vựng: Sử dụng để kết hợp các khối ngữ âm thành các từ cần nhận dạng.
- Kiến thức về cú pháp: Nhằm kết hợp các từ thành các câu cần nhận dạng. - Kiến thức về ngữ nghĩa: Nhằm xác định tính logic của các câu đã được nhận
dạng.