Trong thực tế các mẫu phát âm của cùng một đơn vị diễn đạt, từ hay câu, thường rất khác nhau ngay cả khi chúng được ghi âm cách nhau vài giây. Chúng ta có thể kiểm tra điều này bằng một chương trình ghi âm và một chương trình phân tích giọng nói. Do vậy để nhận dạng được các mẫu ghi âm khác nhau của cùng một từ, chúng ta cần tạo ra một mẫu tổng quát hay mô hình của từ đó. Bằng cách trích chọn các đặc trưng chung nhất của các mẫu ghi âm khác nhau của cùng một từ,
chúng ta sẽ tạo ra một mô hình cho từ đó. Mô hình này sau đó được sử dụng để so sánh với các mẫu mới ghi âm để tìm ra từ.
Nói chung chúng ta không phải thay đổi trên tầng phân tích cú pháp vì vai trò định hướng và giới hạn của nó không ảnh hưởng tới các mẫu mà chỉ ảnh hưởng tới không gian mẫu. Do đó các thủ tục huấn luyện và nhận dạng ở tầng phân tích từ vựng bị tác động.
Để huấn luyện được một bộ nhận dạng mẫu tổng quát, chúng ta cần tạo ra các mẫu tổng quát sau đó thêm vào bộ nhận dạng. Mẫu tổng quát sẽ được tạo ra bằng thuật toán tìm chuỗi con chung. Vì chúng ta không thêm tất cả các mẫu mà chúng ta chỉ thêm vào một mẫu chung nhất do đó số lượng mẫu thêm vào ít hơn và độ dài của mỗi mẫu thêm vào cũng ngắn hơn.
Việc nhận dạng hay khớp mẫu giữa mẫu tổng quát và mẫu cụ thể được thực hiện bằng cách khớp có lựa chọn các ký hiệu giống nhau nhất trong từ điển. Chúng ta thường gặp điều này trong các bộ tìm kiếm từ vựng ví dụ như Google. Khi người dùng đánh sai một từ ví dụ “persiten” chương trình tìm kiếm sẽ hỏi lại người dùng có phải định đánh từ “persistence” hay không. Do đó chúng ta có cơ sở thuật toán để thực hiện việc khớp mẫu cụ thể (mẫu thiếu hoặc thừa) với mẫu tổng quát. Và mẫu chuẩn của chúng ta không phải do một ai quy định mà được thống kê và trích chọn trên một lượng lớn các mẫu.
Chương 3
TÍN HIỆU TIẾNG NÓI
Trong phần trước, chúng ta đã xem xét tín hiệu như đầu vào của bài toán nhận dạng tiếng nói. Trong phần này chúng ta sẽ làm chi tiết ý nghĩa của tín hiệu và các thao tác trên tín hiệu.
Phần tín hiệu sẽ bao gồm các thuật toán biến đổi các tín hiệu thành một bộ tham số hoặc một quan sát. Đây là phần quan trọng tương đương với phần lý thuyết nhận dạng vì nó đóng một nửa vai trò trong tốc độ cũng như độ chính xác của cả hệ thống huấn luyện và nhận dạng tiếng nói.
Khái niệm tín hiệu (signal) trong tài liệu này đồng nghĩa với tín hiệu tiếng nói (speech signal) hoặc tín hiệu âm thanh (sound signal), có nghĩa tín hiệu là một chiều và tuần tự.