CHƢƠNG 5 NHẬN DẠNG TIẾNG NÓI
5.2. LỊCH SỬ PHÁT TRIỂN CÁC HỆ THỐNG NHẬN DẠNG TIẾNG
Nghiên cứu về nhận dạng tiếng nói là một lĩnh vực nghiên cứu đã và đang diễn ra
đƣợc gần một thế kỷ. Trong suốt q trình đó, ta có thể phân loại các công nghệ nhận dạng thành các thế hệ nhƣ sau:
Thế hệ 1: Thế hệ này đƣợc đánh dấu mốc bắt đầu từ những năm 30 cho đến những
năm 50. Công nghệ của thế hệ này là các phƣơng thức ad hoc để nhận dạng các âm, hoặc
các bộ từ vựng với số lƣợng nhỏ của các từ tách biệt.
Thế hệ 2: Thế hệ thứ hai bắt đầu từ những năm 50 và kết thúc ở những năm 60. Công nghệ của thế hệ này sử dụng các các phƣơng pháp acoustic-phonetic để nhận dạng các phonemes, các âm tiết hoặc các từ vựng của các số.
Thế hệ 3: Thế hệ này sử dụng các biện pháp nhận dạng mẫu để nhận dạng tín hiệu tiếng nói với các bộ từ vựng vừa và nhỏ của các từ tách biệt hoặc dãy từ có liên kết với nhau, bao gồm cả việc sử dụng bộ LPC nhƣ là một phƣơng pháp phân tích cơ bản; sử dụng các đo lƣờng khoảng cách LPC để cho điểm sự tƣơng đồng của các mẫu; sử dụng các giải pháp lập trình động cho việc chỉnh thời gian; sử dụng nhận dạng mẫu cho việc phân hoạch các mẫu thành các mẫu tham chiếu nhất quán, sử dụng phƣơng pháp mã hóa
lƣợng tử hóa véc-tơ để giảm nhỏ dữ liệu và tính tốn. Thế hệ thứ ba bắt đầu từ những năm 60 đến những năm 80.
CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI
106
Thế hệ 4: Thế hệ thứ tƣ bắt đầu từ những năm 80 đến những năm 00. Công nghệ của thế hệ này sử dụng các phƣơng pháp thống kê với mơ hình Markov ẩn (HMM) cho việc mơ phổng tính chất động và thống kê của tín hiệu tiếng nói trong một hệ thống nhận dạng liên tục; sử dụng các phƣơng pháp huấn luyện lan truyền xuôi-ngƣợc và phân đoạn K- trung bình (segmental K-mean); sử dụng phƣơng pháp chỉnh thời gian Viterbi; sử dụng thuật toán độ tƣơng đồng tối đa (ML) và nhiều tiêu chuẩn chất lƣợng cùng các giải pháp
để tối ƣu hóa các mơ hình thống kê; sử dụng mạng nơ-ron để ƣớc lƣợng các hàm mật độ
xác suất có điều kiện; sử dụng các thuật tốn thích nghi để thay đổi các tham số gắn với hoặc tín hiệu tiếng nói hoặc với mơ hình thống kê để nâng cao tính tƣơng thích giữa mơ hình và dữ liệu nhằm tăng tính chính xác của phép nhận dạng.
Thế hệ 5: Ta đang chứng kiến sự phát triển của lớp công nghệ nhận dạng tiếng nói
thế hệ thứ năm. Cơng nghệ thế hệ này sử dụng các giải pháp xử lý song song để tăng tính tín cậy trong các quyết định nhận dạng; kết hợp giữa HMM và các phƣơng pháp acoustic-phonetic để phát hiện và sửa chữa những ngoại lệ ngôn ngữ; tăng tính chắc chắn (chín chắn - robustness) của hệ thống nhận dạng trong mơi trƣờng có nhiễu; sử dụng
phƣơng pháp học máy để xây dựng các kết hợp tối ƣu của các mơ hình.
Cũng cần chú ý rằng, việc phân chia các giai đoạn trên đây chỉ mang tính tƣơng đối
về mốc thời gian. Điều này dễ hiểu bởi vì các thế hệ cơng nghệ khơng phân tách rạch rịi nhau mà hầu nhƣ các ý tƣởng cốt lỗi của mỗi giai đoạn lại đƣợc thai nghén từ giai đoạn
trƣớc đó. Các giai đoạn đƣợc phân chia chỉ nhằm chỉ ra rằng trong giai đoạn đó nhiều kết
quả nghiên cứu liên quan đến cơng nghệ của giai đoạn đó đựoc đƣa ra và trở thành tiêu chuẩn cho hầu hết các hệ thống nhận dạng của thời kỳ đó.