Phương pháp nhận dạng mẫu thống kê

Một phần của tài liệu BÀI GIẢNG XỬ LÝ TIẾNG NÓI (Trang 83 - 84)

Hình 5.11 mô tả sơñồ khối một hệ thống nhận dạng sử dụng phương pháp nhận dạng mẫu. Phương pháp nhận dạng mẫu bao gồm bốn bước:

1. ðo lường các ñặc trưng, trong ñó một dãy các phép ño lường ñược thực hiện trên tín hiệu vào ñể ñịnh ra các mẫu cần thử. ðối với tín hiệu tiếng nói, các ño lường ñặc trưng thường là các ñầu ra của một số phương pháp phân tích phổ nào ñó, chẳng hạn bộ phân tích mạng mạch lọc, một bộ phân tích LPC, hoặc là một phân tích DFT.

2. Huấn luyện mẫu, trong ñó một hoặc nhiều mẫu kiểm tra tương ứng với các âm thanh tín hiệu tiếng nói của cùng một lớp ñược sử dụng ñể tạo ra một mẫu ñại diện của các ñặc trưng của lớp ñó. Mẫu kết quả thu ñược, thường ñược gọi là mẫu tham khảo (hoặc tham chiếu), có thể trở thành một ví dụ (examplar) hoặc một mẫu (template) ñược suy ra (derived) từ một số phương pháp tính trung bình hoặc có thể trở thành một mô hình ñặc tả tính thống kê của các ñặc trưng của mẫu tham khảo.

3. Phân loại mẫu, trong ñó mẫu cần kiểm tra chưa biết ñược so sánh với mỗi lớp (âm) mẫu tham khảo và một ño lường ñộ tương ñồng (khoảng cách) giữa mẫu kiểm tra và mỗi mẫu tham khảo ñược tính toán. ðể so sánh các mẫu tín hiệu tiếng nói (các mẫu bao gồm một dãy các véc-tơ phổ), chúng ta cần cảño lường khoảng cách cục bộ, với khoảng cách cục bộñược ñịnh nghĩa là khoảng cách phổ giữa hai véc-tơ phổñược xác ñịnh rõ, và một thủ tục sắp xếp thời gian toàn cục (a global time alignment procedure) (thường ñược gọi là một thuật toán lệch (warping) thời gian ñộng) nhằm bù lại sự khác biệt tốc ñộ tiếng nói (tỷ lệ thời gian) của hai mẫu.

4. Quyết ñịnh lô-gic, trong ñó ñiểm số về tính tương ñồng của mẫu tham chiếu ñược sử dụng ñể quyết ñịnh xem mẫu tham chiếu nào (hoặc có thể một dãy mẫu tham chiếu) tương ñồng nhất với mẫu kiểm tra chưa biết.

Chương 5: Nhận dạng tiếng nói

Các yếu tố phân biệt các phương pháp nhận dạng mẫu khác nhau là các kiểu ño lường ñặc trưng, sự lựa chọn các mẫu (template) hoặc các mô hình cho các mẫu tham chiếu, và phương thức ñược sử dụng ñể tạo các mẫu tham chiếu và phân loại các mẫu kiểm tra chưa biết.

Hình 5.11 Sơñồ khối của một hệ thống nhận dạng sử dụng phương pháp nhận dạng mẫu

Các ñiểm mạnh và ñiểm yếu của phương pháp nhận dạng mẫu có thể kểñến:

1. Chất lượng của hệ thống nhận dạng theo phương pháp nhận dạng mẫu nhạy cảm (sensitive) với số lượng dữ liệu huấn luyện ñể tạo ra lớp các mẫu tham chiếu; thông thường, càng huấn luyện, chất lượng của hệ thống càng cao với mọi tác vụ.

2. Các mẫu tham chiếu nhạy cảm với môi trường tiếng nói và các tính chất truyền dẫn của phương tiện truyền dẫn ñể tạo tiếng nói; ñiều này là bởi vì các ñặc tính phổ tín hiệu tiếng nói thường dễ bịảnh hưởng bởi quá trình truyền dẫn và nhiễu nền.

3. Vì không có thông tin tiếng nói cụ thể ñược sử dụng một cách rõ ràng (explicitly) trong hệ thống, phương pháp này tương ñối trơ (insensitive) ñối với việc chọn các từ vựng, các tác vụ, cú pháp, và các tác vụ ngữ nghĩa.

4. Khối lượng tính toán cho cả quá trình huấn luyện mẫu và phân loại mẫu thường tỷ lệ thuận với số mẫu cần ñược huấn luyện hoặc ñược nhận dạng; do ñó việc tính toán cho một số lượng lớn lớp tín hiệu âm có thể và thường trở lên không thể thực hiện ñược (prohibitive)

5. Bởi vì hệ thống trơ với lớp âm thanh, các kỹ thuật cơ bản có thể áp dụng cho nhiều lớp tín hiệu tiếng nói, bao gồm các cụm từ, từ hoàn chỉnh, hoặc các ñơn vị con của từ (sub- word). Do ñó, chúng ta sẽ thấy cách một tập cơ bản các kỹ thuật ñược phát triển cho một lớp âm (chẳng hạn cho các từ) có thểñược áp dụng trực tiếp cho các lớp âm khác (chẳng hạn cho các ñơn bị sub-word) mà không cần thay ñổi hoặc thay ñổi rất ít ñối với thuật toán.

6. Có thể dễ dàng (straightforward) kết hợp các ñiều kiện hạn chế cú pháp (và thậm chí cả ngữ nghĩa) một cách trực tiếp vào cấu trúc nhận dạng mẫu. Bằng cách ñó có thể tăng tính chính xác của việc nhận dạng và giảm nhỏ khối lượng tính toán.

Một phần của tài liệu BÀI GIẢNG XỬ LÝ TIẾNG NÓI (Trang 83 - 84)