CHƢƠNG 5 NHẬN DẠNG TIẾNG NÓI
5.6. GIỚI THIỆU MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG TIẾNG NÓ
5.6.2 Phƣơng pháp nhận dạng mẫu thống kê
Hình 5.11 mơ tả sơ đồ khối một hệ thống nhận dạng sử dụng phƣơng pháp nhận dạng mẫu.
Hình 5.11 Sơ đồ khối của một hệ thống nhận dạng
sử dụng phƣơng pháp nhận dạng mẫu
Phƣơng pháp nhận dạng mẫu bao gồm bốn bƣớc:
1. Đo lƣờng các đặc trƣng, trong đó một dãy các phép đo lƣờng đƣợc thực hiện trên tín hiệu vào để định ra các mẫu cần thử. Đối với tín hiệu tiếng nói, các đo lƣờng đặc
trƣng thƣờng là các đầu ra của một số phƣơng pháp phân tích phổ nào đó, chẳng hạn bộ
phân tích mạng (dãy) mạch lọc, một bộ phân tích LPC, hoặc là một phân tích DFT. 2. Huấn luyện mẫu, trong đó một hoặc nhiều mẫu kiểm tra tƣơng ứng với các âm thanh tín hiệu tiếng nói của cùng một lớp đƣợc sử dụng để tạo ra một mẫu đại diện của
các đặc trƣng của lớp đó. Mẫu kết quả thu đƣợc, thƣờng đƣợc gọi là mẫu tham khảo
(hoặc tham chiếu), có thể trở thành một ví dụ (examplar) hoặc một mẫu (template) đƣợc suy ra (derived) từ một số phƣơng pháp tính trung bình hoặc có thể trở thành một mơ hình đặc tả tính thống kê của các đặc trƣng của mẫu tham khảo.
3. Phân loại mẫu, trong đó mẫu cần kiểm tra chƣa biết đƣợc so sánh với mỗi lớp (âm) mẫu tham khảo và một đo lƣờng độ tƣơng đồng (khoảng cách) giữa mẫu kiểm tra và mỗi mẫu tham khảo đƣợc tính tốn. Để so sánh các mẫu tín hiệu tiếng nói (các mẫu bao gồm một dãy các véc-tơ phổ), ta cần cả đo lƣờng khoảng cách cục bộ, với khoảng cách cục bộ đƣợc định nghĩa là khoảng cách phổ giữa hai véc-tơ phổ đƣợc xác định rõ, và một thủ tục sắp xếp thời gian toàn cục (a global time alignment procedure) (thƣờng
đƣợc gọi là một thuật toán chỉnh (chỉnh lệch - warping) thời gian động) nhằm bù lại sự
CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI
132
4. Quyết định lơ-gic, trong đó điểm số về tính tƣơng đồng của mẫu tham chiếu đƣợc sử dụng để quyết định xem mẫu tham chiếu nào (hoặc có thể một dãy mẫu tham
chiếu) tƣơng đồng nhất với mẫu kiểm tra chƣa biết.
Các yếu tố phân biệt các phƣơng pháp nhận dạng mẫu khác nhau là các kiểu đo
lƣờng đặc trƣng, sự lựa chọn các mẫu (template) hoặc các mơ hình cho các mẫu tham
chiếu, và phƣơng thức đƣợc sử dụng để tạo các mẫu tham chiếu và phân loại các mẫu kiểm tra chƣa biết.
Các điểm mạnh và điểm yếu của phƣơng pháp nhận dạng mẫu có thể kể đến:
1. Chất lƣợng của hệ thống nhận dạng theo phƣơng pháp nhận dạng mẫu nhạy cảm (sensitive) với số lƣợng dữ liệu huấn luyện để tạo ra lớp các mẫu tham chiếu; thông thƣờng, càng huấn luyện, chất lƣợng của hệ thống càng cao với mọi tác vụ.
2. Các mẫu tham chiếu nhạy cảm với mơi trƣờng tiếng nói và các tính chất truyền dẫn của phƣơng tiện truyền dẫn để tạo tiếng nói; điều này là bởi vì các đặc tính phổ tín hiệu tiếng nói thƣờng dễ bị ảnh hƣởng bởi quá trình truyền dẫn và nhiễu nền.
3. Vì khơng có thơng tin tiếng nói cụ thể đƣợc sử dụng một cách rõ ràng (explicitly) trong hệ thống, phƣơng pháp này tƣơng đối trơ (insensitive) đối với việc chọn các từ
vựng, các tác vụ, cú pháp, và các tác vụ ngữ nghĩa.
4. Khối lƣợng tính tốn cho cả q trình huấn luyện mẫu và phân loại mẫu thƣờng tỷ lệ thuận với số mẫu cần đƣợc huấn luyện hoặc đƣợc nhận dạng; do đó việc tính tốn cho một số lƣợng lớn lớp tín hiệu âm có thể và thƣờng trở lên khơng thể thực hiện đƣợc (prohibitive)
5. Bởi vì hệ thống trơ với lớp âm thanh, các kỹ thuật cơ bản có thể áp dụng cho nhiều lớp tín hiệu tiếng nói, bao gồm các cụm từ, từ hoàn chỉnh, hoặc các đơn vị con của từ (sub-word). Do đó, ta sẽ thấy cách một tập cơ bản các kỹ thuật đƣợc phát triển cho một lớp âm (chẳng hạn cho các từ) có thể đƣợc áp dụng trực tiếp cho các lớp âm khác (chẳng hạn cho các đơn bị sub-word) mà khơng cần thay đổi hoặc thay đổi rất ít đối với thuật tốn.
6. Có thể dễ dàng (straightforward) kết hợp các điều kiện hạn chế cú pháp (và thậm chí cả ngữ nghĩa) một cách trực tiếp vào cấu trúc nhận dạng mẫu. Bằng cách đó có thể
CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI