Các thành phần cơ bản của một hệ thống nhận dạng tiếng nói

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh (Trang 57 - 58)

Chương 4 : NHẬN DẠNG TIẾNG NÓI

4.2. Cơ sơ lý thuyết xử lý và nhận dạng tiếng nói

4.2.1. Các thành phần cơ bản của một hệ thống nhận dạng tiếng nói

Về bản chất, q trình nhận dạng tiếng nói là q trình biến đổi tín hiệu âm thanh thu được của người nói qua các thiết bị thu âm thành một chuỗi các từ. Kết quả của quá trình nhận dạng có thể được ứng dụng trong điều khiển thiết bị, nhập dữ liệu, soạn thảo văn bản bằng lời, quay số điện thoại tự động hoặc đưa tới một q trình xử lý ngơn ngữ ở mức cao hơn.

Hình 4.3: Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói

Các hệ thống nhận dạng tiếng nói có thể được phân loại như: nhận dạng từ phát âm rời rạc và nhận dạng từ phát âm liên tục, nhận dạng tiếng nói phụ thuộc người nói và nhận dạng tiếng nói khơng phụ thuộc người nói, hệ thống nhận dạng từ điển cỡ nhỏ (dưới 20 từ) và hệ thống nhận dạng từ điển cỡ lớn (hàng nghìn từ), nhận dạng

Dữ liệu tiếng nói

Mơ hình âm thanh Mơ hình từ vựng Mơ hình ngơn ngữ Tìm kiếm, Đối sánh Mơ hinh hố,

phân lớp Trích chọn Đặc trưng Từ được nhận dạng Tín hiệu đầu vào

tiếng nói trong mơi trường có nhiễu thấp và nhận dạng tiếng nói trong mơi trườn có nhiễu cao, nhận dạng người nói.

Trong hệ thống nhận dạng tiếng nói với cách phát âm rời rạc có khoảng lặng giữa các từ trong câu, trong khi đó hệ nhận dạng tiếng nói liên tục khơng địi hỏi điều này. Tùy thuộc vào quy mô và phương pháp nhận dạng, ta có các mơ hình nhận dạng tiếng nói khác nhau. Hình 4.3 là mơ hình tổng quát của một hệ nhận dạng tiếng nói điển hình.

Tín hiệu tiếng nói sau khi thu nhận được lượng tử hóa sẽ biến đổi thành một tập các vector tham số đặc trưng với các phân đoạn có độ dài trong khoảng 10-30 ms. Các đặc trưng này được dùng cho đối sánh hoặc tìm kiếm các từ gần nhất với một số ràng buộc về âm học, từ vựng và ngữ pháp. Cơ sở dữ liệu tiếng nói được sử dụng trong q trình huấn luyện (mơ hình hóa hay phân lớp) để xác định các tham số hệ thống.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh (Trang 57 - 58)