Mạch nhận dạng giọng nói VoiceRecognitionV3- 123docz.net

3.5. Giới thiệu phần cứng

3.5.5. Mạch nhận dạng giọng nói VoiceRecognitionV3

Mạch nhận dạng giọng nói Voice Recognition V3 được sử dụng trong các ứng dụng nhận dạng, điều khiển bằng giọng nói, với khả năng ghi âm để nhận dạng lên đến 70 câu lệnh khác nhau, khả năng nhận dạng để thực thi 7 câu lênh cùng lúc, bất kỳ âm thanh nào cũng có thể được ghi âm để chuyển thành câu lệnh điều khiển, mạch có 2 ngõ ra xuất tín hiệu là các chân GPIO hoặc giao tiếp Serial UART rất dễ sử dụng, phù hợp cho các ứng dụng điều khiển, nhận dạng giọng nói chuyên nghiệp.

3.5.5.1 Module nhận dạng giọng nói

❖ Thông số kĩ thuật

Điện áp sử dụng 4.5~5.5VDC

Dòng điện tiêu thụ <40mA

Giao tiếp: 5V TTL level for UART hoặc GPIOs.

Ngõ vào âm thanh Analog: Jack cắm 3,5mm

Độ chính xác 99%

Kích thước: 31 x 50mm.

Hỗ trợ thư viện Arduino

Tối đa 7 câu lệnh được thực hiện tại 1 thời điểm.

Hỗ trợ 70 câu lệnh khác nhau, độ dài 1500ms (nói 1 hoặc 2 từ).

Hình 3. 24 Thơng số kỹ thuật module VR3

3.5.5.2 Cách thức nhận diện giọng nói

Hệ thống nhận dạng giọng nói cơ bản:

Hình 3.25 Sơ đồ khối của hệ thống nhận dạng giọng nói

Một hệ thống nhận dạng thường bao gồm hai phần chính là huấn luyện (training) và nhận dạng (recognition) được thể hiện như trong hình. Trong đó “Rút trích đặc trưng” là quá trình đưa ra được những đặc trưng sau khi nhận được những thông tin từ tiền xử lí. “Huấn luyện” là q trình để hệ thống có thể “học” và “lưu trữ” những mẫu giọng được cung cấp, từ đó hình thành bộ từ vựng của hệ thống. Và quá trình “nhận dạng” là xem xét mẫu nào có trong bộ từ vựng đã được huấn luyện.

Huấn luyện (training) và nhận dạng (recognition)

❖ Huấn luyện:

Hình 3.26 Sơ đồ của quá trình huấn luyện

Tiếng nói của người cần nhận diện được thu thập và sử dụng để huấn luyện mơ hình. Tập các mơ hình của nhiều người nói cịn được gọi là cơ sở dữ liệu người nói.

❖ Nhận diện:

Hình 3.27 Sơ đồ của quá trình nhận dạng

Dữ liệu tiếng nói của một người dùng khơng rõ định danh được đưa vào hệ thống và so sánh có khớp hay khơng với cơ sở dữ liệu người nói

Cả hai pha đều có chung hai bước đầu. Bước đầu tiên là thu thập tiếng nói. Tiếng nói có thể được thu thập thơng qua micro và chuyển thành tín hiệu rời rạc – tín hiệu số (digital). Tuy nhiên dữ liệu này thơng thường sẽ bị nhiễu, do đó cần phải được tiền xử lý trước khi đưa vào pha bước thứ hai.

Ở bước thứ hai của khâu huấn luyện, thơng tin người nói sau khi đã được rút trích đặc trưng được mơ hình hóa (modeling) và lưu vào cơ sở dữ liệu.

Ở bước thứ ba của khâu nhận dạng, dữ liệu rút trích được so khớp với các dữ liệu trong cơ sở dữ liệu và đưa ra quyết định xem người đó là ai. Có thể thấy hai pha được thực hiện tách biệt nhau nhưng có liên quan rất gần với nhau, trong đó hai pha khó thực hiện nhất đó là rút trích đặc trưng và mơ hình hóa, so khớp dữ liệu.

Hình 3.28 Mơ phỏng cách thức biến giọng nói thành tín hiệu

Mạch nhận dạng giọng nói VoiceRecognitionV3

Xe lăn tự hành bằng tay

Xe tay ga di động