3.5. Giới thiệu phần cứng
3.5.5. Mạch nhận dạng giọng nói VoiceRecognitionV3
Mạch nhận dạng giọng nói Voice Recognition V3 được sử dụng trong các ứng dụng nhận dạng, điều khiển bằng giọng nói, với khả năng ghi âm để nhận dạng lên đến 70 câu lệnh khác nhau, khả năng nhận dạng để thực thi 7 câu lênh cùng lúc, bất kỳ âm thanh nào cũng có thể được ghi âm để chuyển thành câu lệnh điều khiển, mạch có 2 ngõ ra xuất tín hiệu là các chân GPIO hoặc giao tiếp Serial UART rất dễ sử dụng, phù hợp cho các ứng dụng điều khiển, nhận dạng giọng nói chuyên nghiệp.
3.5.5.1 Module nhận dạng giọng nói
45
❖ Thông số kĩ thuật
Điện áp sử dụng 4.5~5.5VDC
Dòng điện tiêu thụ <40mA
Giao tiếp: 5V TTL level for UART hoặc GPIOs.
Ngõ vào âm thanh Analog: Jack cắm 3,5mm
Độ chính xác 99%
Kích thước: 31 x 50mm.
Hỗ trợ thư viện Arduino
Tối đa 7 câu lệnh được thực hiện tại 1 thời điểm.
Hỗ trợ 70 câu lệnh khác nhau, độ dài 1500ms (nói 1 hoặc 2 từ).
Hình 3. 24 Thơng số kỹ thuật module VR3
3.5.5.2 Cách thức nhận diện giọng nói
Hệ thống nhận dạng giọng nói cơ bản:
Hình 3.25 Sơ đồ khối của hệ thống nhận dạng giọng nói
Một hệ thống nhận dạng thường bao gồm hai phần chính là huấn luyện (training) và nhận dạng (recognition) được thể hiện như trong hình. Trong đó “Rút trích đặc trưng” là quá trình đưa ra được những đặc trưng sau khi nhận được những thông tin từ tiền xử lí. “Huấn luyện” là q trình để hệ thống có thể “học” và “lưu trữ” những mẫu giọng được cung cấp, từ đó hình thành bộ từ vựng của hệ thống. Và quá trình “nhận dạng” là xem xét mẫu nào có trong bộ từ vựng đã được huấn luyện.
Huấn luyện (training) và nhận dạng (recognition)
46
❖ Huấn luyện:
Hình 3.26 Sơ đồ của quá trình huấn luyện
Tiếng nói của người cần nhận diện được thu thập và sử dụng để huấn luyện mơ hình. Tập các mơ hình của nhiều người nói cịn được gọi là cơ sở dữ liệu người nói.
❖ Nhận diện:
Hình 3.27 Sơ đồ của quá trình nhận dạng
Dữ liệu tiếng nói của một người dùng khơng rõ định danh được đưa vào hệ thống và so sánh có khớp hay khơng với cơ sở dữ liệu người nói
47
Cả hai pha đều có chung hai bước đầu. Bước đầu tiên là thu thập tiếng nói. Tiếng nói có thể được thu thập thơng qua micro và chuyển thành tín hiệu rời rạc – tín hiệu số (digital). Tuy nhiên dữ liệu này thơng thường sẽ bị nhiễu, do đó cần phải được tiền xử lý trước khi đưa vào pha bước thứ hai.
Ở bước thứ hai của khâu huấn luyện, thơng tin người nói sau khi đã được rút trích đặc trưng được mơ hình hóa (modeling) và lưu vào cơ sở dữ liệu.
Ở bước thứ ba của khâu nhận dạng, dữ liệu rút trích được so khớp với các dữ liệu trong cơ sở dữ liệu và đưa ra quyết định xem người đó là ai. Có thể thấy hai pha được thực hiện tách biệt nhau nhưng có liên quan rất gần với nhau, trong đó hai pha khó thực hiện nhất đó là rút trích đặc trưng và mơ hình hóa, so khớp dữ liệu.
Hình 3.28 Mơ phỏng cách thức biến giọng nói thành tín hiệu