Thuật toán nhận dạng giọng nói

Một phần của tài liệu Đồ án robot tự hành vận chuyển hành lí (Trang 111 - 115)

3.2.5.1. Giới thiệu chung

Nhận diện giọng nói đang xâm nhập vào cuộc sống hiện đại. Nó được cài đặt trong những chiếc điện thoại, điều khiển trò chơi hay những chiếc đồng hồ thông minh. Chỉ với khoảng $50, ta có thể có Amazon Echo Dot - một chiếc hộp thần kỳ cho phép ta đặt pizza, nhận thông tin dự báo thời tiết hoặc thậm chí mua những vật dụng - chỉ bằng cách đưa ra mệnh lệnh. Tương tự ta cũng có thể điều khiển hay chuyển đổi chế độ của robot chỉ bằng giọng nói. Trong đồ án này, nhóm em sử dụng giọng nói để chuyển đổi giữa hai chế độ quét bản đồ và chế đồ đi giao hành lí và nhận diện mệnh lệnh thông qua gói Speech Recognition của Python.

Tất nhiên, thành phần đầu tiên của nhận dạng giọng nói là giọng nói. Lời nói phải được chuyển đổi từ âm thanh vật lý sang tín hiệu điện bằng micrô, sau đó sang dữ liệu kỹ thuật số bằng bộ chuyển đổi tương tự sang kỹ thuật số. Sau khi số hóa, một số mô hình có thể được sử dụng để chuyển âm thanh thành văn bản.

Hầu hết các hệ thống nhận dạng giọng nói hiện đại dựa trên cái được gọi là Mô hình Markov ẩn (HMM). Cách tiếp cận này hoạt động dựa trên giả định rằng một tín hiệu giọng

GVHD: TS. Trương Công Tuấn 112

t

hiện trên mỗi trạng thái Si, tập hợp các xác xuât này gọi là phân phối xác xuất của quan sát 𝐵 = {𝑏𝑗(𝑜𝑡)}

𝑗=1 𝑁

. Ngoài ra còn có tập 𝜋 = {𝜋𝑖}𝑖=1𝑁 là xác suất quan sát đầu tiên O1 tại trạng thái i. Tập 𝜆 = {S, A, B, 𝜋} là các tham số của HMM. Khi có chuỗi quan sát được đưa vào mô hình, từ đầu ra ở các trạng thái sẽ rút ra được các tham số ẩn trong chuỗi quan sát (Juang and L.R. Rabiner, 1991). Hình dưới là một ví dụ HMM 5 trạng thái.

Hình 3.49: HMM 5 trạng thái – [10]

Tiếng nói là một dạng sóng âm thanh dùng để giao tiếp của con người. Để có thể lưu trữ, xử lý, phân tích, nhận dạng với sự hỗ trợ của máy tính, tín hiệu tiếng nói cần phải được chuyển thành tín hiệu điện tương tự và qua bộ biến đổi ADC (Analog-to-Digital Converter) để chuyển tín hiệu tương tự thành tín hiệu số như hình dưới. Các dạng tín hiệu được miêu tả trong Hình 3.52.

GVHD: TS. Trương Công Tuấn 113

Hình 3.50: Biến đổi tín hiệu âm thanh sang tín hiệu số - [10]

Hình 3.51: a) Tín hiệu tương tự b) Tín hiệu số -[10]

Tiếng nói hay âm thanh trước khi được phân tích hoặc nhận dạng cần phải được rút trích các đặc trưng của nó. Bởi vì dữ liệu tiếng nói có nhiều thông tin nên chỉ rút trích những thông tin cần thiết cần thiết cho việc nhận dạng. Ở đây đặc trưng được rút trích là phổ tần rời rạc và các biến đổi tần số của tín hiệu hiệu tiếng nói. Có một số phương pháp để rút trích các đặc trưng này, nổi bật là phương pháp LPC (L. R. Rabimer and R. W. Schafer, 1979) vì nó được kiểm nghiệm và đánh giá rất hiệu quả trong nhận dạng tiếng nói. Hình 3.53 mô tả quá trình rút trích đặc trưng của tín hiệu âm thanh hay tiếng nói sử dụng LPC.

Hình 3.52: Rút trích đặc trưng của tiếng nói –[10]

Mẫu tiếng nói dưới dạng số S(n) trước khi rút trích được đưa qua khối Tiền xử lý để loại bỏ các nhiễu hoặc các tín hiệu tần số cao (vượt qua tần số âm thanh) bằng các mạch lọc số, sau đó sẽ được chia thành T khung dữ liệu. Cuối cùng tín hiệu qua khối LPC với

GVHD: TS. Trương Công Tuấn 114

GVHD: TS. Trương Công Tuấn 115

CHƯƠNG 4: KIỂM NGHIỆM THỰC TẾ

Một phần của tài liệu Đồ án robot tự hành vận chuyển hành lí (Trang 111 - 115)