Kết quả thử nghiệm trên phần cứng

Một phần của tài liệu Ứng dụng neural network vào nhận dạng tiếng nói trên kit arm cortex m3 (Trang 72 - 75)

Tập dữ liệu tiếng nói được thu âm từ 50 người nói khác nhau, thuộc miền Nam, và gồm cả nam lẫn nữ (40 nam, 10 nữ). Dữ liệu tiếng nói được lấy mẫu ở mức 8000Hz, 12 bit từ bộ KIT đưa lên máy tính.

Tập dữ liệu này được tổ chức thành 2 nhóm: 40 người sẽ được hệ thống học mẫu (registered speakers) và 10 người đóng vai trò người mạo danh (impostors/unknown speakers).

Dữ liệu tiếng nói từng từ của mỗi người trong nhóm hệ thống học mẫu sẽđược phân tích thành một bộ vector đặc trưng có kích thước 39xFrame, trong đó Frame là số

khung của dữ liệu tiếng nói, và số khung này sẽ không giống nhau theo thời gian và theo người nói. Tập hợp tất cả các bộ vector đặc trưng lại và thực hiện lượng tử hóa để

tạo ra codebook. Như vậy, cùng với codebook và các bộ vector đặc trưng sẽ là bộ tham số để thực hiện huấn luyện mô hình nhận dạng và kiểm tra hiệu suất của mô hình. Riêng đối với nhóm mạo danh, không cần dữ liệu huấn luyện nên chỉ tạo ra bộ vector

đặc trưng (không được sử dụng trong công đoạn lượng tử hóa và huấn luyện); do đó, nhóm này được sử dụng để kiểm tra tính hiệu quả của mô hình.

Hình 3. 17. Minh họa phân tích dữ liệu tiếng nói thành các hệ sốđặc trưng để sử dụng cho huấn luyện hệ thống và nhận dạng

Như vậy, từ tập dữ liệu ban đầu, ta chia thành 2 tập con:

− Tập huấn luyện: gồm 40 người, mỗi người có 5 mẫu. Tổng cộng là 400 mẫu. − Tập kiểm tra: gồm 50 người (40 registered speakers và 10 unknown

speakers), mỗi người có 5 mẫu. Tổng cộng 500 mẫu.

Tập huấn luyện được dùng để huấn luyện mô hình và tập kiểm tra sẽđược dùng

để khảo sát các tham số và đánh giá hiệu năng của hệ thống.

Tất cả các công đoạn này được thực hiện trên máy tính và được kiểm tra, mô phỏng trên phần mềm MATLAB.

Kết quả thử nghiệm nhận dạng từ trên phần mềm MATLAB cho nhóm người mà hệ thống có học mẫu trong điều kiện bình thường được tổng hợp trong bảng sau:

Bảng 3. 1. Kết quả thử nghiệm cho nhóm hệ thống học mẫu TỪ NHẬN DẠNG TIẾN LÙI TRÁI PHẢI DỪNG Tỉ lệ nhận dạng chính xác 97,5% 92,5% 92,5% 95,0% 92,5% Tỉ lệ nhận dạng nhầm 2,5% 7,5% 7,5% 5,0% 7,5% Tỉ lệ không nhận dạng 0,0% 0,0% 0,0% 0,0% 0,0%

Bảng 3. 2. Kết quả thử nghiệm cho nhóm mạo danh

TỪ NHẬN DẠNG

TIẾN LÙI TRÁI PHẢI DỪNG Tỉ lệ nhận dạng chính xác 80,0% 90,0% 90,0% 80,0% 80,0% Tỉ lệ nhận dạng nhầm 20,0% 0,0% 10,0% 0,0% 0,0% Tỉ lệ không nhận dạng 0,0% 10,0% 0,0% 20,0% 20,0%

Nhìn chung kết quả nhận dạng chính xác khá cao. Tuy nhiên, vấn đề thu mẫu, huấn luyện mẫu khi triển khai trên KIT STM32F103ZET6 mang tính khả thi không cao vì một số lý do sau:

− Hạn chế về bộ nhớ. − Hạn chế về tốc độ.

Do đó, đểđạt hiệu quả cao về thời gian huấn luyện ANN, đặc biệt là huấn luyện với số lượng mẫu lớn, và không bị hạn chế về không gian lưu trữ, xử lý dữ liệu thì ta sẽ thực hiện công đoạn huấn luyện và tạo codebook trên máy tính bằng phần mềm MATLAB. Sau đó, ta sẽ triển khai hệ thống nhận dạng trên KIT STM32F103ZET6

theo bộ thông số ANN đã được huấn luyện và codebook đã được lượng tử hóa này. Như vây, theo phương pháp này ta đã giải quyết được hai vấn đề lớn trong quá trình thi công hệ thống nhận dạng tiếng nói trên KIT STM32F103ZET6 trong khi vẫn cho kết quả nhận dạng tương đối tốt trong điều kiện bình thường.

Hình 3. 18. Kết quả nhận dạng từ “TIẾN”

Tiếp theo là bảng tổng hợp kết quả nhận dạng tiếng nói của 3 người khác nhau trên KIT STM32F103ZET6, trong đó có một người nằm trong nhóm hệ thống học mẫu và 2 người mạo danh. Mỗi người thử nghiệm 20 lần cho mỗi từ trong điều kiện bình thường, và kết quả chỉ xét theo hiệu suất nhận dạng từ chính xác.

Bảng 3. 3. Kết quả thử nghiệm nhận dạng từ trên KIT STM32F103ZET6 TỪ NHẬN DẠNG TIẾN LÙI TRÁI PHẢI DỪNG Người thứ 1 (hệ thống học mẫu) 85,0% 85,0% 80,0% 80,0% 85,0% Người thứ 2 (mạo danh) 80,0% 80,0% 75,0% 75,0% 80,0% Người thứ 3 (mạo danh) 75,0% 80,0% 75,0% 75,0% 75,0%

Như vậy, với bộ codebook có 5 từ thì hệ thống trên KIT STM32F103ZET6 cho kết quả nhân dạng chính xác khoảng gần 80% và thời gian nhận dạng cho một từ chưa

đầy 1 giây. Đây là một kết quả có thể chấp nhận được khi triển khai hệ thống nhận dạng tiếng nói trên phần cứng.

Chương 4.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Một phần của tài liệu Ứng dụng neural network vào nhận dạng tiếng nói trên kit arm cortex m3 (Trang 72 - 75)