c. Lớp thi đấu
CHƯƠNG 4: THIẾT KẾ CHƯƠNG TRÌNH NHẬN DẠNG 4.1 Phân tích yêu cầu của bài toán
4.1. Phân tích yêu cầu của bài toán
Trong các chương trước đã giới thiệu tổng quan về hệ thống nhận dạng tiếng nói, kỹ thuật phân tích dữ liệu tiếng nói và tìm hiểu nghiên cứu thiết kế mạng neural. Nhìn chung đã nghiên cứu một cách tương đối đầy đủ về cơ sở lý thuyết để có thể xây dựng được một ứng dụng đơn giản cho vấn đề nhận dạng tiếng nói bằng công cụ mạng neural. Trong chương này, để phục vụ cho việc hiểu sâu hơn về mặt lý thuyết em đi vào thiết kế một ứng dụng cụ thể sử dụng mạng neural hồi quy cho nhận dạng giọng nói.
Mục đích của ứng dụng chỉ nhằm nhận dạng các tín hiệu tiếng nói của 22 từ bao gồm 10 chữ số và 12 nút lệnh như thêm, sữa, xóa, in, mở, tệp, đăng, nhập, ký, huấn, luyện, đóng. Có thể hình dung đây như một hệ thống bao gồm các thành phần sau:
- Đầu vào: là các tín hiệu tiếng nói, có thể tín hiệu trực tiếp từ Micro hoặc tín hiệu từ các file âm thanh (*.wav). Tín hiệu tiếng nói có thể phát âm rời rạc hoặc liên tục.
- Phần thực hiện tính toán: xử lý các tín hiệu đầu vào với công cụ chính là mạng neural nhằm thực hiện hai nhiệm vụ: một là tích luỹ mạng neural để tăng dần tính năng nhận dạng và hai là quyết định xem từ đó thuộc từ nào.
- Đầu ra: có hai trường hợp đó là: đầu ra là các số liệu biểu thị kết quả của quá trình tích luỹ hoặc là đầu ra là các quyết định đã thực hiện về sự phân loại từ và thông tin về độ tin cậy của quyết định đó.
Hình 4.1: Mô hình tổng quát của bài toán
Yêu cầu của bài toán có vẻ đơn giản nhưng việc thực hiện nó lại liên quan đến nhiều kiến thức cơ bản về mạng neural và xử lý tín hiệu tiếng nói như:
- Các kỹ thuật xử lý tín hiệu tiếng nói cơ bản: tiền xử lý tiếng nói, cửa sổ lọc, …
- Kỹ thuật phân tích tín hiệu tiếng nói cho nhận dạng: sử dụng các filter bank.
- Các kiến thức về mạng neural, mạng neural hồi quy.