Phương án xây dựng bài toán

Một phần của tài liệu Đồ án tốt nghiệp đại học “nhận dạng giọng nói bằng mạng neural hồi quy” (Trang 57 - 58)

c. Lớp thi đấu

4.2.Phương án xây dựng bài toán

Dựa vào yêu cầu của bài toán cần giải quyết, chúng ta có thể khẳng định rằng hoạt động chính của ứng dụng nằm ở hai vấn đề: Xử lý tín hiệu đầu vào và vận hành mạng neural. Sau đây là phương án em đề xuất để giải quyết hai vấn đề trên:

a. Xử lý tín hiệu đầu vào

Mục tiêu chính cần đạt được trong giải quyết vấn đề này là tạo ra các vectơ đầu vào cho mạng neural từ các đặc trưng lấy được từ tín hiệu tiếng nói.

Đối với bản thân tín hiệu tiếng nói, chúng ta có thể dùng một dạng mã hóa trực tiếp như dạng file *.wav (file âm thanh chuẩn của hệ điều hành Windows). Ngay cả âm thanh thu trực tiếp từ Micro cũng có thể mã hóa theo dạng này. Nội dung của dạng file *.wav có thể coi là một sóng tín hiệu đã được lấy mẫu và số hóa.

Sóng tín hiệu được xử lý theo từng frame bao gồm một số xác định các mẫu liên tiếp nhau (ví dụ các frame tương ứng với các đoạn sóng kéo dài 10ms). Kỹ thuật trích rút đặc trưng các hệ số LPC (được giới thiệu ở chương 2) được áp dụng cho từng frame. Ứng với mỗ frame sẽ có 11 hệ số LPC. Đối với mỗi từ sau khi đã tách phần nhiễu nền ta thu được phần có dữ liệu giọng nói, số frame có dữ liệu giọng nói là không cố định. Do vậy phải chuẩn hóa thành một số cố định chẳng hạn là X, khi đó vectơ đầu vào cho mạng neural là X*11 phần tử hệ số LPC.

b. Vận hành mạng neural

Khi đã có đầu vào mạng thì vấn đề còn lại là cấu trúc và vận hành mạng như thế nào. Như đã trình bày trong chương 3, lý thuyết nhận dạng giọng nói luôn gắn liền với kiến trúc mạng neural hồi quy và mạng neural được sử dụng trong ứng dụng này cũng thuộc kiến trúc này.

Mạng hồi quy được sử dụng trong ứng dụng này là mạng Haming có cấu trúc là X*11 – Y – Y. Trong đó, X là số frame có dữ liệu tiếng nói được chuẩn hóa, Y là số từ cần nhận dạng.

Mạng Haming có X*11 neural đầu vào, số neural lớp truyền thẳng là Y và số neural lớp hồi quy là Y. Trong ứng dụng này X là 37, Y là 22.

Một phần của tài liệu Đồ án tốt nghiệp đại học “nhận dạng giọng nói bằng mạng neural hồi quy” (Trang 57 - 58)