Ứng dụng mạng neuron trong nhận dạng tiếng nĩ

Một phần của tài liệu Xử lý âm thanh và hình ảnh (Trang 60 - 62)

Mạng neuron (Neuron Network) là một cơng cụ cĩ khả năng giải quyết được nhiều bài tốn khĩ, thực tế những nghiên cứu về mạng neuron đưa ra một cách tiếp cận khác với những cách tiếp cận truyền thống trong lý thuyết nhận dạng. Trong thực tế, mạng neuron được triển khai cĩ hiệu quả trong nhận dạng tiếng nĩi thường dùng mạng neuron lan truyền ngược hướng (Back- propagation Neural Network) hoặc kết hợp với phương pháp mã dựđốn tuyến tính LPC (Linear Predictive Coding).

1.5.3.4.1 Sơ lược về lý thuyết nhận dạng

Lý thuyết nhận dạng là phương pháp để xây dựng một hệ thống tin học cĩ khả năng: cảm nhận-nhận thức-nhận biết các đối tượng vật lý gần giống khả năng của con người. Nhận dạng cĩ gắn chặt với 3 khả năng trên là một lĩnh vực hết sức rộng cĩ liên quan đến việc xử lý tín hiệu trong khơng gian nhiều chiều, mơ hình, đồ thị, ngơn ngữ, cơ sở dữ liệu, phương pháp ra quyết định... Hệ thống nhận dạng phải cĩ khả năng thể hiện được quá trình nhận thức của con người qua các mức:

- Mức 1- mức cảm nhận: cảm nhận được sự tồn tại các đối tượng quan sát, hay đối tượng mà hệ thống cần nhận dạng. Mức này cũng đưa ra quá trình thu nhận số liệu qua các bộ cảm biến trong hệ thống nhận dạng, ví dụ trong hệ thống nhận dạng tiếng nĩi: đối tượng ở đây là tiếng nĩi (speech) và thu nhận đầu vào qua Micro hoặc các file âm thanh .wav.

- Mức 2- mức nhận thức: ở đây biểu diễn quá trình học, mơ hình hố đối tượng để tiến tới hình thành sự phân lớp (classification) các đối tượng cần nhận dạng.

- Mức 3- mức nhận biết: từđối tượng quan sát cĩ thể trả lời nhận biết đối tượng là gì ? Hay đây là quá trình ra quyết định.

Hình 1.56 Sơđồ tổng quan của hệ thống nhận dạng

1.5.3.4.2 Nhận dạng tiếng nĩi dùng mạng Neuron

Hình 1.57 Sơđồ khối mơ tả hệ thống nhận dạng tiếng nĩi

Phương án lựa chọn số nút của từng lớp trong mạng: theo kinh nghiệm của các chuyên gia về mạng neuron trong các bài tốn phân lớp cĩ sử dụng mạng lan truyền ngược hướng, sử dụng 1 lớp tính tốn là lớp mạng Kohonen làm lớp ẩn. Việc xác định số neuron cho từng lớp.

+ Số neuron lớp vào = số chiều của vector vào + Số neuron lớp Kohonen = số giá trị các tập trả lời

+ Số neuron lớp ra = số lượng kết quảđầu ra, sử dụng phương pháp mã hố bằng số bit biểu diễn số lượng kết quả

Phương pháp học cạnh tranh của lớp ẩn và quá trình học cĩ chỉđạo tại lớp ra của mạng theo các bước sau:

+ Khởi tạo trọng số: các thành phần ma trận trọng sốđược khởi tạo bởi giá trị ngẫu nhiên

+ Đọc tín hiệu vào cho mạng: dữ liệu trong file mẫu chứa thơng tin mẫu học và cho kết quả gồm 2 thành phần: mảng 1 chiều chứa vector tín hiệu vào và mảng 2 chiều chứa ma trận trọng số liên kết ban đầu của lớp Kohonen

+ Hiệu chỉnh ma trận trọng số lớp Kohonen: hiệu chỉnh trọng số liên kết neuron lớp ẩn Kohonen sao cho mạng cĩ thể học mẫu tốt nhất.

Phương pháp nhận dạng

- Đầu vào: file chứa dữ liệu tín hiệu tiếng nĩi cần nhận dạng và file chứa thơng tin trọng số liên kết neuron lớp ẩn và lớp ra. Ngồi ra đầu vào nguồn âm cũng cĩ thể là từ micro thơng qua sound card, lúc này dữ liệu tiếng nĩi được đọc trong buffer dữ liệu của Windows.

- Đầu ra: kết quả cần nhận dạng

Quá trình nhận dạng tiếng nĩi được thực hiện qua các bước:

+ Đọc tín hiệu vào: đọc dữ liệu từ file wav hoặc từ buffer dữ liệu âm thanh + Xử lý tín hiệu giống như chức năng phân tích LPC ở trên

+ Đọc ma trận trọng số liên kết lớp ẩn và lớp ra của mạng + Xác định neuron trung tâm

Một phần của tài liệu Xử lý âm thanh và hình ảnh (Trang 60 - 62)