Các Mạng neuron trễ (time-delay) và nhận dạng tiến- 123docz.net

2. Các âm vị khác

4.3.1 Các Mạng neuron trễ (time-delay) và nhận dạng tiếng nó

Do bản chất động của tín hiệu tiếng nói, việc sử dụng các mạng neuron trễ (TDNN) là một trong những giải pháp hợp lý để có thể bắt được những sự biến thiên tính chất theo thời gian.

Hình 4.10 Một mạng tiến đa mức cho việc phân loại các nguyên âm dựa trên các formant F1 và F2

Từ cấu trúc TDNN đã nghiên cứu trong Chương 3, có thể thấy rằng TDNN cho phép mở rộng đầu vào của mỗi phần tử tính toán (neuron) sao cho có

thể bao gồm N vector tham số đặc trưng của N khung tiếng nói (frames) (mỗi frame là một đoạn tín hiệu tiếng nói được lấy trong mỗi khoảng thời gian cố định (s)). Ở đây cần phải nhấn mạnh rằng mỗi vector feature như vậy là kết quả của một quá trình phân tích và xử lý tín hiệu tiếng nói bằng phương pháp filter bank hay LPC đã được trình bày trong phần 4.2. Bằng cách mở rộng đầu vào thành N vector feature như vậy, nhiều bộ nhận dạng âm vị đã được xây dựng trong thực tiễn dựa trên cơ sở TDNN. Ví dụ, hình 4.11 minh hoạ một mạng TDNN kết nối đầy đủ với hai mức ẩn mà đã dược sử dụng để phân biệt ba âm vị /b/, /d/ và /g/.

Trong ví dụ này, đầu vào của mạng xử lý tín hiệu gồm 15 vector feature của 15 frames với 10 ms cho một frame; mỗi vector feature gồm 16 hệ số filter bank theo kiểu tỷ lệ mel, tức là đầu vào của mạng có 16 nút. Đồng thời, mỗi nút của mức đầu vào sử dụng các kết nối trễ 3 nhánh để nối tới các neuron của mức ẩn đầu tiên, có nghĩa là mỗi bộ 3 vector feature kề nhau sẽ được xử lý tại cùng một neuron ẩn trong mức này. Mức ẩn thứ nhất có 8 neurons, và như vậy sẽ tạo thành các vector 8 hệ số làm đầu vào cho mức ẩn thứ hai. Mỗi neuron trong mức ẩn đầu tiên lại nối với các neuron của mức ẩn thứ hai bằng các kết nối trễ 5 nhánh. Mức ẩn thứ hai có 3 neurons, và cũng sẽ tạo thành các vector 3 hệ số để tiếp tục chuyển tới mức đầu ra. Mỗi neuron của mức ẩn thứ hai cũng lại nối với một nút đầu ra bằng các kết nối trễ 9 nhánh. Mức đầu ra có 3 neurons và mỗi neuron đại diện cho một trong ba âm vị cần phân biệt.

Đối với các âm thanh tiếng nói đa âm vị, tín hiệu cũng có thể được chia thành các frame như trên, sau đó mỗi frame sẽ được nhận dạng độc lập xem nó thuộc âm vị nào; và như vậy sẽ dần tạo nên được chuỗi âm vị của âm thanh đầu vào.

Trong các ứng dụng thực tế, ngoài cấu trúc TDNN như trên, người ta còn tận dụng sức mạnh của các kết nối phản hồi để nâng cao tính năng nhận dạng và dẫn đến việc ứng dụng rộng rãi các mạng RTDNN (mạng neuron hồi quy trễ).

Hình 4.11 Một TDNN cho việc nhận dạng /b/, /d/, /g/

Các Mạng neuron trễ (time-delay) và nhận dạng tiếng nó

Quy tắc học hiệu chỉnh lỗ

Hội tụ nhanh cho quá trình học Back-propagation