x ni () =s n() *h ni () (4.10a) (4.10b)
4.3.1 Các Mạng neuron trễ (time-delay) và nhận dạng tiếng nó
Do bản chất động của tín hiệu tiếng nói, việc sử dụng các mạng neuron trễ (TDNN) là một trong những giải pháp hợp lý để có thể bắt đ−ợc những sự biến thiên tính chất theo thời gian.
. . .
/c/ /u/ /a/ /i/
F1 F2
Hình 4.10 Một mạng tiến đa mức cho việc phân loại các nguyên âm dựa trên các formant F1 và F2
Từ cấu trúc TDNN đã nghiên cứu trong Ch−ơng 3, có thể thấy rằng TDNN cho phép mở rộng đầu vào của mỗi phần tử tính toán (neuron) sao cho có thể bao gồm N vector tham số đặc tr−ng của N khung tiếng nói (frames) (mỗi frame là một đoạn tín hiệu tiếng nói đ−ợc lấy trong mỗi khoảng thời gian cố định Δ(s)). ở đây cần phải nhấn mạnh rằng mỗi vector feature nh− vậy là kết quả của một quá trình phân tích và xử lý tín hiệu tiếng nói bằng ph−ơng pháp filter bank hay LPC đã đ−ợc trình bày trong phần 4.2. Bằng cách mở rộng đầu vào thành N vector feature nh− vậy, nhiều bộ nhận dạng âm vị đã đ−ợc xây dựng trong thực tiễn dựa trên cơ sở TDNN. Ví dụ, hình 4.11 minh hoạ một mạng TDNN kết nối đầy đủ với hai mức ẩn mà đã d−ợc sử dụng để phân biệt ba âm vị /b/, /d/ và /g/.
Trong ví dụ này, đầu vào của mạng xử lý tín hiệu gồm 15 vector feature của 15 frames với 10 ms cho một frame; mỗi vector feature gồm 16 hệ số filter bank theo kiểu tỷ lệ mel, tức là đầu vào của mạng có 16 nút. Đồng thời, mỗi nút của mức đầu vào sử dụng các kết nối trễ 3 nhánh để nối tới các neuron của mức ẩn đầu tiên, có nghĩa là mỗi bộ 3 vector feature kề nhau sẽ đ−ợc xử lý tại cùng một neuron ẩn trong mức này. Mức ẩn thứ nhất có 8 neurons, và nh− vậy sẽ tạo thành các vector 8 hệ số làm đầu vào cho mức ẩn thứ hai. Mỗi neuron trong mức ẩn đầu tiên lại nối với các neuron của mức ẩn thứ hai bằng các kết nối trễ 5 nhánh. Mức ẩn thứ hai có 3 neurons, và cũng sẽ tạo thành các vector 3 hệ số để tiếp tục chuyển tới mức đầu ra. Mỗi neuron của mức ẩn thứ hai cũng lại nối với một nút đầu ra bằng các kết nối trễ 9 nhánh. Mức đầu ra có 3 neurons và mỗi neuron đại diện cho một trong ba âm vị cần phân biệt.
Đối với các âm thanh tiếng nói đa âm vị, tín hiệu cũng có thể đ−ợc chia thành các frame nh− trên, sau đó mỗi frame sẽ đ−ợc nhận dạng độc lập xem nó thuộc âm vị nào; và nh− vậy sẽ dần tạo nên đ−ợc chuỗi âm vị của âm thanh đầu vào.
Trong các ứng dụng thực tế, ngoài cấu trúc TDNN nh− trên, ng−ời ta còn tận dụng sức mạnh của các kết nối phản hồi để nâng cao tính năng nhận dạng và