Chương 4 : NHẬN DẠNG TIẾNG NÓI
4.1. Hệ thống tiếng nói của con người
Để có thể nhận dạng được tiếng nói của con người, chúng ta cần hiểu về hệ thống tiếng nói.Tiếng nói của con người được tạo ra nhờ vào sự hoạt động của bộ máy phát âm của con người. Bộ máy phát âm này bao gồm các thành phần riêng rẽ như phổi, khí quản, thanh quản, và các đường dẫn gồm miệng, mũi. Trong đó, thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng cần thiết để tạo ra âm thanh. Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh hoặc thanh quản. Khoang mũi là ống không đều bắt đầu từ mơi, kết thúc bởi vịm miệng, có độ dài cố định khoảng 12 cm đối với người lớn. Vòm miệng là các nếp cơ chuyển động.
Trong quá trình tạo âm thanh khơng phải là âm mũi, vịm miệng mở, khoang mũi đóng lại, dịng khí sẽ chỉ đi qua khoang mũi. Khi phát âm mũi, vòm miệng hạ thấp và dịng khí sẽ chỉ đi qua khoang mũi. Tuyến âm sẽ được kích thích bởi nguồn năng lượng chính tại thanh mơn. Tiếng nói được tạo ra do tín hiệu nguồn từ thanh mơn phát ra, đẩy khơng khí có trong phổi lên tạo thành dịng khí, va chạm vào hai dây thanh trong tuyến âm. Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động âm sẽ được lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) và sau khi đi qua khoang mũi và mơi, sẽ tạo ra tiếng nói.
Hình 4.1: Bộ máy phát âm của con người
1: Vòm hầu; 2: Khẩu hầu; 3: Sụn nắp; 4: Mặt thanh quản sụn nắp; 5: Dây thanh âm; 6: Thanh mơn; 7: Khí quản; 8: Thực quản; 9: Đáy lưỡi; 10: Sụn nắp; 11: Dây
thanh âm; 12: Khí quản; 13: Thực quản.
Hình 4.2: Tín hiệu tương tự và tín hiệu số tương ứng
Tiếng nói của con người được phát ra dưới dạng tín hiệu tương tự. Để có thể nhận dạng được tiếng nói của con người, tín hiệu tương tự này phải được xử lý trước đó để có thể phục vụ cho q trình nhận dạng tiếng nói. Một tín hiệu tương tự xa(t) dưới dạng hàm biến đổi liên tục theo thời gian có thể được xử lý bằng cách lấy mẫu tín hiệu x với một khoảng thời gian lấy mẫu T (tức là t = nT), ta có thể xác định một tín hiệu thời gian rời rạc x(n) = xa(nt). Hơn nữa ta có thể xác định tần số lấy mẫu Fs với Fs = 1/T, nghịch đảo của khoảng thời gian lấy mẫu T.
1 2 3 4 5 6 7 8 13 12 11 10 9