CHƢƠNG 1 MỘT SỐ KHÁI NIỆM CƠ BẢN
1.6. CÁC THAM SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NÓI
Tín hiệu tiếng nói nhƣ đã đề cập là tín hiệu thay đổi theo thời gian. Nó có các đặc trƣng cơ bản nhƣ nguồn kích thích (excitation), cƣờng độ (pitch), biên độ (amplitude), ... Các tham số thay đổi theo thời gian của tín hiệu tiếng nói có thể kể đến là tần số cơ bản (fundamental frequency - pitch), loại âm (âm hữu thanh - voiced, vô thanh - unvoiced, tắc - fricative hay khoảng lặng - silence), các tần số cộng hƣởng chính (formant), hàm diện tích của tuyến âm (vocal tract area), ...
1.6.1 Tần sốcơ bản
Với phần tín hiệu tiếng nói bán tuần hồn, giá trị trung bình chu kỳ của tín hiệu đƣợc gọi là chu kỳ cơ bản hay chu kỳ pitch (T0). Chu kỳ cho bản tƣơng ứng với chu kỳ đóng mở của dây thanh.
Hình 1.19 Minh họa đóng mở thanh mơn và chu kỳ cơ bản
Tần số cơ bản F0 đƣợc định nghĩa là nghịch đảo của chu kỳ cơ bản: F0=1/T0. Tần số cơ bản có sự khác nhau giữa các giới và độ tuổi và ngƣời nói. Các số liệu thống kê cho thấy tần số cơ bản của nam giới vào khoảng 85-180Hz, trong khi giá trị này là khoảng 165-255Hz. Tần số cơ bản của tín hiệu tiếng nói trẻ em lớn cỡ gấp hai lần tần số cơ bản tiếng nói của ngƣời lớn, cỡ 350-850Hz. Giá trị trung bình tần số cơ bản thay đổi theo độ
CHƢƠNG 1. MỘT SỐ KHÁI NIỆM CƠ BẢN
33 tuổi. Với nam giới, tần số cơ bản có sự giảm mạnh trong thời từ tuổi kỳ dậy thì đến khoảng tầm 35 tuổi. Tuy nhiên, sau tuổi 55, tần số cơ bản của tiếng nói của nam giới lại bắt đầu có sự tăng trở lại. Với nữ giới, tần số cơ bản giữ ổn định cho đến tuổi trung niên, và sau đó bắt đầu có sự suy giảm.
Tần số cơ bản (chu kỳ cơ bản) là một trong các đặc trƣng cơ bản và đƣợc sử dụng nhiều trong các phân tích cũng nhƣ xây dựng các ứng dụng tiếng nói.
1.6.2 Tần số formant
Nhƣ đã đề cập trong phần biểu diễn tín hiệu tiếng nói trong miền tần số, đƣờng bao phổ tần số có những đỉnh cực đại gọi là các tần số formant. Tại các tần số này tín hiệu dao động dây thanh đƣợc tăng cƣờng.
Các tần số formant đƣợc biết đến nhƣ những đặc trƣng quan trọng trong việc xác định nội dung về khía cạnh âm học của các âm. Và do đó tần số formant thƣờng đƣợc sử dụng vào nhận dạng tiếng nói.
Việc xác định tần số formant thƣờng đƣợc dựa vào phân tích phổ của tín hiệu tiếng nói. Đỉnh cộng hƣởng đầu tiên, ứng với đỉnh cộng hƣởng có tần số thấp nhất đƣợc ký hiệu là F1, tiếp đến là tần số formant F2, F3, … Trong các phát âm của nguyên âm, ngƣời ta thấy rằng ln có bốn hoặc nhiều hơn bốn tần số formant phân biệt. Nhiều nghiên cứu chỉ ra rằng, chỉ cần hai tần số formant đầu tiên là đủ để phân biệt các nguyên âm. Hai formant đầu tiên này cũng quyết định chất lƣợng của các nguyên âm theo khía cạnh tính đóng/mở và vị trí phát âm trƣớc/sau trong vịng miệng. Tuy nhiên, những phân biệt này chỉ mang tính tƣơng đối.