CHƯƠNG 1 CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI
1.7. Phân tích tiếng nói
1.7.1. Mô hình phân tích tiếng nói
Tín hiệu tiếng nói đƣợc tiền xử lý bằng cách cho qua một bộ lọc thông thấp với tần số cắt khoảng 8kHz. Tín hiệu thu đƣợc sau đó đƣợc thực hiện quá trình biến đổi sang dạng tín hiệu số nhờ bộ biến đổi ADC. Thông thường, tần số lấy mẫu bằng 16kHz với tốc độ bít lƣợng từ hóa là 16bit. Tín hiệu tiếng nói dạng số đƣợc phân khung với chiều dài khung thường khoảng 30ms và khoảng lệch các khung thường bằng 10ms. Khung phân tích tín hiệu sau đó đƣợc chỉnh biên bằng cách lấy cửa sổ với các hàm cửa sổ phổ biến nhƣ Hamming, Hanning.... Tín hiệu thu đƣợc sau khi lấy cửa sổ được đưa vào phân tích với các phương pháp phân tích phổ (chẳng hạn như STFT, LPC,...). Hoặc sau khi phân tích phổ cơ bản, tiếp tục đƣợc đƣa đến các khối để trích chọn các đặc trƣng.
1.7.2. Phân tích tiếng nói ngắn hạn
Trong lý thuyết phân tích, chúng ta thường không để ý đến một điểm quan trọng là các phân tích phải đƣợc tiến hành trong một khoảng thời gian giới hạn. Chẳng hạn, chúng ta biết rằng biến đổi Fourier [11] theo thời gian liên tục là một công cụ vô cùng hữu ích cho việc phân tích tín hiệu. Tuy nhiên, nó yêu cầu phải biết đƣợc tín hiệu trong mọi khoảng thời gian. Hơn nữa, các tính chất hay đặc trƣng của tín hiệu mà chúng ta cần tìm hiểu phải là các đại lƣợng không đổi theo thời gian. Điều này trong thực tế phân tích tín hiệu khó mà đạt đƣợc vì việc phân tích tín hiệu đáp ứng các ứng dụng thực tế có thời gian hữu hạn. Hầu hết các tín hiệu, đặc biệt là tín hiệu tiếng nói, không phải là tín hiệu không đổi theo thời gian.
Hình 1.2: Mô hình tổng quát của việc xử lý tín hiệu tiếng nói [11]
Về mặt nguyên lý, chúng ta có thể áp dụng các kỹ thuật phân tích đã biết vào phân tích tín hiệu trong ngắn hạn. Tuy nhiên vì tín hiệu tiếng nói là một quá trình mang thông tin động nên chúng ta không thể chỉ đơn thuần xem xét phân tích ngắn hạn trong chỉ một khung thời gian đơn lẻ. Tín hiệu tiếng nói nhƣ đã đề cập là tín hiệu thay đổi theo thời gian. Nó có các đặc trưng cơ bản như nguồn kích thích (excitation), cường độ (pitch), biên độ (amplitude), ... Các tham số thay đổi theo thời gian của tín hiệu tiếng nói có thể kể đến là tần số cơ bản (fundamental frequency - pitch), loại âm (âm hữu thanh - voiced, vô thanh - unvoiced, tắc - fricative hay khoảng lặng - silence), các tần số cộng hưởng chính (formant), hàm diện tích của tuyến âm (vocal tract area), ... Việc thực hiện phân tích ngắn hạn tức là xem xét tín hiệu trong một khoảng nhỏ thời gian xung quanh thời điểm đang xét n nào đó. Các khoảng này thường khoảng từ 10-30ms. Điều này cho phép chúng ta giả thiết rằng trong khoảng thời gian đó các tính chất của dạng sóng tín hiệu tiếng nói là tương đối ổn định. Khoảng nhỏ tín hiệu dùng để phân tích thường được gọi là một khung (frame), hay một đoạn (segment). Một khung tín hiệu đƣợc xác định là tích của một hàm cửa sổ dịch w(m) và dãy tín hiệu s(n):
(1.1) Một khung tín hiệu có thể đƣợc hiểu nhƣ một đoạn tín hiệu đƣợc cắt gọt bởi một hàm cửa sổ để tạo thành một dãy mới mà các giá trị của nó bằng không bên ngoài khoảng n [mN+1,m]. Từ công thức (1.1) chúng ta thấy rằng khung tín hiệu này phụ thuộc vào khoảng thời gian kết thúc m. Trong khung tín hiệu nhỏ vừa đƣợc định nghĩa, dễ dàng thấy rằng các phép xử lý ngắn hạn cũng có ý nghĩa tương đương các phép xử lý dài hạn. Nhƣ đã đề cập, việc phân tích tín hiệu tiếng nói không thể đơn giản chỉ bằng phân tích một khung tín hiệu đơn lẻ mà phải bằng các phân tích của các khung tín hiệu liên tiếp. Thực tế, để tránh mất thông tin, các khung tín hiệu thường được lấy bao trùm nhau. Nói một cách khác, hai khung cạnh nhau có chung ít nhất M>0 mẫu.
Hình 1.2 minh họa việc phân chia khung với hàm cửa sổ.
Hình 1.3: Phân tích tín hiệu trên các khung chồng lên nhau [11].
Một phép phân tích ngắn hạn tổng quát có thể biểu diễn là:
(1.2) Trong đó, Xn biểu diễn tham số phân tích (hoặc véc-tơ các tham số phân tích) tại thời điểm phân tích n. Toán tử T{} định nghĩa một hàm phân tích ngắn hạn. Tổng (1.2) đƣợc tính với giới hạn vô cùng đƣợc hiểu là phép lấy tổng đƣợc thực hiện với tất cả các thành phần khác không của khung tín hiệu là kết quả của phép lấy cửa sổ. Nói cách khác, tổng đƣợc thực hiện với mọi giá trị của m trong tập xác định (support) của hàm cửa sổ. Một số hàm cửa sổ phổ biến thường hay được sử dụng là: hàm cửa sổ chữ
nhật (rectangular window), hàm cửa sổ Hanning và hàm cửa sổ Hamming [9].