Tín hiệu tiếng nói đƣợc tạo ra từ một hệ thống tuyến âm thay đổi theo thời gian cùng với tín hiệu kích thích cũng thay đổi theo thời gian. Trong khi đó, hầu hêt các công cụ phân tích tín hiệu đã học khi nghiên cứu về hệ thống và xử lý tín hiệu đều giả thiết rằng
CHƢƠNG 2. PHÂN TÍCH TÍN HIỆU TIẾNG NÓI
39 chúng không đối theo thời gian, tức là giả thiết chúng là các thể hiện của quá trình dừng. Điều này có nghĩa là những công cụ đã học không thể đƣa váo áp dụng một cách trực tiếp cho xử lý phân tích tín hiệu tiếng nói. Trong trƣờng hợp vẫn áp dụng một cách vô thức thì kết quả tính toán đƣợc cũng không có hoặc có rất ít ý nghĩa cho việc phân tích tín hiệu.
Hình 2.1 Sơ đồ khối quá trình phân tích tín hiệu tiếng nói
Khi nói đến các phân tích tín hiệu tiếng nói, ngƣời ta thƣờng mặc định các phân tích này đƣợc tiến hành trong một phân đoạn tín hiệu tƣơng ứng với thời gian rất nhỏ, cỡ khoảng 10-30ms. Và do đó, các phân tích này đƣợc gọi là phân tích ngắn hạn. Sởdĩ nhƣ vậy là vì bản chất của tín hiệu tiếng nói, nhƣ đã đề cập trong chƣơng trƣớc, nó là tín hiệu bán tĩnh: các tham số chỉ có thểcoi là không thay đổi nếu thời gian quan sát đủ ngắn.
Việc thực hiện phân tích ngắn hạn có thể đƣợc thực hiện trong miền thời gian hoặc miền tần số. Việc đƣợc thực hiện phân tích trong miền nào phụ thuộc vào những thông
CHƢƠNG 2. PHÂN TÍCH TÍN HIỆU TIẾNG NÓI
tin/đặc trƣng của tín hiệu tiếng nói mà ta mong muôn trích xuất. Chẳng hạn, các tham số nhƣ năng lƣợng ngắn hạn, tốc độ trở về không ngắn hạn, giá trị hàm tựtƣơng quan ngắn hạn đƣợc tính toán và xác định trong miền thời gian. Trong khi đó, phổ ngắn hạn đƣợc tính toán xác định bằng phân tích ngắn hạn trong miền tần số.
Một phép phân tích ngắn hạn tổng quát có thể biểu diễn nhƣ sau: m n(m)} s { T ) n ( X
trong đó, X(n) biểu diễn tham số phân tích (hoặc véc-tơ các tham số phân tích) tại thời điểm phân tích n. Toán tửT{} định nghĩa một hàm phân tích ngắn hạn. Tổng trên đƣợc tính với giới hạn vô cùng đƣợc hiểu là phép lấy tổng của tất cả các thành phần khác không của khung tín hiệu thu đƣợc sau phép lấy cửa sổ. Nói cách khác, tổng đƣợc thực hiện với mọi giá trị của m trong vùng xác định (support) của hàm cửa sổ.