3.3. Phân đoạn tín hiệu
Trong khi thao tác, tín hiệu thường được chia nhỏ thành các khung (frame) hay cửa sổ (window) có độ dài bằng nhau để xử lý cho đơn giản. Mọi thao tác trích chọn đặc trưng nói chung sẽ chỉ xảy ra trong một khung. Do đó ta thường ký hiệu là tập các khung
S = { s1, s2, .., sn } = { f1, f2, .., fk }
Với k là một số nguyên nhỏ hơn hay bằng n vì một khung thường bao gồm nhiều mẫu (sample) và các khung có độ dài bằng nhau nên khung cuối cùng thường được bỏ đi nếu số tín hiệu cịn lại khơng đủ một khung. Nếu gọi kích thước của mỗi khung là F thì ta có mối liên hệ giữa k và n.
k = n div F
Q trình phân đoạn tín hiệu nói chung là khơng xảy ra, vì đơn giản chúng ta chỉ chia cắt tập tin âm thanh thành các đoạn âm thanh bằng nhau. Mặc dù vậy chúng ta cần biết về sự tồn tại của nó trong các triển khai để chúng ta bố trí các tập tin âm thanh là bội số của độ dài khung F. Ví dụ như các tập tin thu vào liên tục từ thiết bị thu nên có độ dài là bội nguyên của F để khỏi bị mất các tín hiệu chuyển tiếp giữa hai tập tin.
3.4. Tham số hố tín hiệu
Trong q trình tham số hoá (parameterization) mỗi một khung sẽ được chuyển tương ứng thành một véc tơ (vector) hay một quan sát (observation) nên chúng ta cũng có thể ký hiệu
S = { s1, s2, .., sn } = { f1, f2, .., fk } = { v1, v2, .., vk } = { o1, o2, .., ok }
Véc tơ và quan sát chỉ là các tên gọi khác nhau đối với bộ giá trị đặc trưng cho khung. Nghĩa là mỗi khung sẽ có một bộ giá trị tương ứng có được bằng phép trích chọn đặc trưng nào đó. Quan sát là khái niệm thường được dùng với các mơ hình thống kê như HMM (Hidden Markov Model).
Chúng ta sẽ thao tác trên tín hiệu như là đầu vào của quá trình nhận dạng. Cụ thể hơn chúng ta coi tập tin đầu vào của quá trình nhận dạng là danh sách hữu hạn các véc tơ. Tất nhiên chúng ta sẽ có cơ chế để cắt các đoạn của q trình nghe liên tục khơng biết điểm dừng, thành các tập tin hữu hạn.
3.4.1. Số lần vượt qua điểm không (zero crossing)
Tham số ZC (zero crossing) đặc trưng cho số lần vượt qua điểm 0 của tín hiệu. Chúng ta biết tín hiệu được coi là một dãy số hay một hàm số theo thời gian. Do đó đồ thị tương ứng với tín hiệu sẽ cắt trục hồnh tại các điểm.
Thơng thường các khoảng nhiễu có biên độ ngẫu nhiên và thường nằm về một phía của trục hồnh, do đó số lần vượt qua điểm khơng thường rất thấp, trong khi đoạn tín hiệu có tiếng nói hay có chu kỳ lại có số lần vượt qua điểm khơng rất cao. Do đó chúng ta có thể dùng đặc trưng ZC để phân biệt các khoảng có tín hiệu tiếng nói và các khoảng lặng.
Cho tín hiệu S = { s1, s2, .., sn }
Chúng ta cần tham số hoá ZC với số tín hiệu trong một khung là W Kết quả tham số hoá lưu trong tập tin Z = { z1, z2, .., zk }
Chúng ta sẽ sử dụng các công thức sau đây để tham số hoá k = (n div W) để tính độ dài tập tin Z
W ) ( ) ( 2 - W 0 j 1 * * ∑ = + + + − = j W i j W i i s sign s sign z để tính các phần tử trong Z
trong đó i∈[0, k) và (i*W+j)∈[0, n)