4.2. Phát biểu bài toán nhận dạng
4.2.2. Đầu vào của quá trình nhận dạng
Đầu vào của q trình nhận dạng là tín hiệu âm thanh. Một tín hiệu (signal) theo là một dãy số hữu hạn (finite sequence) các số thực hoặc số nguyên. Mỗi số nguyên trong tín hiệu gọi là mẫu (sample). Hay tín hiệu có thể được coi là một hàm từ tập số tự nhiên vào tập số thực. Chúng ta sử dụng ký pháp dãy để biểu diễn tín hiệu
S = { s1, s2, .. sn }
Trong triển khai các ứng dụng tương tác trực tiếp, tín hiệu đưa vào là liên tục và không xác định độ dài trước. Mặc dù vậy chúng ta vẫn có phương pháp chia nhỏ các tín hiệu thu được thành các đoạn hữu hạn.
Trong khi thao tác, tín hiệu thường được chia nhỏ thành các khung (frame) hay cửa sổ (window) có độ dài bằng nhau để xử lý cho đơn giản. Mọi thao tác trích chọn đặc trưng nói chung sẽ chỉ xảy ra trong một khung. Do đó ta thường ký hiệu là tập các khung
S = { s1, s2, .., sn } = { f1, f2, .., fk }
Với k là một số nguyên nhỏ hơn hay bằng n vì một khung thường bao gồm nhiều mẫu (sample) và các khung có độ dài bằng nhau nên khung cuối cùng thường được bỏ đi nếu số tín hiệu cịn lại khơng đủ một khung. Nếu gọi kích thước của mỗi khung là F thì ta có mối liên hệ giữa k và n.
k = n div F
Trong quá trình tham số hoá (parameterization) mỗi một khung sẽ được chuyển tương ứng thành một véc tơ (vector) hay một quan sát (observation) nên chúng ta cũng có thể ký hiệu
S = { s1, s2, .., sn } = { f1, f2, .., fk } = { v1, v2, .., vk } = { o1, o2, .., ok }
Véc tơ và quan sát chỉ là các tên gọi khác nhau đối với bộ giá trị đặc trưng cho khung. Nghĩa là mỗi khung sẽ có một bộ giá trị tương ứng có được bằng phép trích chọn đặc trưng nào đó. Quan sát là khái niệm thường được dùng với các mơ hình thống kê như HMM.
Chúng ta sẽ thao tác trên tín hiệu như là đầu vào của quá trình nhận dạng. Cụ thể hơn chúng ta coi tập tin đầu vào của quá trình nhận dạng là danh sách hữu hạn các véc tơ. Tất nhiên chúng ta sẽ có cơ chế để cắt các đoạn của q trình nghe liên tục khơng biết điểm dừng, thành các tập tin hữu hạn.