Tiền xử lý là tác động lên tín hiệu trước khi đưa vào xử lý, trích đặc trưng. Vì tín hiệu nhận vào ở nhiều điều kiện khác nhau như môi trường (áp xuất, khoảng cách từ miệng tới loa …), thiết bị (các loại micro khác nhau, khoảng cách truyền), con người (tình trạng tâm sinh lý của con người tại thời điểm thu âm). Cho nên các tín hiệu thu vào ngoài phần dữ liệu chính còn có các thông tin trên. Vì vậy tiền xử lý là một hình thức làm sạch các thông tin không cần thiết để ta có được dữ liệu tương đối chính xác.
T là hàm tiền xử lý.
f(n) là tín hiệu thu được sau khi xử lý. Ta có:
1.1 Phân biệt âm nền và tiếng nói
Mục đích của công đoạn này là phân biệt các khoảng âm nền và các đoạn mang thông tin về tiếng nói. Nhiều hệ thống đã tiết kiệm được khá nhiều thời gian do giảm
được khối lượng tính toán và nâng cao được khả năng nhận dạng do xác định tốt các biên tiếng nói.
Việc xác định biên này là một công việc dễ dàng nếu tiếng nói được phát trong môi trường không có nhiễu. Tuy nhiên, môi trường truyền âm thường có nhiều loại nhiễu động khác nhau. Thậm chí ngay khi phát âm, bộ máy phát âm của con người cũng sinh ra các tiếng động không phải là tiếng nói, ví dụ như: tiếng bật lưỡi, tiếng thở nặng
Có nhiều loại nhiễu được phân biệt với nhau nhờ tính chất của nó. Ví dụ các loại nhiễu tần số thấp, các loại nhiễu tần số cao, các loại nhiễu có âm lượng lớn, các nguồn nhiễu có tính chất tiếng nói,…. Cho đến nay, vẫn chưa có một phương pháp nào thực sư hiệu quả cho tất cả các loại nhiễu
Trong các hệ thống nhận dạng dựa vào đối sánh mẫu, việc xác định biên tiếng nói tác động trực tiếp đến kết quả nhận dạng. Trong các hệ dựa theo cách tiếp cận thống kê, thì việc xác định đúng biên tiếng nói sẽ giảm đáng kể khối lượng tính toán trong quá trình nhận dạng.
1.2 Xác định vùng chứa dữ liệu tiếng nói
Bước 1: dò từ trái qua phải của mảng dữ liệu, nếu gặp đoạn tín hiệu có năng lượng vượt ngưỡng thì đánh dấu là bắt đầu một tiếng. (Ngưỡng được xác định dựa trên độ nhiễu nền).
Bước 2: tiếp tục dò theo mảng dữ liệu, nếu gặp đoạn dự liệu có năng lượng vượt ngưỡng thìđánh dấu là kết thúc một tiếng.
Bước 3: kiểm tra đoạn dữ liệu vừa lấy được có đủ dài hay không để tránh các tiếng ồn ngẫu nhiên.
Hình 5.2: kết quả xác định vùng dữ liệu tiếng nói dựa vào năng lượng 1.3 Làm nổi tín hiệu
Tín hiệu tiếng nói số, s(n), được cho qua một bộ lọc bậc thấp (bậc một). Bộ lọc này có thể xem như một bộ lọc thông cao loại bỏ hay làm giảm tác động của các thành phần tần số thấp.
kết quả được định nghĩa như sau:
Hệ số a~thường được chọn lớn hơn 0.9,ở hệ thống này chúng tôi chọn a~=0.97
1.4 Chia khung tín hiệu
Sau khi được làm nổi tín hiệu sẽ được phân thành các khung tín hiệu, các khung này có kích thước N mẫu khoảng giao giữa hai khung liên tiếp khoảng N/2.
Hình 5.3: Khung tín hiệu 1.5 Cửa sổ
Mỗi khung tín hiệu sau khi được xác định được nhân với hàm cửa sổđể giảm bớt hiệu ứng biên và tách ra phân đoạn tín hiệu có tập trung năng lượng phổ. Các hàm cửa sổ đã được đề cập ở phần trên. ở đây hàm cửa sổ được sử dụng là cửa sổ
Hamming.
Hình 5.4: Hàm cửa sổ