Sau khi việc thu tín hiệu với một card âm thanh của máy tính thì dải tín hiệu này được xử lý thông qua bước lọc bỏ bớt những tiếng ồn nhiễu và sự bóp méo tín hiệu của môi trường ngoài. Tín hiệu được giới hạn trong giải 80 đến 800 Hz hợp lý cho giai điệu hát đầu vào.
Các tiếng ồn xung quanh sẽ gây nhiễu giai điệu mà người dùng đưa vào như vậy sẽ khiến cho việc xử lý truy vấn tiêp theo trở nên khó khăn vì thế nên loại bỏ những tạp âm xung quanh đồng thời bỏ đi những nốt ngắn trong truy vấn mà người dùng đưa vào vì nó quá ngắn không đủ để làm đặc trưng nhận dạng cho truy vấn nó mang ít ý nghĩa thông, làm giảm chất lượng của truy vấn đầu vào.
Bốn bước làm giảm giá trị nhiễu trong chuỗi cao độ là làm mịn các giá trị trong chuỗi:
• Bước 1: Loại bỏ những khoảng lặng ởđầu (pitch = 0).
• Bước 2: Xác định những khoảng chuyển đổi cao độ. Một đoạn cao độ mới được hình thành khi hiệu của giá trị trung bình cao độ trong đoạn đó và giá trị cao độ tiếp theo lớn hơn ngưỡng T (0<T<1, đơn vị: bán cung). Sau đó, thay tất cả các giá trị trong đoạn cao độ đó bằng giá trị trung bình [2]. Nếu hai đoạn cao độ liền kề có giá trị chênh lệnh nhau 0.5, nối hai đoạn đó lại với nhau.
• Bước 3: Nếu một đoạn cao độ có thời gian nhỏ hơn 100 mili-giây, nối đoạn cao độđó với đoạn cao độ có giá trị gần nhất.
• Bước 4: Nếu một đoạn khoảng lặng (pitch = 0) có thời gian bé hơn 300 mili-giây, các giá trị đó sẽ được thay bằng giá trị trung bình của đoạn cao độ trước đó. [2] [3]
Hình 10: Ví dụ về một truy vấn người dùng đưa vào
Từ truy vấn trên ta dùng công cụ Praat để chuyển truy vấn này thành chuỗi tần số cơ bản minh họa như hình dưới đây:
Hình 11: Mô tả truy vấn trên dưới một dạng sóng