Dù có rất nhiều kỹ thuật pitch tracking, nhưng hầu hết tất cả các loại đều đi theo quy trình chuẩn sau:
• Chia nhỏ đoạn âm thanh ra làm nhiều cửa sổ con (mỗi cửa sổ con khoảng 20ms). Các cửa sổ có thể chồng lên nhau.
• Tính toán giá trị cao độ cho từng cửa sổ
• Loại bỏ những đoạn không phải âm thanh mong muốn hoặc khoảng lặng. Việc này có thể dùng ngưỡng độ lớn âm thanh hay ngưỡng cao độ.
Hình 12: Nguyên tắc cơ bản của phương pháp pitch tracking
Việc chọn kích thước cửa sổ và khoảng cách các cửa sổ chồng lên nhau được thực hiện theo những nguyên tắc sau:
• Kích thước cửa sổ phải chứa đủ ít nhất hai chu kỳ sóng âm. Chẳng hạn, giới hạn cao độ của giọng nói người khoảng từ 50-1000Hz và tần số lấy mẫu của âm thanh là 16000 mẫu/ giây, khoảng kích thước cửa sổ có thểđược tính toán như sau:
Nếu f=50 Hz, chu kỳ cơ bản = 16000/50=320 mẫu. Vậy kích thước cửa sổ sẽ là 640 mẫu.
Nếu f=1000Hz, chu kỳ cơ bản =16000/1000=16 mẫu. Kích thước cửa sổ sẽ là 32 mẫu.
• Kích thước cửa số không nen quá lớn vì sẽ ảnh hưởng đến đặc trưng của âm thanh trong cửa sổ. Ngoài ra, kích thước cửa sổ còn ảnh hưởng đáng kể đến thời gian tính toán.
• Việc chọn lựa kích thước các cửa sổ chồng lên nhau hay không tùy thuộc vào khả năng của máy tính và yêu cầu về thời gian đáp ứng của hệ thống. Nếu kích thước các cửa sổ chồng lên nhau lớn thì số lượng cửa sổ nhiều và đương nhiên, việc tính toán sẽ chậm và ngược lại.
Có rất nhiều phương pháp để tính giá trị cao độ cho một cửa sổ, trong đó có thể kể đến các phương pháp sau:
o ACF : Autocorrelation function
o SMDF: Average manitude difference function
o SIFT: Simple inverser filter tracking • Phương pháp trên miền tần số
o Harmonic product spectrum
o Cepstrum