Trích chu kỳ Pitch dùng CWT

Một phần của tài liệu Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn (Trang 89)

Khi phân tích tiếng nói bằng phương trình (4.34) ta có kết quả như sau

Công thức 4.36

Với Xi(t) và i(t) lần lượt là biên độ và pha tương ứng của thành phần tần số tương ứng wi của tín hiệu phân tích. Thành phần tần số nhỏ nhất trong tín hiệu tiếng nói w1 là tần số cơ bản hay tần số pitch, tại scale a1 tương ứng với tần số này khoảng băng thông của hàm wavelet rất nhỏ vì khả năng định vị của hàm wavelet ở tần số thấp là rất tốt. Khoảng băng thông này đủ hẹp để chỉ chứa một tần số cơ bản w1, do đó chỉ thành phần tần số này ảnh hưởng tới kết quả phân tích CWT. Vì thế chỉ có thành phần liên quan đến tần số w1 được giữ lại trong tổng của phương trình (4.36). Nó có thể viết rõ lại như sau

Công thức 4.37

Trị tuyệt đối và pha

Công thức 4.38

Vì vậy một scale cố định a1 tương ứng với tần số cơ bản của tín hiệu tiếng nói, pha của biến đổi với b thay đổi trong khoảng thời gian tồn tại của tín hiệu là pha của tần số pitch

Bản thân tần số cơ bản w1 là một tín hiệu tuần hoàn với chu kỳ , do đó góc pha cũng tuần hoàn với chu kỳ T và có giá trị thay đổi trong khoảng [-

  ]. Vì vậy pha của cũng là một tín hiệu tuần hoàn (1/tần số pitch). Ta có thể dùng những điểm mà ở đó góc pha thay đổi đột ngột từ  đến - để đánh dấu những điểm tuần hoàn của tần số pitch hay chu kỳ pitch của tín hiệu phân tích.

Hình 4.26. Giải thuật trích chu kỳ pitch dùng CWT

Từ các trình bày trên một cách hiệu quả để tính chu kỳ pitch là dựa vào pha của CWT. Bước đầu tiên là xác định giá trị scale a1 từ tần số pitch tiếng nói. Sau đó biến đổi wavelet tín hiệu tiếng nói chỉ lấy tại một giá trị scale a1(một đường trong kết quả CWT), pha của kết quả này sẽ tuần hoàn với chu kỳ là chu kỳ pitch. Trong thực tế những điểm gãy đột ngột của pha luôn tương ứng với những chỗ trũng chính của dạng sóng tiếng nói. Điểm này gọi là điểm bắt đầu mỗi chu kỳ tiếng nói, chúng ta cần tinh chỉnh để định vị chính xác điểm này bằng các đỉnh âm - điểm bắt đầu của tiếng nói. Kết quả thu được là tín hiệu tiếng nói với các điểm đánh dấu bắt đầu mỗi chu kỳ. Lúc này ta có thể tách bất kỳ chu kỳ pitch nào theo nhu cầu nhận dạng dựa trên điểm bắt đầu và kết thúc (tức điểm bắt đầu của chu kỳ tiếp theo) của chu kỳ đó.

Chương 5. KHẢO SÁT VỀ NGỮ ÂM TIẾNG VIỆT ỨNG DỤNG XÂY DỰNG HỆ THỐNG NHẬN DẠNG THANH ĐIỆU

TIẾNG VIỆT

Một phần của tài liệu Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn (Trang 89)

Tải bản đầy đủ (PDF)

(120 trang)