Phân tích tín hiệu

Một phần của tài liệu Áp dụng phương pháp PSOLA trong tổng hợp tiếng nói tiếng Việt (Trang 65)

6. CHƢƠNG 6: ÁP DỤNG P-SOLA TRONG TỔNG HỢP TIẾNG VIỆT

6.1.1Phân tích tín hiệu

6.1.1.1 Tín hiệu phân tích thời gian ngắn

Từ tín hiệu gốc dạng miền thời gian là sóng tiếng nói x(n), ta phân tích thành các chuỗi của các tín hiệu phân tích thời gian ngắn x(s,n) (với s là chỉ số tín hiệu và n là số mẫu trong tín hiệu đó) bằng cách nhân tín hiệu sóng x(n) với chuỗi cửa sổ phân tích tƣơng ứng hs(n) theo thời gian dịch chuyển nhƣ sau:

x(s,n) = hs(n – ta(s)) x(n) (6.1)

Với:

hs(n) là cửa sổ phân tích tại thời điểm gốc n = 0

ta(s) là thời điểm phân tích thứ s. Thời điểm này còn đƣợc gọi là điểm cao độ tần số cơ bản phân tích (epoch). Nó là các điểm đánh dấu pitch ở phần hữu thanh và với các khoảng vô thanh nó sẽ cách nhau một khoảng đều nhau, chúng đồng bộ với

chu kỳ cao độ tần số cơ bản ở phần âm hữu thanh của tiếng nói và có tần số không đổi ở phần âm vô thanh. Tín hiệu thu đƣợc có đặc trƣng về phổ giống nhƣ tín hiệu gốc.

Hình 6.2. Thay đổi cao độ tần số cơ bản bằng phƣơng pháp PSOLA. Ánh xạ giữa 5 epoch phân tích ta(s) và 3 epoch tổng hợp ts(u). Trƣờng độ ngắn đi 40% và chu kỳ pitch tăng 60%.

hs đƣợc xác định bằng 1/2(1 - cos(2πn/N) với –N ≤ n ≤ N. Ngƣời ta gọi cửa sổ này là cửa sổ Hanning (xem Chƣơng 2). Chiều dài cửa sổ phân tích tỷ lệ với chu kỳ cao độ tần số căn bản tại chỗ P(s) – giá trị pitch tại thời điểm s. Độ dài cửa sổ này thƣờng nằm trong khoảng 1 đến 2 lần chu kỳ pitch tƣơng ứng với hệ số chồng cửa sổ từ 50% ÷ 70%.

Hệ số tỷ lệ µ xác định độ dài cửa sổ so với chu kỳ pitch. Đối với PSOLA miền thời gian, giá trị này bằng 2.

6.1.1.2 Tín hiệu tổng hợp thời gian ngắn

Chuỗi tín hiệu phân tích thời gian ngắn trên đƣợc tiếp tục tổng hợp thành các âm ngắn tổng hợp xq(n). Các tín hiệu thu đƣợc đồng bộ với các điểm đánh dấu pitch mới ts(u) gọi là điểm cao độ cơ bản tần số tổng hợp. Các điểm cao độ tần số cơ bản tổng hợp ts(u) này đƣợc xác định từ điểm cao độ tần số cơ bản phân tích ta(s) theo tỷ lệ thay đổi cao độ tần số cơ bản và độ dài. Quá trình biến đổi thành các âm ngắn tổng hợp bao gồm 2 quá trình là thay đổi số lƣợng các âm ngắn và thay đổi vị trí các âm ngắn. Số lƣợng âm ngắn tổng hợp phụ thuộc vào các hệ số thay đổi pitch và thay đổi trƣờng độ âm. Khoảng cách giữa các ts(u) tổng hợp bằng với chu kỳ pitch cần tổng hợp. Nhƣ vậy chúng ta cần một hàm biến đổi tuyến tính để tính đƣợc các điểm đánh dấu pitch. Các điểm này đƣợc tính bởi một hệ số α nào đó đƣợc gọi là hệ số nội suy tuyến tính. Cũng có thể hình dung cơ chế này giống nhƣ việc thêm vào hay bớt đi các tín hiệu thời gian ngắn, tƣơng ứng với hệ số α > 1 hay α < 1 .

Tín hiệu tổng hợp thời gian ngắn y(u,n) đƣợc biểu diễn:

y(u,n) = αux(s,n) + (1-αu)(x(s+1,n) (6.3) với 0 ≤ αu ≥ 1 là hệ số nội suy tuyến tính.

6.1.1.3 Tổng hợp lại tín hiệu

Sau khi thu đƣợc các âm ngắn tổng hợp yq(n), để tổng hợp lại tín hiệu mong muốn x(n) ta sử dụng phƣơng pháp cộng chồng (overlap and add) bằng cách kết hợp các tín hiệu tổng hợp thời gian ngắn đồng bộ chuỗi các điểm cao độ tần số cơ bản tổng hợp ts(u). Thủ tục này tƣơng đối đơn giản nhƣng cho kết quả chất lƣợng âm tổng hợp rất khả quan:

Trục thời gian tổng hợp Trục thời gian phân tích

Hình 6.3b. Giảm tốc độ âm 2 lần ts

ta

Trục thời gian tổng hợp Trục thời gian phân tích

ts

ta

    q q q q q q n t h n y n y ) ( ) ( ) (  (6.4)

Với hq là cửa sổ tổng hợp. Hệ số αq đƣợc sử dụng để cân bằng sự thay đổi năng lƣợng khi thay đổi cao độ tần số cơ bản. Trong băng tần hẹp, sự thay đổi về năng lƣợng là không đáng kể đặc biệt khi chọn độ rộng cửa bằng 2 lần chu kỳ cao độ tần số cơ bản. Tốc độ pitch của tín hiệu tổng hợp không thay đổi nhiều so với tín hiệu gốc thì có thể coi αq không thay đổi. Trong trƣờng hợp này, nếu giả thiết αq = 1 còn tổng các cửa sổ Hanning bằng 1 tức: ∑hq(tq-n) = 1; αq = 1 (6.5) Thì: y(n) =q q n y ( ) (6.6)

Một phần của tài liệu Áp dụng phương pháp PSOLA trong tổng hợp tiếng nói tiếng Việt (Trang 65)