Mô hình phân tích bởi tổng hợp tín hiệu hình sin

Một phần của tài liệu Phương pháp mã hoá tiếng nói theo mô hình kíh thích đa băng (Trang 38 - 43)

2.3 Mã hoá theo mô hình phân tích bởi tổng hợp tín hiệu hình sin

2.3.1 Mô hình phân tích bởi tổng hợp tín hiệu hình sin

Mô hình tiếng nói dùng các biến đổi dạng sin đơn nhất coi dạng sóng của tín hiệu tiếng nói là tập hợp của các hàm sin băng hẹp. Có một số mô hình độc lập với pitch đã đ−ợc xây dựng, trong đó tín hiệu tiếng nói đ−ợc mã hoá ở tốc độ 4,8 kb/s.

Một cách tiếp cận khác là sử dụng mô hình sin điều hoà để biểu diễn những thành phần tiếng nói băng hẹp và một tập hợp các hàm Walsh để tạo những thành phần băng rộng, trong đó biên độ và pha của các thành phần sin điều hoà và hàm Walsh

đ−ợc l−ợng tử vectơ với tốc độ 4 kb/s.

Một mô hình đ−ợc nghiên cứu chi tiết và đạt đ−ợc kết quả với nhiều tốc độ dữ

liệu khác nhau đ−ợc McAulay và Quatieri xây dựng thành công. Tín hiệu tiếng nói theo mô hình sin này ^sSR(n) đ−ợc coi là tổng của L thành phần nh− sau:

(2.53)

Trong đó L là số thành phần sin là thay đổi theo thời gian. Với mục đích làm giảm tốc độ điều khiển, mô hình coi âm hữu thanh có tính chu kỳ cao và có thể đ−ợc biểu diễn bởi một số thành phần sin nhất định. Bên cạnh đó cấu trúc thống kê phổ thời gian ngắn của âm vô thanh đ−ợc thực hiện bằng pha ngẫu nhiên. Đây là mô hình mã

hoá hệ thống nguồn khi ta thay bộ kích thích với L thành phần có biên độ, tần số và pha khác nhau.

Để đảm bảo giả thiết cơ bản tiếng nói là tín hiệu biến đổi chậm theo thời gian so với đáp ứng xung của cơ quan phát âm và có thể khôi phục lại tín hiệu, cửa sổ Hamming với độ rộng gấp 2,5 lần pitch trung bình đã đ ợc dùng. Vì số thành phần − sin thay đổi theo pitch, ý tưởng về các thành phần sin “bắt đầu” và “kết thúc” được thiết lập theo tham số động, thực tế mô hình đã dùng 80 thành phần sin để tổng hợp

tín hiệu với cửa sổ Hamming thích nghi, các giá trị của biến đổi FFT 1024 điểm

đ−ợc ập nhật sau mỗi 10 ms. Mô hình làm việc tốt với nhiều loại tín hiệu và ngay cả

víi nhiÔu nÒn lín.

Các tần số sin đối với các ứng dụng mã hoá tốc độ thấp đ−ợc coi là bội số nguyên lần của tần số cơ bản (pitch), nghĩa là:

(2.54)

trong đó: Ω0 là tần số cơ bản, L(Ω0) là số hài cần quan tâm trong băng thông (th−ờng là d−ới 4 kHz) là biểu diễn theo dạng hài của tín hiệu. Dạng biểu diễn này đ−a ra một tập các tần số “tối −u” chỉ riêng cho những đoạn âm hoàn toàn hữu thanh. Điều này dựa trên một giả thiết nền tảng đối với tiếng nói hữu thanh là chu kỳ pitch là không đổi trong suốt đoạn dữ liệu đem phân tích. Còn đối với âm vô

thanh, một tập các tần số cách đều nhau đ−ợc dùng để tái tạo đặc tính thống kê (mật

độ phổ trong thời gian ngắn) của những đoạn dữ liệu vô thanh. Giả thiết là khoảng cách giữa các tần số này đủ hẹp để có thể bám theo những thay đổi trong mật độ phổ của tín hiệu. Thực tế, khoảng cách này đ−ợc dùng với −u điểm sau: các tham số của tín hiệu sin có thể dễ dàng −ớc l−ợng bằng cách lấy mẫu DFT có độ phân giải cao tại những đỉnh của tiếng nói hữu thanh và những tần số sin này có thể giải đ−ợc giải mã

một cách hiệu quả.

) (

^ n

sHR

Hình 2.16 Phân tích-Tổng hợp tiếng nói theo mô hình sin

Hình 2.16 mô tả hệ thống cơ bản phân tích tổng hợp tín hiệu sin, tốc độ khung dữ

liệu cho bộ mã hoá dạng sin 8 kb/s là 50 Hz; trong đó 3,6 kHz đ−ợc dùng để mã hoá

biên độ và 4.4 kb/s đ ợc dùng để mã hoá pha và tần số cơ bản. Với tín hiệu hữu − thanh, các tần số tạo ra là bội của tần số cơ bản pitch; với tín hiệu vô thanh, khoảng cách giữa các tần số đ−ợc phát ra nhỏ hơn 100 Hz. Thông tin về tần số cơ bản pitch,

tính hữu thanh, vô thanh đ−ợc xử lý bằng bộ −ớc l−ợng tần số pitch, còn biên độ

đ−ợc mã hoá bằng kỹ thuật Đenta dọc theo trục tần số. Nguyên tắc phân bố bit là thích nghi pitch, nghĩa là với ng−ời nói có tần số pitch cao sẽ có nhiều bit hơn đ−ợc dùng để mã hoá biên độ. Pha đ−ợc mã hoá với 4-5 bit và dùng kỹ thuật phát lại pha với người nói tần số pitch thấp. Với nhiều nỗ lực để thực hiện mô hình mã hoá tiếng nói này, các tham số đ−ợc phát hiện rằng khá nhạy với nhiễu l−ợng tử và lỗi kênh,

đặc biệt là ở các tốc độ thấp.

Mô hình phát triển sau đó đã biểu diễn tham số một cách chính xác hơn đã

đạt đ−ợc kết quả khả quan ngay cả ở tốc độ bit thấp, trong đó dùng bộ mã hoá đơn giản biến đổi sin tốc độ thấp (STC) với mô hình hài cho tần số, đường bao biên độ thích nghi pitch cho biên độ và mô hình phụ thuộc tiếng nói cho pha của tín hiệu sin. Đường bao biên độ A(ω) được dùng t ơng tự nh trong bộ mã hoá tiếng nói ư ư ước lượng đường bao phổ (SEEVOC), được bạo bởi bộ nội suy tuyến tính giữa các đỉnh của biến đổi STFT tại các tần số (Ω1, Ω2,...) mà các đỉnh này đ−ợc xác định nh− sau:

Đỉnh đầu tiên tại tần số Ω1 đ−ợc khảo sát trong khoảng [ /2 ; 3 /2], trong đó là giá trị pitch trung bình, các đỉnh còn lại được khảo sát trong khoảng tương ứng [ + /2 ; +3 /2] cho đến hầu hết băng tần. Thuật toán xác định đỉnh SEEVOC với hai u điểm so với các ph− −ơng pháp khác là ít phụ thuộc vào pitch (vì

chung Ω

0

Ω− 0

Ω− 0

Ω−

−1

Ω−k 0

Ω− Ω−k−1 0

Ω−

o) và tránh đ ợc các đỉnh thấp A(− ω) còn đ−ợc biểu diễn nh− sau:

(2.55) trong đó Cem là chuỗi Cepstrum đ−ợc cho bởi:

(2.56)

Biểu diễn theo ph−ơng pháp Ceptrum đ−ợc sử dụng vì những lý do sau: khai thác

được đặc tính nghe của tai người, cung cấp thông tin về pha của các thành phần sin với giả thiết pha tối thiểu và các hệ số biến đổi Cepstrum có thể đ−ợc mã hoá một cách hiệu quả. Đặc tính chấp nhận của tai ng−ời đ−ợc dùng bằng cách ứng dụng hàm đặc biệt đối với đường bao biên độ, hàm mũ ở miền tần số cao.

Mô hình pha đ ợc dùng trong STC đ− −ợc giả thiết cho biểu diễn hệ thống nguồn của tiếng nói và các thành phần pha phụ thuộc vào sự kích thích, thanh hầu và cơ quan phát âm. Mô hình pha bao gồm pha của hệ thống (kết hợp thanh hầu và cơ

quan phát âm) và thành phần pha tuyến tính nhằm đảm bảo các tín hiệu sin kích thích là đồng pha với xung pitch. Pha của hệ thống có thể −ớc l−ợng với giả thiết pha tối thiểu theo dạng chuỗi Cepstrum:

(2.57) Chú ý rằng, biên độ và pha của hệ thống là nh− nhau đối với s(n) và -s(n) nên pha của hệ thống được viết dưới dạng Φs(Ω)+βπ trong đó β bằng 0 hoặc 1. So sánh pha đo đ−ợc với pha ớc l− −ợng từ mô hình pha cho thấy phần sai pha là gần 0 với âm hữu thanh (đến một tần số nào đó) và có giá trị ngẫu nhiên trong khoảng [−π;π ] với âm vô thanh. Dựa theo ý t−ởng trên, mô hình pha phụ thuộc tính hữu thanh, vô

thanh đ−ợc xây dựng cho STC:

(2.58) trong đó n0 là −ớc l−ợng của thời gian pitch eφ(Ωk)là phần pha d− phụ thuộc vào tính hữu thanh, vô thanh:

(2.59)

Với U [-π π, ] là pha ngẫu nhiên trong [-π, π]; Ωc(Pv)là tần số cắt phụ thuộc tiếng nói, Pv là xác suất hiện tiếng nói là âm hữu thanh, phụ thuộc vào việc −ớc l−ợng pitch.

Hình 2.17 mô tả sơ đồ khối bội mã hoá STC tốc độ thấp. Mô hình sin này “tối

−u” đối với âm hữu thanh, để thoả mãn đối với âm vô thanh và âm hỗn hợp hữu thanh-vô thanh các thành phần tần số đ−ợc quyết định theo quy tắc sau:

(2.60)

trong đó Ωu =2π.100T, Ωc(Pv) đ−ợc giới hạn không nhỏ hơn (2π.1500T) và k’ là giá

trị k lớn nhất mà k’Ω0 ≤Ωc(Pv); nếu Ω0 < Ωu thì Ωk = kΩ0 đối với tất cả các tần số.

Hình 2.17 Bộ mã hoá STC

Bộ mã hoá STC này mã hoá pitch xác suất âm hữu thanh/vô thanh và biểu diễn biến đổi của các hệ số Cepstrum. Vì chuỗi Cepstrum ít tương quan và có đặc tính dải động lớn, biểu diễn DCT của chuỗi đ−ợc dùng để mã hoá. Các hệ số của DCT có thể mã hoá theo kỹ thuật DPCM. Để cải thiện lỗi cụm của kênh truyền, có thể dùng ph−ơng pháp l−ợng tử hoá véctơ. Độ lợi của mã hoá tăng lên nếu dùng thêm bộ lọc sau nhằm làm giảm nhiễu l−ợng tử trong vùng không có formant.

Mã hoá STC đã đ−ợc thực thi trên DSP chip của Analog Devices với dấu phẩy tĩnh, thời gian thực có pha không Φs(Ω)=0. Gần đây hơn, STC chạy trên chip của TI có

độ phức tạp 13 MIPS đạt giá trị MOS là 3,52 (với 4,8 kb/s) và 2,9 (với 2,4 kb/s) và

đã đ−ợc tích hợp trong điện thoại có hình Video phone của hãng Comtech. Hiện tại, mô hình mã hoá biến đổi dạng sin STC vẫn là một hướng tiếp cận tốt để đạt được tốc

độ thấp trong mã hoá.

Một phần của tài liệu Phương pháp mã hoá tiếng nói theo mô hình kíh thích đa băng (Trang 38 - 43)

Tải bản đầy đủ (PDF)

(101 trang)