−Hình 1.3 Mô hình lọc nguồn tạo tiếng nói Nh− vậy, phổ tần số của tín hiệu tiếng nói đạt đ−ợc bằng cách nhân phổ nguồn với đặc tính tần số của bộ lọc.. Hệ số Q của đ−ờng cong đáp ứng tần
Giới thiệu
Tiếng nói là phương tiện giao tiếp thiết yếu của con người, với tín hiệu âm thanh được tạo ra từ dao động không khí qua cơ quan phát âm Âm thanh này không chỉ truyền tải thông tin mà còn mang đến nhiều yếu tố bổ sung như âm điệu và ngữ điệu, phản ánh cảm xúc, đặc trưng giọng nói và tình trạng sức khỏe của người nói Tùy thuộc vào từng lĩnh vực nghiên cứu, các đặc điểm khác nhau của tiếng nói được đánh giá và coi là đại diện cho tiếng nói trong giao tiếp.
Cơ chế tạo tiếng nói
Âm vô thanh
Khi phát âm các âm vô thanh, dây thanh không dao động Có hai loại âm vô thanh cơ bản: âm bật hơi và âm xát Âm xát, như âm ‘s’ và ‘j’, được tạo ra bằng cách tạo điểm thu hẹp tại cơ quan phát âm, khiến luồng khí đi qua gây ra kích thích nhiễu ngẫu nhiên Các điểm này thường xuất hiện gần phía trước miệng, do đó sự cộng hưởng của cơ quan phát âm ít ảnh hưởng đến âm xát Ngược lại, âm bật hơi có những đặc điểm riêng biệt trong cách phát âm.
Sự bất ổn định của luồng hơi xảy ra trong khí quản và hai dây thanh khi chúng giãn rộng Trong trường hợp này, sự cộng hưởng của cơ quan phát âm điều chế phổ của nhiễu ngẫu nhiên, và ảnh hưởng này có thể được nghe rõ khi nói thì thào.
Âm nổ
Âm nổ được tạo ra từ sự kích thích khác biệt so với các loại âm khác Trong quá trình này, cơ quan phát âm đóng lại tại một điểm nhất định, tạo ra áp suất không khí và giải phóng nó một cách đột ngột Sự thoát hơi nhanh chóng tạo ra kích thích ngắn ngủi của cơ quan phát âm Kích thích này có thể xảy ra đồng thời hoặc không với sự dao động của dây thanh, dẫn đến âm nổ hữu thanh như ‘d’ hoặc âm nổ vô thanh như ‘p’.
Mô hình phát âm lọc nguồn
Mô hình đơn giản của cơ quan phát âm để tạo âm ‘e’ được mô tả như một ống dài L, với một đầu là thanh quản và đầu còn lại mở Ống này cộng hưởng với các hài bậc lẻ f0, 3f0, 5f0, trong đó f0 = c/(4L) và c là vận tốc âm thanh trong không khí Với L cm và c khoảng 340 m/s, ta có tần số cộng hưởng là 500 Hz, 1000 Hz và 1500 Hz, được gọi là các formant Sự thay đổi hình dạng của cơ quan phát âm sẽ làm thay đổi tần số formant, dẫn đến việc tạo ra các âm khác nhau Khi phát âm liên tục, các tần số formant cũng sẽ thay đổi tương ứng.
Hình 1.2 Mô hình ống của cơ quan phát âm
Quá trình tạo tiếng nói có thể được xem xét qua mô hình lọc nguồn, trong đó tín hiệu từ nguồn âm thanh, bao gồm những xung chu kỳ hoặc nhiễu ngẫu nhiên, sẽ được lọc bởi một bộ lọc biến thiên theo thời gian Bộ lọc này có đặc tính cộng hưởng tương tự như cơ quan phát âm, như thể hiện trong Hình 1.3.
Hình 1.3 Mô hình lọc nguồn tạo tiếng nói
Phổ tần số của tín hiệu tiếng nói được tạo ra bằng cách nhân phổ nguồn với đặc tính tần số của bộ lọc, như thể hiện trong Hình 1.3 cho cả âm hữu thanh và vô thanh Độ lợi AV và AN được điều chỉnh để xác định cường độ và tính tương ứng của kích thích âm thanh.
Cơ quan phát âm có vô hạn formant, nhưng chỉ cần xem xét 3 hoặc 4 formant đầu tiên trong dải tần từ 100 Hz đến khoảng 3,5 kHz, vì biên độ của các formant cao hơn đã suy giảm với đặc tính suy giảm của nguồn âm hữu thanh khoảng -12 dB/octave Đối với nguồn âm vô thanh, số formant này cũng đủ, mặc dù để mô hình hóa phù hợp, cần mở rộng dải tần tới 7 hay 8 kHz Bộ lọc không chỉ mô hình hóa đặc tính truyền dẫn của cơ quan phát âm mà còn xem xét ảnh hưởng của sự phát âm từ miệng, được mô hình xấp xỉ bởi đặc tính lọc thông cao bậc 1, tăng với tỷ lệ 6 dB/octave trong dải tần 0 - 3 kHz.
Mô hình lọc nguồn đơn giản hóa quá trình phát âm nhưng không hoàn toàn chính xác với âm xát do không lọc được sự cộng hưởng của các âm hữu thanh và âm bật hơi Nó giả định rằng nguồn âm là tuyến tính và riêng biệt với bộ lọc, tuy nhiên thực tế có sự tương tác giữa dao động của dây thanh và áp suất trong cơ quan phát âm, ảnh hưởng đến đặc tính lọc sau mỗi chu kỳ kích thích Mặc dù các yếu tố thứ cấp thường bị bỏ qua, mô hình lọc nguồn vẫn đáp ứng đủ yêu cầu cho việc mô hình hóa.
Thính giác của ng − ời
Khi âm thanh đến tai, sóng âm được chuyển đổi thành chuỗi xung điện, sau đó được truyền lên não qua hệ thần kinh Tại não, những xung điện này được xử lý và giải mã để tạo ra trải nghiệm nghe Hình 1.4 minh họa phần ngoài của cơ quan thính giác.
Tai người được chia thành ba vùng: tai ngoài, tai giữa và tai trong Sóng âm truyền từ bên ngoài qua ống tai, làm cho màng nhĩ dao động với biên độ khoảng vài nanomet Phần tai trong có một mảnh xương nhỏ nối với màng nhĩ và cửa sổ ôvan, nơi có cấu trúc xoắn Dao động của cửa sổ ôvan tác động lên tổ chức Corti, nơi các tế bào thần kinh thính giác tạo ra xung điện gửi lên não Màng nhĩ có cấu trúc đặc biệt, với phần gần đỉnh nhỏ dần và ít linh động hơn, đóng vai trò quan trọng trong quá trình nghe Các điểm trên màng nhĩ có đáp ứng khác nhau với tần số âm thanh, và khi nghe tín hiệu sin, một số điểm sẽ dao động theo tần số vào Mỗi điểm hoạt động như một bộ lọc thông dải với tần số trung tâm và dải thông, và đáp ứng tần số được đo bằng hệ số chất lượng Q, cho thấy tính không đối xứng với sự suy giảm tần số cao hơn nhiều so với tần số thấp hơn.
Hệ số Q của đường cong đáp ứng tần số cho thấy rằng khả năng phân biệt tần số của thính giác là thấp, mặc dù có những thí nghiệm cho thấy con người có thể cảm nhận sự thay đổi nhỏ về tần số và nghe các tần số riêng biệt trong âm phức tạp Điều này gợi ý rằng có một quá trình khác làm hẹp đường cong chọn lọc tần số của màng nhĩ Thực nghiệm cho thấy khả năng nghe một tần số được cải thiện khi nó đi kèm với tần số lân cận, với mức độ cải thiện phụ thuộc vào sự gần gũi của các tần số Các tần số bên ngoài một dải tần nhất định hầu như không ảnh hưởng đến khả năng nghe, trong khi các thành phần tần số trong dải đó chỉ tác động đến cảm nhận của các tần số trong cùng dải Tại tần số 5 kHz, độ rộng này gần 1000Hz.
Hiện nay, cơ chế nghe vẫn chưa được hiểu rõ, nhưng thính giác có thể được xác định là một tập hợp các bộ lọc thông dải với đáp ứng chồng lấp lên nhau Băng thông hiệu dụng của các bộ lọc này được xác định từ các giá trị thực nghiệm, như thể hiện trong Hình 1.5 Điều này đóng vai trò quan trọng trong việc thiết kế các bộ lọc cho quá trình xử lý tín hiệu tiếng nói.
Các đặc tr − ng của tiếng nói
Dạng sóng theo thời gian
Dạng sóng theo thời gian của tín hiệu tiếng nói hữu thanh (nguyên âm) có tính chu kỳ rõ ràng với tần số cơ bản tương ứng với tần số pitch Những đỉnh sóng biểu thị sự suy hao trong cơ quan phát âm, và trong mỗi chu kỳ, sự kết hợp của 3 hay 4 format đầu tiên tạo ra tính chất gợn sóng của tín hiệu Ngược lại, dạng sóng của âm vô thanh không có tính chu kỳ và thiếu cấu trúc cộng hưởng.
Hình 1.6 Đồ thị Biên độ-Thời gian tương ứng với âm hữu thanh và vô thanh
Phổ tần số
Một phương pháp hiệu quả để quan sát toàn bộ phổ tần của tín hiệu là sử dụng l−ợc đồ phổ (spectrogram) Hình 1.7 minh họa spectrogram của cụm từ "a big tool".
Hình 1.7 Spectrogram của cụm từ ‘a big tool’
Trục thẳng đứng trong biểu đồ đại diện cho thời gian, trong khi trục nằm ngang biểu thị tần số với dải tần từ 0-4 kHz Độ tối của nét in là trục thứ ba, cho thấy mức năng lượng tại một điểm cụ thể (tần số, thời gian) được thể hiện theo tỷ lệ logarit của năng lượng, với dải động gần 40 dB.
Phổ của tiếng nói cho thấy rằng trong khoảng thời gian 10-30 ms, đặc biệt là 20 ms, tín hiệu tiếng nói có thể được coi là dừng Việc khảo sát tín hiệu dừng không phụ thuộc vào thời điểm bắt đầu, vì vậy khung xử lý dữ liệu tiếng nói thường dựa vào giá trị này.
Ch−ơng 2 : Các ph−ơng pháp m∙ hoá tiếng nói
Giới thiệu
Trong thời gian qua, ứng dụng của các bộ mã hoá thoại tốc độ thấp đã phát triển mạnh mẽ trong lĩnh vực thông tin, quân sự và dân sự Sự ra đời của các bộ mã hoá mới giúp đảm bảo chất lượng thoại cao ngay cả ở tốc độ dữ liệu thấp Các bộ mã hoá này sử dụng cơ chế tái tạo đặc tính phổ, phù hợp với dạng sóng của tín hiệu tiếng nói và tối ưu hóa hoạt động của chúng đối với đặc tính của tai người Nhiều bộ mã hoá đã được công nhận trong các tiêu chuẩn quốc gia và quốc tế như G721, G728,
Mã hóa tiếng nói tốc độ thấp đóng vai trò quan trọng trong việc tối ưu hóa băng thông và nâng cao tính bảo mật cá nhân trong thông tin vô tuyến và vệ tinh, bất chấp những tiến bộ công nghệ trong lĩnh vực cáp quang Nhu cầu về ứng dụng tiếng nói trong thiết bị cầm tay và máy tính cá nhân, như hộp thoại, đang gia tăng mạnh mẽ, yêu cầu tín hiệu tiếng nói ở dạng số để xử lý, lưu trữ và truyền dẫn linh hoạt Trong khuôn khổ của luận văn này, chỉ một số vấn đề cơ bản về mã hóa và nén tín hiệu tiếng nói sẽ được đề cập nhằm đạt hiệu suất tối ưu trong truyền thông và lưu trữ thông tin.
Mã hoá tiếng nói yêu cầu lấy mẫu với tốc độ ít nhất gấp đôi băng thông âm thanh Đã có những tiến bộ đáng kể trong phương pháp biểu diễn sóng tín hiệu đã được lấy mẫu, nhằm duy trì chất lượng chấp nhận được với số bít tối thiểu Quá trình lượng tử hoá có thể được thực hiện theo hai cách: trực tiếp, mang lại chất lượng cao nhưng yêu cầu tốc độ bít lớn, hoặc tham số, cho phép chất lượng chấp nhận được ở các tốc độ trung bình.
Tốc độ mã hóa âm thanh có thể được phân loại thành cao (8-16 kb/s), thấp (2,4-8 kb/s) và rất thấp (dưới 2,4 kb/s) Để đạt được tốc độ mã hóa thấp hơn, tín hiệu âm thanh sẽ được thay thế bằng một tập hợp các tham số biểu diễn, sử dụng phương pháp phân tích tổng hợp AbS.
Tham số đặc trưng cho tiếng nói là yếu tố quan trọng trong việc phân tích và tạo ra âm thanh dễ hiểu cho người nghe, mà không cần phải có sự tương đồng giữa tín hiệu phân tích và tín hiệu tổng hợp Mỗi mô hình có những ưu điểm và nhược điểm riêng, và việc kết hợp chúng để tạo ra các bộ mã hoá đáp ứng yêu cầu là điều cần thiết Trong chương 2, nội dung sẽ được phân chia thành 4 loại phương pháp và bộ mã hoá tiếng nói chính.
- Mã hoá theo mô hình phân tích - tổng hợp tín hiệu dạng sin
- Mã hoá tiếng nói Vocoder
- Mã hoá dự đoán tuyến tính theo phân tích bằng cách tổng hợp
* Tiêu chuẩn đánh giá chất l − ợng tiếng nói:
Các tiêu chuẩn đánh giá chất lượng bộ mã hoá tiếng nói thường được sử dụng bao gồm DRT, MOS và DAM Những tiêu chuẩn này dựa trên quan điểm của người nghe, do đó giá trị đo được thường có sự biến động nhỏ qua các lần kiểm tra.
- DRT (Diagnostic Rhyme Test): đánh giá mức độ dễ hiểu của tiếng nói, thể hiện khả năng giúp ng−ời nghe phân biệt đ−ợc các từ trong Bảng 2.1
Bảng 2.1 Các từ dùng trong kiểm tra DRT
Giá trị DRT đ−ợc biểu diễn theo đơn vị phần trăm: 100
Q = R - (2.0), trong đó R, W, T lần lượt đại diện cho số lần trả lời đúng, sai và tổng số lần trả lời sau khi nghe các từ kiểm tra Đánh giá chất lượng theo DRT được trình bày trong Bảng 2.2 sau đây.
Bảng 2.2 Chất l ợng tiếng nói theo DRT −
MOS (Mean Opinion Score) là tiêu chuẩn đánh giá giá trị trung bình của chất lượng âm thanh, được thực hiện trên nhóm từ 12 đến 24 người (theo yêu cầu của CCITT & TIA từ 32 đến 64 người) Đánh giá này dựa trên 5 mức chất lượng tương ứng, sau khi kiểm tra nghe hàng trăm đoạn ghi âm tiếng nói Giá trị MOS phản ánh chất lượng tiếng nói và được trình bày trong Bảng 2.3.
Bảng 2.3 Chất l−ợng tiếng nói theo MOS
Mã hoá dạng sóng
L − ợng tử vô h − ớng và vectơ
Mã hoá tín hiệu có thể sử dụng tham số tùy thuộc vào tín hiệu thực tế, thường dựa trên sự biến đổi hoặc mô hình tín hiệu của hệ thống nguồn tuyến tính Lượng tử hoá có thể có nhớ hoặc không nhớ, phụ thuộc vào luật lượng tử dựa trên ảnh hưởng của dữ liệu đầu vào hoặc đầu ra trong quá khứ đến dữ liệu hiện tại Các phương pháp lượng tử hoá tín hiệu trong miền thời gian được chia thành hai loại chính: lượng tử hoá vô hướng và lượng tử hoá véctơ.
Lượng tử hoá vô hướng mang lại chất lượng tốt nhưng yêu cầu tốc độ dữ liệu cao, trong khi lượng tử hoá vectơ được nghiên cứu nhiều hơn do tiềm năng lớn cho phép mã hoá tiếng nói với chất lượng cao ở tốc độ thấp.
2.2.1.1 Ph − ơng pháp l − ợng tử hoá vô h − ớng
Lượng tử hoá chuyển đổi các giá trị rời rạc của tín hiệu sau khi lấy mẫu thành các giá trị lượng tử một cách riêng biệt, được gọi là lượng tử hoá vô hướng Các giá trị mẫu với dải liên tục sẽ được biểu diễn bởi một tập hợp giá trị hữu hạn, không liên tục, có sai số lượng tử và nhiễu so với tín hiệu gốc Khoảng cách giữa hai giá trị lượng tử liên tiếp được gọi là bước lượng tử ∆i, và dữ liệu truyền đi là các giá trị lượng tử tương ứng C(n) Sau khi truyền, dữ liệu sẽ được giải mã với giá trị biên độ dựa trên giá trị lượng tử thu được.
Khi mỗi giá trị rời rạc được lượng tử hóa với số bít giống nhau B, tốc độ truyền dữ liệu T c được tính bằng công thức T c = B.f s (bits/s) Để giảm T c trong khi tần số f s cố định, cách duy nhất là giảm B, nhưng điều này làm tăng khả năng sai khác giữa giá trị giải mã và giá trị mã hóa, dẫn đến chất lượng tín hiệu khôi phục không đảm bảo Để giải quyết vấn đề này, nhiều biện pháp đã được đề xuất dựa trên dải động và hàm mật độ xác suất (pdf) của tín hiệu Phần tiếp theo sẽ trình bày những vấn đề cơ bản nhất liên quan đến lượng tử hóa, bắt đầu từ sai số lượng tử hóa.
Tín hiệu rời rạc có giá trị gần nhất với giá trị l−ợng tử x i đ−ợc biểu diễn nh − sau:
Bình ph−ơng sai số giữa chúng là và sai số trung bình bình ph−ơng của mẫu thứ i là:
Trong đó p(x) là hàm mật độ xác suất của tín hiệu x, đ−ợc giả thiết là phẳng trong phạm vi:
Xác suất của tín hiệu rơi vào khoảng thứ i là: Γ = ∫ − + ∆ ∆ 2 = ∆
Khi đó tổng sai số trung bình bình phương được cho bởi: ∑
1 (2.5) với N là tổng số mức l−ợng tử
Trong trường hợp lượng tử hoá đều: ∆ i = ∆ i + 1 ta được: E 2 12
Hình 2.1 thể hiện đặc tuyến vào ra của bộ lượng tử, với bước lượng tử ∆ có độ lớn không đổi Số mức tối ưu được chọn bởi số bit B là 2^(-B) Giả sử dải động của tín hiệu là |x| ≤ X max, ta có công thức 2 Xmax = 2^B ∆ (2.7), từ đó suy ra X B.
Sai số l−ợng tử hoá l−ợng sẽ bị giới hạn bởi:
∆ (2.8) Đối với l−ợng tử hoá đều, cách duy nhất để cải thiện sai số l−ợng tử là tăng số bít của từ mã
Với giả thiết tín hiệu x có biên độ giới hạn X max và hàm độ xác suất có giá trị không đổi (1/2 X max ) thì công suất P x của tín hiệu là:
Khi đó, tỉ số tín hiệu trên nhiễu SNR đ−ợc viết nh− sau:
= (2.10) hay SNR (dB) = 10log 10 (2 2B ) = 20Blog 10 2= 6,02B(dB)
Công thức (2.10) xác định số bít của từ mã trong bộ lượng tử dựa trên SNR và ước tính chất lượng bộ lượng tử theo tốc độ bit Để tối ưu hóa SNR, số mức lượng tử cần được xác định theo hàm mật độ xác suất của tín hiệu Tín hiệu tiếng nói có đặc điểm rằng xác suất của các biên độ nhỏ cao hơn nhiều so với biên độ lớn, do đó, để bao phủ dải động của tín hiệu một cách chính xác, bộ lượng tử hoá tối ưu cần có bước lượng tử không đều.
Bộ lượng tử không đều với khoảng cách không đồng nhất giữa các mức lượng tử giúp tối ưu hóa quá trình nén tín hiệu, tùy thuộc vào đặc tính thống kê của tín hiệu Sau khi giải lượng tử, tín hiệu sẽ được giải nén để khôi phục lại dạng ban đầu Việc lựa chọn sự kết hợp giữa nén và giải nén dựa trên dạng phân phối xác suất (pdf) của tín hiệu đầu vào là rất quan trọng Lượng tử hóa không đều mang lại nhiều lợi ích trong mã hóa tiếng nói nhờ vào sự phù hợp với hàm phương trình, giúp đạt được tỷ số tín hiệu trên nhiễu (SNR) cao hơn, đặc biệt là ở các giá trị biên độ thấp, từ đó cải thiện khả năng nghe hiểu và độ chính xác trong quá trình lượng tử hóa so với lượng tử hóa đều.
Cũng như lượng tử hóa tối ưu, lượng tử hóa logarit do Catternole đưa ra bao gồm hai luật nén và giải nén, được gọi là luật A và luật B, áp dụng cho bộ mã hóa PCM.
A là tham số nén có giá trị bằng 86 cho bộ mã hoá PCM Bắc Mĩ và bằng 87,56 cho bộ mã hoá 8 bit PCM châu Âu:
Với V 0 = Lσx mà L là hệ số tải, σx là giá trị trung bình bình ph−ơng của tín hiệu tiếng nói đầu vào và giá trị à điển hình là = 255 à Đặc tính của bộ l−ợng tử hoá logarit là sự tuyến tính ở biện độ thấp và logarit ở biên độ cao Bộ l−ợng tử tối −u có thể đạt chất l ợng cao hơn bộ l− −ợng tử logarit khoảng 4 dB nh−ng bộ l−ợng tử tối −u có nhiễu nền lớn khi kênh truyền rỗi và dải động của nó giới hạn bởi dải tín hiệu vào nhỏ nên về mặt này bộ l−ợng tử hoá logarit có những −u điểm nhất định e L−ợng tử hoá thích nghi:
Dải động của tín hiệu vào đóng vai trò quyết định đối với bộ lượng tử, mặc dù pdf của tiếng nói có thể được xác định và sử dụng trong thiết kế bộ lượng tử Tuy nhiên, khi dải động vượt quá 30 dB, chất lượng của bộ lượng tử thường giảm sút Để khắc phục tình trạng này, cần điều chỉnh theo dải động của tín hiệu vào, trong đó một biện pháp thực thi là ước lượng sự biến thiên của tín hiệu trước các mức lượng tử Việc điều chỉnh các mức lượng tử tương đương với thiết kế bộ lượng tử cho sự thay đổi từng đơn vị và chuẩn hóa tín hiệu trước khi lượng tử hóa Sơ đồ bộ lượng tử thích nghi thuận được trình bày trong Hình 2.3.
Hình 2.3 Bộ l−ợng tử thích nghi thuận Giả thiết rằng tiếng nói là tín hiệu dừng trong khoảng K mẫu, có giá trị hiệu dụng là:
Mẫu tiếng nói dạng khối với các giá trị xi có giá trị trung bình bằng 0 Việc chọn giá trị K rất quan trọng vì nó ảnh hưởng đến hàm phân bố xác suất của tín hiệu vào chuẩn hóa Khi K tăng, phân bố xác suất của tín hiệu tiếng nói chuẩn hóa chuyển từ loại Gausian (K ≤ 128) sang loại Laplacian (K > 512).
Phương pháp này yêu cầu truyền sự thay đổi trong mỗi khối dữ liệu tiếng nói để khi giải mã có thể điều chỉnh đúng biên độ
Một sơ đồ không yêu cầu truyền sự biến thiên trong khối dữ liệu tiếng nói tới nơi thu được gọi là thích nghi ngược Trước khi lượng tử hóa các mẫu, giá trị hiệu dụng của tín hiệu vào được ước lượng từ N mẫu đã được lượng tử trước đó Do đó, hệ số chuẩn hóa của mẫu thứ n sẽ được xác định dựa trên giá trị này.
Trong đó x là giá trị được lượng tử các mẫu trước đó và a 1 là hệ số điều chỉnh
Đối với tín hiệu Gaussian dừng có băng thông hữu hạn và giá trị trung bình bằng 0, khi N tăng, SNR có xu hướng gia tăng đến một giá trị cực đại Tuy nhiên, giá trị N cần được chọn sao cho công suất của tín hiệu ít thay đổi trong các mẫu ước lượng Trung bình, bộ lượng tử thích nghi ngược có khả năng đạt được SNR cao hơn khoảng 3 đến 5 dB so với bộ lượng tử logarit.
Trong trọng lượng tử hoá vi sai, tín hiệu lượng tử cuối cùng (các mẫu sai khác) e_i thể hiện sự khác biệt giữa mẫu vào x_i và giá trị mẫu ước lượng x_i Công thức tính toán được biểu diễn như sau: e_i = x_i - x_i Tham số P_k được tính dựa trên tổng hợp các giá trị x_a.
Trong đó ak là trọng số dùng cho mẫu đã l−ợng tử thứ k và p là số mẫu đ−ợc dùng cho quá trình −ớc l−ợng
Hình 2.5 Bộ l−ợng tử vi sai thích nghi ng−ợc
Tín hiệu sai khác (dự đoán phần d−) được tạo ra trước khi tiến hành lượng tử hóa do sự tương quan mạnh mẽ giữa các mẫu tín hiệu kề nhau Việc loại bỏ phần d− trong biến thiên của tín hiệu giúp tối ưu hóa quá trình lượng tử hóa và giảm thiểu nhiễu lượng tử Để đạt được điều này, bước lượng tử ∆ cần được giảm xuống Sơ đồ khối cho bộ lượng tử vi sai thích nghi thuận và ngược được minh họa trong Hình 2.5 và Hình 2.6.
Hình 2.6 Bộ l−ợng tử vi sai thích nghi thuận Giả thiết với K mẫu đ−ợc l−ợng tử mà không dùng ph−ơng pháp vi sai thì cần
KB 1 bít, còn K mẫu đ−ợc l−ợng tử vi sai nghĩa là K mẫu sai khác e i đ−ợc cần dùng
Mã hoá Sub-band và Transform
Các bộ mã hoá băng con và mã hoá biến đổi khai thác đặc điểm d− thừa của tín hiệu trong miền biến đổi, dựa trên biểu diễn tần số của tín hiệu qua các bộ lọc hoặc biến đổi 1-1 rời rạc Tốc độ dữ liệu mã hoá thấp được đạt được nhờ phân tích đặc tính nghe của tai người và cấu trúc phổ công suất trong thời gian ngắn.
Cấu trúc của bộ mã hoá băng con điển hình đ ợc cho trên Hình 2.11 −
Thiết kế bộ lọc trong mã hoá băng con rất quan trọng, với băng thông của các bộ lọc có thể giống hoặc khác nhau Đối với băng tần thấp, thường sử dụng bộ lọc có băng thông nhỏ hơn Khi không có nhiễu l−ợng tử, bộ mã hoá có khả năng khôi phục hoàn hảo nhờ các bộ lọc g−ơng cầu ph−ơng (QMF) dựa trên lý thuyết Wavelet Một ví dụ điển hình là bộ mã hoá băng con AT&T.
Bộ mã hoá theo chuẩn lưu trữ và truyền tiếng nói AT&T có cấu trúc như trên Hình 2.12
Hình 2.12 Bộ mã hoá Sub-band AT&T
Tín hiệu tiếng nói được phân tích qua bộ lọc gương cầu phương QMF với 5 đầu ra tương ứng cho 5 băng tần, và mỗi đầu ra được mã hóa bằng bộ mã hóa APCM, cho tốc độ dữ liệu 16 kb/s hoặc 24 kb/s Thuật toán nén khoảng lặng là một phần quan trọng của chuẩn này Tại phía thu, dòng bit được chia vào các bộ giải mã APCM, và đầu ra được phục hồi thông qua bộ lọc gương cầu phương tổng hợp Các dải tần cho băng con bao gồm: 0-0,5 kHz, 0,5-1 kHz, 1-2 kHz, 2-3 kHz, và 3-4 kHz Phân bố bit cho bộ mã hóa APCM tại tốc độ 16 kb/s là {4, 4, 2, 2, 0} và tại 24 kb/s là {5, 5, 4, 3, 0} Độ trễ mã hóa một chiều tối đa từ phát đến thu là 18 ms Chuẩn này từng được AT&T sử dụng cho thiết bị lưu trữ và truyền tiếng nói, nhưng đã được thay thế bởi các chuẩn khác sau này.
Chuẩn CITT G.722 cung cấp âm thanh 7 kHz với tốc độ 64 kb/s, đảm bảo chất lượng cho hội nghị từ xa qua mạng ISDN, dựa trên hai bộ mã hóa băng con / ADPCM Cấu trúc của bộ mã hóa này được minh họa trong Hình 2.13.
Hình 2.13 Bộ mã hoá Sub-band CCITT G.722
Trong đó băng tần thấp đ−ợc l−ợng tử tốc độ 48 kb/s, còn băng tần cao là 16 kb/s
Bộ mã hóa hoạt động với tốc độ 40 hoặc 32 kb/s, sử dụng bộ lọc gương cầu phương QMF cho quá trình tổng hợp và phân tích Đặc biệt, hệ thống này có độ trễ thực tế dưới 3 ms, đảm bảo chất lượng âm thanh cao với điểm số MOS vượt quá 4.
Sơ đồ nguyên lý của các bộ mã hoá biến đổi đ−ợc cho trên Hình 2.14
Hình 2.14 Nguyên lý mã hoá Transform
Biến đổi phải đảm bảo tính đơn nhất để thực hiện mã hóa và giải mã hiệu quả Khả năng giảm tốc độ dữ liệu của mã hóa biến đổi (TC) xuất phát từ việc các biến đổi đơn nhất tạo ra các thành phần gần như không liên quan và có thể mã hóa độc lập Thêm vào đó, sự biến thiên chậm theo thời gian của các thành phần này có thể được khai thác để giảm thiểu dữ liệu thừa.
Tín hiệu vào bộ mã hoá biến đổi được xử lý theo từng khung, với mỗi khung áp dụng một loại biến đổi đơn nhất rời rạc, tương đương với việc thực hiện phép nhân ma trận như sau:
Tín hiệu được khôi phục thông qua biến đổi ngược được biểu diễn bằng công thức s = T^-1 S, trong đó công thức trước đó thể hiện sự phân tích Biến đổi ngược T^-1 là ma trận nghịch đảo tương ứng với biến đổi đơn nhất, đồng thời cũng là ma trận liên hợp phức chuyển vị.
Tín hiệu tổng hợp và phân tích sẽ đồng nhất nếu không tính đến sai số do lượng tử và kênh truyền Độ chính xác của tín hiệu tổng hợp phụ thuộc vào nhiễu lượng tử và loại biến đổi được sử dụng, đặc biệt là các biến đổi đơn nhất rời rạc như biến đổi cosin rời rạc (DCT), biến đổi Fourier rời rạc (DFT), biến đổi Walsh Hadamard (WHT), và biến đổi Karhunen Loeve (KLT).
Biến đổi KLT là một phương pháp biến đổi tối ưu, trong đó các thành phần của nó được tương quan cực đại với bất kỳ tín hiệu vào nào Các vectơ cơ bản của KLT được hình thành từ các vectơ chuẩn hoá của ma trận tự tương quan tín hiệu Do đó, KLT phụ thuộc vào dữ liệu và trong nhiều trường hợp có thể không khả thi do yêu cầu tính toán lớn để xác định giá trị của các vectơ cơ bản.
DFT và DCT là hai phương pháp quan trọng trong xử lý tín hiệu, sử dụng các vectơ dựa trên tín hiệu sin Việc tính toán chúng có thể được thực hiện hiệu quả thông qua biến đổi Fourier nhanh (FFT) Đối với DFT đã chuẩn hoá, ma trận biến đổi bao gồm các thành phần mã phức.
(2.51) và biến đổi ng−ợc IDCT đ−ợc định nghĩa nh− sau:
(2.52) trong đó: λ(k) bằng 1 với k= 0 và bằng 2 với k= 1, 2, , N-1
Ma trận biến đổi WHT bao gồm hai giá trị +1 và -1, với các vectơ cơ bản tương ứng với các xung lấy mẫu có đặc tính chuỗi Độ phức tạp tính toán của biến đổi WHT với N điểm tỷ lệ thuận với Nlog2N Các biến đổi như DCT, DFT và WHT đều gần tối ưu cho nhiều kiểu dữ liệu khác nhau Bộ biến đổi sử dụng DCT và các thành phần biến đổi được mã hóa bằng lượng tử thích nghi, được gọi là bộ mã hóa biến đổi thích nghi ATC.
Mã hoá theo mô hình phân tích bởi tổng hợp tín hiệu hình sin
Mô hình phân tích bởi tổng hợp tín hiệu hình sin
Mô hình tiếng nói sử dụng các biến đổi dạng sin đơn nhất để coi tín hiệu tiếng nói như một tập hợp các hàm sin băng hẹp, với khả năng mã hoá tín hiệu ở tốc độ 4,8 kb/s Một phương pháp khác là áp dụng mô hình sin điều hoà để biểu diễn các thành phần tiếng nói băng hẹp, kết hợp với hàm Walsh để tạo ra các thành phần băng rộng, trong đó biên độ và pha của các thành phần này được lượng tử vectơ với tốc độ 4 kb/s.
Mô hình do McAulay và Quatieri nghiên cứu đã thành công trong việc đạt được kết quả với nhiều tốc độ dữ liệu khác nhau Tín hiệu tiếng nói theo mô hình sin này, ký hiệu là ^ sSR (n), được xem là tổng của L thành phần.
Mô hình âm thanh được xây dựng với L là số thành phần sin thay đổi theo thời gian, nhằm giảm tốc độ điều khiển Âm hữu thanh có tính chu kỳ cao có thể được biểu diễn bằng một số thành phần sin nhất định, trong khi âm vô thanh được mô phỏng bằng pha ngẫu nhiên Hệ thống mã hóa nguồn thay thế bộ kích thích bằng L thành phần có biên độ, tần số và pha khác nhau Để đảm bảo tiếng nói là tín hiệu biến đổi chậm so với đáp ứng xung của cơ quan phát âm, cửa sổ Hamming với độ rộng gấp 2,5 lần pitch trung bình đã được áp dụng Mô hình sử dụng 80 thành phần sin để tổng hợp tín hiệu với cửa sổ Hamming thích nghi, và các giá trị biến đổi FFT 1024 điểm được cập nhật sau mỗi 10 ms, cho thấy hiệu quả tốt với nhiều loại tín hiệu, kể cả tín hiệu nhiễu.
Các tần số sin đối với các ứng dụng mã hoá tốc độ thấp đ−ợc coi là bội số nguyên lần của tần số cơ bản (pitch), nghĩa là:
(2.54) trong đó: Ω 0 là tần số cơ bản, L(Ω 0 ) là số hài cần quan tâm trong băng thông
Biểu diễn tín hiệu âm thanh thường nằm dưới 4 kHz và được thể hiện dưới dạng hài, cung cấp một tập các tần số "tối ưu" cho các đoạn âm hữu thanh Giả thiết cơ bản cho tiếng nói hữu thanh là chu kỳ pitch không đổi trong suốt quá trình phân tích Đối với âm vô thanh, một tập hợp các tần số cách đều nhau được sử dụng để tái tạo đặc tính thống kê của dữ liệu vô thanh, với khoảng cách giữa các tần số đủ hẹp để theo dõi sự thay đổi trong mật độ phổ của tín hiệu Khoảng cách này cho phép ước lượng các tham số của tín hiệu sin một cách dễ dàng thông qua việc lấy mẫu DFT có độ phân giải cao tại các đỉnh của tiếng nói hữu thanh, giúp giải mã hiệu quả các tần số sin.
Hệ thống phân tích tổng hợp tín hiệu sin mô tả trong Hình 2.16 hoạt động với tốc độ khung dữ liệu 50 Hz cho bộ mã hoá dạng sin 8 kb/s Trong đó, 3,6 kHz được sử dụng để mã hoá biên độ, trong khi 4,4 kb/s dùng để mã hoá pha và tần số cơ bản Đối với tín hiệu hữu thanh, các tần số là bội của tần số cơ bản pitch, còn với tín hiệu vô thanh, khoảng cách giữa các tần số phát ra nhỏ hơn 100 Hz Thông tin về tần số cơ bản pitch, tính hữu thanh và vô thanh được xử lý bởi bộ ước lượng tần số pitch, trong khi biên độ được mã hoá bằng kỹ thuật Đenta dọc theo trục tần số Nguyên tắc phân bố bit là thích nghi pitch, cho phép người nói có tần số pitch cao sử dụng nhiều bit hơn để mã hoá biên độ Pha được mã hoá với 4-5 bit và áp dụng kỹ thuật phát lại pha cho người nói có tần số pitch thấp Tuy nhiên, các tham số này rất nhạy cảm với nhiễu lợn và lỗi kênh, đặc biệt là ở các tốc độ thấp.
Mô hình phát triển đã cải thiện độ chính xác của tham số, đạt kết quả khả quan ngay cả ở tốc độ bit thấp Sử dụng bộ mã hoá đơn giản với biến đổi sin tốc độ thấp (STC), mô hình hài cho tần số, và biên độ thích nghi pitch cho biên độ, cùng với mô hình phụ thuộc tiếng nói cho pha tín hiệu sin Đường bao biên độ A(ω) được áp dụng tương tự như trong bộ mã hoá tiếng nói ước lượng đường bao phổ (SEEVOC), được tạo ra bởi bộ nội suy tuyến tính giữa các đỉnh của biến đổi STFT tại các tần số (Ω 1 , Ω 2 , ) Đỉnh đầu tiên tại tần số Ω 1 được khảo sát trong khoảng [ /2 ; 3 /2], với giá trị pitch trung bình, và các đỉnh còn lại được khảo sát trong khoảng tương ứng.
Thuật toán SEEVOC có ưu điểm vượt trội so với các phương pháp khác nhờ vào khả năng ít phụ thuộc vào pitch, cho phép xác định đỉnh hiệu quả trong hầu hết băng tần.
Ω− o) và tránh đ ợc các đỉnh thấp A(− ω) còn đ−ợc biểu diễn nh− sau:
(2.55) trong đó Ce m là chuỗi Cepstrum đ−ợc cho bởi:
Phương pháp biểu diễn Ceptrum được ưa chuộng nhờ khả năng khai thác đặc tính nghe của tai người, cung cấp thông tin về pha của các thành phần sóng sine với giả thuyết pha tối thiểu Hơn nữa, các hệ số biến đổi Cepstrum có thể được mã hóa một cách hiệu quả Đặc tính chấp nhận của tai người được áp dụng thông qua một hàm đặc biệt đối với đường bao biên độ, sử dụng hàm mũ trong miền tần số cao.
Mô hình pha trong STC được sử dụng để biểu diễn hệ thống nguồn tiếng nói, với các thành phần pha phụ thuộc vào sự kích thích, thanh hầu và cơ quan phát âm Mô hình này bao gồm pha của hệ thống kết hợp thanh hầu và cơ quan phát âm, cùng với thành phần pha tuyến tính, nhằm đảm bảo tín hiệu sin kích thích đồng pha với xung pitch Pha của hệ thống có thể được ước lượng thông qua giả thiết pha tối thiểu, được thể hiện dưới dạng chuỗi Cepstrum.
Biên độ và pha của hệ thống là khác nhau đối với s(n) và -s(n), do đó pha của hệ thống được biểu diễn dưới dạng Φ s (Ω) + βπ, với β có thể là 0 hoặc 1 Khi so sánh pha đo được với pha ước lượng từ mô hình, phần sai pha gần bằng 0 đối với âm hữu thanh (đến một tần số nhất định) và có giá trị ngẫu nhiên trong khoảng [−π;π] đối với âm vô thanh Dựa trên ý tưởng này, mô hình pha phụ thuộc vào tính chất hữu thanh và vô thanh đã được xây dựng cho STC.
(2.58) trong đó n0 là −ớc l−ợng của thời gian pitch e φ (Ω k )là phần pha d− phụ thuộc vào tính hữu thanh, vô thanh:
Với U thuộc khoảng [-π, π], đây là pha ngẫu nhiên trong khoảng này; Ω c (P v )là tần số cắt phụ thuộc vào tiếng nói, trong đó P v là xác suất hiện diện của tiếng nói là âm hữu thanh, và điều này phụ thuộc vào việc ước lượng pitch.
Hình 2.17 mô tả sơ đồ khối bội mã hoá STC tốc độ thấp Mô hình sin này “tối
Đối với âm hữu thanh, quy tắc xác định tần số cho âm vô thanh và âm hỗn hợp hữu thanh-vô thanh được thực hiện như sau:
(2.60) trong đó Ωu =2π.100T, Ωc(Pv) đ−ợc giới hạn không nhỏ hơn (2π.1500T) và k’ là giá trị k lớn nhất mà k’Ω 0 ≤Ω c (P v ); nếu Ω 0 < Ω u thì Ω k = kΩ 0 đối với tất cả các tần số
Hình 2.17 Bộ mã hoá STC
Bộ mã hoá STC thực hiện việc mã hoá pitch của âm thanh hữu thanh và vô thanh, đồng thời biểu diễn biến đổi của các hệ số Cepstrum Do chuỗi Cepstrum có tính chất ít tương quan và dải động lớn, nên biểu diễn DCT được áp dụng để mã hoá Các hệ số DCT có thể được mã hoá bằng kỹ thuật DPCM Để cải thiện độ chính xác trong truyền tải, phương pháp lượng tử hoá véctơ có thể được sử dụng Độ lợi của quá trình mã hoá sẽ tăng lên khi áp dụng bộ lọc sau, giúp giảm nhiễu l−ợng tử trong vùng không có formant.
Mã hóa STC đã được triển khai trên chip DSP của Analog Devices với dấu phẩy tĩnh và thời gian thực có pha không Φ s (Ω)=0 Gần đây, STC hoạt động trên chip của TI với độ phức tạp 13 MIPS, đạt giá trị MOS là 3,52 (tại 4,8 kb/s) và 2,9 (tại 2,4 kb/s), đồng thời đã được tích hợp vào điện thoại video của Comtech Hiện tại, mô hình mã hóa biến đổi dạng sin STC vẫn là một phương pháp hiệu quả để đạt tốc độ thấp trong mã hóa.
Mã hoá kích thích đa băng
Mô hình bộ mã hoá kích thích đa băng MBE xem phổ tiếng nói ngắn hạn là sự kết hợp giữa phổ kích thích và đường bao dạng tiếng nói Mặc dù mô hình này tương tự với hệ thống nguồn hai trạng thái cổ điển, điểm khác biệt là phổ kích thích được coi là sự kết hợp của tín hiệu điều hoà và nhiễu, cho thấy tính hữu thanh/vô thanh phụ thuộc vào tần số Cách tiếp cận này dựa trên thực tế rằng phổ âm hỗn hợp bao gồm cả vùng hữu thanh và vùng vô thanh.
Phổ âm thanh được chia thành nhiều băng tần nhỏ, mỗi băng tần được xác định là vô thanh hoặc hữu thanh Số lượng các vùng này vượt trội so với bộ mã hóa băng con truyền thống, cho phép lựa chọn tương đương với số lượng dao động điều hòa Theo mô hình MBE, phổ của tín hiệu tiếng nói tổng hợp được xác định rõ ràng.
Đường bao phổ tiếng nói H(Ω) thể hiện cách làm trơn phổ tiếng nói trong thời gian ngắn, với |X( )| là biên độ phổ kích thích Đường bao này có thể được nhận diện thông qua nội suy tuyến tính giữa các mẫu điều hòa của phổ Hình 2.18 minh họa rõ ràng phổ thời gian ngắn của tiếng nói, đường bao phổ và phổ kích thích.
Phổ thời gian ngắn tổng hợp được hình thành từ sự kết hợp giữa đường bao phổ và phổ kích thích MBE Các tham số trong mô hình MBE bao gồm tần số cơ bản, đường bao phổ, thông tin về tính hữu thanh của từng dao động, và thông tin pha chỉ cho các dao động hữu thanh Để ước lượng các tham số này, phương pháp trung bình phương tối thiểu (LMS) được áp dụng nhằm phân tích và tổng hợp, với mục tiêu giảm thiểu sai số giữa phổ gốc và phổ tổng hợp.
(2.63) với φ 1,m ; φ 2,m là hai giới hạn của băng con thứ m Nếu chỉ quan tâm tới biên độ thì:
Hình 2.18 thể hiện phổ thời gian ngắn của tiếng nói, bao gồm các vùng vô thanh và đường bao phổ nội suy tuyến tính Ngoài ra, hình còn mô tả phổ kích thích hữu thanh điều hoà và phổ kích thích hữu thanh/vô thanh MBE, giúp hiểu rõ hơn về cơ quan phát âm và sự kích thích trong quá trình phát âm.
Mô hình MBE là dạng thông thường nhất, trong đó các thành phần liên quan đến âm thanh được tính toán trong miền thời gian, trong khi các thành phần vô thanh được tính trong miền trị số Quá trình phân tích bao gồm việc xác định chu kỳ pitch, các tham số đường bao vô thanh/hữu thanh, thông tin về tính hữu thanh cho mỗi băng con, và lựa chọn các tham số đường bao cho mỗi băng.
Chu kỳ pitch ban đầu được ước lượng thông qua phương pháp tự tương quan, sau đó sử dụng ước lượng làm trơn để đảm bảo tính liên tục của các khung Quá trình này quyết định pitch trong miền tần số Đường bao phổ được mô tả bởi các mẫu tại các dao động hài của tần số cơ bản.
Phân tích và tổng hợp MBE cho các dao động hữu thanh yêu cầu xác định biên độ và pha của mẫu đường bao thông qua quá trình bình phương tối thiểu Đối với dao động vô thanh, chỉ cần xác định biên độ Các băng con được định tâm xung quanh các tần số pitch, và tính hữu thanh được xác định bằng cách so sánh sai số chuẩn hoá.
Theo D Griffin và J Lim, giá trị ε − MB (m) nhỏ hơn 0,2 sẽ khiến các dao động được coi là hữu thanh Để đưa ra quyết định hiệu quả hơn, cần xem xét các nhóm ba dao động.
Quá trình tổng hợp âm thanh được mô tả trong Hình 2.19(b), trong đó thành phần hữu thanh được tạo ra từ bộ dao động với tín hiệu dạng sin điều hòa Biên độ dao động được lấy từ mẫu đường bao tín hiệu hữu thanh thông qua kỹ thuật nội suy tuyến tính, tương tự như trong STC, và được thiết lập bằng 0 cho tín hiệu vô thanh Pha của thành phần hữu thanh được xác định bởi thuật toán dự đoán pha giống như nội suy pha trong STC Thành phần vô thanh được chuyển đến bộ FFT dưới dạng các đoạn nhiễu trắng, với các mẫu biến đổi được chuẩn hóa bằng cách nhân với đường bao phổ, từ đó tín hiệu vô thanh được thu được qua phương pháp tổng chồng lấp có trọng số.
Mã hóa tham số MBE đã đạt được kết quả ấn tượng với các tốc độ 8 kb/s, 6,4 kb/s, 4,8 kb/s và 2,4 kb/s, sử dụng chip AT & DSP32C cho xử lý thời gian thực Bộ mã hóa đa tốc độ này là một phần của tiêu chuẩn thông tin di động vệ tinh Australia (AUSSAT) và tiêu chuẩn thông tin di động quốc tế (Inmarsat-M), với độ trễ thuật toán là 78,75 ms và chỉ số MOS đạt 3,4.
Ph − ơng pháp mã hoá Vocoder
Mã hoá theo kênh
Phương pháp phân tích tổng hợp tiếng nói do Dudley đề xuất là một trong những cách thức lâu đời nhất Bộ mã hoá tiếng nói này dựa trên biểu diễn phổ, phản ánh sản phẩm tạo ra từ cơ quan phát âm và phổ kích thích Thông thường, số lượng kênh dao động từ 16 đến 19, với độ rộng kênh thường được điều chỉnh theo thang tần số, nhằm cải thiện độ chính xác của biểu diễn phổ Hình 2.20 minh họa cấu trúc của bộ Vocoder với số kênh điển hình.
Nghiên cứu về Vocoder kênh của nhóm nghiên cứu tiếng nói (JSRU) tại Anh đã đạt được những kết quả xuất sắc, với tốc độ dữ liệu sau mã hoá là 2,4 kb/s và giá trị DRT đạt 87 Kỹ thuật này thể hiện hiệu quả cao và vẫn được áp dụng trong mã hoá STC và MBE.
Mã hoá theo formant
Điểm khác biệt chính giữa mã hóa tiếng nói theo formant và kênh là các băng lọc luôn theo sát hình dạng của các formant Hình 2.21 minh họa cấu trúc của bộ mã hóa formant nối tiếp điển hình.
H×nh 2.21 Vocoder formant ®iÓn h×nh Hàm truyền đạt Hv(z) tổng hợp âm hữu thanh gồm L bộ cộng hưởng bậc hai gồm toàn các điểm cực:
Hàm truyền đạt của âm vô thanh H u (z) bao gồm hai hàm bậc hai, một hàm tại Ω z và một hàm tại Ω p, được mắc nối tiếp Để cải thiện hiệu ứng của xung hầu và chuyển động của lưỡi, hàm bù phổ được thêm vào Một trong những thách thức lớn nhất trong việc mã hóa này là tính toán các formant và độ rộng băng tương ứng Các kết quả nghiên cứu trước đây vẫn giữ vai trò quan trọng đối với các bộ mã hóa Vocoder hiện đại.
Mã hoá đồng hình (homomorphic)
Bộ mã hoá homomorphic cho phép kết hợp phổ logarit biên độ của xung kích thích và cơ quan phát âm dưới dạng tổng logarit, từ đó tạo ra phổ logarit biên độ của tiếng nói.
|X(ω)| = |P(ω)| |H(ω)| (2.68) log{|X(ω)|} = log{|P( )|} + log{|H(ω)|} ω (2.69) trong đó: X(ω) là phổ của âm hữu thanh
P(ω) là phổ của xung kích thích pitch
H(ω) là phổ của cơ quan phát âm
H(ω) có đặc tính thay đổi chậm, trong khi P(ω) thay đổi nhanh và có tính chu kỳ theo tần số, cho phép hai thành phần này được phân tách bởi bộ lọc tuyến tính Thực tế, quá trình này được thực hiện thông qua biến đổi ngược Fourier Sơ đồ khối của bộ mã hoá và giải mã tiếng nói homomorphic được thể hiện trong Hình 2.22.
Hình 2.22 Hệ thống phân tích-tổng hợp tiếng nói đồng hình
Thành phần biến đổi ngược của log{|X(ω)|} được gọi là tín hiệu Cepstrum, có phân bố phụ thuộc vào sự xuất hiện của pitch tại các điểm bội của chu kỳ pitch Dạng tín hiệu này gần gũi với tín hiệu gốc nhưng ít gợn sóng hơn Các hệ số này có thể được tách ra qua cửa sổ Cepstrum, với chiều dài thường ngắn hơn chu kỳ pitch nhỏ nhất.
Mặc dù bộ mã hoá Cepstrum ít được ứng dụng trong thời gian nghiên cứu ban đầu, nhưng các phương pháp ước lượng pitch và cơ quan phát âm dựa trên Cepstrum đã được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau.
Mã hoá dự đoán tuyến tính
Mã hóa tiếng nói dự đoán tuyến tính là một kỹ thuật đang được nghiên cứu rộng rãi gần đây Kỹ thuật này kết hợp với mã hóa dự đoán tuyến tính dựa trên mô hình hệ thống nguồn và các thuật toán dự đoán tuyến tính.
Hệ thống tạo tiếng nói tuyến tính được mô hình hóa như trong Hình 2.23(a), với hai trạng thái kích thích: xung cho âm hữu thanh và nhiễu ngẫu nhiên cho âm vô thanh Cơ quan phát âm được mô hình hóa bằng hàm truyền toàn điểm cực, bao gồm các bộ cộng hưởng hai điểm cực nối tiếp để biểu diễn các formant Mô hình hầu sử dụng bộ lọc thông thấp hai điểm cực, trong khi chuyển động của lưỡi được mô tả bởi L(z) = 1 - z^-1 cùng với bộ sửa sai để bù phổ cho tần số thấp Trong thực tế, trong hệ thống tiếng nói số, sự bù phổ và điểm không do chuyển động của lưỡi thường bị bỏ qua, dẫn đến việc hệ thống được rút gọn thành mô hình toàn điểm cực như trong Hình 2.23(b).
Nh− vậy mô hình tổng hợp hệ thống nguồn ở miền Z sẽ là:
Trong đó: g là đội lợi
Hàm A(z) có bậc p, và Hình 2.23(c,d) trình bày phân tích âm vô thanh và hữu thanh trong miền thời gian thông qua mô hình hệ thống nguồn tuyến tính Các tham số kích thích của hệ thống được lấy từ một tập hợp hữu hạn các mẫu tiếng nói, trong khi hệ số a_i được xác định dựa trên dự đoán tuyến tính.
LP, với bộ dự đoán tuyến tính thuận bậc p, mẫu tiếng nói hiện tại đ−ợc dự đoán từ sự kết hợp tuyến tính p mẫu trước đó như trên Hình 2.24:
Hình 2.24 Dự đoán tuyến tính thuận, ng−ợc và lớp Các tham số thu đ−ợc bằng cách tối thiểu hoá trung bình bình ph−ơng sai số ε f , nghĩa là:
(2.76) r SS (m) là chuỗi tự t−ơng quan của đoạn tiếng nói, đ−ợc ớc l− −ợng từ N mẫu theo một trong hai cách sau:
Cách hai thường được ưa chuộng hơn, đặc biệt cho các đoạn dữ liệu ngắn, vì chúng có xu hướng tối thiểu hóa pha của đa thức liên quan trong công thức (2.75).
Sai số dự đoán ng−ợc là:
(2.79) với ý nghĩa các tham số t−ơng tự nh− trong dự đoán thuận
Hệ thống được giả thiết dừng tại ε f = ε b, và phương trình (2.75) có thể được giải hiệu quả bằng thuật toán đệ quy Durbin.
Trong phép đệ quy với bậc dự đoán m = 1, 2, , p, hệ số phản xạ am(m) = km đóng vai trò quan trọng, phụ thuộc vào cách biểu diễn các tham số vật lý của mô hình ống âm thanh cho tiếng nói Hệ số km, được gọi là hệ số tương quan từng phần (PARCOR), thể hiện sự tương quan chuẩn hóa giữa s(m) và s(n-m+1).
Trong mã hóa dự đoán tuyến tính, độ dài cửa sổ phân tích thường là 20 đến 30 ms, với các tham số được cập nhật sau mỗi 10 đến 30 ms Do tốc độ khung thấp, cần có sự thay đổi lớn trong các tham số LP, vì vậy các khung được chia thành các khung nhỏ hơn 5 ms, và các tham số được thu được bằng cách nội suy tuyến tính giữa các khung liền kề.
Mặc dù phương pháp dự đoán tuyến tính chủ yếu dựa vào mô hình gồm toàn điểm cực, nhưng có những nghiên cứu kết hợp cả điểm cực và không cực Thực tế cho thấy rằng những âm mũi hóa được biểu diễn tốt hơn khi bao gồm cả hai loại điểm này.
2.4.4.1 Mô hình kích thích hai trạng thái cổ điển và thuật toán LPC-10
Các tham số kích thích hai trạng thái bao gồm độ lợi, chu kỳ pitch và bit quyết định âm hữu thanh hoặc vô thanh Độ lợi của đoạn âm được điều chỉnh để năng lượng của âm tổng hợp tương thích với âm phân tích Đối với âm vô thanh, kích thích được thực hiện bởi bộ tạo số ngẫu nhiên, do đoạn âm này thường có năng lượng thấp và chứa nhiều tín hiệu đi qua điểm 0, tính chất vô thanh hoặc hữu thanh được xác định dựa trên năng lượng và đo lường tín hiệu qua điểm 0 Thông tin về âm hữu thanh thường được xác định bằng thuật toán Gold và Rabiner trong miền thời gian, hoặc dựa trên Cepstrum theo Noll, hay bộ tách pitch vi sai biên độ trung bình trong thuật toán LPC-10.
Các thuật toán xác định pitch đóng vai trò quan trọng trong việc quyết định chất lượng âm thanh của các bộ mã hóa như STC, IMBE, và các bộ mã hóa dựa trên mô hình phân tích và tổng hợp tuyến tính.
Thuật toán LPC-10, sử dụng bộ dự đoán bậc mười, ước lượng các tham số của cơ quan phát âm và đã được ứng dụng trong thông tin bảo mật với tốc độ 2,4 kb/s, đồng thời là một phần của chuẩn FS-1015 Sơ đồ khối của bộ mã hóa và giải mã được trình bày trong Hình 2.25.
Xác định pitch dựa trên hàm vi sai biên độ trung bình (AMDF) của dạng sóng sau lọc đ−ợc cho bởi công thức sau:
Trong đó độ phân giải pitch là 1 với 20 ≤ τ≤ 39, là 2 với 40 ≤ τ≤ 78 và là 4 với 80 ≤ τ ≤ 156 Quyết định âm vô thanh/ hữu thanh dựa trên đo lường năng l ợng qua điểm ư
0 và tỷ số max/min của AMDF
Bộ mã hoá-giải mã theo chuẩn FS 1015 cho kết quả đo lường DRT và DAM của LPC-10 lần lượt là 90 và 48 khi xử lý tiếng nói không có nhiễu, trong khi với nhiễu do đường truyền vô tuyến, DRT đạt 82 Thuật toán LPC-10e cải tiến sau này đã đạt DRT.9, mang lại chất lượng âm thanh tốt hơn với tốc độ 2400 b/s Các nỗ lực vẫn đang tiếp tục nhằm phát triển các bộ mã hoá với tốc độ 400-800 b/s nhưng vẫn đảm bảo chất lượng tương đương với FS1015 LPC-10, được ứng dụng trong thông tin bảo mật cao.
2.4.4.2 Mô hình kích thích hỗn hợp
Mô hình kích thích hỗn hợp đã gây ra sự thay đổi đáng kể về sai số trong tiếng nói, vì mô hình kích thích hai trạng thái làm giảm chất lượng và khả năng nghe hiểu Điều này xảy ra khi chúng không đáp ứng được yêu cầu của các âm chuyển, bao gồm sự kết hợp giữa âm vô thanh và hữu thanh, cũng như âm hữu thanh phát âm nhẹ.
Mô hình kích thích hỗn hợp, do Fujimura phát triển cho bộ mã hoá Vocoder kênh, đã được Makhoul và đồng sự áp dụng cho bộ mã dự đoán tuyến tính Makhoul cùng các cộng sự đã giới thiệu mô hình nguồn kết hợp như thể hiện trong Hình 2.26(a).
Mô hình kích thích hỗn hợp của Makhaul và Mc Cree & Barnwell sử dụng xung kích tần số thấp và nhiễu tần số cao trong mạch lọc tổng hợp LPC Các bộ lọc kích thích và độ lợi được điều chỉnh để đảm bảo phổ kích thích toàn phần phẳng, với tần số cắt (fC) thay đổi theo thời gian cho cả hai bộ lọc Thuật toán dò đỉnh giúp xác định vùng phổ trong miền có tính chu kỳ, từ đó giảm thiểu tiếng rì rầm và tiếng rít trong tiếng nói tổng hợp.
Mã hóa dự đoán tuyến tính phân tích bởi tổng hợp
Dự đoán tuyến tính kích thích đa xung MPLP
Thuật toán MPLP tạo ra chuỗi kích thích với các xung có khoảng cách không chuẩn hoá Trong quá trình phân tích, biên độ và vị trí của các xung được xác định tại thời điểm sai số trung bình bình phương có trọng số là tối thiểu Thông thường, thuật toán MPLP sử dụng từ 4 đến 6 xung trong mỗi 5ms Hình 2.31 minh họa sơ đồ khối phân tích MPLP.
H×nh 2.31 Ph©n tÝch theo MPLP Sai số có trọng số e M đ−ợc cho bởi công thức sau:
Trong nghiên cứu này, tham số γ đóng vai trò quan trọng trong việc nhấn mạnh năng lượng của sai số trong vùng formant, với thực tế là nhiễu l−ợng tử trong vùng này bị che khuất bởi tiếng nói (0 ≤ γ ≤ 1) Tham số này cũng ảnh hưởng đến băng thông f của đỉnh ∆ của W(z).
(2.87) Giá trị điển hình cho γ là 0,8 Atal và Remde đ−a ra cách đánh giá sau:
Trong đó: xM(k) là biên độ xung tại vị trí k h γ (n) là đáp ứng xung của hàm truyền sau:
Với: N là số mẫu trong một khung
( ) n s là đầu ra bộ lọc với hàm truyền H(z/γ) khi đầu vào là phần d− §Ó cã:
(2.91) trong đó: rˆ sh (k) là tương quan chéo giữa s ( ) u (n) và h γ ( ) n (n)
(0) là −ớc l−ợng năng l−ợng của h
Thay (2.91) vào công thức (2.88), ta có:
Tuy chỉ đạt cận tối −u nh−ng cũng đủ hiệu quả, vị trí k có thể tìm đ−ợc bằng cách cực đại hoá (rˆ sh (k)) 2 / rˆ hh ( ) 0
Mã hoá kích thích theo thuật toán MPLD phức tạp hơn nhiều so với Vocoder dự đoán tuyến tính cổ điển, vì nó thực hiện mã cả biên độ và vị trí xung Thuật toán này cung cấp chất lượng âm thanh tốt ở tốc độ 10 kb/s Bộ mã hoá MPLP 9,6 kb/s đã được sử dụng cho liên lạc hàng không Skyphone do British Telecom cung cấp MPLP hoạt động trên chip AT&T WE DSP32C với MOS đạt 3,4 và có độ trễ xử lý nhỏ hơn 40ms Ngoài ra, bộ mã hoá này còn có khả năng truyền tín hiệu DTMF và dữ liệu modem tốc độ thấp.
Kích thích xung đều RPE
Bộ mã hoá RPE sử dụng chuỗi xung kích thích với các đặc điểm khác biệt so với thuật toán MPLP Trong RPE, các xung được chuẩn hoá với khoảng cách xác định, do đó, vị trí của xung được xác định dựa trên giá trị k cho vị trí đầu tiên và khoảng cách giữa các xung.
Hệ số khoảng cách cho RPE là từ 3 đến 4, với vị trí xung đầu tiên được cập nhật sau mỗi 5 ms Số lượng xung RPE dao động từ 10 đến 13 trong khoảng thời gian 5 ms, và biên độ của chúng được xác định thông qua việc giải hệ các phương trình tuyến tính Thực tế, khoảng cách giữa các xung không cần mã hóa do số xung trong mỗi khung thường là cố định.
Tối ưu hóa phân tích trong thuật toán RPE liên quan đến việc xem xét cấu trúc lọc ngược, trong đó phần dư được tạo ra từ kích thích của bộ lọc dự đoán
* Thuật toán GSM RPE-TLP:
Một lưu đồ mã hóa phức tạp với tốc độ 13 kb/s sử dụng RPE và LTP đã được phê duyệt cho chuẩn điện thoại di động số toàn tốc châu Âu - GSM Sơ đồ khối của chuẩn mã hóa GSM được trình bày trong Hình 2.33.
Hình 2.33 minh họa lưu đồ RPE-LTP cho chuẩn GSM, trong đó tiếng nói được lấy mẫu với tốc độ 8 kHz và độ phân giải 13 bit mỗi mẫu RPE-LTP xử lý tiếng nói theo khung 20ms (160 mẫu), được chia thành các khung con 5ms Quá trình tiền xử lý bao gồm tiền nhấn và bù lệch một chiều Ở giai đoạn tiếp theo, thông tin phân tích dự đoán ngắn hạn bậc 8 được thực hiện sau mỗi 20ms Để tối ưu hóa lượng tử hóa, các tham số dự đoán được mã hóa theo thang logarit LAR.
Trong đó km đ−ợc cho bởi công thức (2.81) số bit đ−ợc phân bố cho 8 hệ số này nh− sau: LAR(1) ÷ LAR(8) = {6/6/5/5/4/4/3/3}
Sau khi giải mã, các khung con được xác định thông qua nội suy tuyến tính giữa các khung khác nhau Hệ số LAR của các khung con được chuyển đổi thành hệ số phản xạ nhằm tạo ra phần dự đoán Các tham số liên quan đến độ lợi và độ trễ của dự đoán dài hạn cũng được xem xét.
LTP đ−ợc tính toán sau mỗi khung con và đ−ợc mã hoá t−ơng ứng bằng 7 và 2 bit
Bộ mã hoá GSM đạt đ−ợc MOS trong khoảng 3,47 ữ 3,9 với độ phức tạp 5 6 MIPS ữ đã trở thành chuẩn ETSI.
Dự đoán tuyến tính kích thích mã CELP
Hình 2.34 trình bày phân tích theo phương pháp CELP, trong đó sử dụng sách mã gồm 1024 véctơ, mỗi véctơ tương ứng với 40 mẫu (5ms) Hệ số độ lợi và véctơ kích thích được lọc qua bộ lọc tổng hợp ngắn hạn và dài hạn, với mục tiêu chọn véctơ "tối ưu" đảm bảo sai số MSE ở mức tối thiểu Tuy nhiên, thuật toán CELP gặp khó khăn do yêu cầu tính toán lớn, cần bộ xử lý 20 MIPS và sách mã 40 kbyte Để khắc phục vấn đề này, có thể áp dụng một số phương pháp như xây dựng cấu trúc sách mã thuận tiện cho việc tìm kiếm và sử dụng thuật toán tìm kiếm nhanh.
Bộ mã hoá CELP cung cấp chất lượng âm thanh tốt ở tốc độ 8 kb/s và bộ mã hoá 4 kb/s đã được chấp nhận làm chuẩn bán tốc cho điện thoại di động Bắc Mỹ Nhiều nỗ lực đã được thực hiện để phân bổ số bit động cho kích thích và các tham số LP nhằm giảm tốc độ mã Một hướng nghiên cứu khác là phân chia các đoạn xử lý thành hữu thanh, vô thanh và trung gian, sau đó chia nhỏ hơn ở mỗi loại Bộ mã hoá PS-VXC hoạt động ở tốc độ 3,6 kb/s nhưng vẫn duy trì chất lượng tương đương với bộ mã hoá CELP cổ điển 4,8 kb/s Nhìn chung, các bộ mã hoá CELP mang lại chất lượng tiếng nói tốt ở tốc độ thấp và nhiều thuật toán dựa trên CELP đã được công nhận là chuẩn quốc gia và quốc tế.
Thuật toán CELP với tốc độ 4,8 kb/s đã được Bộ Quốc phòng Mỹ phê duyệt cho hệ thống thông tin thoại bảo mật thế hệ ba, đồng thời trở thành chuẩn FS1016 CELP Sơ đồ tổng hợp của thuật toán này được thể hiện trong Hình 2.35.
Hệ thống CELP cho chuẩn FS 1016 sử dụng mẫu tiếng nói với tần số 8 kHz, chia thành các khung 30ms và khung con 7,5ms Chuỗi kích thích CELP được tạo ra từ hai véctơ thành phần, với mã thích nghi và thống kê, cùng với độ lợi ga và gs Sau mỗi khung con, véctơ kích thích được lựa chọn để tối thiểu hóa sai số Sách mã được tìm kiếm tuần tự từ mã thích nghi, trong khi độ trễ LTP được xác định từ 128 giá trị nguyên và 128 giá trị không nguyên Độ phức tạp tính toán ước tính khoảng 16 MIPS, với giá trị DRT và MOS tương ứng là 91,5 và 3,2.
2.5.3.2 Dự đoán tuyến tính kích thích tổng véc tơ
Thuật toán dự đoán tuyến tính VSELP do Gerson và Jasink phát triển đã được áp dụng trong lĩnh vực thông tin di động, bao gồm cả hệ thống tế bào số Với tốc độ 8 kb/s, VSELP được sử dụng trong các hệ thống thông tin di động tế bào số tại Bắc Mỹ Thuật toán này sử dụng sách mã có cấu trúc riêng biệt để giảm độ phức tạp tính toán và nâng cao khả năng chống nhiễu kênh Kích thích VSELP được tổng hợp từ ba vectơ trong ba sách mã, bao gồm sách mã thích nghi pitch và hai sách mã thống kê có cấu trúc riêng.
Tiếng nói được lấy mẫu ở tần số 8 kHz và đưa qua bộ lọc thông cao Chebyshev bậc bốn Thuật toán VELP xử lý khung có độ dài 20ms, chia thành 4 khung con 5ms Bộ lọc tổng hợp ngắn hạn bậc mười được sử dụng, với các hệ số phản xạ mã hóa theo khung với phân bố bit {6/5/5/4/4/3/3/3/3/2} Các tham số LPC ở mỗi khung con được nội suy tuyến tính, trong khi các tham số kích thích được cập nhật sau mỗi 5ms và mã hóa bằng lượng tử vector Sách mã được tìm kiếm tuần tự, chọn vector theo sai số MSE có trọng số tối thiểu Sách mã thích nghi (dự đoán dài hạn) được tìm kiếm trước trên hai sách mã còn lại, sử dụng cấu trúc mã Gray để chống nhiễu kênh, thuận lợi cho việc tìm kiếm đệ quy.
Thuật toán VSELP 8 kb/s có độ phức tạp cao, yêu cầu xử lý gần 20 MIPS và đạt MOS trong khoảng 3,45 đến 3,9 Bộ mã hoá VSELP 6,7 kb/s đã được công nhận là chuẩn thông tin di động tế bào số tại Nhật Bản.
2.5.3.3 M ∙ hoá 16 kb/s CELP độ trễ thấp
Một vấn đề lớn trong các phương pháp nén tiếng nói sử dụng mã hóa quyết định có trễ là thời gian xử lý Thời gian xử lý của bộ mã hóa thường tương ứng với 2 đến 4 khung dữ liệu, chưa bao gồm mã hóa kênh Với thuật toán CELP bình thường, khung dữ liệu 20ms sẽ dẫn đến độ trễ khoảng 60ms CCITT đã nghiên cứu và đưa ra trong khuyến nghị G một thuật toán hoạt động với tốc độ dữ liệu.
Tốc độ 16 kb/s với độ trễ thấp được áp dụng cho thông tin toàn cầu nhờ vào hai yếu tố chính: sử dụng bộ dự đoán thích nghi ngược và véctơ kích thích ngắn (tương ứng với 5 mẫu) Cấu trúc của bộ mã hóa và giải mã LD-CELP, theo khuyến nghị G.728, được trình bày trong Hình 2.37.
Hình 2.37 Mã hoá và giải mã LD-CELP G.728
Kích th−ớc khung dữ liệu tiếng nói là trong LD-CELP là 2,5 ms và chia thành
Bộ dự đoán với bậc p = 50 cập nhật các tham số sau mỗi khung Xung kích thích được lựa chọn dựa trên giá trị lượng tử véctơ trong sách mã.
Thuật toán LD-CELP có độ trễ một chiều dưới 2ms và khả năng truyền thông tin báo hiệu như DTMF, đạt chất lượng tiếng nói với MOS từ 3,93 đến 4,1 Bộ mã hoá đã được triển khai trên chip AT&T DSP32C, yêu cầu khả năng tính toán là 10,6 MIPS và bộ nhớ 12,4 kbyte cho mã hoá, trong khi giải mã yêu cầu 8,06 MIPS và 13,8 kbyte bộ nhớ.
KÕt luËn
Trong chương 2, chúng tôi đã xem xét và đánh giá các phương pháp mã hóa tiếng nói khác nhau, mỗi phương pháp đều có những ưu điểm và nhược điểm riêng dựa trên mô hình áp dụng, cách tiếp cận và các sai số giới hạn Bảng 2.4 tóm tắt một số thuật toán mã hóa phổ biến, nêu rõ độ phức tạp và chất lượng tiếng nói.
Các thuật toán cổ điển vẫn giữ vai trò quan trọng về mặt phương pháp luận, trong khi các thuật toán mới tập trung vào việc mã hóa hiệu quả để đạt được chất lượng tiếng nói cao với tốc độ dữ liệu thấp Tương lai hứa hẹn nhiều tiến bộ trong các phương pháp phân tích mới như dự đoán phi tuyến, biểu diễn đa phân giải miền thời gian-tần số, và tối ưu hóa theo hướng "thân thiện" với cơ quan thính giác, cùng với việc đánh giá chất lượng tiếng nói, vẫn thu hút sự quan tâm lớn từ các nhà nghiên cứu.
Ch−ơng 3 : Ph−ơng pháp m∙ hoá tiếng nói kích thích đa
Giới thiệu mô hình mã hoá
Mô hình mã hoá tiếng nói kích thích đa năng được phát triển dựa trên ý tưởng của các nhà nghiên cứu D.W Griffin, J.S Lim và J.C Hardwick Tiếng nói được phân tích và tổng hợp thông qua mô hình này dưới dạng dòng dữ liệu số không nén với tốc độ mã hoá 7,2 kb/s Cấu trúc của bộ mã hoá và giải mã kích thích đa băng được trình bày trong Hình 3.1.
Hình 3.1 Bộ mã hoá tiếng nói kích thích đa băng
So với các bộ mã hoá tiếng nói truyền thống như Vocoder LPC, mô hình mới này nổi bật với khả năng tạo ra tiếng nói chất lượng cao ở tốc độ dữ liệu thấp Điều này đạt được nhờ vào việc sử dụng các thuật toán phức tạp để ước lượng các tham số mã hoá và giải mã một cách hiệu quả Thuật toán MBE được áp dụng cho khung dữ liệu tiếng nói 16 bit/mẫu, với tần số mẫu fs = 8kHz; 20 ms, 160 mẫu, cùng với hai cửa sổ phân tích w R (n) và w I (n).
Ph©n tÝch tiÕng nãi
Ước l − ợng pitch
Mục đích của ước lượng pitch là tìm ra pitch P 0 tương ứng với khung tiếng nói s w (n) "hiện tại" P 0 quan hệ với tần số cơ bản ωo:
Thuật toán ước lượng pitch cần đảm bảo tính liên tục giữa các khung, xem xét pitch "trước" và "sau" để quyết định pitch "hiện tại" Mối quan hệ giữa các khung tiếng nói được thể hiện trong Hình 3.3 Quá trình ước lượng pitch bao gồm hai bước chính.
- Khởi tạo giá trị P I thuộc tập sau P * = {21; 21,5; ; 122}
Để xác định pitch với độ chính xác cao, thuật toán ước lượng pitch sử dụng hai cửa sổ: w I (n) gồm 301 mẫu và w R (n) gồm 221 mẫu, với trung tâm của hai cửa sổ được đặt đồng nhất Sự chồng lấp giữa các cửa sổ so với kích thước khung 160 mẫu lần lượt là 141 mẫu và 61 mẫu.
Hình 3.3 Quan hệ giữa các khung dữ liệu
Hàm sai số E (P) đ−ợc dùng để đánh giá P trong tập hợp {21;21,5;
;122} Quá trình bám pitch sẽ đánh giá E (P) và chọn ra giá trị nh− trên H×nh 3.4 Ρ∧ I
Hình 3.4 Ước l−ợng pitch khởi tạo Hàm E (P) đ−ợc định nghĩa nh− sau:
(3.2) Trong đó : hàm r(t) đ−ợc định nghĩa tại t nguyên là :
Với t còn lại , r (t) dùng nội suy tuyến tính:
Kí hiệu là cận nguyên d−ới x (chỉ giá trị nguyên lớn nhất mà nhỏ hơn hoặc bằng x)
Tín hiệu tiếng nói qua bộ lọc thông thấp FIR 21 điểm (giá trị đ−ợc cho trong phụ lục) sẽ là :
Bám pitch được thực hiện để đảm bảo giá trị pitch giữa các khung liên tiếp chỉ thay đổi chậm, nhằm tránh sự biến thiên đột ngột có thể làm giảm chất lượng tiếng nói tổng hợp Mỗi khung sẽ có hai giá trị pitch được tính toán: một liên quan đến pitch của khung trước và một liên quan đến pitch của khung sau.
Giá trị pitch P của khung hiện tại cần đảm bảo tính liên tục với pitch liền trước theo yêu cầu:
Sai số tích luỹ trước CE B (P B ) được định nghĩa như sau:
Với Ρ ∧ B là giá trị làm E(P) tối thiểu
Vì pitch của các khung chưa xác định, thuật toán thực hiện như sau: giả thiết P0 cố định; P1 và P2 được tìm nhằm đảm bảo theo điều kiện tương tự như trong (3.6) và (3.7) Giá trị thu được tương ứng là CE, với sai số tích lũy trước đó.
F(P 0 ) đ−ợc định nghĩa nh− sau:
(3.9) Quá trình đ−ợc lặp với các giá trị P 0 trong tập hợp {21;21,5; ;122} Tập
CE F (P 0 ) đ−ợc so sánh và Ρ ∧ 0 đ−ợc xác định theo CE F (P 0 ) tối thiểu
Với P 0 tìm đ−ợc, tập giá trị { /2; /3;…; /n} đ−ợc xét để tìm giá trị gần nhất với các giá trị trong tập {P Ρ ∧ 0 Ρ ∧ 0 Ρ ∧ 0
*} với mỗi Ρ ∧ 0 /ncần thoả mãn điều kiện:
Giá trị /n nhỏ nhất thoả mãn sẽ đ ợc chọn là − nếu không có /n thoả mãn thì = Ρ ∧ 0 Ρ ∧ F Ρ ∧ 0 Ρ∧ F Ρ ∧ 0
* Chọn Ρ ∧ I : Giá trị Ρ ∧ I đ−ợc chọn từ Ρ ∧ B và Ρ ∧ F nh− sau:
Nếu không CE B ( Ρ ∧ B ) ≤ CE F (Ρ ∧ F ) thì Ρ ∧ I = Ρ ∧ B
Giá trị Ρ ∧ I chọn đ−ợc vẫn thuộc tập P * điều đó có nghĩa là nó đạt đ−ợc độ chính xác nửa mẫu
Thuật toán xác định pitch cải thiện độ chính xác của giá trị pitch lên một phần t−mẫu Các giá trị pitch được xem xét bao gồm: Ρ ∧ I - 9/8, Ρ ∧ I - 7/8, … ; Ρ ∧ I + 9/8, với các tần số cơ bản tương ứng theo công thức (3.1) và sai số E R (ω 0 ) Sơ đồ khối của thuật toán được trình bày trong Hình 3.5.
Giá trị ω ∧ otìm đ−ợc ứng với E R (ω 0 ) nhỏ nhất với E R (ω 0 ) đ−ợc định nghĩa nh− sau:
(3.13) Phổ tổng hợp SW (m, ω 0 ) đ−ợc cho bởi :
(3.14) với a l , b l và A l đ−ợc định nghĩa từ (3.14) đến (3.16):
(3.16) Hàm S ω (m) là DFT 256 điểm của s(n) w R (n)
Vì wR(m) là chuỗi thực đối xứng nên có liên hiệp phức W R * (m) = w R (n)
Số l−ợng các hài trên trong đoạn dữ liệu hiện tại đ ∧ L −ợc tính theo onh− sau: ω∧
Giá trị trên sẽ thuộc đoạn [9; 56] L ∧
Các giá trị , ta ∧ l b ∧ l −ơng ứng với 1 ≤ l ≤ đL ∧ −ợc tính theo công thức (3.18) &(3.19):
Quyết định V/UV
Quyết định tính hữu thanh/ vô thanh (V/UV) - (1≤ k ≤ ) thực hiện thông qua việc chia phổ ra băng và đánhgiá tính hữu thanh D ˆvk Kˆ ˆK k ở mỗi băng đó
Giá trị đˆK −ợc xác định theo (3.20):
Giá trị điều kiện với 1≤ ≤ k ˆK - 1 cho bởi:
(3.22) Tham số Dk: được so sánh với hàm lưu lượng θ ξ (k, o) sau: ω∧
(3.23) Với M (ξ) là hàm năng l−ợng đ ợc tính từ các tham số năng l ợng − −
(-1) là giá trị quyết định V/UV thứ k của khung dữ liệu liền trv ∧ k −ớc
Khi xác định lưu lượng, các tham số ξ LF , ξ HF , ξ 0 được tính cho mỗi đoạn dữ liệu hiện tại nh− sau:
Các tham số này đ−ợc dùng để cập nhật giá trị ξ max hay ξ max (0) của khung hiện tại nh− trên (3.26):
Trong đó ξmax(-1) là giá trị của khung liền trước Hàm năng lượng M(ξ) được tính theo tập các tham số trên theo (3.27):
(3.27) Nếu đánh giá Dk nhỏ hơn giá trị hàm lượng thì băng tương ứng được quyết định
3k 2 ˆ3k ˆa − ≤ ω ≤b ˆvk= 0 là hữu thanh nghĩa là, ng−ợc lại băng đó sẽ là vô thanhˆv k =1 Sơ đồ khối của quyết định đ−ợc cho trên Hình 3.6
Trừ băng cao nhất, độ rộng các băng khác là 3 Tùy thuộc vào quyết định V/UV của từng băng, tất cả các thành phần tần số trong băng đều có chung tính U/UV.
Ước l − ợng biên độ phổ
Sau khi quyết định U/UV, đường bao phổ được ớc lư ượng như trên Hình 3.7 Đường bao phổ trong băng được đặc tr ng bởi 3 biên độ phổ ư
Quan hệ giữa các băng tần và các thành phần biên độ phổ đ−ợc cho trên Hình 3.8
Với ˆv k = (hữu thanh), 3 biên độ phổ xác định theo (3.28)
(3.28) Với ˆv k =0(vô thanh), ta có:
Hình 3.7 Ước l−ợng biên độ phổ
H×nh 3.8 CÊu tróc b¨ng tÇn trong MBE Trong đó (3k-2 ≤ ≤ l 3k)
Riêng với băng tần cao nhất , đ−ờng bao phổ đ−ợc biểu diễn bởi thành phần biên độ là
Với giá trị tương ứng, các thành phần được tính toán theo công thức (3.28) và (3.29), trong đó 2 ˆvk ˆ ˆ k 2 l L− ≤ ≤ Các giá trị biên độ phổ được ước lượng trong dải 1≤− − l ≤ theo (3.17), và băng thấp nhất là a ˆ e.
1 ≤ ω≤ b 3 xác định bởi ; biên độ phổ một chiều đ−ợc gán bằng 0
Mã hóa và giải mã các tham số
Mã hóa và giải mã tần số cơ bản
Tần số cơ bản đ−ợc −ớc l−ợng có giá trị nằm trong khoảng
≤ ω ≤ Để đảm bảo có thể mã hóa ω 0 bằng 8 bít (với độ chính xác nữa mẫu), ta dùng giá trị ˆb 0 sau:
(3.30) Tần số cơ bản đ−ợc giải mã theo công thức (3.31) là theo giá trị nhận đ−ợc Từ đó các giá trị
K~và cũng đL ~ −ợc tính theo (3.32) và (3.33):
(3.33) Sơ đồ khối mã hóa và giải mã đ−ợc cho trên Hình 3.9
Hình 3.9 Mã hóa và giải mã tần số cơ bản Với dải giới hạn của ωˆ 0 , giá trị của ˆb 0 nằm trong dải sau: 0 ≤ ˆb 0 ≤ 207
Mã hóa và giải mã quyết định V/UV
Tập các quyết định U/UV với 1≤ k ≤ đ−ợc mã hóa thành nh trên − (3.34): ˆvk ˆk ˆb 1
Giá trị lượng tử ˆb 1 được biểu diễn bởi ˆKbit, trong khi đó tại phía thu, K ~ được giải mã tương ứng với V/UV với 1≤l ≤ Giá trị này phụ thuộc vào tần số ω = l và thuộc băng tần hữu thanh hoặc vô thanh theo công thức đã nêu.
1≤ ≤l L% (3.36) Hình3.10 là sơ đồ khối của quá trình mã hóa và giải mã quyết định V/UV
Hình 3.10 Mã hóa và giải mã quyết định V/UV
Mã hóa biên độ phổ
Quá trình mã hóa biên độ phổ được thể hiện trong Hình 3.11, trong đó các biên độ với 1 ≤ l ≤ được mã hóa thông qua việc tạo các phần dự đoán biên độ theo các công thức từ (3.37) đến (3.40).
Mã hóa biên độ phổ ˆL hay và (0) ˆL Mˆ l (0) phản ánh số hài và biên độ phổ của khung hiện tại, trong khi đó, số hài và biên độ phổ của khung liền trước cũng được thể hiện tương ứng.
Hệ số dự đoán ρ đ−ợc điều chỉnh sau mỗi khung theo công thức sau:
(3.40) Để tính theo công thức từ (3.37) đến (3.40) các giả thiết sau đ−ợc chấp nhËn: ˆT2
M% − =M% % − −1 víi l > L% ( ) − 1 khởi tạo bằng 1 với mọi l
Các phần d− dự đoán của đ−ợc chia thành 6 khối có độ dài t ơng ứng − (1≤ ≤i 6) Độ dài này đ−ợc điều chỉnh nhằm đảm bảo điều kiện sau: ˆL ˆJ i
Phụ lục này liệt kê độ dài các khối cho mỗi giá trị, trong đó khối tần số thấp nhất được xét bởi ˆL ˆc1,j với 1 ≤ j ≤, bao gồm các thành phần liên tiếp của (1 ≤ l ≤ ) Tương tự, khối thứ hai có ˆJ1 T ~ l ˆJ 1 ˆJ1 ˆc với 1 ≤ j ≤ 2,j, cũng bao gồm các thành phần liên tiếp của ˆJ2.
T J + ≤ ≤l J +J tính theo ˆJ 2 Và khối thứu 5 có ˆc với 1≤j 6,j ≤ bao gồm các thành phần liên tiếp cuối cùng của ˆJ6 ˆTl
( ) tính theo Trên hình 3.12 là ví dụ về phân chia các khối d− dự đoán với = 34 ˆ ˆ6
Hình 3.12 minh họa các khối d− dự đoán với = 34 ˆL, áp dụng biến đổi DCT cho các khối Độ dài DCT của khối thứ i được xác định với chỉ số khối ˆJi và ˆCi,k, trong đó 1≤i ≤ 6.
1 ≤ ≤ k là hệ số thành phần trong khối: ˆJ i
Các hệ số DCT của mỗi khối được phân chia thành hai nhóm Nhóm 1 bao gồm các hệ số DCT một chiều của các khối, tương ứng với một véc tơ 6 thành phần (1 ≤ i ≤ 6) Véc tơ này đại diện cho độ lợi với cấu trúc được mô tả trong hình 3.13.
Hình 3.13 Thành phần của vectơ độ lợi
Nhóm 2 gồm các hệ số DCT bậc cao còn lại, t−ơng ứng với ˆC ( 1≤ i ≤6; 2≤j i,j
Thuật toán mã hóa biên độ phổ sử dụng thông tin về biên độ phổ được truyền vi sai và phần dự đoán từ quá trình giải mã Việc mô phỏng phần hồi tiếp cho thấy sự thay đổi về đường bao phổ giữa khung hiện tại và khung trước đó Đặc điểm quan trọng là sử dụng biến đổi DCT của các hệ số DCT một chiều để tạo ra biên độ phổ được tái tạo từ khung liền trước, nhằm dự đoán biên độ phổ cho khung hiện tại.
Véc tơ độ lợi có thể đ−ợc ˆ dữ liệu tiếng nói hiện tại L−ợ ˆRi 1 ≤ i ≤ 6 nh− sau:
Véctơ kết quả m được coi là biểu diễn độ lợi tổng thể hoặc mức độ của đoạn dữ liệu, với phần này được lượng tử hóa không đều bởi 6 bit 6 bit ˆG được lấy 2 tương ứng với giá trị ˆG gần nhất Phần còn lại gồm năm thành phần được lượng tử hóa đều với các giá trị từ ˆb tới ˆb nh 3 7.
(3.45) Tham và m trong (3.45) là số bít và b−ớc l−ợng tử của mỗi thành phần Đây là những giá trị phụ thuộc vào số hài trong khung (xem phụ lụ
3.3.3.2 M ∙ hóa các hệ số DCT bậc cao
Các bit còn lại đ−ợc dùng để mã hóa hệ số DCT bậc cao Phụ lục cho phân bố
Với mỗi giá trị có - 6 thành phần ®
Lượng tử hóa vô hướng đều với bước lượng tử được trình bày trong Bảng 3.2, với các giá trị ˆb từ 3 đến m 7 được biểu diễn theo số bit tương ứng Các hệ số này được xác định là hàm của ˆL, từ đó tạo ra các giá trị [b , b , …, ˆ ˆ 8 9 ˆb ˆL 1 + ⎤⎦.
C Sau đó, các hệ số DCT bậc cao này đ−ợc ˆb 8
Bảng 3.2 B−ớc l−ợng tử cho hệ số DCT bậc cao và độ lệch chuẩn cho trên Bảng 3.3
Bảng 3.3 Độ lệch chuẩn của hệ số DCT bậc cao Khi có phân bố bit và b−ớc l−ợng tử, giá trị mã hóa với 8 ≤m đ−ợc tính theo (3.46): ˆbm ≤ˆL 1+
(3.46) với ý nghĩa các thành phần t−ơng tự nh− trong (3.45) và chú ý là:
(3.47) Sau cùng, mỗi giá trị l−ợng tử đ−ợc biểu diễn bởi số bit nhị phân t−ơng ứng.
Giải mã biên độ phổ
Độ giải mã và tái tạo biên độ phổ được xác định từ các tham số tính toán theo công thức (3.31) và (3.32) Hình 3.14 minh họa sơ đồ khối cho quá trình giải mã hiệu biên độ phổ.
L% b% 0 tiên phải thực hiện là chia biên độ phổ ra sáu khối, J% i với 1 ≤ i ≤ 6 thỏa mãn điều kiện t−ơng tự (3.41) và (3.42)
Các thành phần của mỗi khối là i,k với 1≤ i ≤ 6 và 1≤k Trong đó thành phần đầu tiên của mỗi khối đ−ợc xác định nh− sau
(3.48) mỗi khối t−ơng ứng với các hệ số DCT bậc cao
Các thành phần còn lại của
Hình 3.14 Giải mã biên độ phổ
Véc tơ độ lợi được giải mã thành hai phần chính, với sáu bít được giải mã theo phụ lục E Năm giá trị lượng tử được giải mã thành các thành phần cụ thể Quá trình này được thực hiện dựa trên phụ lục theo giá trị đã xác định Mối quan hệ giữa giá trị lượng tử và các thành phần véc tơ được thể hiện rõ ràng trong công thức (3.49).
Véc tơ độ lợi R% i với 1≤ 6 đ−ợc tính theo biến đổi IDCT nh− sau: (3.50)
3.3.4.2 Giải m ∙ các hệ số DCT bậc cao
Các hệ số DCT bậc cao với 2 ≤ i ≤ 6 và 1 ≤ k ≤ đ−ợc giải mã từ theo phụ lục, kết hợp với bảng 3.2 và bảng 3.3 nh− sau:
(3.52) với quan hệ m, i, k nh− trong (3.47)
Các véc tơ thành phần c% i,j của sáu khối là kết quả của biến đổi IDCT sau:
(3.54) ổ T ~ l với 1≤ l ≤ L% đ−ợc khôi phục với ), … J % 1
Phần dự đoán biên độ ph và J% bao gồm 6 thành phần cuối cùng, được biểu diễn bằng c% 1, j (1 ≤ j ≤ J% 1), … và c% 6, j (1 ≤ j ≤ J% 6) Cuối cùng, biên độ phổ log 2 của khung hiện tại được khôi phục theo công thức từ (3.55) đến (3.57).
(3.57) với giả thiết nh− trong mục 3.3.3 khi tính Điều chú ý khi giải mã ta đã coi
Tl ˆL L=% và thực tế để đạt đ−ợc nh− vậy cần thực hiện các biện pháp chống lỗi trong phần 56 bít điều khiển lỗi.
Tổng hợp tiếng nói
Tổng hợp thành phần tiếng nói vô thanh
Chuỗi nhiễu trắng u(n) đ−ợc tạo ra nh− sau:
(3.58) với giá trị khởi tạo u(-105) = 3147
Trong mỗi khung tổng hợp nối tiếp, tín hiệu u(n) được dịch đi 20ms (tương đương 160 mẫu) và được xử lý bằng cửa sổ dài 209 mẫu Kết quả là có 49 mẫu chồng lấp giữa tín hiệu nhiễu, với DFT 256 điểm được tính toán theo phương pháp đã đề cập.
−ợc dùng trong các khung tổng hợp liên tiếp
(3.59) có dạng t−ơng tự nh− trong (3.16) với u( n tha ta có định nghĩa theo (3.60) nếu
.61) nếu biên độ phổ thứ l là vô thanh
U w S w (m) n) và w S ( ) đ−ợc y thế bởi s(n) và w R (n ) Từ U w (m) víi ( 0 )
Uw biên độ phổ thứ l là hữu thanh hay theo (3
(3.61) trong đó γ W Ư là hàm của w S (n) và w R (n ) theo công thức sau:
(3.62) và a ∧ l ,b ∧ l là giới hạn của băng tần đ−ợc tính từ w ~ 0 theo (3.36) và (3.64):
Các thành phần tần số rất thấp và rất cao của Uw m đ−ợc thiết lập bằng 0 nh− sau:
(3.65) Chuỗi w(n) là kết quả của IDFT chuỗi ( )
(3.66) Để tạo ra ( ), phải kết hợp âm vô thanh của khung liền tr
~ n s v −íc theo thuËt toán cộng chồng lấp có trọng số:
Với = 0 ngoài khoảng [-105 ; 105] và =0 ngoài khoảng [-128 ;127].
Tổng hợp thành phần tiếng nói hữu thanh
Thuật toán tổng hợp tiếng nói hữu thanh cố gắng làm biên độ phổ thứ l của
~ n uw khung hiện tại gần với biên độ thứ l của khung liền trước:
(3.68) với giả thiết biên độ phổ ngoài khoảng cho phép bằng 0
Tín hiệ n đ eo qua ệ giữa hiện tại và khung liền tr−ớc nh− sau: u , s~ v l −ợc tính cho mỗi biên độ phổ th n h biên độ phổ thứ l và của khung
- Nếu cả hai đều là vô thanh:
(3.69) nghĩa là năng l−ợng phổ chỉ đ−ợc tạo bởi thuật toán tổng hợp âm vô thanh trong 3.4.1
- Nếu chúng t ơng ứng là vô thanh và hữu thanh: −
- Nếu chú − ng ứng là hữu thanh và vô thanh:
- Nếu cả hai đều là hữu thanh và nếu l 8 hoặc ≥ | (0) ( 1)| 0.1 0(0):
- Nếu cả hai đều là hữu thanh và nếu l < 8 và |ω (0)−ω (−1)|