Đặc điểm của hệ thống mã hóa âm thanh đa kênh MPEG- 123docz.net

6. Ý nghĩa khoa học và thực tiễn của đề tài

1.5.4. Đặc điểm của hệ thống mã hóa âm thanh đa kênh MPEG-2

Hình 1.11 Khung âm thanh đa kênh lớp II ISO/IEC 13818-3 (Âm thanh MPEG-2) bao gồm phần tƣơng thích MPEG-1 và phần mở rộng [29]

Hệ thống truyền thanh số đa kênh dùng cho lưu trữ âm thanh, cũng như các ứng dụng khác, phải đáp ứng một số yêu cầu cơ bản và một số tính năng kỹ thuật truyền. Trong vài năm tới, âm thanh nổi sẽ đóng vai trò chính đối với hầu hết các ứng dụng tiêu dùng, hai kênh tính tương thích là một trong những yêu cầu cơ bản. Các yêu cầu quan trọng khác là khả năng tương tác giữa các phương tiện khác nhau, khả năng tương thích giảm với các định dạng âm thanh gồm một số lượng kênh âm thanh nhỏ hơn, do đó cung cấp giảm hiệu suất âm thanh vòm.

Việc cung cấp càng nhiều các ứng dụng và phương tiện nhất bao gồm các dịch vụ đa ngôn ngữ, đối thoại rõ ràng và nén dải động. Âm thanh MPEG-2 cho phép một loạt các tốc độ bit từ 32kbit/s đến 1066kbit/s..

Tất cả thông tin về tín hiệu âm thanh nổi tương thích phải được lưu trong phần tương thích MPEG-1. Trong trường hợp này, khung âm thanh MPEG-2 gồm tương thích với MPEG-1 và các bộ phận mở rộng không tương thích. MPEG-1 tiêu chuẩn cung cấp tối đa 448kbit/s cho lớp I và 384kbit/s cho lớp II. Do đó, luồng bit mở rộng phải cung cấp tốc độ bit bổ sung là cần thiết. Nếu, trong trường hợp của lớp II, tổng số 384kbit/s được chọn, thì dòng bit mở rộng được bỏ qua. Chuẩn MPEG-2 không yêu cầu cố định tốc độ bit và trong các ứng dụng chẳng hạn như truyền qua ATM hoặc các ứng dụng lưu trữ như DVD tốc độ bit thay đổi được sử dụng. Các đánh giá chất lượng [7, 29] cho rằng tốc độ bit khoảng 512 đến 640kbit/s sẽ đủ để cung cấp chất lượng âm thanh để truyền âm thanh đa kênh sử dụng âm thanh MPEG-2 Layer II mã hóa (truyền không nén năm tín hiệu sẽ cần tốc độ thực là 5x768 = 3.840 kbit/s)

1.6. Phƣơng pháp mã hóa âm thanh

Việc tính toán hệ số tỷ lệ cho mỗi dải con được thực hiện cho một khối gồm 12 mẫu dải con. Giá trị tuyệt đối lớn nhất của 12 mẫu này được xác định và định lượng với độ dài từ là 6bit, bao gồm dải động tổng thể là 120dB trên mỗi dải con với độ phân giải 2dB trên mỗi lớp hệ số thang đo. Trong lớp I, một hệ số tỷ lệ được truyền cho mỗi khối và mỗi băng con, không có phân bổ bit 0, lớp II sử dụng mã hóa bổ sung để giảm tốc độ truyền cho các hệ số tỷ lệ. Do thực tế là trong lớp II, một khung tương ứng với 36 mẫu dải con, tức là có độ dài gấp ba lần chiều dài của khung lớp I, về nguyên tắc phải truyền ba hệ số tỷ lệ. Ba hệ số tỷ lệ liên tiếp của mỗi dải con của một khung được xét cùng nhau và được phân loại thành các mẫu hệ số tỷ lệ nhất định. Tùy thuộc vào mẫu, một, hai hoặc ba hệ số tỷ lệ được truyền cùng với thông tin lựa chọn hệ số tỷ lệ bổ sung bao gồm 2 bit trên mỗi băng tần con. Nếu chỉ có sai lệch nhỏ từ hệ số tỷ lệ này sang hệ số tỷ lệ tiếp theo, thì chỉ có độ lệch lớn hơn được truyền đi.

1.6.1. Phân bổ bit và mã hóa thông tin phân bổ bit

Trước khi điều chỉnh tốc độ bit cố định, số lượng bit có sẵn để mã hóa các mẫu phải được xác định, phụ thuộc vào số lượng bit cần thiết cho hệ số tỷ lệ, thông tin chọn hệ số tỷ lệ, thông tin phân bổ bit và dữ liệu phụ trợ. Thủ tục cấp phát bit được xác định bằng cách giảm thiểu tổng tỷ lệ nhiễu trên mặt nạ trên mọi băng tần con và toàn bộ khung hình. Thủ tục này là một quá trình lặp lại, trong đó, trong mỗi bước lặp, số lượng mức định lượng của dải con có lợi ích lớn nhất được tăng lên với điều kiện là số lượng bit được sử dụng không vượt quá số lượng bit có sẵn cho khung đó. Lớp II chỉ sử dụng 4 bit để mã hóa thông tin phân bổ bit cho mức thấp nhất và chỉ 2 bit cho dải phụ cao nhất trên mỗi khung âm thanh.

1.6.2. Định lượng và mã hóa các mẫu băng tần con

Đầu tiên, mỗi mẫu trong số 12 mẫu dải con của một khối được chuẩn hóa bằng cách chia giá trị của nó cho hệ số tỷ lệ. Kết quả lượng tử hóa được theo số lượng bit được chi tiêu bởi khối cấp phát bit. Chỉ các số lẻ của mức lượng tử cho phép biểu diễn chính xác số 0 kỹ thuật số. Lớp I sử dụng 14 lớp lượng tử khác nhau, chứa 2n - 1 bước, với 2n - 15 mức lượng tử khác nhau. Ngoài ra, không có phép lượng tử hóa nào được sử dụng, nếu không có bit nào được phân bổ cho một băng tần con. Trong lớp II, số lượng các mức lượng tử khác nhau phụ thuộc vào số dải con, nhưng phạm vi của các mức lượng tử luôn nằm trong khoảng từ 3 đến 65535 với khả năng bổ sung là hoàn toàn không lượng tử hóa. Các mẫu của dải con trong vùng tần số thấp có thể được định lượng với 15, ở dải tần trung với bảy, và ở dải tần cao chỉ với ba mức lượng tử khác nhau. Các lớp có thể chứa 3, 5, 7, 9, 15, 63 ,. . . , 65535 mức định lượng. Vì các mức định lượng 3, 5 và 9 không cho phép sử dụng hiệu quả từ mã, chỉ gồm 2, 3 hoặc 4 bit, ba mẫu dải con liên tiếp được nhóm lại với nhau thành một ''hạt'', sau đó, hạt được mã hóa bằng một từ mã. Mức tăng mã hóa bằng cách sử dụng nhóm lên

đến 37,5%. Vì nhiều dải con, đặc biệt là trong vùng tần số cao, thường được định lượng với chỉ 3, 5, 7 và 9 mức định lượng, nên hệ số giảm độ dài của các từ mã là đáng kể.

1.6.3. Cấu trúc luồng bit lớp II

Luồng bit của lớp II được xây dựng theo cách sử dụng một bộ giải mã có độ phức tạp thấp, độ trễ giải mã thấp và tín hiệu âm thanh được mã hóa chứa nhiều điểm vào với khoảng thời gian ngắn và không đổi. Biểu diễn kỹ thuật số được mã hóa của một thuật toán mã hóa hiệu quả đặc biệt thích hợp cho ứng dụng lưu trữ phải cho phép nhiều điểm vào trong luồng dữ liệu được mã hóa để ghi, phát, chỉnh sửa chuỗi âm thanh ngắn và xác định chính xác vị trí chỉnh sửa. Đối với truyền thanh số, điều này rất quan trọng để cho phép chuyển đổi nhanh chóng giữa các âm thanh khác nhau. Để cho phép thực hiện đơn giản bộ giải mã, khung giữa các điểm nhập đó phải chứa tất cả thông tin cần thiết để giải mã luồng bit. Do các ứng dụng khác nhau, một khung như vậy phải mang thêm tất cả các thông tin cần thiết để cho phép một phạm vi mã hóa lớn với nhiều tham số khác nhau. Trong quá trình truyền sóng, các điểm nhập thường xuyên trong luồng bit là cần thiết để cho phép dễ dàng che giấu khối các mẫu bị lỗi liên tiếp bị suy giảm do lỗi cụm định dạng của luồng bit âm thanh được mã hóa cho lớp II. Các khung âm thanh tự động, ngắn tương ứng với 1152 mẫu PCM đặc trưng cho cấu trúc của luồng bit. Mỗi khung âm thanh bắt đầu với một tiêu đề, sau đó là thông tin phân bổ bit, hệ số tỷ lệ và các mẫu dải con được lượng hóa và mã hóa. Ở cuối mỗi khung âm thanh là trường dữ liệu phụ trợ có độ dài thay đổi có thể được chỉ định cho các ứng dụng nhất định. Mỗi khung được truy cập và giải mã riêng. Với tần số lấy mẫu 48kHz, thời lượng khung hình là 24ms cho lớp II.

Hình 1.12 Cấu trúc khung âm thanh luồng bit mã hóa MPEG-1 Lớp 2 [28]

1.6.4. Giải mã âm thanh lớp II

Sơ đồ khối của bộ giải mã được thể hiện trên hình, trước hết, thông tin tiêu đề, kiểm tra CRC, thông tin bên (tức là thông tin phân bổ bit với hệ số tỷ lệ) và 12 mẫu liên tiếp của mỗi tín hiệu dải con được trích xuất từ luồng bit ISO/ MPEG/AUDIO lớp 2. Quá trình tái tạo để thu âm thanh PCM được đặc trưng bằng cách điền vào định dạng dữ liệu của các mẫu dải phụ liên quan đến hệ số tỷ lệ và phân bổ bit cho mỗi dải phụ và khung. Bộ lọc tổng hợp tái tạo lại tín hiệu âm thanh băng thông rộng hoàn chỉnh với băng thông lên đến 24kHz. Quá trình giải mã cần tính toán hơn so với quá trình mã hóa. Do công suất tính toán thấp cần thiết và cấu trúc đơn giản của thuật toán, lớp 2 dễ dàng được ứng dụng trong các chip đặc biệt như VLSI.

Hình 1.13 Sơ đồ khối của bộ giải mã MPEG-1 Audio Layer II

Kênh bên trái

Kênh bên phải Băng tần nghịch

đảo 32 băng con Các băng con Giải mã Phân kênh và kiểm tra lỗi Luồng bit MPEG-1 lớp II

Dữ liệu liên quan đến chương trình

` Hệ thống mã hóa nguồn EU147/DAB cho phép bộ thu truyền thanh số sử dụng bộ giải mã MPEG-1 và MPEG-2 Layer II. Việc phát tín hiệu số, kỹ thuật mã hóa MPEG Audio lớp 2 và luồng bit âm thanh mã hóa được sử dụng trong một số ứng dụng khác, bao gồm đóng góp giữa các phòng thu. Các ứng dụng yêu cầu một sơ đồ mã hóa linh hoạt cung cấp nhiều thông số, đặc biệt liên quan đến tốc độ bit, chế độ âm thanh (tuy theo từng chế độ như, mono, stereo và đa kênh), mức độ bảo vệ của dòng bit được mã hóa và khả năng mang theo chương trình liên kết dữ liệu (PAD), cho phép các ứng dụng hoàn toàn mới.

1.6.5. Tốc độ lấy mẫu và độ phân giải đầu vào

Thuật toán mã hóa âm thanh của DAB cho phép hai tốc độ lấy mẫu: 48kHz và 24kHz. Tốc độ lấy mẫu cao hơn được chọn để có băng thông âm thanh đầy đủ là 20kHz cho tín hiệu truyền và cho phép phát trực tiếp tín hiệu thu mà không cần chuyển đổi tốc độ lấy mẫu. Chất lượng âm thanh của tín hiệu PCM được cải thiện khi tăng độ phân giải của tín hiệu đầu vào. Do đó, tiêu chuẩn MPEG Audio Layer II xử lý độ phân giải của tín hiệu đầu vào lên đến 22bit/mẫu. Tốc độ bit thấp hơn được chọn để cung cấp chất lượng cao, đặc biệt đối với tín hiệu giọng nói ở tốc độ bit rất thấp, ở tốc độ bit 64kbit/s trên mỗi kênh. Điều này không có nghĩa là một tần số lấy mẫu mới sẽ được đưa ra bên ngoài hệ thống DAB. Thay vào đó, bộ lọc lấy mẫu xuống từ 48kHz đến 24kHz trong bộ mã hóa âm thanh và bộ lọc lấy mẫu lên từ 24kHz đến 48kHz trong bộ giải mã được sử dụng.

1.6.6. Tốc độ bit âm thanh

Tốc độ bit là số lượng bit được truyền đi hay lưu trữ trong một đơn vị thời gian. C  f ns. (bit/s) (1.4)

trong đó: fs là tần số lấy mẫu; n là số bit nhị phân trong một ký hiệu;

C là tốc độ bit

Dung lượng kênh truyền tín hiệu số: Là tốc độ số liệu cực đại có thể truyền được trên kênh truyền có độ rộng băng tần B.

.log (1 / N)

trong đó: Cb

là dung lượng kênh truyền tín hiệu số, S/N là tỷ số tín hiệu trên tạp âm trắng, B là băng thông kênh truyền (Hz).

Tốc độ bit càng lớn thì tín hiệu tương tự khôi phục lại càng trung thực, tuy nhiên nó sẽ làm cho dung lượng lưu trữ và băng thông kênh truyền càng lớn. Trong thực tế để truyền tín hiệu có tốc độ bit là C (bits/s) thì cần băng thông kênh truyền là: B C

4 3

 (Hz).

Ví dụ: với n = 4, fs = 44,1Khz,

thì tốc độ truyền thông tin là : C = n x fs = 4 x 44,1 = 3

176,3.10 bits/s, và độ rộng băng tần là: B C 4 3  = x 176,4.10 132,3Khz 4 3 3  .

Tùy thuộc vào loại chương trình, số lượng chương trình trong bộ ghép kênh DAB và mức bảo vệ, các tốc độ bit khác nhau trong phạm vi 32 đến 192 kbit/s ở chế độ kênh đơn có thể được chọn tại bộ mã hóa âm thanh. Việc lựa chọn tốc độ bit không hoàn toàn độc lập với chế độ âm thanh. Bất kỳ sự kết hợp nào đều được sử dụng trong bộ ghép kênh DAB [15].

Hình 1.14 Cấu trúc khung âm thanh DAB

SCFSI STUFF Mào đầu CRC Bit ứng dụng X-PAD F- PAD SCF- CRC Hệ số quy mô Mẫu Băng con PAD SCF-CRC F-PAD X- Kích thước X-PAD 4 byte byte L-1 byte L ... ... ... ... Dữ liệu âm thanh

Bảng 1.3. Tốc độ bit cho tốc độ lấy mẫu 48kHz và 24kHz Tốc độ lấy mẫu 48 kHz 24 kHz Chế độ (kbit/s) Đơn Âm thanh đôi (Dual)

Âm thanh nổi (Stereo) Tất cả (kbit/s) Tốc độ bit Tốc độ bit 32 x 8 48 x 16 56 x 24 64 x x x 32 80 x 40 96 x x x 48 112 x x x 56 128 x x x 64 160 x x x 80 192 x x x 96 224 x x 112 256 x x 128 320 x x 144 348 x X 160

Đối với phần mở rộng đa kênh phạm vi tốc độ bit rộng cho phép các ứng dụng tốc độ bit thấp, chất lượng âm thanh cao; ví dụ, nếu chỉ có một quá trình mã hóa phải được xét và tránh được việc phân tầng. Đồng thời, cũng cho phép các ứng dụng có tốc độ dữ liệu cao lên đến khoảng 180kbit/s trên mỗi kênh được mong muốn nếu phải tính đến việc phân tầng hoặc xử lý hậu kỳ. Các thí nghiệm được thực hiện bởi ITU-R [18] đã chỉ ra quá trình mã hóa được lặp lại chín lần với MPEG-1 Layer II mà không có bất kỳ sự suy giảm nào, nếu tốc độ bit đủ cao, tức là 180kbit/s mỗi kênh. Tuy nhiên, nếu tốc độ bit chỉ là 120kbit/s, không xảy ra quá ba quá trình mã hóa. Dịch vụ âm thanh và ứng dụng 8514 tốc độ bit khác nhau trong phạm vi 8 đến 160kbit/s có thể được chọn. Phạm vi tốc độ bit rộng cho phép các ứng dụng tốc độ bit thấp và chất lượng âm thanh cao.

1.6.7. Tƣơng thích lùi / tiến với MPEG-1

Hình 1.15. Tƣơng thích nghịch đảo của âm thanh MPEG-2 với MPEG-1

Bộ giải mã âm thanh đa kênh phải tương thích ngược và chuyển tiếp với định dạng âm thanh hai kênh hoặc đơn âm hiện có. Khả năng tương thích ngược nghĩa là bộ giải mã hai kênh hiện có giải mã thông tin âm thanh nổi cơ bản từ luồng bit đa kênh. Sử dụng hệ số downmix thích hợp để tạo ra âm thanh nổi tương thích tín hiệu Lo và Ro. Ma trận nghịch đảo để khôi phục các kênh âm thanh riêng biệt trong bộ giải mã MPEG-2 cũng được hiển thị trong cùng một hình. Các phương trình ma trận cơ bản được sử dụng trong bộ mã hóa để chuyển đổi năm tín hiệu đầu vào L, bốn thủ tục ma trận với các hệ số a, b và khác nhau đã được xác định, được chọn trong bộ mã hóa đa kênh MPEG-2. Ba trong số các thủ tục này thêm tín hiệu trung tâm với độ suy giảm 3dB vào tín hiệu L và R. Bao quanh tín hiệu LS và RS được thêm vào L, tương ứng R, các tín hiệu có suy giảm 3dB hoặc 6dB. Khả năng quá tải tín hiệu âm thanh nổi tương thích Lo và Ro bị tránh bởi hệ số suy giảm được sử dụng trên các tín hiệu riêng lẻ L, R,C, LS và RS trước khi tạo ma trận. Một trong những quy trình này cung cấp khả năng tương thích với giải mã Dolby Surround1. Định dạng hai kênh, khả năng tương thích được hiện thực hóa trong MPEG-1. MPEG-2 cho phép các đường truyền như vậy được mở rộng đến định dạng năm kênh đầy đủ, rời rạc. Quy trình thứ tư

M a tr ận G