Giải thuật MPEG1Layer 3

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu đưa sản phẩm âm thanh thương mại lên internet và áp dụng vào báo điện tử đài tiếng nói việt nam (Trang 49 - 53)

2.2. Kỹ thuật nén MPEG1 layer 3 (MP3)

2.2.5. Giải thuật MPEG1Layer 3

Sơ đồ sau miêu tả giải thuật giải thuật mã hoá lớp 3 theo các khối cơ sở của bộ mã hoá cảm giác.

Hình 2.1. Chỉ ra sơ đồ khối của bộ mã hoá MP3 điển hình

* Ngăn lọc phân tích

Ngăn lọc đƣợc sử dụng trong MP3 thuộc lớp các ngăn lọc lai ghép. Đƣợc hình thành bởi sự kế hợp giữa ngăn lọc nhiều pha và ngăn lọc “biến đổi cosin rời rạc cải biên” (Modified Discrete Cosine Transform (MDCT)). Sự kết hợp này sẽ cho sự phân giải tần số mịn hơn. Tín hiệu vào đầu tiên đƣợc chia thành 32 băng tần con bằng bộ lọc nhiều pha và sau đó MDCT đƣợc dùng cho 18 mẫu trong mỗi băng tần con. Ý tƣởng về bộ lọc 2 tần số đầu tiên đƣợc dùng trong

công trình “Subband/Transform Coding using filter bank design based in time domain aliasing cancellation”J.Princen, A.Johnson. Nó tạo ra khả năng cung cấp các bộ phân giải thời gian tần số của tai ngƣời. Trong lớp 3, thƣờng các bộ phân giải đƣợc giữ trong suốt dải tần. Vì vậy, nó tạo ra tăng ích chuyển đổi tối đa cho các tín hiệu tĩnh. Khi cần thiết, một phần của bộ lọc MDCT có thể chuyển đổi sang độ phân giải thấp hơn và phân giải thời gian cao hơn.

* Mô hình cảm giác

Mô hình cảm giác quyết định chính tới chất lƣợng đƣợc bổ xung vào bộ mã hoá. Khi phần thông tin ban đầu trong chuẩn đƣợc viết, nhiều công việc đƣợc đƣa vào phần của bộ mã hoá. Mô hình cảm giác hoặc sử dụng ngăn lọc riêng hoặc bao hàm việc tính toán các giá trị khẩn (đối với tính toán mặt lạ) và ngăn lọc chính. Đầu ra của mô hình cảm giác gồm có những giá trị cho ngƣỡng mặt lạ hoặc tiếng ồn đƣợc phép đối với mỗi phần mã hoá. Trong lớp 3, Những phần mã này là xấp xỉ tƣơng đƣơng với các dải tới hạn của tai ngƣời. Nếu tiếng ồn lƣợng tử có thể đƣợc giữ sau ngƣỡng mặt lạ đối với mỗi phần mã thì khi đó kết quả nén sẽ không thể phân biệt đƣợc từ tín hiệu ban đầu.

* Lƣợng tử hoá và mã hoá

Lớp 3 sử dụng lƣợng tử hoá phi tuyến. Công thức: is(i) = nint(((xr(i)/quant) x 0,75) –0,0946)

Với xr(i) là giá trị tuyệt đối của dòng tần số với chỉ số i; quant là bƣớc lƣợng tử hoá thực tế; nint là giá trị nguyên gần nhất; is(i) là giá trị lƣợng tử tuyệt đối tại chỉ số i. Một hệ thống của hai vòng lặp đƣợc lồng vào nhau là giải pháp chung cho lƣợng tử hoá và mã hoá trong bộ mã hoá lớp 3. Lƣợng tử hoá đƣợc làm thông qua bộ lƣợng tử power-law. Những giá trị lƣợng tử đƣợc mã hoá bởi mã Huffman. Để thích ứng với quá trình mã hoá thông tin cục bộ khác nhau của những tín hiệu âm nhạc, Bảng mã Huffman đƣợc lựa chọn. Mã

Huffman làm việc trên các cặp, trong trƣờng hợp những số rất nhỏ đƣợc mã hoá thì chúng đƣợc nhân lên. Việc thích ứng tốt hơn đối với thông tin tín hiệu, những bảng mã Huffman khác nhau có thể đƣợc lựa chọn đối với những phần khác nhau của phổ. Khi đó mã Huffman là cơ sở phƣơng pháp chiều dài mã khả dụng và bởi vì định dạng ồn sẽ phải giữ tiếng ồn lƣợng tử dƣới ngƣỡng mặt lạ, giá trị tăng ích tổng (mà quyết định kích kỡ bƣớc lƣợng tử) và những hệ số phạm vi (scalefactors) (mà quyết định những hệ số dạng ồn đối với mỗi băng hệ số phạm vi) đƣợc đáp ứng trƣớc khi lƣợng tử hoá thực. Quá trình xử lý để tìm hệ số tăng ích ƣu tiên và những hệ số phạm vi đối với một khối, tốc độ bit đƣợc đƣa và đầu ra mô hình cảm giác thì luôn luôn đƣợc làm bởi hai vòng lặp trong cách phân tích tổng hợp:

- Vòng lặp vào (vòng tốc độ)

Bảng mã Huffman chỉ định những từ mã ngắn hơn đối với những giá trị lƣợng tử nhỏ hơn. Nếu số bit thu đƣợc từ xử lý mã vƣợt quá số lƣợng bit khả dụng để mã một khối dữ liệu đƣợc đƣa, điều này có thể chính xác bằng việc điều chỉnh tăng ích tổng đạt đƣợc kích thƣớc bƣớc lƣợng tử lớn hơn, làm cho những giá trị lƣợng tử nhỏ hơn. Quá trình này đƣợc lặp lại với những kích cỡ bƣớc lƣợng tử cho đến khi thu đƣợc bit yêu cầu đối với mã Hufman là đủ nhỏ. Vòng lặp đƣợc gọi là vòng tốc độ bởi vì nó thay đổi tốc độ lập mã cho tới tận khi nó đủ nhỏ.

- Vòng lặp ra (vòng điều khiển tiếng ồn)

Để tạo tiếng ồn lƣợng tử theo ngƣỡng mặt lạ, những hệ số phạm vi đƣợc áp cho mỗi dải hệ số phạm vi. Hệ thống bắt đầu với một hệ số mặc định của 1.0 đối với mỗi dải. Nếu tiếng ồn lƣợng tử trong mỗi dải đƣợc tìm thấy vƣợt quá ngƣỡng mặt lạ (cho phép tiếng ồn) khi đó đƣợc đáp ứng bởi mô hình cảm giác, hệ số phạm vi cho dải này đƣợc điều chỉnh để giảm ồn lƣợng tử. Khi hoàn tất một ồn lƣợng tử nhỏ hơn yêu cầu một số lớn hơn yêu cầu những

bƣớc lƣợng tử và bởi vậy tốc độ bit cao hơn, Tốc độ điều chỉnh vòng phải đƣợc nhắc lại mỗi lần những hệ số phạm vi đƣợc sử dụng.

Mặt khác, Vòng tốc độ đƣợc ẩn vào trong vòng điều khiển ồn. Vòng đầu ra (điều khiển ồn) đƣợc thực hiện cho đến tận tiếng ồn thực( tính toán từ sự khác nhau của những giá trị phổ ban đầu trù đi những giá trị phổ lƣợng tử) là ở dƣới ngƣỡng mặt lạ đối với mỗi dải hệ số phạm vi (ví dụ dải tới hạn).

Nếu mô hình cảm giác yêu cầu nhƣng kích cỡ bƣớc lƣợng tử quá nhỏ đến nỗi mà vòng tốc độ luôn luôn phải tăng chúng để đảm bảo mã ở tốc độ bit yêu cầu, cả hai có thể là mãi mãi. Để tránh tình huống này, một vài điều kiện có thể đƣợc kiểm tra để dừng vòng lặp này sớm. Tuy nhiên, đối với những kết quả mã hoá nhanh và tốt, nhƣ vậy một điều kiện nên đƣợc tránh. Đây là một lý do mà tại sao một bộ mã hoá MP3 luôn luôn cần điều chỉnh đặt thông số của mô hình cảm giác cho mỗi tốc độ bit.[8]

Tất cả các hệ thống mã hóa tốc độ bit thấp chất lƣợng cao hiện nay tuân theo hệ biến hóa cơ bản miêu tả ở trên. Chúng khác nhau ở loại hình

filterbank đƣợc sử dụng, trong các kỹ thuật lƣợng tử hóa và mã hóa và trong việc sử dụng đặc tính phụ thêm.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu đưa sản phẩm âm thanh thương mại lên internet và áp dụng vào báo điện tử đài tiếng nói việt nam (Trang 49 - 53)

Tải bản đầy đủ (PDF)

(90 trang)