TẠP CHÍ KHOAHỌCVÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 235 TỔNGQUANVỀCÁCKỸTHUẬTNÉNAUDIOCHẤTLƯỢNGCAOMP3VÀAACDÙNGTRONGTHIẾTBỊSỐHIỆNNAY OVERVIEW OF HIGH QUALITY AUDIO COMPRESSION TECHNOLOGIES MP3 AND AAC FOR TODAY’S DIGITAL MEDIA Hoàng Lê Uyên Thục, Phạm Văn Tuấn Trường Đại học Bách khoa, Đại học Đà Nẵng TÓM TẮT Trong vài năm gần đây, chúng ta đã chứng kiến sự gia tăng không ngừng của kỹthuậtnén tín hiệu audio số, đặc biệt là MP3 (Moving Picture Experts Group 1 - Layer 3) vàAAC (Moving Picture Experts Group 2 - Advanced Audio Coding). MP3vàAAC là hai chuẩn nénaudiosốchấtlượng cao, tín hiệu audio khôi phục nghe được gần giống với tín hiệu gốc trước khi nén. Tùy thuộc vào yêu cầu vềchấtlượng mà tỷ lệ nén có thể được chọn lựa thích hợp. Với chấtlượng gần giố ng CD, tỷ lệ nén có thể đạt được khoảng 11:1. Bài báo trình bày tổngquanvề cách thực hiện mã hóa/giải mã MP3vàAAC trên cơ sở lợi dụng những đặc điểm cảm quan của tai người. Đồng thời tiến hành so sánh MP3vàAACvềchấtlượng tín hiệu audio, tốc độ bit và tỷ lệ nén bằng phương pháp đánh giá chấtlượng chủ quan là nghe thử. Kết quả thực nghiệm hoàn toàn phù hợp với cácnghiêncứu đã được công bố trước đó. ABSTRACT There has been a widespread proliferation of digital audio signal compression technologies in the past few years, especially MP3 (Moving Picture Experts Group 1 - Layer 3) and AAC (Moving Picture Experts Group 2 - Advanced Audio Coding). The MP3 and AAC standards are two high quality compression technologies in which AAC performs better than MP3. The reconstructed audio signal almost sounds similarly to the original one before compression. The compression ratio can be chosen according to the sound quality requirement. The near-CD sound quality can be reached at the compression ratio of 11:1. This article presents an overview of human perception of sound, based on which, the encoding and decoding of MP3 and AAC are implemented. The article also makes the comparison of several properties of MP3 and AAC, such as audio quality, bit rate, compression ratio using the subjective evaluation which is based on the listening test. The experimental results are quite in accordance with previous publications. 1. Đặt vấn đề Năm 1982, hai công ty điện tử Philips và Sony đã thành công vang dội với việc tung ra thị trường phương tiện mới để lưu trữ tín hiệu audio dưới dạng số - đĩa compact (CD). Yêu cầu dunglượng cần thiết để ghi âm tín hiệu audiosố vào khoảng 1.411 Mbps, nghĩa là: 44100 (mẫu/giây) x 16 (bit/mẫu) x 3600 (giây/giờ) x 2 kênh = 1.411 Mbps. Sự phát triển nhanh chóng của các phương tiện nghe nhạc bỏ túi, các dịch vụ chia sẻ file audio giữa các máy tính qua internet, các dịch vụ truyền hình số (đi kèm audio)… đã TẠP CHÍ KHOAHỌCVÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 236 gây ảnh hưởng sâu sắc đến các ứng dụng truyền/lưu trữ audio. Điều này thúc đẩy các chuẩn mã hóa nénaudio mới ra đời; trong đó phổ biến nhất là chuẩn MP3và AAC. Chuẩn MP3 được ứng dụng để truyền tín hiệu audio qua internet và để lưu trữ tín hiệu audiotrongcácthiếtbị nghe nhạc bỏ túi. Chuẩn AAC là chuẩn nénaudio tiếp theo MP3, đang được sử dụngtrong cửa hàng âm nhạc trực tuyến của Apple là iTunes. 2. Mã hóa cảm quan tín hiệu audio Mã hóa audio cảm quan (perceptual encoding) là một kỹthuật lợi dụng những đặc điểm cảm quan của tai người để đạt được tỷ lệ néncao với chấtlượngnén tốt. Nghiêncứu [1] cho thấy: độ nhạy của tai khác nhau đối với các thành phần tần số khác nhau, nên có thể lợi dụng điều này để lượng tử hóa tín hiệu audio với số bit khác nhau cho mỗi băng con, dẫn đến số bit trung bình giảm xuống (hình 1) Khi nghe hai âm thanh mạnh yếu khác nhau với tần số khác nhau xảy ra cùng lúc, âm mạnh hơn có thể “che khuất” khiến tai không nghe được âm yếu hơn. Hiệu ứng này gọi là mặt nạ tần số (frequency masking). Tương tự như vậy, nếu âm yếu hơn được phát ra ngay trước hoặc ngay sau âm mạnh hơn thì cũng bị “che khuất”. Hiệu ứng này gọ i là mặt nạ thời gian (temporal masking). Hình 2 minh họa sự kết hợp hai hiệu ứng này. 2.1. Chuẩn mã hóa audioMP3 MPEG là nhóm các chuẩn mã hóa audio cảm quanchấtlượng cao. MPEG-1 hoạt động ở ba chế độ khác nhau gọi là lớp (layer), với mức độ phức tạp và hiệu quả tăng dần từ lớp 1 đến lớp 3 [1]. MPEG-1 lớp 3 (còn gọi là MP3) là nhóm MPEG-1 phức tạp nhất, cung cấp chấtlượngaudio gần v ới chấtlượng CD ở tốc độ bit thấp. MP3 hỗ trợ các tần số lấy mẫu khác nhau như 32kHz, 44.1kHz và 48kHz; tốc độ bit có thể thay đổi từ 32 đến 448 kbps; mode mã hóa có thể thay đổi, bao gồm: mono, dual mono, stereo và joint stereo. Hình 3 là sơ đồ khối của một bộ mã hóa MP3 điển hình. H ình 1. Phân chia dải tần nghe được thành các băng con vàlượng tử hóa các mẫu trong từn g băng với số bit khác nhau [1] Hình 2. Kết hợp hiệu ứng mặt nạ tần số với mặt nạ thời gian [1] TẠP CHÍ KHOAHỌCVÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 237 - Giàn lọc (Filterbank): phân tích tín hiệu vào thành 32 băng con, đầu ra của các bộ lọc băng con được nối với bộ biến đổi Cosin rời rạc MDCT (Modified Discrete Cosine Transform). MDCT chia tiếp các đầu ra của giàn lọc thành 576 băng con nhằm đạt độ phân giải tốt hơn trong miền tần số. Việc phân chia băng con là nhằm lợi dụng đặc điểm độ nhạy của tai thay đổi đối với các thành phần tần số khác nhau. - Lập mô hình cảm quan (Psychoacoustic model): khâu này quyết định chấtlượng của tín hiệu MP3. Bộ mã hóa MP3 tiến hành ánh xạ từ miền thời gian sang miền tần số bằng phép biến đổi Fourier nhanh FFT (Fast Fourier Trasform) 1024 điểm, để giúp phân giải tần số tốt hơn nhằm ước lượng ngưỡng mặt nạ chính xác hơn. Hình 3. Sơ đồ khối bộ mã hóa audio theo chuẩn MP3 [2] - Lượng tử hóa và mã hóa (Quantization and Coding): thực hiệnlượng tử hóa và mã hóa các thành phần phổ với yêu cầu nhiễu lượng tử hóa thấp hơn ngưỡng mặt nạ. Các giá trị lượng tử hóa được mã hóa Huffman với bảng mã thay đổi đối với những dải tần số khác nhau, để thích nghi tốt hơn với tín hiệu. Vì mã Huffman là mã có độ dài từ mã thay đổi và cần giữ cho nhiễu thấp hơn ngưỡng mặt nạ nên phải tính độ lợi vàcác hệ số tỷ lệ trước khi lượng tử hóa. Để tìm được độ lợi vàcác hệ số tỷ lệ tối ưu đối với một khối cho trước, MP3dùng hai vòng lặp lồng vào nhau. - Vòng lặp trong hay vòng lặp điều khiển tốc độ (rate control loop): hiệu chỉnh độ lợi để tăng dần kích thước bước lượng tử hóa, giảm dần số mức lượng tử hóa cho đến khi số bit yêu cầu cho mã hóa Huffman đủ nhỏ, dẫn đến bit tốc độ bit của tín hiệu MP3 đủ nhỏ. - Vòng lặp ngoài hay vòng lặp điều khiển nhiễu (distortion control loop): hiệu chỉnh hệ số tỷ lệ để giảm dần nhiễu lượng tử hóa, lúc đó số mức lượng tử hóa tăng dần lên, làm tốc độ bit tăng dần lên, dẫ n đến vòng lặp trong phải hiệu chỉnh độ lợi. Nếu không đồng thời thỏa mãn được yêu cầu về tốc độ bit vàchấtlượng TẠP CHÍ KHOAHỌCVÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 238 audio thì hai vòng lặp sẽ không có điểm hội tụ. Để tránh trường hợp này, phải hiệu chỉnh các thông số mã hóa khi bộ mã hóa hoạt động ở các tốc độ bit khác nhau. - Định dạng dòng bit (bitstream formatting): dòng bit MP3 được định dạng theo từng khung, gồm các hệ số phổ đã được mã hóa, đầu khung là header gồm: từ mã đồng bộ, tốc độ bit, tần số lấy mẫu, lớp, mode mã hóa. Do các thông tin trên được lặp lại trong tất cả các khung nên ta có thể giải mã vào bất cứ lúc nào. 2.2. Chuẩn mã hóa audioAACAAC có kiến trúc tương tự như MP3 nhưng khác với MP3 ở chỗ AACdùng phương pháp modul hóa (hình 4), phát triển thêm nhiều công cụ mã hóa mới, giúp cải thiện chấtlượngaudio ở tốc độ bit thấp: - Giàn lọc: AAC thay giàn lọc trongMP3 bằng MDCT với kích thước cửa sổ dài 1024 (thay cho 576 trong MP3). Điều này làm tăng độ phân giải tần sốso với MP3. Hình 4. Sơ đồ khối bộ mã hóa audio theo chuẩn MPEG-2 AAC [2] - TNS (Temporal Noise Shaping): là một công nghệ mới rất thành công trong việc cải thiện chấtlượng tiếng nói ở tốc độ bit thấp. TNS tạo dạng nhiễu trong miền thời gian bằng một vòng lặp hở dự đoán trong miền tần số [1] - Dự đoán (prediction): có thể dùng khối dự đoán để tăng tỷ lệ nén bằng cách hướng cho bộ lượng tử hóa tập trung vào những mẫu tín hiệu đáng quan tâm [1]. - Mã hóa audio: mã hóa M/S (mid/side) và ghép cặp (coupling) mềm dẻo hơn trong MP3, cho phép giảm tốc độ bit. - Mã hóa Huffman: dùng từ mã có độ dài thay đổi để giảm hơn nữa độ dư trong hệ số tỷ lệ vàtrong giá trị của các vạch phổ lượng tử hóa. - Bitstream multiplexer: tương tự MP3, dòng bit AAC được định dạng thành TẠP CHÍ KHOAHỌCVÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 239 các khung, trong khung AAC cũng có từ mã đồng bộ vàcác tham số mã hóa nhưng không gắn liền với nhau mà thay đổi tùy ứng dụng cụ thể. Ví dụ như: ADIF (Audio Data Interchange Format) đặt tất cả thông tin điều khiển giải mã vào trong một header đơn trước dòng audio, giúp cho việc trao đổi file dễ dàng hơn, nhưng không thể giải mã vào bất cứ lúc nào ta muốn. Hay ADTS (Audio Data Transport Stream) định dạng header tương tự như MP3, cho phép giải mã bất cứ lúc nào cần. 3. So sánh MP3vàAAC 3.1. Chấtlượng mã hóa Để đánh giá chấtlượng mã hóa tín hiệu audio, về cơ bản có ba phương pháp là: nghe thử (đánh giá chủ quan), đánh giá khách quanvà đo cảm quan. Cho đến nay thì nghe thử vẫn là phương pháp đơn giản và hiệu quả để đánh giá chấtlượng của cácthuật toán mã hóa audio khác nhau. ITU-R (International Telecommunications Union, Radiocommunications sector) cùng với các phát thanh viên và nhóm MPEG audio đã đề xuất một loạt các quy tắc phức tạp để đánh giá chấtlượng bằng cách nghe thử. Đánh giá khách quan là phương pháp dựa vào tỷ số tín hiệu trên nhiễu SNR. Tuy nhiên làm thế này có thể xem là không tuân theo mục đích của mã hóa cảm quan, vì mã hóa cảm quan cải thiện chấtlượngaudio bằng cách tạo thêm nhiễu miền thời gian và tần số dựa trên cơ chế cảm quan của tai, nên có thể dẫn đến SNR thấp. ITU-R đã chuẩn hóa một phương pháp đánh giá chấtlượng dựa gọi là đo cảm quan, dựa vào mô hình cảm quan của tai để đánh giá chấtlượng của tín hiệu audionén [5]. 3.2. Tốc độ bit MPEG không làm việc với tốc độ bit cố định mà người dùng có thể tùy chọn tốc độ bit. Tốc độ bit thấp hơn sẽ dẫn đến tỷ lệ nén tốt hơn nhưng chấtlượng thấp hơn. Tuy nhiên, ta có thể tìm được những tốc độ bit đặc biệt gọi là “sweet spots”, tại đó thuật toán có thể làm việc tốt nhất. Tại các tốc độ bit lớn hơn “sweet spots”, chấtlượng tín hiệu audio tăng rất chậm, trong khi đó tại các tốc độ bit thấp hơn, chấtlượng lại giảm rất nhanh. 3.3. Kết quả so sánh MP3vàAAC bằng thực nghiệm Dùng chức năng “Recoring” trong module “Audio Compression” của chương trình [1] để ghi âm 20 file âm nhạc ở dạng *.wav, trong đó có 10 file nhạc cổ điển và 10 file nhạc Rap. Chế độ thu được chọn là stereo, tần số lấy mẫu lần lượt là 32kHz và 44.1kHz. Sau đó tiến hành néncác file wav bằng chức năng “Audio codec”, lần lượt chọn thuật toán nénMP3và AAC. Đối với MP3, tiến hành nén ở tốc độ bit 32kbps, 64kbps và 128kbps. Đối với AAC, tiến hành nén ở tốc độ bit 64kbps, 128kbps và 192kbps. Sau đó, so sánh chấtlượng bằng phương pháp nghe thử nhằm kiểm tra tiếng ồn, độ méo, cao độ của các nốt, sự ổn định,…, chúng tôi nhận thấy kết quả như sau: TẠP CHÍ KHOAHỌCVÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 240 Bảng 1. Kết quả so sánh chấtlượng của các file MP3 Tốc độ bit Nhạc cổ điển lấy mẫu ở 32kHz Nhạc cổ điển lấy mẫu ở 44.1kHz Nhạc Rap lấy mẫu ở 32kHz Nhạc Rap lấy mẫu ở 44.1kHz 32kbp s Rất méo, rất ồn và những nốt dài bị đứt đoạn Không cải thiện mấy so với tần số lấy mẫu 32kHz Rất méo, rất ồn và những đoạn nói dài bị đứt đoạn Không cải thiện mấy so với tần số lấy mẫu 32kHz 64kbp s Vẫn méo và ồn, những nốt dài ít bị đứt đoạn hơn Méo vàbị đứt đoạn một ít ở các nốt dài, tốt hơn so với tần số lấy mẫu 32kHz, tốc độ 64kbps Vẫn còn méo và ồn, những đoạn nói dài bớt bị đứt đoạn Tốt hơn so với rap lấy mẫu ở tần số 32kHz, như ng vẫn còn nhận ra méo, ồn và đứt đoạn 128kb ps Còn méo một ít, nhưng hầu như các nốt dài không còn bị đứt đoạn Chấtlượng gần với file gốc, khó phân biệt với file wav Còn méo, ổn vàbị đứt đoạn nhưng có thể chấp nhận được Chấtlượng gần với file gốc, khó phân biệt với file gốc 3.4. Nhận xét Kết quả đánh giá chấtlượng đối với file nénMP3 ở bảng 1 cho thấy: khi thu âm ở tần số lấy mẫu 32kHz thì chấtlượng âm nhạc tất tệ. Cả hai loại nhạc thử nghiệm đều đạt chấtlượng chấp nhận được ở tần số lấy mẫu 44.1kHz và tốc độ bit 64kbps, nhưng muốn chấtlượng khá phải nén ở tốc độ bit 128kbps. Lúc này tỷ lệ nén đạt được khá cao là: 1.411 (Mbps) : 128 (kbps) = 11 : 1. Đối với AAC, như kết quả trình bày trong bảng 2, nhạc cổ điển thu âm ở tần số lấy mẫu 44.1kHz vànén ở tốc độ bit 64kbps có chấtlượng chấp nhận được và tốt hơn so với Rap, vì những nốt cao nghe rõ vàtrong hơn; hơn nữa những đoạn nói trong nhạc Rap bị méo nhiều hơn so với nhạc. Cả hai loại nhạc thử nghiệm khi thu âm ở tần số lấy mẫu 44.1kHz vànén ở tốc độ bit 128kbps và 192kbps đều cho chấtlượng rất tuyệt, đặc biệt rất khó phân biệt chấtlượng giữa tốc độ 128kbps và 192kbps. Bảng 2. Kết quả so sánh chấtlượng của các file AAC Tốc độ bit Nhạc cổ điển lấy mẫu ở 32kHz Nhạc cổ điển lấy mẫu ở 44.1kHz Nhạc Rap lấy mẫu ở 32kHz Nhạc Rap lấy mẫu ở 44.1kHz 64kbps Có ồn một ít và một số nốt caobị phô Rất ít nhiễu, còn ít méo, nghe khá tốt Có ồn một ít và một số nốt caobị phô Có ồn một ít và một số nốt caobị phô 128kbps Gần với chấtlượng gốc, khó phân biệt với file wav Gần với chấtlượng gốc, khó phân biệt với file wav Gần với chấtlượng gốc, khó phân biệt với file wav Gần với chấtlượng gốc, khó phân biệt với file wav 192kbps Gần với chấtlượng gốc, khó phân biệt với tốc độ 128kbps Gần với chấtlượng gốc, khó phân biệt với tốc độ 128kbps Gần với chấtlượng gốc, khó phân biệt với tốc độ 128kbps Gần với chấtlượng gốc, khó phân biệt với tốc độ 128kbps TẠP CHÍ KHOAHỌCVÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 241 Như vậy, kết quả đánh giá chấtlượng của các file nhạc nén bằng MP3vàAAC bằng thực nghiệm là phù hợp với các kết quả nghiêncứu được công bố tại [1], [2], [3]. 4. Kết luận Cả hai chuẩn mã hóa MP3và MPEG-2 AAC đều có thể nén tín hiệu audio với chấtlượng gần chấtlượng của CD. Trong hai chuẩn trên, MP3 ít phức tạp hơn AAC, AAC cung cấp chấtlượng tốt hơn MP3 với cùng tần số lấy mẫu và tỷ lệ nén. Hướng nghiêncứu tiếp theo: tìm hiểu và phát triển các chuẩn nénaudio mới dựa trên MPEG-4, thực hiện đầy đủ các phương pháp đánh giá chấtlượng như: single stimulus rating, paired rating with reference, multiple stimulus rating, ITU-R BS.1116-1, MUSHRA. TÀI LIỆU THAM KHẢO [1] Jenq-Neng Hwang, “Multimedia Networking”, Cambridge University Press 2009. [2] Karl-Heinz Brandenburg, “MP3 and AAC explained”, AES 17 th International Conference on High Quality Audio Coding. [3] Stephen Bunting, “A subjective comparison of MPEG-4 AAC codecs”, 4B Technical Project 2004. [4] Serkan Kiranyaz, Mathieu Aubazac, Moncef Gabbouj, “Unsupervised Segmentation and Classification over MP3 and AACAudio Bitstreams”, WIAMIS 2003. [5] C. Colomes, C. Schmidmer, and W.C. Treurniet, “Perceptual quality assessment for digital audio: PEAQ-the proposed ITU standard for objective measurement of perceived audio quality”, AES 17 th International Conference. . CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 235 TỔNG QUAN VỀ CÁC KỸ THUẬT NÉN AUDIO CHẤT LƯỢNG CAO MP3 VÀ AAC DÙNG TRONG THIẾT BỊ SỐ HIỆN NAY OVERVIEW OF HIGH QUALITY AUDIO. thể nén tín hiệu audio với chất lượng gần chất lượng của CD. Trong hai chuẩn trên, MP3 ít phức tạp hơn AAC, AAC cung cấp chất lượng tốt hơn MP3 với cùng tần số lấy mẫu và tỷ lệ nén. Hướng nghiên. so sánh MP3 và AAC về chất lượng tín hiệu audio, tốc độ bit và tỷ lệ nén bằng phương pháp đánh giá chất lượng chủ quan là nghe thử. Kết quả thực nghiệm hoàn toàn phù hợp với các nghiên cứu đã