1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

nén audio chuẩn Mpeg

27 1,1K 9

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,25 MB

Nội dung

nén audio theo chuẩn MPEG 1 layer 3, code mô phỏng viết trên matlap 2016, mô phỏng chính xác. aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

Nén audio chuản MPEG Nhóm CHUƠNG LÝ THUYẾT TỔNG QUAN 1.1 Nén liệu 1.1.1 Tổng quan nén Nén liệu nhằ m giảm lượng thông tin “dư thừa” liệu gốc lượng thông tin thu sau nén thường có dung lượng liệu gốc nhiều Mục đích việc nén liệu: - Đối với việc tìm kiếm ta tìm kiếm thông tin liệu nén lại nhanh so với việc tìm kiếm thông tin liệu không nén liệu lưu trữu nên số phép toán để tìm kiếm lượng thông tin cao - Nén liệu đặc bịt hiệu với việc truyền liệu mạng Khi nén liệu chi phí cho việc truyền liệu mạng giảm, mặt khác tốc độ đường truyền tăng lên lượng thông tin thời gian truyền liệu giảm - Với ưu điểm nén liệu giải pháp hợp lý nhằm mục đích giảm chi phí cho người sử dụng 1.1.2 Kỹ thuật nén không tổn hao Nén không tổn hao kiểu nén cho phép liệu ban đầu xây dựng lại hoàn toàn từ liệu nén Có nhiều phương pháp mã hóa sử dụng kỹ thuật nén không tổn hao Ví dụ phương pháp VLC (Variable-Length Coding), RLC (Run-Length Coding), Shannon Fano, Huffman, Adaptive Huffman Coding, LZW, Arithmetic Coding… Dưới giới thiệu hai phương pháp mã hóa thường gặp phương pháp mã hóa Shannon phương pháp mã hóa Huffman Phương pháp mã hóa Shannon Độc lập với nhau, Shannon Fano xây dựng phương pháp lập mã thống kê sở: Độ dài từ mã tỷ lệ nghịch với xác suất xuất Phương pháp: - Bước 1: Sắp xếp xác suất theo thứ tự tăng dần giảm đàn Giả sử p1≥…≥pk - Bước 2: Phân xác suất thành nhóm có tổng xác suất gần - Bước 3: Gán cho hai nhóm kí hiệu (hoặc ngược lại) - Bước 4: Lặp lại bước cho nhóm tiếp tục - Bước 5: Từ mã ứng với tin chuỗi bao gồm kí hiệu theo thứ tự gán cho nhóm có chứa xác suất tương ứng tin Phương pháp mã hóa Hufman Năm 1952, Huffman đưa thuật toán mã háo dựa xác suất xuất kí hiệu Thuật toán tối ưu theo nghĩa số kí hiệu nhị phân trung bình để mã hóa cho kí hiệu nguồn cực tiểu Phương pháp mã hóa cho mã có tính prefix tất nhiên trình giải mã Phương pháp: - Bước 1: Tính tần suất ký tự liệu gốc Nén audio chuản MPEG Nhóm - Bước 2: Hai nút tự với tần suất thấp xác định Hai nhánh gán cho hai kí hiệu (Quy ước: Nút có tần suất thấp bên trái mã hóa bit “0”, nút bên phải mã háo bit “1”) - Bước 3: Nút cha cho hai nút thiết lập Nó có tần suất tổng tần suất hai nút - Bước 4: Nút liệt kê vào danh sách nút tự hai nút xóa khỏi danh sách - Bước 5: Các bước lặp lại lại nút tự Nút đánh dấu gốc - Bước 6: Từ mã ứng với kí hiệu nguồn tổ hợp kí hiệu mã nhánh mã tính từ gốc Giải mã hóa Huffman - Đọc vào dòng bit cách chuyển sang mã nút tìm thấy - Khi nút xác định, đưa ký tự tương ứng mã hóa - Khi đọc vào bit kế tiếp, bắt đầu trở lại với gốc mã 1.1.3 Kỹ thuật nén có tổn hao Nén tổn hao cho phép xây dựng lại liệu giải nén khác liệu nguồn khác biệt phân biệt rõ ràng tai mắt thường Nén tổn hao có tỷ lệ nén cao làm giảm kích thước tập tin Nén tổn hao phù hợp với nén âm hình ảnh Hệ số nén cao so với nén không tổn hao (có thể lên đến 100:1) Một số kỹ thuật nén có tổn hao: - Lấy mẫu băng tần con: Đây phương pháp giảm liệu hiệu làm giảm chất lượng nội dung gốc - DPCM: Đây mã hóa dự báo, truyền phần chênh lệch mẫu (mà không truyền giá trị mẫu đầy đủ) Phần chênh lệch cộng vào giá trị mẫu giải mã đầu cuối giải mã tạo giá trị mẫu khôi phục lại - Lượng tử mã hóa vô hướng: Lượng tử giá trị cách độc lập hay nói cách khác ánh xạ mẫu tín hiệu ngõ vào tạo thành hệ số lượng tử ngõ Đây trình tổn hao giải lượng tử, xác định xác giá trị gốc từ số nguyên làm tròn Lượng tử hóa thuận theo công thức FQ = round (X/QP) Lượng tử hóa ngược theo công thức Y = FQ*QP Với QP bước nhảy lượng tử - Lượng tử hóa vector: Là trình biểu diễn tập vector (mỗi vector gồm nhiều giá trị) tập số hữu hạn ký hiệu ngõ ra, bảng mã ánh xạ có giá trị xấp xỉ với giá trị gốc - Lượng tử hóa VLC cho hệ số DCT: Kết hợp trình cho phép biểu diễn khối bytes pixel số lượng nhỏ bit tạo kỹ thuật giảm liệu hiệu kinh tế 1.2 Các tham số âm 1.2.1 Khái niệm Âm dao động học (biến đổi vị trí qua lại) phân tử, nguyên tử hay hạt làm nên vật chất lan truyền vật chất sóng Âm thanh, Nén audio chuản MPEG Nhóm giống nhiều sóng, đặc trưng tần số, bước sóng, chu kỳ, biên độ vận tốc lan truyền (tốc độ âm thanh) Đối với thính giác người, âm thường dao động, dải tần số từ khoảng 20 Hz đến khoảng 20000 Hz, phân tử không khí, lan truyền không khí, va đập vào màng nhĩ, làm rung màng nhĩ kích thích não Tuy nhiên âm định nghĩa rộng hơn, tuỳ vào ứng dụng, bao gồm tần số cao hay thấp tần số mà tai người nghe thấy, không lan truyền không khí mà truyền vật liệu Trong định nghĩa rộng này, âm sóng học theo lưỡng tính sóng hạt vật chất, sóng coi dòng lan truyền hạt phonon, hạt lượng tử âm Cả tiếng ồn âm nhạc âm Trong việc truyền tín hiệu âm thanh, tiếng ồn dao động ngẫu nhiên không mang tín hiệu Sự hình thành sóng môi trường đàn hồi Một đặc tính âm là sóng dọc, tức lan truyền dao động đại lượng vô hướng áp suất, đồng thời lan truyền dao động đại lượng có hướng vận tốc vị trí phân tử hay nguyên tử môi trường, phương dao động trùng với phương chuyển động sóng Cũng sóng học khác, sóng âm mang lượng tỉ lệ với bình phương biên độ sóng Năng lượng truyền từ nguồn âm đến tai ta Cường độ âm lượng lượng sóng âm truyền đơn vị thời gian qua đơn vị diện tích đặt vuông góc với phương truyền âm Ngoài trường độ góp phần ảnh hưởng đến chất lượng âm 1.2.2 Sóng âm a, Dao động âm truyền dao động Sóng âm loại sóng có biên độ dao động nhỏ mà thính giác nhận biết Thí dụ dao động phát từ dây đàn, mặt trống rung động Sóng âm loại sóng nên khái niệm tượng dao động sóng áp dụng cho sóng âm Trong không khí chất khí khác, dao động truyền dạng sóng dọc, đến tai người dao động có tần số từ 16 đến 20000 Hz gây cảm giác đặc biệt âm Các dao động đàn hồi có tần số f>20.000 Hz sóng siêu âm Các dao động đàn hồi có tần số f f1) f2 / f1 = 2x Khi x=1 tức f2 / f1 = gọi quãng tần số (hay ốc-ta) Khi x=1/2 tức f2 / f1 = 1.41 gọi nửa ốc-ta Khi x=1/3 tức f2 / f1 = 1.26 gọi 1/3 ốc-ta Mức áp suất âm ốc-ta mức áp suất âm 1/2 ốc-ta cộng thêm 3db Mức áp suất âm ốc-ta mức áp suất âm 1/3 ốc-ta cộng thêm 5db Vì quãng tần số âm qui định độ cao âm nên gọi quãng độ cao Theo tập quán âm nhạc quãng độ cao gọi quãng (bát độ) Chẳng hạn âm LA, tần số f=440 Hz tăng bát độ tăng gấp đôi tần số, tức 880 Hz Trong thực tế thường gặp âm phức tạp bao gồm nhiều tần số Tập hợp tất tần số cấu tạo âm gọi “tần phổ” âm đó, tần phổ gián đoạn hay liên tục Một âm có tần phổ liên tục đặc trưng “Mức tần phổ B” với định nghĩa: Mức tần phổ mức áp suất âm chiều rộng dải tần số Một âm có mức tần phổ B không đổi với tần số gọi tiếng ồn trắng Nén audio chuản MPEG Nhóm Một âm có tần phổ gián đoạn đặc trưng “mức dải tần số” với định nghĩa: mức dải tần số mức áp suất âm chiều rộng dải tần số lớn Hz c, Đặc tính sinh lý cảm thụ âm *Mức to, độ to, mức âm cảm giác: Mức áp suất âm, mức cường độ âm vừa mang tính chất chủ quan vừa mang tính chất khách quan đại lượng xác định từ đại lượng túy vật lý Vấn đề có ý nghĩa to lớn thực tế cần biết sức mạnh âm đo tai người Mức to, độ to âm sức mạnh cảm giác âm gây nên tai người, phụ thuộc vào áp suất âm mà phụ thuộc vào tần số âm Thí dụ âm có tần số 100 Hz 1000 Hz áp suất âm 0,02 nghe to nhỏ khác nhau, âm 1000 Hz nghe to âm 100 Hz Muốn nghe to âm 1000 Hz âm 100 Hz phải có áp suất 0,25 Như tai người không nhạy âm 100 Hz âm 1000 Hz Tần số thấp tai người nhạy Mức to: Để biểu thị mức to cảm giác chủ quan, ta dùng đại lượng “mức to”, đơn vị “Fôn” với định nghĩa sau : Fôn mức to âm chuẩn, giá trị mức áp suất âm âm chuẩn tức : L = 20lg P/Po (Fôn) Vậy mức to âm đo Fôn, giá trị mức áp suất âm âm chuẩn đo db có mức to với âm Thí dụ: âm có tần số 500 Hz mức áp suất âm 25 db âm có tần số 50 Hz mức áp suất âm 64 db có mức to 20 Fôn, mức to âm 1000 Hz mức áp suất 20 db Muốn biết mức to âm phải so sánh với âm chuẩn Đối với âm chuẩn, mức to ngưỡng nghe Fôn, ngưỡng chói tai 120 Fôn Cùng giá trị áp suất, âm tần số cao, mức to lớn Độ to: Khi so sánh âm to âm lần, dùng khái niệm “độ to” đơn vị “Sôn” với định nghĩa sau: “Số lượng Sôn biểu thị số lần mạnh âm so với âm chuẩn mà tai người phân biệt được” Độ to thuộc tính thính giác, cho phép phán đoán tính chất mạnh yếu âm Căn vào độ to mà xếp âm từ nhỏ tới to Mức to tăng 10 Fôn độ to tăng gấp đôi ngược lại Âm điệu âm sắc: Âm điệu âm cao hay thấp, trầm hay bổng Âm điệu chủ yếu phụ thuộc vào tần số âm, tần số cao, âm nghe cao, tần số thấp âm nghe trầm Âm sắc sắc thái âm du dương hay thô kệch, hay rè, hay đục Âm sắc phụ thuộc vào cấu tạo sóng âm điều hòa, biểu thị số lượng loại tần số, cường độ phân bố chúng quanh âm Âm sắc có quan hệ mật thiết với cường độ, âm điệu thời gian âm vang, trưởng thành tắt dần trường âm Khi hai ca sĩ hát câu độ cao, ta phân biệt giọng hát người Khi đàn ghi-ta, sáo, kèn tấu lên đoạn nhạc độ Nén audio chuản MPEG Nhóm cao, ta phân biệt tiếng nhạc cụ Mỗi người, nhạc cụ phát âm có sắc thái khác mà tai ta phân biệt Đặc tính âm âm sắc Âm sắc đặc tính sinh lý âm, hình thành sở đặc tính vật lý âm tần số biên độ Thực nghiệm chứng tỏ nhạc cụ phát âm có tần số f1 đồng thời phát âm có tần số f2=2f1, f3=3f1 Âm có tần số f1 gọi âm hay họa âm thứ nhất, âm có tần số f2 , f3 gọi họa âm thứ hai, thứ ba Âm mạnh nhất, họa âm có tác dụng định âm sắc âm bản, giúp ta phân biệt nguồn âm khác Chẳng hạn tiếng đàn Pi-a-nô tiếng sáo âm lại dễ phân biệt, nguyên nhân số lượng, cấu trúc họa âm quanh âm chúng khác Họa âm nhiều âm nghe du dương phong phú Thính giác định vị (hiệu ứng Stereo): Khi nghe âm mắt không nhìn thấy nguồn âm xác định xác vị trí nguồn âm Đặc điểm kết qủa hai tác dụng: - Do cường độ, độ to, âm sắc âm đến hai tai không giống - Do âm đến hai tai lệch pha nhau, thời gian đến hai tai không giống Cường độ, độ to âm đến hai tai chênh lệch nhiễu xạ gây Âm có tần số f < 1000 Hz chênh lệch cường độ nhiễu xạ gây bé tần số cao, chênh lệch đạt tới 20 - 30 db Do khả định vị tai nghe âm tập trung ý vào nguồn âm cần nghe, bỏ qua cách tự nhiên âm không cần nghe Nhờ hiệu qủa mà tiếng ồn bị phủ lấp giảm nhỏ cách tự nhiên Nếu nghe âm tai hiệu qủa Nghe âm chênh lệch thời gian: Tương tự tác dụng lưu ảnh mắt, tai người có tác dụng lưu âm Thí nghiệm với nhiều thính giác bình thường cho thấy rằng, hai âm đến tai người cách < 50 ms tai người không phân biệt được, nghe âm 1.3 Các chuẩn nén âm 1.3.1 Chuẩn MPEG MPEG, viết tắt cụm từ “Moving Picture Experts Group”, nhóm chuyên nghiên cứu phát triển tiêu chuẩn hình ảnh số nén âm theo chuẩn ISO/IEC Ngày nay, nhóm làm việc MPEG phát triển phát hành tiêu chuẩn MPEG-1, MPEG-2 MPEG-4 Chuẩn MPEG-3 kết hợp vào MPEG-2 không tách riêng Nhóm MPEG phát triển đến chuẩn MPEG-7 MPEG tên riêng, tên thức : ISO/IEC JTC1 SC29 WG11 ISO : International Organization for Standardization IEC : International Electro-technical Commission JTC1 : Joint Technical Committee SC29 : Sub-committee 29 WG11: Work Group 11 (moving picture with audio) So sánh chuẩn MPEG Nén audio chuản MPEG Nhóm MPEG-1 định nghĩa tiêu chuẩn cho việc lưu trữ phục hồi hình ảnh động âm thiết bị lưu trữ Tiêu chuẩn định nghĩa hình ảnh phát lại tốc độ 30 frames giây âm phát lại chất lượng CD-audio, độ phân giải hình ảnh 352 x 240 Chuẩn MPEG-1 dùng điển hình phần mềm huấn luyện máy tính, game hành động máy tính, video chất lượng VHS, Karaoke MPEG-2 định nghĩa cho tiêu chuẩn kỹ thuật truyền hình số Chuẩn MPEG-2 khắc phục vài nhược điểm chuẩn MPEG-1 Ví dụ, MPEG-2 tạo hình ảnh lớn gấp lần MPEG-1 với độ nét cao rõ (720 x 480 1280 x 720) Các đặc tính MPEG-2 bao gồm hình ảnh chất lượng cao âm nổi… MPEG-3 định nghĩa tiêu chuẩn cho High Difinition Television (HDTV), hệ công nghệ truyền hình theo định dạng số đầy đủ Tiêu chuẩn không phát triển hoàn thiện cuối kết hợp vào với chuẩn MPEG-2 MPEG-3 đến mục tiêu ứng dụng HDTV với kích thước mẫu lên đến 1920x1080x30 Hz mã hoá tốc độ bit 20 đến 40 Mbits/s Cuối người ta nhận với vài điều chỉnh thích hợp, MPEG-1 MPEG-2 làm việc tốt HDTV MPEG-4 định nghĩa tiêu chuẩn cho ứng dụng Multi-media Đặc biệt định nghĩa tiêu chuẩn truyền cho dòng phức tạp hình ảnh, âm liệu đồ hoạ việc tái hợp chúng thiết bị thu MPEG-4 phát triển theo giai đoạn, Chuẩn MPEG-4 định nghĩa đối tượng hình ảnh mà phần cảnh thao tác phần khác không đổi MPEG-5 MPEG-6 chưa công bố MPEG-7 định nghĩa tiêu chuẩn việc biểu diễn nội dung cho nghiên cứu thông tin hình ảnh âm Tên thức “Multimedia Content Description Interface” Mục tiêu MPEG-7 chuẩn hoá việc biểu diễn mô tả nội dung nghe nhìn Tuy nhiên chuẩn không định nghĩa công cụ để nhận nội dung nghe nhìn thật Về bản, âm MPEG làm giảm kích thước lưu trữ tâp tin âm nhiều Một đĩa Audio-CD lưu trữ khoảng 650 Mbyte liệu âm thô với cách mã hóa 16 bit (bitdepth) tần số lấy mẫu (sample rate) 44.1 kHz Nếu đem phát 60 đến 72 phút Phương pháp cổ điển để giảm kích thước lưu trữ giảm lượng thông tin Nếu đổi cách lưu trữ âm từ 16 bit sang bit giảm kích thước lưu trữ nửa, nhiên chất lượng âm giảm nửa Các khái niệm âm MPEG Hiệu ứng che (masking): nói đơn giản âm lớn át âm bé, âm mạnh át âm yếu Ngưỡng nghe: mức mà âm nghe Nó thay đổi theo tần số âm thanh, dĩ nhiên người khác Hầu hết người nhạy cảm mức đến kHz Một người có nghe âm hay không tùy thuộc vào tần số âm độ to âm hay ngưỡng nghe tần số Tai nhạy cảm mức đến kHz Ngưỡng nghe có tính thích nghi, thay đổi cố định âm mà ta nghe Ví dụ, nói chuyện bình thường phòng nghe rõ ràng điều kiện bình thường Tuy nhiên, trò chuyện nằm vùng lân cận tiếng ồn lớn, tiếng ồn phản Nén audio chuản MPEG Nhóm lực bay ngang bên trên, hoàn toàn nghe lúc ngưỡng nghe bị sai lệch Khi phản lục ngưỡng nghe trở lại bình thường Am mà ta nghe thích nghi động ngưỡng nghe gọi bị “che” (masked) Khi đưa phương pháp mã hóa âm thanh, tảng yếu tố “hệ thống nghe” người Thật không may thiết bị hoàn hảo để nhận biết âm thiết bị có Nhưng chuyển khuyết điểm thành ưu điểm: đặc tính phi tuyến ngưỡng nghe khả thích hợp MPEG hoạt động dựa hệ thống nghe người, cảm giác âm mang đặc tính sinh lý tâm lý Âm CD ghi lại tất tần số, kể tần số bị ‘che’ Mặt khác âm MPEG ghi lại tần số mà tai người nghe Như vậy, MPEG bỏ qua thông tin không quan trọng Dựa nghiên cứu nhận thức âm người, mã hóa định thông tin thông tin bỏ qua Hiệu qủa bao quát đặc biệt quan trọng âm nhạc Nếu dàn nhạc có nhạc cụ chơi cực mạnh, làm át tiếng nhạc cụ khác ta nghe Nhưng máy thâu âm ghi lại đầy đủ tất tần số tất nhạc cụ, nghĩa thiết bị thu âm hoàn toàn khả thích nghi động người Nhưng phát lại, ta không nghe âm nhạc cụ bị át Vì việc lưu trữ/ghi lại tần số thừa, làm chiếm dung lượng nhiều Cách ghi âm tuyến tính đĩa CD hoàn toàn không hiệu qủa khía cạnh Do thay phải ghi lại thông tin âm không nghe được, ta dành chỗ cho âm nghe Theo cách này, dung lượng thiết bị ghi âm cần thiết xem giảm mà không làm giảm chất lượng âm Trước nghe điều gì, thông tin phân tích não Não dịch âm lọc bỏ thông tin không cần thiết Kỹ thuật âm MPEG làm việc thay cho não Như vậy, thông tin lẽ phải lọc não không cần phải lưu trữ chiếm giữ không gian đĩa Nén âm MPEG Bộ mã hóa âm theo “perceptual subband” phân tích liên tục tín hiệu vào xác định đường cong che (masking curve), mức ngưỡng mà âm nghe hệ thống nghe người Tín hiệu vào chia thành số dải tần số, gọi “subband” Mỗi tín hiệu “subband” lượng tử hóa theo cách mà lượng tử hóa tiếng ồn bắt đầu việc mã hóa không vượt qúa đường cong che subband Sự lượng tử hóa phổ tiếng ồn thích nghi động với phổ tín hiệu.Thông tin số hóa dùng subband truyền dọc theo mẫu subband mã hóa Bộ giải mã giải mã dòng bit (bitstream) mà không cần phải biết cách mà mã hóa xác định thông tin Điều cho phép mã hóa hoạt động với mức độ khác chất lượng độ phức tạp, cho phép phát triển tương lai mã hóa MPEG nén dòng bit 32 kbit/s đến 384 kbit/s Một dòng bit âm PCM thô khoảng 705 kbit/s, tỉ số nén tối đa 22 Tỉ số nén bình thường 1:6 hay 1:7 96 kbit/s xem suốt cho hầu hết mục đích thực tế Có nghĩa ta không cần phải lưu tâm đến khác biệt tín hiệu gốc tín hiệu nén nhạc pop hay nhạc rock’n roll Đối với số ứng dụng khác hòa tấu piano, tốc độ bit lên tới 128 kbit/s Nén audio chuản MPEG Nhóm Để đạt tỉ số nén này, âm thanh, ta có hai chọn lựa: giảm số lần lấy mẫu, giảm số bit để lượng tử hoá Con người nghe âm với tần số từ 20 Hz đến 20 kHz Theo thuyết Nyquist, ta phải lấy mẫu âm tần số tối thiểu hai lần tần số cao mà ta muốn phát lại Tần số lấy mẫu 44,1 kHz thích hợp Vấn đề lại phải chọn số bit cho mẫu mã hóa Thông thường 16 bit Lý để chọn số 16 bit bắt nguồn từ tỉ số tín hiệu nhiễu (S/N) Nhiễu nói sinh qúa trình số hóa Cứ bit thêm vào, ta có tỉ số S/N tốt 6dB (đối với tai người, dB tương ứng với mức to gấp đôi) Âm CD đạt tới khoảng 90 dB S/N Mức phù hợp với phạm vi động tai người tốt Nghĩa ta nghe nhiễu đến từ thân hệ thống Điều xảy ta lấy mẫu với bit? Ta nghe thấy nhiều tiếng sôi ghi Dễ dàng nghe thấy nhiễu khoảng nghỉ nhạc từ ta ghi âm giọng nói - Hiệu qủa che: Giả sử có âm mạnh với tần số 1000Hz, âm kèm theo có tần số 1100Hz với cường độ âm nhỏ 18dB Ta nghe thấy âm bị che hoàn toàn âm chủ 1000Hz Nói cách khác, âm yếu gần âm mạnh bị che Nếu có âm khác tần số 2000Hz có mức to thấp âm 1000Hz 18dB ta nghe âm Để không nghe âm ta phải giảm mức to âm xuống thấp 45dB so với âm chủ 1000Hz Hiệu qủa che có ý nghĩa ta gia tăng mức ồn xung quanh âm mạnh mà không nghe tiếng ồn chúng bị che hoàn toàn Tăng mức ồn có nghĩa dùng bit để số hóa Và điều giống ta nén âm Bây xem mã hoá âm MPEG hoạt động Bộ mã hóa chia phổ tần số (20Hz đến 20kHz) thành 32 dải nhỏ (sub-band) Mỗi sub-band giữ phần nhỏ phổ Trong vùng sub-band ta phát âm có tần số 1000Hz với mức to 60dB Bộ mã hóa tính toán hiệu qủa che âm nhận có ngưỡng che cho toàn sub-band thứ (tất âm có tần số) Ngưỡng che thấp âm phát 35 dB Tỉ số S/N chấp nhận 60 - 35 = 25 dB, tương đương với bit Ngoài ảnh hưởng sub-band 9-13 5-7 với hiệu qủa che giảm dần từ sub-band Hơn nữa, mã hóa xem xét mức độ nhạy cảm tai tần số khác Tai người nhạy cảm với tần số cao thấp Nó nhạy cảm tần số 2-4 kHz, dải tần số với tiếng nói người Các sub-band nên phù hợp với tai người, nghĩa sub-band cần có tần số có tính chất âm học tâm lý Trong MPEG layerII, sub-band có độ rộng 625Hz, cần phải có lọc băng thông phức tạp Để lọc đỡ phức tạp, người ta thêm FFT (Fast Fourie Transform) vào song song với lọc sử dụng thành phần phổ từ FFT thông tin thêm vào mã hóa Bằng cách ta lấy mật độ bit cao tần số thấp mà tai người nhạy cảm Còn nhiều vấn đề cần phải bàn tới Chúng ta giải thích che đồng bộ, hiệu qủa che xảy trước sau âm mạnh - Các lớp âm MPEG Lớp I (Layer I): Đây lớp đơn giản phù hợp cho ứng dụng người dùng Mô hình âm học tâm lý lớp sử dụng tần số che Điều có nghĩa bỏ qua tần số bị khuất sau tần số khác Phạm vi tốc độ bit từ 32 kbit/s 10 Nén audio chuản MPEG Nhóm - Layer II: 32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320, 384 kbps 32, 48, 56, 80 kbps chế độ Mono; 64, 96, 112, 128, 160, 192 kbps hai chế độ Mono Stereo; 224, 256, 320, 384 kbps chế độ Stereo MPEG : 16 kHz, 22.05 kHz 24 kHz - Layer I: 32, 48, 56, 64, 80, 96, 112, 128, 144, 160, 176, 192, 224, 256 kbps Những tốc độ chế độ Mono hay stereo - Layer II: 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbps Những tốc độ chế độ Mono hay stereo *Layers Chuẩn MPEG có ba layer Khi chọn lựa tốc độ bit cần xem xét vấn đề: - Ở tốc độ bit, Layer II mang lại chất lượng âm tốt Layer I Kết luận chủ quan, chênh lệch khó phân biệt tốc độ bit 128 kbps lớn - Dùng Layer I việc chọn lọc xác Layer II độ phân giải Layer I gấp ba lần Layer II Chuẩn mã hóa âm MPEG định việc ghi số cố định mẫu (384 cho Layer I 1152 cho Layer II) để tạo chuỗi bytes gọi “frame” “Frame” thực thể nhỏ điều khiển ứng dụng Việc chọn tốc độ bit (kbps) thiết lập nên kích thước frame theo byte Ví dụ: Ở 48 kHz, 128 kbps, chế độ Mono, Layer II: - 48,000 mẫu, tương ứng 1000 ms hay 1s, 1152 mẫu tương ứng 24 ms - Ở tốc độ bit 128,000 bits/s, 3072 bits (384 bytes) cần cho 24 ms - Chiều dài frame 384 byte - Để lưu phút, cần 960,000 byte (hay khoảng Megabyte) đĩa trống 1.3.2 Chuẩn AAC (Advanced Audio Coding) Tiêu chuẩn AAC (Advanced Audio Coding) – Mã hóa âm tiên tiến tiêu chuẩn mã hóa cho việc nén âm kỹ thuật số có tổn hao (lossy) Nó thiết kế với mục tiêu tích hợp nhiều kiểu mã hóa âm khác như: Âm tự nhiên với âm nhân tạo, truyền tải tốc độ bít thấp với tốc độ bít cao, lời thoại với âm nhạc, ghi âm phức tạp với ghi âm đơn giản, nội dung đơn giản với nội dung thực tế ảo (virtualreality) ACC phát triển với hợp tác đóng góp nhiều công ty AT&T Bell, Fraunhofer IIS, Dolby, Sony Nokia Năm 1997, AAC thức tiêu chuẩn hóa Phần tiêu chuẩn MPEG-2 (MPEG-2 Part hay tiêu chuẩn ISO/IEC 13818-7:1997) Nhóm chuyên gia mã hóa phim ảnh (Moving Picture Coding Experts Group - MPEG, thành lập năm 1988 với hợp tác tổ chức ISO (International Organization for Standardization – Tổ chức tiêu chuẩn quốc tế) IEC (International Electrotechnical Commission - Ủy ban Kỹ thuật điện quốc tế)) So sánh với thuật toán nén âm thời đó, MPEG-2 AAC có chất lượng âm bật tỉ lệ nén có, nhờ khả nén tín hiệu có tốc độ bít thấp nên trở thành tiêu chuẩn mã hóa/giải mã hàng đầu cho ứng dụng phát quảng bá (broadcasting), dịch vụ Internet ứng dụng di động 13 Nén audio chuản MPEG Nhóm Năm 1999, MPEG-4 AAC thông qua Nhóm MPEG, tiêu chuẩn ISO/IEC 14496-3:1999, với số cải tiến Nó xây dựng dựa tiêu chuẩn MPEG-2 AAC, giữ lại tối đa khả tương thích cú pháp bitstream (chuỗi bit mã hóa giải mã phần chứa đoạn mã hóa liệu ngẫu nhiên) tiêu chuẩn MPEG-2 AAC Nói cách khác, giải mã MPEG-4 ACC có khả giải mã bitstream tiêu chuẩn MPEG-2 AAC Mặt khác, MPEG-4 AAC cải thiện khả mở rộng (scalability), khả phục hồi lỗi (error resilience) bổ sung thêm số đặc tính xử lý phổ (spectral) Năm 2003, nhóm MPEG giới thiệu tiêu chuẩn HE-AAC (High Efficiency AAC), thuật toán mở rộng AAC với mục tiêu hướng tới ứng dụng có tốc độ bít thấp đạt hiệu mã hóa cao HE-AAC cung cấp công cụ có tên gọi Sao chép dải phổ (Spectral Band Replication – SBR), công cụ xây dựng lại tín hiệu đầu có dải tần số cao dựa liệu có dải tần số thấp số thông tin khác Năm 2004, HE-AAC phiên Nhóm MPEG giới thiệu HE-AAC sử dụng công cụ Parametric Stereo (cơ dựa SBR HE-AAC), công cụ có khả xây dựng lại tín hiệu âm stereo (sử dụng hai nhiều kênh độc lập để tái tạo âm từ nhiều hướng khác nhau) dựa tín hiệu mono (tất tín hiệu âm pha trộn với định tuyến thông qua kênh âm nhất) hỗn hợp vài tham số khác Đặc điểm kỹ thuật MPEG-2 AAC gồm mô hình để người dùng cuối lựa chọn theo yêu cầu mức độ phức tạp chất lượng đầu Cụ thể gồm: Mô hình (Main): Cung cấp chất lượng âm tốt với tốc độ bít Tất công cụ mã hóa sử dụng (ngoại trừ điều khiển khuếch tán) Do đó, yêu cầu nhớ (memory) mức độ tính toán cấu hình cao so với mô hình sau Mức độ phức tạp thấp (Low Complexity – LC): Mô hình không sử dụng công cụ điều khiển khuếch tán công cụ dự đoán Thêm nữa, lọc nhiễu tín hiệu so với mô hình AAC Với mô hình này, mã hóa/giải mã AAC tiêu thụ nhớ không yêu cầu cao sức mạnh xử lý Tuy nhiên, chất lượng âm đầu chấp nhận được, AAC LC mô hình sử dụng phổ biến công nghiệp Tỉ lệ lấy mẫu mở rộng (Scalable Sampling Rate – SSR): AAC SSR có khả cung cấp tín hiệu với tần số thay đổi (scalable) Mô hình sử dụng điều khiển khuếch đại, khối xử lý khác hoạt động giống với mô hình AAC LC Do đó, yêu cầu nhớ mức độ phức tạp tính toán mã hóa/giải mã AAC SSR thấp với mô hình AAC Ứng dụng ACC tiêu chuẩn áp dụng cho tất ứng dụng yêu cầu sử dụng nén, ghép, thao tác hay phát lại âm có chất lượng cao, cụ thể định dạng sử dụng phổ biến xã hội di động ngày nay, đặc biệt dành cho ứng dụng YouTube, iPhone, iPod, IPad, Nintendo DSi, Nintendo 3DS, iTunes, DivX Plus Web Player PlayStation 3… Nó hỗ trợ nhiều nhà sản xuất hệ thống âm ô tô Trong Thông tư số 22/2013/TT-BTTTT ngày 23/12/2013 Bộ trưởng Bộ Thông tin Truyền thông Công bố Danh mục tiêu chuẩn 14 Nén audio chuản MPEG Nhóm kỹ thuật ứng dụng công nghệ thông tin quan nhà nước quy định Khuyến nghị áp dụng tiêu chuẩn ACC xếp vào nhóm Tiêu chuẩn truy cập thông tin 1.4 Nén âm theo chuẩn MPEG 1.4.1 Phương pháp Phương pháp mã hóa nguồn sử dụng để loại bỏ dư thừa tín hiệu audio giá trị vi sai mẫu - mẫu xấp xỉ gần giá trị 0, che lấp dựa mô hình tâm lý thính giác người có tác dụng loại bỏ mẫu giá trị cảm nhận mẫu không nghe thấy Có hai phương pháp nén bản, là: - Mã hóa dự báo miền thời gian: sử dụng mã hóa vi sai mã hóa giá trị chêch lệch mẫu liên tiếp để loại bỏ dư thừa thông tin nhằm thu dòng bít tốc độ thấp - Mã hóa chuyển đổi miền tần số: công nghệ sử dụng khối mẫu PCM tuyến tính biến đổi từ miền thời gian thành số định băng tần miền tần số Hình 1.2: Bộ mã hóa tín hiệu Audio Nén audio dựa vào tượng: - Với tín hiệu audio điển hình, tần số xuất đồng thời - Do tượng che mặt nạ, thính giác người nhận biết chi tiết tín hiệu audio Cơ cấu nén audio dựa sở độ nhạy tai khác thành phần tần số khác dẫn đến trình lượng tử hóa tín hiệu audio với số bit khác cho băng tần con, số bit trung bình giảm xuống Hình 1.3: Cơ cấu nén Audio 15 Nén audio chuản MPEG Nhóm Để giảm liệu audio, ta sử dụng kỹ thuật mã hóa nguồn để loại bỏ độ dư thừa tín hiệu audio kỹ thuật che mặt nạ tâm sinh lý để loại bỏ dư thừa tâm sinh lý nghe Có loại giảm liệu - Giảm liệu không tổn thất: sử dụng mã hóa dự báo miền thời gian (mã hóa vi sai mã hóa entropy) - Giảm liệu có tổn thất: Kết hợp hay nhiều kỹ thuật xử lý để sử dụng đặc điểm HAS nhằm tách thành phần phổ theo thành phần có biên độ cao Quá trình mã hóa Audio: - Luồng audio đầu vào chạy qua băng lọc chia đầu vào thành nhiều băng - Đồng thời luồng audio đầu vào qua mô hình tâm lý thính giác để xác định tỉ số lượng tín hiệu với mức che mặt nạ cho băng Khối phân phối bit sử dụng hệ số tín hiệu mặt nạ để định việc chia tổng số bit dùng cho trình lượng tử hóa tín hiệu băng để giảm khả nghe thấy nhiễu lượng tử hóa - Bộ ghép kênh ghép mẫu băng lượng tử hóa định dạng liệu với thông tin phụ thành dòng bit mã hóa - Các liệu phụ thông tin vị trí bit hệ số thang độ cho trình giải mã Hình 1.4: Mã hóa MPEG cho Audio Trong đó: - Dãy lọc: Làm nhiệm vụ tách phổ tín hiệu thành băng tần có độ rộng Hình 1.5: Dãy lọc 16 Nén audio chuản MPEG Nhóm - Mô hình tâm lý thính giác: Tính toán ngưỡng che mặt nạ cho băng gây băng lân cận cách sử dụng mô hình tâm lý thính giác Nếu lượng băng thấp ngưỡng che mặt nạ bị bỏ qua Hình 1.6: Mô hình tâm lý thính giác Độ chênh lệch đường bao phổ tín hiệu đồ thị mặt nạ làm giảm đến mức cực đại 40dB, định số bit cần để mã hóa tất thành phần phổ tín hiệu Quá trình phân phối bit cần đảm báo nhiễu lượng tử hóa thấp ngưỡng nghe thấy (1 bit tương đương 6dB) - Lượng tử hóa: Quá trình lượng tử hóa băng tần phổ tín hiệu audio trình không đồng Mỗi băng lượng tử với bước lượng tử khác phù hợp với mức lượng mức độ che lấp băng tần Bước lượng tử xác định nhờ phân phối bit - Ghép kênh liệu: Các khối 12 mẫu liệu từ đầu lượng tử hóa ghép kênh với tham số xếp loại tương ứng chúng thông tin phân phối bit để hình thành nên khung liệu audio dòng bit mã hóa Hệ số nén Tốc độ bit gốc 1.4Mbps tương đương với chất lượng Audio CD 1:4 Lớp (tương đương 384kbps cho tín hiệu stereo) 1:6 - 1:8 Lớp (tương đương 256 - 192 cho tín hiệu stereo) 1:10 - 1:12 Lớp (tương đương 128 - 112 cho tín hiệu stereo) Bảng 1.1: lớp MPEG-1 Audio - Lớp I: Bộ lọc DCT với khung tần số trải băng Mô hình tâm lí thính giác dùng tượng mặt nạ tần số 17 Nén audio chuản MPEG Nhóm - Lớp II: Sử dụng khung lọc ( tổng cộng x 32 x 12=1152 mẫu) Mô hình tâm lí thính giác sử dụng chút mặt nạ thời gian - Lớp III: Sử dụng lọc băng tốt (các tần số không nhau) Mô hình tâm lí thính giác dùng hiệu ứng mặt nạ thời gian Sử dụng mã hóa Huffman Độ phân giải đầu vào Tần số lấy mẫu Tốc độ bit Số lượng kênh Tính tương hợp MPEG-1 MPEG-2 16 bit, lên đến 16 bit 34 bit 48KHz – 44,132 48KHz – 44,132 KHz KHz 24KHz – 22,0516 KHz Tự lên 448 Tự lên 256 Kbps Kbps kênh với mode: kênh: left, right, momo, stereo, dual, center, left surround, joint stereo right duround LFE Thuận ngược Các kênh left, right giải mã độc lập Khả co giãn Bảng 1.2: Đặc tính kỹ thuật chuẩn nén audio MPEG-1 MPEG-2 1.4.2 Xây dựng giải thuật a, Giới thiệu MATLAB MATLAB viết tắt Matrix Laboratory, phần mềm toán học hãng Mathworks để lập trình, tính toán số có tính trực quan cao MATLAB làm việc chủ yếu với ma trận Ma trận cỡ mxn bảng chữ nhật gồm mxn số xếp thành m hàng n cột MATLAB làm việc với nhiều kiểu liệu khác Với chuỗi kí tự MATLAB xem dãy kí tự dãy mã số ký tự MATLAB dùng để giải toán giải tích số, xử lý tín hiệu số, xử lý đồ họa, … mà lập trình cổ điển Hiện nay, MATLAB có đến hàng ngàn lệnh hàm tiện ích Ngoài hàm cài sẵn ngôn ngữ, MATLAB có lệnh hàm ứng dụng chuyên biệt Toolbox, đểmở rộng môi trường MATLAB nhằm giải toán thuộc phạm trù riêng Các Toolbox quan trọng tiện ích cho người dùng toán sơ cấp, xử lý tín hiệu số, xử lý ảnh, xử lý âm thanh, ma trận thưa, logic mờ… Dữ liệu Dữ liệu Matlab thể dạng ma trận (hoặc mảng - tổng quát), có kiểu liệu liệt kê sau đây: - Kiểu đơn single, kiểu có lợi nhớ liệu đòi hỏi byte nhớ hơn, kiểu liệu không sử dụng phép tính toán học, độ xác - Kiểu double kiểu kiểu thông dụng biến Matlab - Kiểu Sparse 18 Nén audio chuản MPEG Nhóm - Kiểu uint8, uint8, uint16, uint64 - Kiểu char ví dụ “Hello” - Kiểu cell - Kiểu Structure Ứng dụng Matlab tạo điều kiện thuận lợi cho: - Các khoá học toán học - Các kỹ sư, nhà nghiên cứu khoa học - Dùng Matlab để tính toán, nghiên cứu tạo sản phẩm tốt sản xuất Hệ thống Matlab Hệ thống giao diện Matlab chia thành phần: -Môi trường phát triển: Đây nơi đặt công cụ, phương tiện giúp sử dụng lệnh file - Thư viện, hàm toán học bao gồm cấu trúc tính tổng, sin cosin atan, atan2 etc , phép tính đơn giản đến phép tính phức tạp tính ma trận nghich đảo, trị riêng, chuyển đổi fourier, laplace, symbolic library - Ngôn ngữ Matlab Đó ngôn ngữ cao ma trận mảng, với dòng lệnh, hàm, cấu trúc liệu vào, lập trình hướng đối tượng - Đồ hoạ Matlab Bao gồm câu lệnh thể đồ họa môi trường 2D 3D, tạo hình ảnh chuyển động, cung cấp giao diện tương tác người sử dụng máy tính - Giao tiếp với ngôn ngữ khác Matlab cho phép tương tác với ngôn ngữ khác C, Fortran … Hình 1.7: Giao diện MATLAB 19 Nén audio chuản MPEG Nhóm b, Giải thuật chương trình Từ phân tích trên, ta có code mô nén audio theo chuẩn MPEG phần mềm MTLAB sau: % đọc file chuyển sang vector [funky, f] = wavread('funky.wav'); %lựa chọn kích thước khối windowSize = 8192; %thay đổi tỷ lệ nén samplesHalf = windowSize / 2; samplesQuarter = windowSize / 4; samplesEighth = windowSize / 8; %khởi tạo ma trận nén funkyCompressed2 = []; funkyCompressed4 = []; funkyCompressed8 = []; %nén for i=1:windowSize:length(funky)-windowSize windowDCT = dct(funky(i:i+windowSize-1)); funkyCompressed2(i:i+windowSize-1) = idct(windowDCT(1:samplesHalf), windowSize); funkyCompressed4(i:i+windowSize-1) = idct(windowDCT(1:samplesQuarter), windowSize); funkyCompressed8(i:i+windowSize-1) = idct(windowDCT(1:samplesEighth), windowSize); end %đồ thị tín hiệu âm figure(1) h1 = subplot(4,1,1); plot(funky), title('Original Waveform'); subplot(4,1,2) plot(funkyCompressed2), title('Compression Factor 2'), axis(axis(h1)); subplot(4,1,3) plot(funkyCompressed4), title('Compression Factor 4'), axis(axis(h1)); 20 Nén audio chuản MPEG Nhóm subplot(4,1,4) plot(funkyCompressed8), title('Compression Factor 8'), axis(axis(h1)); %xem mở rộng tín hiệu âm figure(2) h1 = subplot(4,1,1); plot(funky(100000:120000)), title('Portion of Original Waveform'); subplot(4,1,2) plot(funkyCompressed2(100000:120000)), title('Portion of Compression Factor 2'), ; subplot(4,1,3) plot(funkyCompressed4(100000:120000)), title('Portion of Compression Factor 4'), axis(axis(h1)); subplot(4,1,4) plot(funkyCompressed8(100000:120000)), title('Portion of Compression Factor 8'), axis(axis(h1)); %phổ tín hiệu âm figure(3) subplot(4,1,1) specgram(funky), title('Original Waveform'); subplot(4,1,2) specgram(funkyCompressed2), title('Compression Factor 2'); subplot(4,1,3) specgram(funkyCompressed4), title('Compression Factor 4'); subplot(4,1,4) specgram(funkyCompressed8), title('Compression Factor 8'); %chạy file gốc file nén disp('Original'); wavplay(funky, f); disp('Compression Factor 2'); wavplay(funkyCompressed2, f); disp('Compression Factor 4'); wavplay(funkyCompressed4, f); disp('Compression Factor 8'); wavplay(funkyCompressed8, f); end 21 Nén audio chuản MPEG Nhóm CHƯƠNG KẾT QUẢ MÔ PHỎNG Kết mô MATLAB: Hình 2.1: Đồ thị tín hiệu âm Hình 2.2: Xem mở rộng tín hiệu âm 22 Nén audio chuản MPEG Nhóm Hình 2.3: Phổ tín hiệu âm Hình 2.4: Đồ thị Local maxima/Frequency index 23 Nén audio chuản MPEG Nhóm Hình 2.5: Đồ thị mặt nạ thời gian, mặt nạ tần số Hình 2.6: Đồ thị ngưỡng mặt nạ 24 Nén audio chuản MPEG Nhóm CHƯƠNG ĐÁNH GIÁ KẾT QUẢ 3.1 So sánh kết với lý thuyết Sau so sánh kết mô phần mềm MATLAB với số liệu tính toán lý thuyết ta có nhận xét sau: - Kết thu tương đồng với số liệu tính toán lý thuyết - Nén audio theo chuẩn MPEG có nhiều lợi hệ số nén cao, chất lượng âm tốt - Tuy nhiên, hệ số nén cao chất lượng âm giảm - Sử dụng mặt nạ thời gian, mặt nạ tần số để giảm dư thừa thông tin ích Chất lượng âm đầu đảm bảo chất lượng - Dung lượng audio ban đầu là: 1,068,728 bytes - Dung lượng audio : 97,592 bytes - Tỷ số nén : 10.95 - Tỷ số SNR ( tỷ số tạp âm nhiễu) : SNR = 13.54 dB Đồ thị âm sau nén lược bớt dựa vào: - Hiện tượng che mặt nạ tần số - Hiện tượng che mặt nạ thời gian - Ngưỡng nghe người Đuôi audio vào đuôi wav Đuôi audio đuôi mp3 Ở sử dụng chuẩn nén MPEG-1 layer 3.2 Giải thích kết Kết mô phần mềm có chênh lệch không lớn so với kết lý thuyết, sai lệch gây bởi: - Phần mềm có sai số - Âm đầu vào không thực hoàn hảo - Code chương trình có sai sót 3.3 Kết luận - Đã mô thành công nén audio theo chuẩn MPEG matlab - Hiểu chi tiết trình nén, giải nén audio - Cung cấp phương tiện cần thiết cho trình tìm hiểu cách thức hoạt động MPEG nén audio 25 Nén audio chuản MPEG Nhóm KẾT LUẬN Báo cáo trình bày kiến thức chuẩn nén nói chung chuẩn nén MPEG nói riêng, sâu phân tích đặc điểm cấu trúc chức chuẩn nén audio đặc biệt nén audio theo chuẩn MPEp Hơn nữa, báo cáo trọng tới vấn đề xử lí tín hiệu ứng dụng mạng viễn thông: phương pháp nén tín hiệu, lưu trữ tín hiệu, tiêu chuẩn nén âm hình ảnh video Những kiến thức trình bày báo cáo giúp tiếp cận nhanh với vấn đề thực tiễn mạng viễn thông Nhóm học viên xin cám ơn hướng dẫn giáo viên, nhiều cố gắng nhiên nhiều sai sót mong góp ý thầy cô bạn để báo cáo hoàn thiện 26 Nén audio chuản MPEG 2007 Nhóm TÀI LIỆU THAM KHẢO [1] Giáo trình đa phương tiện, Trường Đại học kỹ thuật hậu cần CAND, 2016 [2] Giáo trình Xử lý âm hình ảnh, Học viện công nghệ bưu viễn thông, [3] Xử lý tín hiệu lọc số, Nguyễn Quốc Trung, NXB Bưu điện, 2001 [4] Digital Signal Processing, John G.Proakis - Dimitris G.Manolakis 27 [...]... công nén audio theo chuẩn MPEG trên matlab - Hiểu chi tiết về quá trình nén, giải nén audio - Cung cấp phương tiện cần thiết cho quá trình tìm hiểu về cách thức hoạt động của MPEG nén audio 25 Nén audio chuản MPEG Nhóm 8 4 KẾT LUẬN Báo cáo trình bày những kiến thức cơ bản về các chuẩn nén nói chung và chuẩn nén MPEG nói riêng, đi sâu phân tích các đặc điểm về cấu trúc và chức năng của các chuẩn nén audio. .. toán nén âm thanh thời đó, MPEG- 2 AAC có chất lượng âm thanh nổi bật và tỉ lệ nén hiếm có, nhờ khả năng nén cả những tín hiệu có tốc độ bít thấp hơn nên nó đã trở thành một trong những tiêu chuẩn mã hóa/giải mã hàng đầu cho các ứng dụng phát quảng bá (broadcasting), các dịch vụ Internet và các ứng dụng di động 13 Nén audio chuản MPEG Nhóm 8 Năm 1999, MPEG- 4 AAC được thông qua bởi Nhóm MPEG, tiêu chuẩn. .. và Truyền thông Công bố Danh mục tiêu chuẩn 14 Nén audio chuản MPEG Nhóm 8 kỹ thuật về ứng dụng công nghệ thông tin trong cơ quan nhà nước quy định Khuyến nghị áp dụng tiêu chuẩn ACC và được xếp vào nhóm Tiêu chuẩn về truy cập thông tin 1.4 Nén âm thanh theo chuẩn MPEG 1.4.1 Phương pháp Phương pháp mã hóa nguồn được sử dụng để loại bỏ đi sự dư thừa trong tín hiệu audio khi giá trị vi sai mẫu - mẫu xấp... lý thuyết - Nén audio theo chuẩn MPEG có nhiều lợi thế như hệ số nén cao, chất lượng âm thanh khá tốt - Tuy nhiên, hệ số nén càng cao thì chất lượng âm thanh càng giảm - Sử dụng mặt nạ thời gian, mặt nạ tần số để giảm dư thừa thông tin không có ích Chất lượng âm thanh đầu ra đảm bảo chất lượng - Dung lượng audio ban đầu là: 1,068,728 bytes - Dung lượng audio ra là : 97,592 bytes - Tỷ số nén là : 10.95... độ nén và lọc cao hơn cả lớp II và sử dụng một bộ mã hóa Huffman Hình 1.1: Các lớp của âm thanh MPEG Các thông số dùng trong MPEG Chuẩn MPEG cho phép ta chọn lựa các thông số cho việc nén âm thanh tốt nhất phù hợp với ứng dụng mà ta sử dụng Lược đồ mã hóa cho các loại là tổng quát Các thông số có thể chọn lựa trong bộ mã hóa MPEG bao gồm: Mode, Sampling frequency, bitrate, và Layer *Mode Chuẩn MPEG. .. 14496-3:1999, với một số cải tiến Nó được xây dựng dựa trên tiêu chuẩn MPEG- 2 AAC, giữ lại tối đa khả năng tương thích về cú pháp bitstream (chuỗi bit được mã hóa hoặc giải mã một phần chứa đoạn mã hóa dữ liệu ngẫu nhiên) của tiêu chuẩn MPEG- 2 AAC Nói cách khác, bộ giải mã MPEG- 4 ACC có khả năng giải mã các bitstream của tiêu chuẩn MPEG- 2 AAC Mặt khác, MPEG- 4 AAC đã cải thiện về khả năng mở rộng (scalability),... khác như C, Fortran … Hình 1.7: Giao diện MATLAB 19 Nén audio chuản MPEG Nhóm 8 b, Giải thuật chương trình Từ các phân tích trên, ta có code mô phỏng nén audio theo chuẩn MPEG trên phần mềm MTLAB như sau: % đọc một file và chuyển nó sang một vector [funky, f] = wavread('funky.wav'); %lựa chọn kích thước một khối windowSize = 8192; %thay đổi tỷ lệ nén samplesHalf = windowSize / 2; samplesQuarter = windowSize... Sony và Nokia Năm 1997, AAC mới được chính thức tiêu chuẩn hóa trong Phần 7 của tiêu chuẩn MPEG- 2 (MPEG- 2 Part 7 hay tiêu chuẩn ISO/IEC 13818-7:1997) bởi Nhóm chuyên gia mã hóa phim ảnh (Moving Picture Coding Experts Group - MPEG, được thành lập năm 1988 với sự hợp tác của các tổ chức ISO (International Organization for Standardization – Tổ chức tiêu chuẩn quốc tế) và IEC (International Electrotechnical... 2.1: Đồ thị tín hiệu âm thanh Hình 2.2: Xem mở rộng tín hiệu âm thanh 22 Nén audio chuản MPEG Nhóm 8 Hình 2.3: Phổ của tín hiệu âm thanh Hình 2.4: Đồ thị Local maxima/Frequency index 23 Nén audio chuản MPEG Nhóm 8 Hình 2.5: Đồ thị mặt nạ thời gian, mặt nạ tần số Hình 2.6: Đồ thị ngưỡng mặt nạ 24 Nén audio chuản MPEG Nhóm 8 3 CHƯƠNG 3 ĐÁNH GIÁ KẾT QUẢ 3.1 So sánh kết quả với lý thuyết Sau khi so sánh... nén 1:6 ở tốc độ lấy mẫu 48 kHz Tốc độ thấp hơn 128 kbps/kênh được dùng trong các ứng dụng yêu cầu tỉ số nén lớn hơn do giới hạn của băng thông truyền hay thiết bị lưu trữ Một số tốc độ bit cung cấp bởi chuẩn âm thanh MPEG: MPEG 1: 32 kHz, 44.1 kHz và 48 kHz - Layer I: 32, 64, 96, 128, 160, 192, 224, 256, 288, 320, 352, 384, 416, 448 kbps Những tốc độ này là có thể ở chế độ Mono hay stereo 12 Nén audio ... chuẩn việc biểu diễn nội dung cho nghiên cứu thông tin hình ảnh âm Tên thức “Multimedia Content Description Interface” Mục tiêu MPEG-7 chuẩn hoá việc biểu diễn mô tả nội dung nghe nhìn Tuy nhiên... thấp với tốc độ bít cao, lời thoại với âm nhạc, ghi âm phức tạp với ghi âm đơn giản, nội dung đơn giản với nội dung thực tế ảo (virtualreality) ACC phát triển với hợp tác đóng góp nhiều công ty... hoá việc biểu diễn mô tả nội dung nghe nhìn Tuy nhiên chuẩn không định nghĩa công cụ để nhận nội dung nghe nhìn thật Về bản, âm MPEG làm giảm kích thước lưu trữ tâp tin âm nhiều Một đĩa Audio-CD

Ngày đăng: 10/01/2017, 13:39

TỪ KHÓA LIÊN QUAN

w