Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
1,48 MB
Nội dung
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG - - BÁO CÁO MÔN HỌC TRUYỀN THÔNG ĐA PHƢƠNG TIỆN Đề Tài: Công nghệ nén âm dải rộng MP3 ứng dụng Giáo viên hƣớng dẫn: PSG.TS Nguyễn Thị Hoàng Lan Sinh viên thực hiện: Trần Vũ Minh 20132620 Phạm Khắc Quang 20133107 Nguyễn Văn Long 20132396 Nguyễn Thị Trang 20134061 Hà Nội, Tháng 11/2016 Mục Lục Phân Công Công Việc Chuẩn MPEG Cơ âm dải rộng I Giới thiệu chuẩn MPEG Chuẩn MPEG-1 Phương pháp nén âm theo chuẩn MPEG-1 Ứng Dụng MP3 10 II Công nghệ nén âm mp3 10 III Sơ đồ khối nén âm mp3 10 Băng lọc ánh xạ (Analysis filterbank) 12 Modified discrete cosine transform (MDCT) 12 Fast Fourier Transform (FFT) 13 Mô hình âm tri giác (Psychoacoustic Model) 13 Lượng tử hóa không đồng dạng (Nonuniform Quantization) 15 Mã hóa Huffman 17 Coding of side information 17 BitStream Formatting 17 Sơ đồ mô hình mã hóa giọng nói toàn tỉ lệ (GSM full-rate) 17 So sánh 19 Thử nghiêm ứng dụng MP3 GSM 06.10 19 a Công cụ 19 b Các bƣớc thực 20 c Kết nhận xét 20 Tài Liệu Tham Khảo 24 Phân công công việc Giới thiệu chuẩn MPEG Ứng dụng Mp3: Nguyễn Thị Trang Tìm hiểu sơ đồ khối nén âm Mp3: Nguyễn Văn Long Sơ đồ mô hình mã hóa chu: Trần Vũ Minh Thử nghiệm thực tế so sánh Mp3 GSM 06.10: Phạm Khắc Quang I Chuẩn MPEG Cơ âm dải rộng Âm dao động học phân tử, nguyên tử hay hạt vật chất lan truyền không gian, đƣơc cảm nhận trực tiếp qua tai ngƣời va đập vào màng nhĩ làm rung động màng nhĩ kích thích não Âm sóng âm tần đƣợc đặc trƣng biên độ, tần số, vận tốc lan truyền Đối với thính giác ngƣời: âm cảm nhận đƣợc song dao động dải tần số từ khoảng 20Hz đến khoảng 20kHz Theo nghĩa rộng âm sóng học bao gồn dải tần mà ngƣời không cảm nhận đƣợc Dựa tên dải tần tín hiệu ngƣời ta chia thành loại: Âm dải tần sở (Âm tiếng nói thoại): Dải tần số từ 300Hz – 4kHz Âm dải rộng (Tiếng nói trình diễn, hát, âm nhạc…): Dải tần số từ 100Hz – 20kHz Âm đầu vào trình nén file Mp3 là: Âm dải rộng Giới thiệu chuẩn MPEG MPEG (Moving Picture Experts Group ): chuẩn mã hóa nén tín hiệu lƣu trữ videoaudio MPEG:là nhóm quy tắc hoạt động đƣợc thành lập ISO IEC để thiết lập tiêu chuẩn cho việc truyền tải âm video Chuẩn MPEG lần đƣợc mắt vào năm 1988 sáng kiến Hiroshi Yasuda Leonardo Chiariglione Các chuẩn MPEG: MPEG-1, MPEG-2, MPEG-4, MPEG-7 MPEG-1(1992): Dùng để ghi CD-Rom, VCD, 25-30 ảnh/s, tốc độ từ 1.2Mbit/s 1.5Mbit/s MPEG-2(1994): Dùng cho DVD, TV số, HDTV, 30 ảnh/s, tốc độ từ 10-15 Mbit.s MPEG-4(1998): liệu đa phƣơng tiện truyền thông ứng dụng tƣơng tác đa phƣơng tiện, đồng liệu MPEG-7(2001): Chuẩn giao diện mô tả nội dung đa phƣơng tiện, hỗ trợ tìm kiếm, xử lý, quản lý liệu đa phƣơng tiện Nén Audio theo chuẩn MPEG: Tần số lấy mẫu : 32, 44.1, 48kHz Tốc độ: 32, 48, 56, 64, 112, 128, 192, 256, 384 kbit/s MPEG layer MPEG layer 3 Chuẩn MPEG-1 Tổ chức tiêu chuẩn quốc tế (ISO) liên đoàn quốc tế nhằm mục đích tạo thuận lợi cho việc trao đổi hàng hóa quốc tế dịch vụ cách đƣa chuẩn quốc tế MPEG (Moving Picture Experts Group) chuẩn phổ biến đƣợc quy định để mã hóa/nén hình ảnh động, âm kết hợp chúng Tiêu chuẩn có đặc tính chung, có nghĩa giải mã sử dụng chuẩn có khả giải mã luồng bit đƣợc tạo mã hóa ngẫu nhiên sử dụng chuẩn Hơn nữa, việc đảm bảo chất lƣợng cho hình ảnh âm cần thiết Quá trình phát triển bắt đầu vào năm 1988 hoàn thành vào năm 1992 cho chuẩn MPEG-1 Chuẩn bao gồm ba thành phần khác nhau: Phần âm Phần hình ảnh Phần hệ thống Đối với phần âm thanh, có ba mức độ nén phức tạp đƣợc định nghĩa: Layer I, Layer II Layer III MPEG-1 Phần âm Lớp I có tỉ lệ bitrate từ 32 – 448 kbit/s (32, 64, 96… 416, 448 kbit/s), Lớp II có tỉ lệ bitrate từ 32-384 kbit/s (32, 48, 56, 64, 80…256, 320, 384 kbit/s), Lớp III có tỉ lệ bitrate từ 32-320 kbit/s (32, 40, 48, 56, 64, 80…224, 256, 320 kbit/s) Việc mã hóa/giải mã phức tạp lớp cao sử dụng hiệu tỉ lệ bitrate thấp MPEG-1 phần Âm Lớp I có định dạng tệp tin (.mp1) định dạng tệp tin Lớp II (.mp2), chủ yếu đƣợc sử dụng phát sóng truyền thanh, truyền hình MPEG-I phần Âm Lớp III, thƣờng đƣợc gọi MP3, có định dạng tệp tin (.mp3), định dạng âm phổ biến ngành công nghiệp âm nhạc, giải trí Internet kích thƣớc nhỏ gọn chất lƣợng âm tệp tin mp3 Bảng 4.1 cho thấy tốc độ truyền cần thiết cho Layer : Bitrate Đơn vị kbit/s (kbps) Đƣợc thiết lập ngƣời dùng trƣớc mã hóa Là số lƣợng liệu đƣợc phép chạy cho giây âm không nén Với chuẩn MP3, có giá trị khoảng kbit/s – 320 kbit/s (mặc định thường 128 kbit/s) Bitrate cao: Dung lƣợng file mp3 cao Các mẫu đƣợc đo xác Chất lƣợng âm tốt Tần số lấy mẫu Số mẫu lấy giây, đại diện cho độ phân giải âm Đơn vị Hz Với chuẩn MP3, có giá trị 8000Hz – 48000Hz Giá trị thƣờng gặp 44100 Hz (lấy 44100 mẫu giây) Tần số lấy mẫu cao: Dung lƣợng file mp3 cao Chất lƣợng âm tốt Khả lƣu trữ đƣợc nhiều giá trị Các phƣơng pháp nén âm theo chuẩn MPEG-1 4.1 Mô hình thụ cảm (Mô hình âm tri giác) Là kỹ thuật dựa vào cảm giác nghe tai người, tín hiệu xóa bỏ mà không ảnh hưởng chất lượng âm Bao gồm kỹ thuật ngưỡng nghe, mặt nạ tần số mặt nạ thời gian Ngưỡng nghe theo tần số Độ nhạy tai thay đổi theo thành phần tần số khác nên ta lượng tử hóa tín hiệu audio với số bit khác để giảm kích thước liệu Mặt nạ tần số Hiệu ứng xảy nghe hai âm mạnh yếu khác với tần số khác xảy lúc, âm mạnh có thể“che khuất” khiến tai không nghe âm yếu Mặt nạ thời gian Là hiệu ứng xảy âm yếu phát trước sau âm mạnh bị “che khuất” 4.2 Nén Huffman Huffman thuật toán nén không tổn hao, dựa bảng tần suất xuất kí tự cần mã hóa để xây dựng mã nhị phân cho kí tự cho dung lượng (số bít) sau mã hóa nhỏ Thuật toán đề xuất David A Huffman ông sinh viên Ph.D MIT, công bố năm 1952 Dữ liệu đầu vào: Tập n ký tự * + * Tập trọng số (tần số xuất hiện) + Dữ liệu đầu ra: ) * + tập hợp từ mã (codeword) nhị phân Bộ mã ( với ci từ mã ký tự < i < n Yêu cầu Với ( ) ∑ ( ) trọng số mã C Điểu kiện ( ) ( ) với mã ( ) Giải thuật tham lam Trong giải thuật tham lam giải toán xây dựng mã tiền tố tối ưu Huffman, bước ta chọn hai chữ có tần số thấp để mã hóa từ mã dài Giả sử có tập A gồm n ký hiệu hàm trọng số tương ứng ( ) Khởi tạo: Tạo rừng gồm n cây, có nút gốc, nút gốc tương ứng với kí tự có trọng số tần số/tần suát kí tự W(i) Lăp: Mỗi bước sau thực rừng cây: Chọn hai có trọng số gốc nhỏ hợp thành cách thêm gốc nối với hai gốc chọn Trọng số gốc tổng trọng số hai gốc tạo thành Như bước số bớt Khi rừng biểu diễn mã tiền tố tối ưu với ký tự đặt tương ứng II Ứng Dụng MP3 Định dạng mp3 định dạng âm phổ biến để lƣu trữ âm nhạc tảng máy vi tính truyền tải âm nhạc qua Internet MP3 tạo tên cho thiết bị điện tử tiêu dùng đƣợc đặt tên theo nó, máy nghe nhạc mp3 MP3 đƣợc ứng dụng hầu hết đĩa CD DVD (Digital Versatile Disc Digital Video Disc định dạng lƣu trữ liệu đĩa quang kỹ thuật số, có đƣờng kính 12 cm cho loại tiêu chuẩn, hay cm cho loại nhỏ nhƣng DVD có cách lƣu liệu khác với CD, với cách nén liệu lớp quang học có khả chứa nhiều liệu CD) hệ thống âm xe ô tô thiết bị âm nhƣ mạng máy chủ âm nhạc Ngoài ra, MP3 đƣợc ứng dụng rộng rãi truyền hình vệ tinh phát sóng âm kỹ thuật số điện thoại di động Trong Thông tƣ 01/2011/TT-BTTTT ngày 04/01/2011 Bộ trƣởng Bộ Thông tin Truyền thông Công bố Danh mục tiêu chuẩn kỹ thuật ứng dụng công nghệ thông tin quan nhà nƣớc quy định Khuyến nghị áp dụng tiêu chuẩn MP3 đƣợc xếp vào nhóm Tiêu chuẩn truy cập thông tin III Công nghệ nén âm mp3 Sơ đồ khối nén âm mp3 10 Quá trình mã hóa mp3 chia làm giai đoạn : + Encoding time domain : PCM Input , Analysis polyphase Fitterbank , FFT , MDCT with Window + Encoding frequency domain : Posycho-acoustic Model , Scale and Nonunniform Quantizer , Code of Side Information , Huffman coding , Bitstream Formatting And CRC word generation File mp3 chia thành nhiều frame Cấu trúc frame nhƣ sau: 11 Header: chứa thông tin sysworld(dấu hiệu bắt đầu frame) số lấy mẫu, bitrate, kênh, tầng nén(layer) Side info: chứa thông tin Huffman, hệ số hiệu chỉnh, thông số lƣợng tử hóa lựa chọn cửa sổ Main data: chứa liệu phổ đƣợc mã hóa mã Huffman Ancillary data: liệu phụ trợ đƣợc thêm ngƣời dùng, không đƣợc định nghĩa chuẩn Kích thƣớc tùy thuộc vào tần số lấy mẫu theo công thức sau: , - Băng lọc ánh xạ (Analysis filterbank) Một băng lọc đƣợc dùng để phân tách tín hiệu vào thành mẫu nhỏ (trên miền thời gian tần số) kèm theo lọc đơn giản Cùng với băng lọc tƣơng ứng giải mã, tạo thành hệ thống phân tích tổng hợp Một chuỗi 1152 mẫu PCM đƣợc lọc qua 32 subband tƣơng đƣơng phụ thuộc vào tần số Nyquist tín hiệu PCM Nếu tần số lấy mẫu tín hiệu PCM 44.1 kHz tần số Nyquist 22.05 kHz Mỗi subband có độ rộng xấp xỉ 22050/32 = 689 Hz Subband thấp có khoảng từ – 689 Hz, 689 – 1378… Mỗi mẫu chứa thành phần tín hiệu từ – 22.05 kHz đƣợc lọc vào subband thích hợp Điều có nghĩa số lƣợng mẫu đƣợc tăng lên theo nhân tố 32 subband chứa phổ mẫu Ví dụ, lọc 100 mẫu tăng số lƣợng mẫu lên 3200 100 mẫu subband sau đƣợc chia cho 32 Số lƣợng mẫu giảm từ 3200 100 Modified discrete cosine transform (MDCT) Bằng việc áp dụng MDCT vào khung thời gian mẫu subband, subband đƣợc chia thành 18 subband nhỏ hơn, tạo 576 dòng tần số Nhƣng trƣớc MDCT, tín hiệu subband phải đƣợc qua hàm cửa sổ Cửa sổ đƣợc dùng để giảm sai số gây cạnh đoạn tín hiệu thời gian Có bốn loại cửa sổ khác đƣợc định nghĩa chuẩn MPEG Phụ thuộc vào độ tĩnh mô hình âm tri giác định loại cửa sổ đƣợc áp dụng chuyển thông tin tới khối Nếu mô hình âm tri giác định tín hiệu subband khung thời gian thể khác biệt với khung thời gian trƣớc loại cửa sổ dài đƣợc áp dụng nhằm làm tăng cƣờng độ phân giải phổ đƣợc đƣa MDCT Nếu tín hiệu subband thể khác biệt tƣơng khung thời gian trƣớc đó, loại cửa sổ ngắn đƣợc áp dụng Loại cửa sổ 12 chứa ba loại cửa sổ ngắn gối lên tăng cƣờng độ phân giải thời gian đƣợc đƣa MDCT Một độ phân giải thời gian cao cần thiết để kiểm soát thời gian Để nhận đƣợc thích nghi tốt chuyển tiếp cửa sổ, hai loại cửa sổ đƣợc định nghĩa cửa sổ bắt đầu cửa sổ kết thúc Một cửa sổ dài trở thành cửa sổ bắt đầu sau cửa sổ ngắn Tƣơng tự, cửa sổ dài trở thành cửa sổ kết thúc trƣớc cửa sổ ngắn Những phần nhiễu tạo băng lọc đƣợc cắt bỏ để làm giảm lƣợng thông tin cần truyền Fast Fourier Transform (FFT) Cùng lúc tín hiệu đƣợc xử lý băng lọc, đƣợc chuyển sang miền tần số FFT Cả 1024 256 điểm FFT đƣợc thực 1152 mẫu PCM thời điểm để đạt đƣợc độ phân giải tần số cao thông tin phổ thay đổi theo thời gian Mô hình âm tri giác (Psychoacoustic Model) Khối truy nhập liệu vào từ đầu FFT Khi mẫu miền tần số, chúng áp dụng cho tập thuật toán Các thuật toán mô hình cảm giác âm ngƣời từ cung cấp thông tin phần tín hiệu âm nghe đƣợc phần không Thông tin hữu ích để định loại cửa sổ cho MDCT áp dụng để cung cấp thông tin làm để lƣợng tử hóa dòng tần số cho khối Nonuniform Quantization 13 Để biết đƣợc loại cửa sổ đƣợc gửi tới khối MDCT, ta so sánh hai phổ FFT sau hai phổ trƣớc Nếu có khác biệt thật yêu cầu cửa sổ ngắn Ngay không khác biệt, khối MDCT chuyển lại thành cửa sổ dài Mô hình âm tri giác phân tích phổ FFT để phát âm chi phối subband để tính toán ngƣỡng che Các thành phần tần số dƣới ngƣỡng che bị lọc Các ngƣỡng giới hạn cho băng đƣợc sử dụng cho khối lƣợng tử hóa để giữ nhiễu lƣợng tử hóa dƣới giới hạn (không bị nghe ngƣời) 14 Phổ tín hiệu âm bao gồm âm mạnh 11.250 kHz nhiễu Đồng thời cho thấy việc ảnh hƣởng ngƣỡng che ngƣỡng xung quanh (a) Tính toán ngƣỡng che bao gồm ngƣỡng che ngƣỡng nghe (b) Tín hiệu tỷ lệ mặt nạ (c) Tín hiệu đƣợc che Lượng tử hóa không đồng dạng (Nonuniform Quantization) Khối lƣợng tử hóa đƣợc áp dụng cho 576 giá trị phổ lúc Điều đƣợc thực hai vòng lặp lồng nhau, vòng lặp kiểm soát sai khác (vòng lặp bên ngoài) vòng lặp kiểm soát tốc độ (vòng lặp bên trong) Vòng lặp kiểm soát tốc độ 15 + Vòng lặp tốc độ thực lấy mẫu miền tần số định độ lớn bƣớc lƣợng tử hóa Ngoài việc chia giá trị lớn thành vùng, định chọn bảng Huffman cho vùng việc tính toán biên vùng đƣợc diễn + Ta bắt đầu với mẫu đƣợc lƣợng tử hóa với bƣớc lƣợng tử hóa tăng dần giá trị lƣợng tử hóa mã hóa sử dụng giá trị bảng mã Huffman Một bƣớc lƣợng tử hóa lớn dẫn theo giá trị lƣợng tử hóa nhỏ Sau bit tổng mã Huffman đƣợc tính toán so sánh với bit có Nếu bit tổng vƣợt số bit có, bƣớc lƣợng tử hóa tăng lên thủ tục lại lặp lại đủ bit có + Sự phi tuyến đạt đƣợc cách lũy thừa mẫu lên ¾ Vòng lặp kiểm soát sai khác + Vòng lặp kiểm soát nhiễu lƣợng tử đƣợc tạo trình lƣợng tử hóa dòng miền tần số vòng lặp kiểm soát tốc độ Mục đích để giữ nhiễu lƣợng tử dƣới ngƣỡng che (cho phép tiếng ồn mô hình âm tri giác tạo ra) + Để định hình nhiễu lƣợng tử, nhân tố tỉ lệ (mặc định 1.0) đƣợc dùng vào dòng tần số băng Các nhân tố tỉ lệ băng bƣớc lƣợng tử hóa sau đƣợc lƣu lại trƣớc vòng lặp kiểm soát tốc độ đƣợc gọi Sau vòng lặp kiểm soát tốc độ (bên trong), nhiễu lƣợng tử hóa đƣợc tính toán Điều lặp lại băng có tiếng ồn lớn ngƣỡng cho phép Các giá trị nhân tố tỉ lệ băng ồn tăng cho vòng lặp đƣợc lặp lại Cuối tai ngƣời không nghe đƣợc tiếng ồn trình lƣợng tử hóa tạo vòng lặp kết thúc + Vẫn có trƣờng hợp hai vòng lặp tính toán vô hạn Để tránh trƣờng hợp này, kiểm tra vài điều kiện vòng lặp kiểm soát sai khác để dừng trình lặp lại sớm Đầu vào vòng lặp: Vector độ lớn 576 giá trị phổ Sự sai khác cho phép băng Số lƣợng băng Các bit có mã Huffman mã nhân tố tỉ lệ 16 Số bit trung bình Đầu vòng lặp: Vector 576 giá trị lƣợng tử hóa Nhân tố tỉ lệ Độ lớn thông tin bƣớc lƣợng tử hóa Số bit không sử dụng Cờ nhấn mạnh trƣớc vòng lặp Mã Huffman liên quan tới thông tin bên lề o big_values (số cặp mã giá trị Huffman, trừ “count1”) o count1table_select (bảng mã Huffman giá trị