Các thuật toán mã hóa MP3 làm việc dựa trên các quy tắc về mức độ cảm nhận âm thanh của tai người. Tai con người chỉ có khả năng cảm nhận được những âm thanh nằm trong khoảng tần số từ 16 Hz 20 KHz, âm thanh nằm ngoài dải tần số đó coi như vô nghĩa. Hơn nữa tại cùng một thời điểm, khi nghe những âm thanh với âm lượng lớn, người dùng sẽ khó có thể cảm nhận được những âm thanh có âm lượng rất nhỏ. Bằng cách sử dụng các thuật toán riêng giúp MP3 có thể phân biệt được các đoạn âm thanh có tần số quá cao hay quá thấp, và loại bỏ những tạp âm không cần thiết.
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ─────── * ─────── BÁO CÁO BÀI TẬP LỚN HỌC PHẦN: TRUYỀN THÔNG ĐA PHƯƠNG TIỆN IT4681 ĐỀ TÀI: NÉN ÂM THANH DẢI RỘNG MP3 Giảng viên hướng dẫn: PGS.TS Nguyễn Thị Hoàng lan Nhóm sinh viên thực hiện: Trần Văn Tùng 20122760 Ngô Hồng Hải 20121638 Nguyễn Tú Chi 20121301 Chu Văn Huy 20121786 Truyền thông đa phương tiện – IT4681 Mục lục Truyền thông đa phương tiện – IT4681 Danh mục hình vẽ Truyền thông đa phương tiện – IT4681 Phần Giới thiệu âm số theo chuẩn MPEG 1.1 Giới thiệu chuẩn MPEG-1 MPEG (The Moving Picture Experts Group Phase) chuẩn mã hóa liệu đa phương tiện, bao gồm chuẩn mã hóa hình ảnh, âm thanh, liệu truyền hình, truyền hình HD… Tiêu chuẩn MPEG-1 ( ISO/IEC 11172) định dạng âm thanh, phim ảnh nhóm chuyên gia ảnh động tiêu chuẩn cho định dạng âm thanh, phim ảnh tổ chức ISO/IEC phát triển nhằm hỗ trợ thiết bị trình chiếu âm thanh, phim ảnh Mã hóa ảnh động âm kết hợp cho phương tiện lưu trữ thông tin số 1,5Mbit/s, bao gồm 05 phần: - ISO/IEC-11172-1- Hệ thống (lưu trữ đồng bộ\ âm thanh, phim ảnh - liệu khác) ISO/IEC-11172-2 - Phim ảnh (chứa nội dung phim ảnh nén) ISO/IEC-11172-3 - Âm (chứa nội dụng âm nén) ISO/IEC-11172-4 - Kiểm thử khả tương thích (kiểm tra việc triển khai tiêu - chuẩn) ISO/IEC-11172-5 - Phần mềm tham chiếu (phần mềm mẫu thực việc mã hóa giải mã nào) MPEG-1 phần Âm (ISO/IEC-11172-3) chia làm 03 lớp: MPEG-1 phần Âm Lớp I có tỉ lệ bitrate từ 32 – 448 kbit/s (32, 64, 96… 416, 448 kbit/s), Lớp II có tỉ lệ bitrate từ 32-384 kbit/s (32, 48, 56, 64, 80…256, 320, 384 kbit/s), Lớp III có tỉ lệ bitrate từ 32-320 kbit/s (32, 40, 48, 56, 64, 80…224, 256, 320 kbit/s) Việc mã hóa/giải mã phức tạp lớp cao sử dụng hiệu tỉ lệ bitrate thấp MPEG-1 phần Âm Lớp I có định dạng tệp tin (.mp1) định dạng tệp tin Lớp II (.mp2), chủ yếu sử dụng phát sóng truyền thanh, truyền hình MPEG-I phần Âm Lớp III, thường gọi MP3, có định dạng tệp tin Truyền thông đa phương tiện – IT4681 (.mp3), định dạng âm phổ biến ngành công nghiệp âm nhạc, giải trí Internet kích thước nhỏ gọn chất lượng âm tệp tin.mp3 1.2 Các khác niệm 1.2.1 Âm dải rộng Dựa dải tần tín hiệu âm thanh, người ta chia thành loại sau: • Âm dải tần sở: dùng tiếng nói thoại, với dải tần số từ • 300Hz đến 4KHz Âm tiếng nói dải rộng: dùng trình diễn, hát, âm nhạc, giải trí…, với dải tần số từ 100Hz đến 20KHz Âm đầu vào trình nén file mp3 âm dải rộng 1.2.2 • • • • Bitrate Đơn vị kbit/s (kbps) Được thiết lập người dùng trước mã hóa Là số lượng liệu phép chạy cho giây âm không nén Với chuẩn MP3, có giá trị khoảng kbit/s – 320 kbit/s (mặc định thường 128 kbit/s) • Bitrate cao: Dung lượng file mp3 cao Các mẫu đo xác Chất lượng âm tốt 1.2.3 • • • Tần số lấy mẫu Số mẫu lấy giây, đại diện cho độ phân giải âm Đơn vị Hz Với chuẩn MP3, có giá trị 8000Hz – 48000Hz Giá trị thường gặp 44100 Hz (lấy 44100 mẫu giây) • Tần số lấy mẫu cao: Dung lượng file mp3 cao Chất lượng âm tốt Khả lưu trữ nhiều giá trị Truyền thông đa phương tiện – IT4681 1.2.4 Ngưỡng nghe, ngưỡng che a Ngưỡng nghe Là mức mà âm nghe Thay đổi theo tần số âm Có tính thích nghi b Ngưỡng che • Là ngưỡng mà âm lớn át âm bé, trước sau • • • 1.2.5 Các kiểu kênh Có bốn kiểu kênh khác định nghĩa: • Kênh đơn • Kênh đôi ( kênh mã hóa đọc lập với nhau) • Stereo • Joint Stereo Chú ý: Kênh đôi tạo hai kênh đơn độc lập với Mỗi sử dụng xác nửa bitrate file Hầu hết giải mã xuất chúng dạng stereo, tất trường hợp • Truyền thông đa phương tiện – IT4681 Phần Công nghệ nén âm dải rộng MP3 2.1 Tổng quan MP3 Các thuật toán mã hóa MP3 làm việc dựa quy tắc mức độ cảm nhận âm tai người Tai người có khả cảm nhận âm nằm khoảng tần số từ 16 Hz - 20 KHz, âm nằm dải tần số coi vô nghĩa Hơn thời điểm, nghe âm với âm lượng lớn, người dùng khó cảm nhận âm có âm lượng nhỏ Bằng cách sử dụng thuật toán riêng giúp MP3 phân biệt đoạn âm có tần số cao hay thấp, loại bỏ tạp âm không cần thiết Nói cách đơn giản chuẩn MP3 nén tập tin cách loại bỏ âm dư thừa bao gồm tiếng ồn, âm tầng cao thấp âm nhiễu sóng điện dụng cụ thu âm gây Đây âm chiếm nhiều dung lượng nhạc Ngoài có thông số ảnh hưởng đến khả nén liệu bit rate file Mp3, có giá trị 128Kbps, 192Kbps, 256Kbps 320Kbps nhỏ nhiều so với 1411Kbps âm chuẩn, việc giảm bit rate không ảnh hưởng nhiều đến chất lượng âm MP3 có số thuật toán để bù đắp lại chỗ mát mà lược bỏ cách tạo âm méo mó so với âm gốc, mà không làm giảm chất lượng cảm nhận tai người so sánh với tập tin chưa qua nén MP3 2.2 Cấu trúc file MP3 File MP3 chia thành nhiều khối liệu nhỏ, khối chứa liệu âm 0.026s, kích thước khối dựa giá trị bit rate file [TAG] Block1 Block2 Block3 … … Block n [TAG] Truyền thông đa phương tiện – IT4681 Mỗi khối có bytes đầu quy định thông số liệu Block n Header (4bytes) Data Bits 0-10: đồng hóa khối, quy định 1, giúp máy tính phát bit bắt đầu khối Bits 11-12: ID phiên MPEG (file MP3 ‘11’ ) Bits 13-14: Layer (MP3 ‘01’) Bits 15: mã kiểm thử CRC (file MP3 nên bit có giá trị ‘1’) Bits 16-19: Giá trị bit rate file MP3 00 00 FR EE 00 01 32 00 10 40 00 11 48 01 00 56 01 01 64 01 10 80 01 11 96 10 00 11 10 01 12 10 10 16 10 11 19 11 00 22 11 01 25 11 10 32 11 11 ba d Bits 20-21: Tần số lấy mẫu (file MP3 có giá trị ‘00’, tần số lấy mẫu 44100 nghĩa 1/44100 giây file audio giải mã tín hiệu âm thanh) Bits 22: Đệm bù liệu (có/không) Bits 23: Không rõ Bits 24-25: Kênh (MP3 thường dùng kênh ‘joint stereo’ giá trị ’01’) Bits 26-27: Chế độ mở rộng (hiển thị chế độ Joint stereo dùng) Bits 28: Bản quyền (có/không) Bits 29: Bản gốc (có/không) Bits 30-31: Không rõ Ở trước sau khối liệu audio có thẻ quy định thông tin tác giả, năm sx, tên … Truyền thông đa phương tiện – IT4681 2.3 Công nghệ nén âm MP3 Hình Sơ đồ nén âm dải rộng MP3 2.3.1 Bộ lọc (Filterbank) Bộ lọc sử dụng MP3 lọc lai, bao gồm lọc nhiều pha biến đổi cosin rời rạc hiệu chỉnh (Modified Discrete Cosine Transform – MDCT, thuật toán nén ảnh) Hình thức lai chọn cho kích thước khung hình tương tự Lớp Lớp Mô hình thụ cảm (Perceptual Model) Các mô hình thụ cảm chủ yếu xác định chất lượng trình mã hóa định Nó sử dụng lọc riêng biệt kết hợp tính toán giá trị lượng (energy values) (tạo tính toán che - masking calculations) lọc Đầu mô hình thụ cảm bao gồm giá trị cho ngưỡng che nhiễu cho phép phân vùng mã hóa Nếu nhiễu rút gọn giữ ngưỡng che kết nén phân biệt tín hiệu ban đầu Âm kết hợp (Joint Stereo) Mã hóa âm tận dụng ưu điểm hai kênh cặp kênh âm chứa thông tin tương tự phía xa Những bất cập dư thừa âm khai thác để giảm tổng số tốc độ bít Âm kết hợp sử dụng Truyền thông đa phương tiện – IT4681 trường hợp có tốc độ bít thấp có sẵn tín hiệu âm thỏa mãn Rút gọn mã hóa (Quantization and Coding) Một hệ thống hai vòng lặp lồng giải pháp phổ biến để làm tròn mã hóa mã hóa MP3 Quá trình làm tròn thực thông qua hệ số nén dạng lũy thừa Bằng cách này, giá trị lớn tự động mã hóa với độ xác vài dạng nhiễu (noise shaping) tạo trình rút gọn Các giá trị rút gọn mã hóa mã hóa Huffman gọi mã hóa không nhiễu âm (noiseless coding) nhiễu âm không thêm vào tín hiệu âm Quá trình để tìm lợi ích tối ưu hệ số cho khối định, tốc độ bít đầu từ mô hình thụ cảm thường thực hai vòng lặp lồng theo phương pháp phân tích tổng hợp sau: • Vòng lặp bên (vòng lặp tốc độ) Các bảng mã hóa Huffman gán mã ngắn (thường xuyên hơn) cho giá trị hệ số nhỏ Nếu số lượng bít kết từ hoạt động mã hóa vượt số lượng bít có sẵn để mã hóa khối liệu định, việc thay đổi cách điều chỉnh lợi ích tổng thể cho phép kích thước bước nhảy rút gọn lớn hơn, dẫn đến giá trị rút gọn nhỏ Hoạt động lặp lặp lại với kích thước bước nhảy rút gọn khác bít yêu cầu cho mã hóa Huffman đủ nhỏ Vòng lặp gọi vòng lặp tốc độ thay đổi tốc độ bít mã hóa thuộc vào phạm vi cho phép • Vòng lặp bên (kiểm soát nhiễu/biến dạng vòng lặp) Để tạo nhiễu rút gọn cho ngưỡng che, hệ số áp dụng cho băng tần hệ số Các hệ thống bắt đầu với hệ số mặc định 1,0 cho băng tần Nếu phát nhiễu rút gọn băng tần cho trước vượt ngưỡng che (nhiễu cho phép) cung cấp mô hình thụ cảm, hệ số cho băng tần điều chỉnh để giảm nhiễu rút gọn Để thu nhiễu rút gọn nhỏ hơn, đòi hỏi số bước nhảy rút 10 Truyền thông đa phương tiện – IT4681 Hình Mặt nạ tần số • Mặt nạ thời gian Là hiệu ứng xảy âm yếu phát trước sau âm mạnh bị “che khuất” Hình Mặt nạ thời gian 12 Truyền thông đa phương tiện – IT4681 Nén Huffman Huffman thuật toán nén không tổn hao, dựa bảng tần suất xuất kí tự cần mã hóa để xây dựng mã nhị phân cho kí tự cho dung lượng (số bít) sau mã hóa nhỏ Thuật toán đề xuất David A Huffman ông sinh viên Ph.D MIT, công bố năm 1952 Dữ liệu đầu vào: Tập n ký tự Tập trọng số (tần số xuất hiện) Dữ liệu đầu ra: Bộ mã tập hợp từ mã (codeword) nhị phân với ci từ mã ký tự < i < n Yêu cầu Với trọng số mã C Điểu kiện với mã Giải thuật tham lam Trong giải thuật tham lam giải toán xây dựng mã tiền tố tối ưu Huffman, bước ta chọn hai chữ có tần số thấp để mã hóa từ mã dài Giả sử có tập A gồm n ký hiệu hàm trọng số tương ứng Khởi tạo: Tạo rừng gồm n cây, có nút gốc, nút gốc tương ứng với kí tự có trọng số tần số/tần suát kí tự W(i) Lăp: Mỗi bước sau thực rừng cây: Chọn hai có trọng số gốc nhỏ hợp thành cách thêm gốc nối với hai gốc chọn Trọng số gốc tổng trọng số hai gốc tạo thành Như bước số bớt Khi rừng biểu diễn mã tiền tố tối ưu với ký tự đặt tương ứng 13 Truyền thông đa phương tiện – IT4681 Phần Phân tích, so sánh với phương pháp nén tiếng nói thoại chuẩn ITU 3.1 Phương pháp mã âm theo chuẩn ITU 3.1.1 Các phương pháp mã hóa tiếng nói Mã hóa tiếng nói gồm phương pháp chính: a Phương pháp mã hóa tín hiệu dạng sóng (waveform) Bao gồm loại chính: Mã hóa miền thời gian: Bao gồm chuẩn từ G.710 đến G.719 • Mã hóa điều xung mã Pulse Code Modulation – PCM – lương tử hóa chuẩn hóa với chuẩn G.711: mã hóa trực tiếp tín hiệu lấy mẫu tiếng nói, âm dùng luật lượng tử hóa µ-law, a-law • Mã hóa dự đoán – điều xung mã sai phân Differential Pulse Code Modulation DPCM Mã hóa dự đoán thích nghi – điều xung mã sai phân thích nghi Adaptive Differential Pulse Code Modulation - ADPCM với chuẩn G.726 Mã hóa miền tần số • Mã hóa dải tần Subband Coding – SBC với chuẩn G.722 • Mã hóa dựa phép biến đổi Transform Coding b Phương pháp mã hóa nguồn • Nguyên lý mã hóa nguồn dựa mô hệ thống phát âm người Vocoder, tạo âm tiếng nói từ tập tham số Vocoder nguồn nhiễu trắng tạo âm vô Từ đó, mô hệ thống phát âm hệ thống lọc dự đoán tuyến tính PLC kích thích hai trạng thái nguồn 14 Truyền thông đa phương tiện – IT4681 • Ưu điểm phương pháp đạt tốc độ dòng bit thấp, phân tích tham số nguồn kích thích, sửa đổi nội dung tiếng nói theo ý muốn Tuy nhiên, nhược điểm tiếng nói nhận tiếng nói tổng hợp giọng nói người c Phương pháp mã hóa lai • Phổ biến mã hóa dựa kết hợp phân tích cách tổng hợp Analysis-bySynthesis AbS Phương pháp sử dụng mô hình phát âm người mã hóa nguồn, mặt khác, tín hiệu kích thích đạt từ phân tích tín hiệu tiếng nói người nói chọn cho dạng sóng tiếng nói tái tạo giống với dạng sóng tiếng nói ban đầu Thuật toán tìm sóng kích thích định độ phức tạp mã hóa • Các loại mã hóa lai khác theo kỹ thuật phân tích tạo tín hiệu kích thích CELP, RPE-LTP, MPE… Đánh giá chung phương pháp: Mã hóa dạng sóng nói chung không cho phép đạt chất lượng tiếng nói tốt tốc độ bit 16Kbps Mã hóa Vocoder đạt tốc độ bit thấp nhược điểm khó nhận diện người nói Còn mã hóa lai thường dùng theo chuẩn GSM 3.1.2 Kiến trúc hệ thống mã hóa âm thoại Hình mô tả sơ đồ khối hệ thống mã hóa âm thoại Tín hiệu âm thoại tương tự liên tục có từ nguồn cho trước – Speech source số hóa lọc chuẩn - Filter, lấy mẫu (bộ chuyển đổi thời gian rời rạc, lượng tử hóa - Sampler), chuyển tín hiệu tương tự sang tín hiệu số - A/D converter Tín hiệu ngõ tín hiệu âm thoại thời gian rời rạc với giá trị lấy mẫu rời rạc hóa Tín hiệu xem tín hiệu âm thoại số 15 Truyền thông đa phương tiện – IT4681 Hình Sơ đồ khối hệ thống xử lý tín hiệu thoại Thông thường, hầu hết hệ thống mã hóa âm thoại thiết kế để hỗ trợ ứng dụng viễn thông, với tần số giới hạn 300 3400Hz Tần số lấy mẫu tối thiểu phải lớn hai lần băng thông tín hiệu liên tục thời gian Giá trị 8kHz thường lựa chọn tần số lấy mẫu chuẩn cho tín hiệu thoại Bộ mã hóa kênh – Channel encoder thực việc mã hóa hiệu chỉnh lỗi chuỗi bit truyền trước tín hiệu truyền kênh truyền - Channel, nơi mà tín hiệu bị thay đổi nhiễu giao thoa tín hiệu… Bộ giải mã Channel decoder thực việc hiệu chỉnh lỗi để có tín hiệu mã hóa, sau tín hiệu đưa vào giải mã Source decoder để có tín hiệu âm thoại số có tốc độ với tín hiệu ban đầu Lúc này, tín hiệu số chuyển sang dạng tương tự thời gian liên tục nhờ D/A converter Như vậy, phận thực việc xử lý tín hiệu thoại chủ yếu mô hình hệ thống xử lý thoại mã hóa giải mã Liên hệ với mô hình thực tế, khối Filter, Sampler A/D converter nằm thiết bị thu âm micro, có nhiệm vụ thu số hóa âm chuyển cho mã hóa – giải mã CODEC Tương tự, nên người nhận, khối D/A Converter Filter phần hệ thống phát âm tai nghe, loa Bộ CODEC làm việc với tín hiệu số Bộ CODEC bên gửi có nhiệm vụ mã hóa, làm giảm dung lượng âm thanh, sau đóng gói vào chunk để đặt vào gói liệu chuyển mạng IP CODEC bên người nhận nhận, giải mã gói tin, 16 Truyền thông đa phương tiện – IT4681 lấy mẫu, tiếp tục đưa vào khối Source decoder để có âm số, chuyển cho phát âm Việc điều phối quản lý kênh thực thông qua hệ thống máy chủ chuyển mạch Hệ thống máy chủ phần mềm cài máy chủ Asterisk Thông thường, xử lý toán truyền thoại, mô hình đơn giản hóa Hình Hình Sơ đồ khối đơn giản hóa mã hóa âm thoại 17 Truyền thông đa phương tiện – IT4681 Phần Thử nghiệm ứng dụng MP3 4.1 Các tiêu chí Đánh giá chất lượng âm Tính chân thật âm thanh: có nghĩa người nghe cảm nhận âm phát từ loa thiết bị có chân thật không bị méo Âm sắc: hòa âm, tương tác âm Âm sắc biết phẩm chất nốt nhạc âm Âm sắc giúp phân biệt loại nhạc cụ khác Tỉ số nén thông số nói lên chênh lệnh dung lượng tốc độ liệu file nhạc mp3 Tỉ số nén cao chất lượng âm tốt tỉ số nén thấp sau nén dung lượng file nhạc bị cắt giảm nhiều nên chất lượng âm Biến điệu: thay đổi pha tần số âm Cao độ: đặc tính tri giác cho phép xếp âm khác thành chuỗi âm có mối tương quan với tần số dao động, tức độ “cao”, “thấp” âm phụ thuộc vào tần số giao động Tần số dao động lớn âm cao ngược lại 4.2 Công cụ quy trình thực 4.2.1 Công cụ Gồm công cụ • spek-0.8.2: dùng để phân tích phổ tần âm thanh, theo dõi thông số gồm bitrate, tần số tố đa, cường độ âm thanh… Download: https://spek.googlecode.com/files/spek-0.8.2.msi • mp3-quality-modifier_253 : dùng để convert, thay đổi thông số bitrate, tần số lấy mẫu, loại kênh, mục đích để cung cấp đầu vào cho công cụ spek Download: http://f50.softwaretop.net/2107tmp/cf/soft/2015/3/ba/1/mp3-qualitymodifier_253.exe 18 Truyền thông đa phương tiện – IT4681 • window media player : phần mềm nghe nhạc tích hợp sẵn window, mục đích để nghe trực tiếp âm thanh, cho Đánh giá chủ quan từ tai người nghe 4.2.2 Quy trình thực Bước Download nhạc chất lượng losslesss mạng Bước Sử dụng công cụ mp3-quality-modifier để thay đổi thông số, sau export nhạc Bước Sử dụng công cụ spek để phân tích Đánh giá phổ tần âm Bước Sử dụng trình nghe nhạc window-media-player, để Đánh giá chủ quan âm từ loa tới tai người nghe 4.3 Thực nghiệm Đánh giá chất lượng âm • Âm lossless âm MP3 thông dụng Hình Âm lossless âm MP3 thông dụng Đánh giá: Với file MP3 thông thường số mẫu giây hơn, thành phần tần số cao thu so với Losslesss 19 Truyền thông đa phương tiện – IT4681 • Cùng tần số lấy mẫu bitrate khác Hình Cùng tần số lấy mẫu bitrate khác Đánh giá: Khi bitrate giảm, mà tần số lấy mẫu không đổi thành phần tần số cao thu Tỉ số nén dung lượng file giảm mạnh • Cùng bitrate tần số lấy mẫu khác Hình Cùng bitrate tần số lấy mẫu khác Đánh giá: Khi bitrate không đổi, mà tần số lấy mẫu giảm thành phần tần số cao giảm mạnh, nhiên tỉ số nén dung lượng file giảm không đáng kể 20 Truyền thông đa phương tiện – IT4681 • MP3 thông dụng (128 KBps -44100Hz) với âm tiếng nói thoại chuẩn G711 Hình 10 MP3 thông dụng (128 KBps -44100Hz) với âm tiếng nói thoại chuẩn G711 • Tỷ số nén Hình 11 Tỷ số nén file nhạc lossless thực nghiệm, sau nén với thông số khác Đánh giá: MP3 nén liệu CD âm chất lượng cao theo hệ số 12 có chất lượng âm cao 4.4 So sánh mã âm MP3 với mã hóa âm theo chuẩn ITU Chuẩn MP3 Bitrate: 8kbps – 320kbps Tần số lấy mẫu: 16kHz-48kHz Dải tần: 100Hz-20kHz Chuẩn Các chuẩn ITU Tốc độ bit (Kbit/s) G.711 64 G.722 48/56/64 G.723.1 6.3/5.3 G726 32 Dải tần: 300Hz ~4kHz 21 Truyền thông đa phương tiện – IT4681 Phần Ảnh hưởng codec đến chất lượng âm 5.1 Giải thích sơ đồ xử lý nén âm số MP3 Hình 12 Giải thích sơ đồ xử lý nén âm số MP3 5.1.1 Giàn lọc (Filterbank) - MDCT Dữ liệu âm đầu vào tín hiệu số định dạng PCM(không nén) Phân tích tín hiệu vào thành 32 băng con, đầu lọc băng nối với biến đổi Cosin rời rạc MDCT Trước MDCT,s tín hiệu subband phải qua hàm cửa sổ để loại bỏ phần nhiễu gây cạnh đoạn tín hiệu thời gian MDCT chia tiếp đầu giàn lọc thành 576 băng nhằm đạt độ phân giải tốt miền tần số Việc phân chia băng nhằm lợi dụng đặc điểm độ nhạy tai thay đổi thành phần tần số khác 5.1.2 FFT-Mô hình cảm quan(Psychoacoustic model) Khâu định chất lượng tín hiệu MP3 Bộ mã hóa MP3 tiến hành ánh xạ từ miền thời gian sang miền tần số phép biến đổi Fourier nhanh FFT (Fast Fourier Trasform) 1024 điểm, để giúp phân giải tần số tốt nhằm ước lượng ngưỡng mặt nạ xác 22 Truyền thông đa phương tiện – IT4681 Khối truy nhập liệu vào từ đầu FFT Khi mẫu miền tần số, chúng áp dụng cho tập thuật toán Các thuật toán mô hình cảm giác âm người từ cung cấp thông tin phần tín hiệu âm nghe phần không Thông tin hữu ích để định loại cửa sổ cho MDCT áp dụng để cung cấp thông tin làm để lượng tử hóa dòng tần số cho khối Nonuniform Quantization 5.1.3 Lượng tử hóa mã hóa (Quantization and Coding) Thực lượng tử hóa mã hóa thành phần phổ với yêu cầu nhiễu lượng tử hóa thấp ngưỡng mặt nạ Các giá trị lượng tử hóa mã hóa Huffman với bảng mã thay đổi dải tần số khác nhau, để thích nghi tốt với tín hiệu Vì mã Huffman mã có độ dài từ mã thay đổi cần giữ cho nhiễu thấp ngưỡng mặt nạ nên phải tính độ lợi hệ số tỷ lệ trước lượng tử hóa Để tìm độ lợi hệ số tỷ lệ tối ưu khối cho trước, MP3 dùng hai vòng lặp lồng vào a Vòng lặp hay vòng lặp điều khiển tốc độ (rate control loop): Hiệu chỉnh độ lợi để tăng dần kích thước bước lượng tử hóa, giảm dần số mức lượng tử hóa số bit yêu cầu cho mã hóa Huffman đủ nhỏ, dẫn đến bit tốc độ bit tín hiệu MP3 đủ nhỏ b Vòng lặp hay vòng lặp điều khiển nhiễu (distortion control loop): Hiệu chỉnh hệ số tỷ lệ để giảm dần nhiễu lượng tử hóa, lúc số mức lượng tử hóa tăng dần lên, làm tốc độ bit tăng dần lên, dẫn đến vòng lặp phải hiệu chỉnh độ lợi Nếu không đồng thời thỏa mãn yêu cầu tốc độ bit chất lượng audio hai vòng lặp điểm hội tụ Để tránh trường hợp này, phải hiệu chỉnh thông số mã hóa mã hóa hoạt động tốc độ bit khác 5.1.4 Định dạng dòng bit (bitstream formatting) Dòng bit MP3 định dạng theo khung, gồm hệ số phổ mã hóa, đầu khung header gồm: từ mã đồng bộ, tốc độ bit, tần số lấy mẫu, lớp, mode mã 23 Truyền thông đa phương tiện – IT4681 hóa Do thông tin lặp lại tất khung nên ta giải mã vào lúc 5.2 Phân tích ảnh hưởng nén đến chất lượng âm Quá trình nén giảm dung lượng chất lượng âm Khi bitate giảm, thành phần tần số cao thu hơn, thành phần tần số thấp thu nhiều Khi âm nghe trầm khó nghe chất lượng âm giảm Không có phần tần số cao làm không phân biệt số âm sắc Chất lượng âm tăng theo giá trị bitrate, nhiên đến giá trị đó, tai người khó cảm nhận khác biệt âm bitrate khác 24 Truyền thông đa phương tiện – IT4681 Phần Đánh giá hoạt động nhóm 6.1 Phân chia công việc • Nguyễn Tú Chi: tìm hiểu âm số theo chuẩn MPEG, phương pháp nén âm theo chuẩn MPEG-1 • Ngô Hồng Hải: Phân tích so sánh với phương pháp nén âm MPEG-1 với phương pháp nén tiếng nói thoại theo chuẩn ITU • Trần Văn Tùng: So sánh thử nghiệm ứng dụng MP3, so sánh mã âm • MP3 với mã hóa âm theo chuẩn ITU Chu Văn Huy: Giải thích sơ đồ xử lý nén âm số MP3, ảnh hưởng nén đến chất lượng âm 6.2 Mức độ đóng góp hoàn thành công việc • • • • Nguyễn Tú Chi: 25% Ngô Hồng Hải: 25% Trần Văn Tùng: 25% Chu Văn Huy: 25% 6.3 Tổng kết Về nhóm thực đủ yêu cầu đề đề tài Tuy nhóm cố gắng hết sức, xong tránh khỏi sai sót, mong nhận phê bình, đánh giá cô, để nhóm rút kinh nghiệm, tiếp thu kiến thức 25 Truyền thông đa phương tiện – IT4681 Tài Liệu Tham Khảo • Bài giảng “Truyền thông đa phương tiện – Multimedia Communication”, Nguyễn Thị Hoàng Lan • Jens-Rainer Ohm, “Multimedia Communication Technology”, Springer-Verlag Berlin 2004 • S J Solari, “Digital Video and Audio Compression”, McGraw-Hill, 1997 26 [...]... nhiên tỉ số nén và dung lượng file giảm không đáng kể 20 Truyền thông đa phương tiện – IT4681 • MP3 thông dụng (128 KBps -44100Hz) với âm thanh tiếng nói thoại chuẩn G711 Hình 10 MP3 thông dụng (128 KBps -44100Hz) với âm thanh tiếng nói thoại chuẩn G711 • Tỷ số nén Hình 11 Tỷ số nén của file nhạc lossless thực nghiệm, sau khi nén với các thông số khác nhau Đánh giá: MP3 có thể nén dữ liệu CD âm thanh chất... lượng âm thanh cao 4.4 So sánh mã âm thanh MP3 với mã hóa âm thanh theo chuẩn ITU Chuẩn MP3 Bitrate: 8kbps – 320kbps Tần số lấy mẫu: 16kHz-48kHz Dải tần: 100Hz-20kHz Chuẩn Các chuẩn ITU Tốc độ bit (Kbit/s) G.711 64 G.722 48/56/64 G.723.1 6.3/5.3 G726 32 Dải tần: 300Hz ~4kHz 21 Truyền thông đa phương tiện – IT4681 Phần 5 Ảnh hưởng codec đến chất lượng âm thanh 5.1 Giải thích sơ đồ xử lý nén âm thanh số MP3. .. bộ mã hóa âm thoại 17 Truyền thông đa phương tiện – IT4681 Phần 4 Thử nghiệm ứng dụng MP3 4.1 Các tiêu chí Đánh giá chất lượng âm thanh Tính chân thật của âm thanh: có nghĩa là khi người nghe cảm nhận thì âm thanh phát ra từ loa của thiết bị có chân thật không hay là bị méo Âm sắc: là sự hòa âm, sự tương tác của những âm chính Âm sắc được biết là phẩm chất của một nốt nhạc hoặc âm thanh Âm sắc giúp... công cụ mp3- quality-modifier để thay đổi các thông số, sau đó export ra bản nhạc mới Bước 3 Sử dụng công cụ spek để phân tích Đánh giá phổ tần của âm thanh Bước 4 Sử dụng trình nghe nhạc window-media-player, để Đánh giá chủ quan âm thanh từ loa tới tai người nghe 4.3 Thực nghiệm Đánh giá chất lượng âm thanh • Âm thanh lossless và âm thanh MP3 thông dụng Hình 7 Âm thanh lossless và âm thanh MP3 thông. .. của âm thanh ở 2 bitrate khác nhau 24 Truyền thông đa phương tiện – IT4681 Phần 6 Đánh giá hoạt động nhóm 6.1 Phân chia công việc • Nguyễn Tú Chi: tìm hiểu âm thanh số theo chuẩn MPEG, và phương pháp nén âm thanh theo chuẩn MPEG-1 • Ngô Hồng Hải: Phân tích so sánh với phương pháp nén âm thanh MPEG-1 với phương pháp nén tiếng nói thoại theo chuẩn ITU • Trần Văn Tùng: So sánh thử nghiệm ứng dụng MP3, ... nghe hai âm thanh mạnh yếu khác nhau với tần số khác nhau xảy ra cùng lúc, âm mạnh hơn có thể“che khuất” khiến tai không nghe được âm yếu hơn 11 Truyền thông đa phương tiện – IT4681 Hình 3 Mặt nạ tần số • Mặt nạ thời gian Là hiệu ứng xảy ra nếu âm yếu hơn được phát ra ngay trước hoặc ngay sau âm mạnh hơn thì cũng bị “che khuất” Hình 4 Mặt nạ thời gian 12 Truyền thông đa phương tiện – IT4681 Nén Huffman... Transform Coding b Phương pháp mã hóa nguồn • Nguyên lý mã hóa nguồn dựa trên bộ mô phỏng hệ thống phát âm con người Vocoder, tạo ra âm thanh tiếng nói từ tập các tham số Vocoder thanh và nguồn nhiễu trắng tạo ra âm vô thanh Từ đó, nó mô phỏng hệ thống phát âm bằng hệ thống lọc dự đoán tuyến tính PLC được kích thích bằng hai trạng thái nguồn 14 Truyền thông đa phương tiện – IT4681 • Ưu điểm của phương pháp... Phân tích ảnh hưởng của nén đến chất lượng âm thanh Quá trình nén sẽ giảm dung lượng cũng như chất lượng âm thanh Khi bitate giảm, thành phần tần số cao thu được sẽ ít hơn, thành phần tần số thấp sẽ thu được nhiều hơn Khi đấy âm thanh sẽ nghe trầm hơn và khó nghe do chất lượng âm thanh giảm Không có thanh phần tần số cao sẽ làm không phân biệt được một số âm sắc Chất lượng của âm thanh tăng theo giá trị... số nén là một thông số nói lên sự chênh lệnh về dung lượng và tốc độ dữ liệu của một file nhạc mp3 Tỉ số nén càng cao thì chất lượng âm thanh càng tốt còn tỉ số nén thấp thì sau khi nén thì dung lượng của file nhạc đã bị cắt giảm rất nhiều nên chất lượng âm thanh kém Biến điệu: là sự thay đổi pha và tần số của âm thanh Cao độ: là một đặc tính của tri giác cho phép chúng ta có thể sắp xếp những âm thanh. .. cây thì cây đó biểu diễn mã tiền tố tối ưu với các ký tự đặt ở các lá tương ứng 13 Truyền thông đa phương tiện – IT4681 Phần 3 Phân tích, so sánh với phương pháp nén tiếng nói thoại chuẩn ITU 3.1 Phương pháp mã âm thanh theo các chuẩn ITU 3.1.1 Các phương pháp mã hóa tiếng nói Mã hóa tiếng nói gồm 3 phương pháp chính: a Phương pháp mã hóa tín hiệu dạng sóng (waveform) Bao gồm 2 loại chính: Mã hóa trong .. .Truyền thông đa phương tiện – IT4681 Mục lục Truyền thông đa phương tiện – IT4681 Danh mục hình vẽ Truyền thông đa phương tiện – IT4681 Phần Giới thiệu âm số theo chuẩn MPEG... lượng âm • Âm lossless âm MP3 thông dụng Hình Âm lossless âm MP3 thông dụng Đánh giá: Với file MP3 thông thường số mẫu giây hơn, thành phần tần số cao thu so với Losslesss 19 Truyền thông đa phương. .. thông tin tác giả, năm sx, tên … Truyền thông đa phương tiện – IT4681 2.3 Công nghệ nén âm MP3 Hình Sơ đồ nén âm dải rộng MP3 2.3.1 Bộ lọc (Filterbank) Bộ lọc sử dụng MP3 lọc lai, bao gồm lọc nhiều