1. Trang chủ
  2. » Luận Văn - Báo Cáo

Âm thanh số Chuẩn MPEG 1 Layer III Phân tích và ứng dụng

73 1,1K 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 1,85 MB

Nội dung

Lượng tử hoá và các mẫu rời rạc thời gian Lượng tử hoá là biểu diễn biên độ của các xung tín hiệu thành 1 giá trị số sử dụng hệ thống số nhị phân.. Tỉ số tín hiệu trên sai số Signal-to-e

Trang 1

MỤC LỤC

Mục lục…… 1

Lời mở đầu 5

Các thuật ngữ thường dùng 6

PHẦN 1 : LÝ THUYẾT 7

CHƯƠNG I: CÁC ĐẶC ĐIỂM CƠ BẢN CỦA ÂM THANH 7

I Các đặc tính cơ bản của âm thanh 7

1 Tần số sóng âm 7

2 Biên độ sóng âm 8

II Khái quát về âm thanh số 9

1 Lấy mẫu rời rạc thời gian, tín hiệu audio tương tự 9

2 Lượng tử hoá và các mẫu rời rạc thời gian 9

3 Tỉ số tín hiệu trên sai số (Signal-to-error ratio) 10

CHƯƠNG II: GIỚI THIỆU VỀ MPEG 11

I GIỚI THIỆU 11

1 MPEG là gì? 11

2 So sánh các chuẩn MPEG: 11

3 Âm thanh MPEG 12

4 Hoạt động: 13

II CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG 14

1 Lược đồ mã hóa Perceptual Subband 14

2 Giải thích về hiệu qủa che (masking effect) 14

a Nén âm thanh MPEG 15

b Hiệu quả che 16

3 Các lớp âm thanh MPEG 17

a Lớp I (Layer I) 18

b Lớp II (Layer II) 18

c Lớp III (Layer III) 19

III CÁC THÔNG SỐ DÙNG TRONG MPEG 20

1 Mode 20

2 Sampling Frequency (tốc độ lấy mẫu) 21

3 Bit Rate 21

CHƯƠNG III: MÃ HÓA THỤ CẢM 23

Trang 2

I CƠ SỞ ÂM TÂM LÝ 23

1 Ngưỡng nghe tuyệt đối (absolute threshold of hearing) 23

2 Các băng tới hạn(critical bands) 23

3 Hiện tượng che (masking) 24

II MÃ HÓA BĂNG PHỤ 26

III MÃ HOÁ BIẾN ĐỔI 26

IV MÃ HOÁ MP3 ( MP3 ENCODING) 27

1 Phân tích phép biến đổi Fourier nhanh (FFT analysis) 27

2 Ngưỡng che(Masking Threshold) 28

3 Băng lọc phân tích (Analysis Filterbank) 28

4 MDCT với cửa sổ động 28

5 Chia tỉ lệ và lượng tử hóa (Scaling và Quantization) 29

6 Mã hóa Huffman và sinh ra dòng bit (Huffman Coding and Bitstream Generation) 30

7 Thông tin (Side Information) 32

CHƯƠNG IV: GIẢI MÃ MPEG1 LỚP 3 33

I GIẢI MÃ MP3 (MP3 DECODING) 33

1 Định dạng khung (Frame Format) 33

a Tiêu đề 34

b Thông tin (side infomation) 38

c Dữ liệu chính (main data) 39

d Dữ liệu phụ (Ancillary Data) 40

2 Giải mã Huffman 40

3 Lượng tử hoá lại (requantization) 41

4 Sắp xếp lại thứ tự ( reordering) 42

5 Giải mã stereo 42

a.Giải mã Stereo MS 42

b.Giải mã cường độ stereo 43

6 Giảm biệt danh (Alias Redution) 43

7 IMDCT 44

8 Khối lọc đa pha tổng hợp ( Synthesis Polyphase Filterbank) .46

II NHÌN CHUNG VỀ HIỆU QUẢ CÁC GIẢI THUẬT GIẢI MÃ MP3 46

1 Giải mã Huffman 46

2 Bộ lượng tử hóa lại (Requantizer) 48

3 Phép biến đổi cosin rời rạc cải tiến đảo ngược (IMDCT) 51

4 Băng lọc đa pha ( Polyphase Filterbank) 53

Trang 3

PHẦN 2: XÂY DỰNG PHẦN MỀM 57

CHƯƠNG I:GIAO DIỆN VÀ THUYẾT MINH CHƯƠNG TRÌNH 57

1 Thanh SkinProgress .58

2 Nút Minimize 58

3 Nút Colse 58

4 Timer 58

5 Tổng thời gian 58

6 Nút Open 58

7 Nút Play 58

8 Nút Pause 59

9 Nút Stop 59

10 Thanh tiến trình .59

11 Nút Volume 59

CHƯƠNG II : LƯU ĐỒ GIẢI THUẬT VÀ CẤU TRÚC DỮ LIỆU 60

I SƠ ĐỒ KHỐI 60

II LƯU ĐỒ GIẢI THUẬT .61

III CẤU TRÚC DỮ LIỆU 63

1 File Agrs.h 63

a Lớp MPArgs 63

b Cấu trúc MPInfo 66

c Cấu trúc frame 66

2 File Common.h 67

a Cấu trúc ID3TagStruct 67

b Cấu trúc gr_info_s 67

c Cấu trúc bandInfoStruct 68

d Cấu trúc III_sideinfo 68

3 File Elsound.h 69

a Cấu trúc esInputMode 69

b Cấu trúc esOutputMode 69

c Cấu trúc esPlayerMode 69

d Cấu trúc esPlayerError 69

4 File Huffman.h 70

IV ĐỊNH NGHĨA 70

1 Các định nghĩa dùng trong tập tin <Common.h> 70

2 Các định nghĩa dùng trong Player.h 71

Trang 4

3 Các định nghĩa dùng trong Resource.h 71

PHẦN 3 : TỔNG KẾT 72

Tài liệu tham khảo 73

Trang 5

LỜI MỞ ĐẦU

Trong thời đại bùng nổ của công nghệ thông tin, việc truyền tải dữ liệu là nhu cầu cần thiết Đặc biệt là việc gởi dữ liệu theo đường Internet, vì chất lượng đường truyền thấp nên cần phải nén dữ liệu nhỏ gọn để thuận lợi cho việc upload hay download Đối với lĩnh vực âm nhạc cũng vậy, nhu cầu gởi tặng bài hát cho nhau , nghe nhạc trực tuyến trên mạng rất phổ biến vì vậy việc nén file nhạc vô cùng cần thiết để tiết kiệm đường truyền, thời gian và tiền bạc

Để giải quyết vấn đề này MPEG có rất nhiều chuẩn để nén như MPEG 1, MPEG 2,… dùng để nén file theo nhiều cách khác nhau Một trong những chuẩn phổ biến là chuẩn MPEG 1, trong khuôn khổ đề tài này chúng em chỉ tìm hiểu về chuẩn MPEG 1 Layer 3 hay còn gọi là mp3 và minh hoạ bằng một chương trình giải mã file mp3, sau đó phát ra loa

Trang 6

CÁC THUẬT NGỮ THƯỜNG DÙNG

Sample rate Tốc độ lấy mẫu

Signal-to-noise (S/N) Tỉ số giữa tín hiệu và nhiễu

FPU Floating point unit Hardware math acceleration

inside a CPU

MFLOPS Million floating-point operations per second

within ISO

Trang 7

PHẦN I : LÝ THUYẾT

CHƯƠNG I : CÁC ĐẶC ĐIỂM CƠ BẢN CỦA ÂM

THANH

Âm thanh được tạo bởi một thực thể dao động Không có dao động thì không có âm thanh Thực thể dao động thì được gọi là nguồn âm Nguồn âm làm cho các phần tử của môi trường bên cạnh nó dao động Các phần tử này lại làm cho các phần tử kế nó dao động Bằng cách này các phần tử của môi trường truyền đến tai của người nghe Khi chúng ta cảm nhận một âm thanh nào đó, các phần tử dao động làm cho màng nhĩ của chúng ta cũng dao động Các dao động này được tiếp nhận và phân tích bởi bộ não của chúng ta

Âm thanh có thể truyền qua môi trường không khí, nước hoặc các cấu trúc xây dựng… âm thanh truyền đi dưới dạng sóng âm, sự truyền âm thanh thực chất là sự truyền năng lượng từ nơi này đến nơi khác

I CÁC ĐẶC TÍNH CƠ BẢN CỦA ÂM THANH

Bất kỳ âm thanh đơn giản nào chẳng hạn như một nốt nhạc đều có thể hoàn toàn được mô tả bởi 3 đặc tính cảm nhận sau: cao độ (pitch ), cường độ (intensity), âm sắc (timbre)

Những đặc tính này lần lượt tương ứng với các đặc tính vật lý sau của âm thanh: tần số (frequency), biên độ (amplitude), sự cấu thành của các hài (harmonic constitution)

1 Tần số sóng âm

Âm thanh được truyền đi dưới dạng sóng âm Khi sóng âm truyền đi sự truyền dao động của các phần tử dao động theo hướng truyền sóng Sự dịch chuyển của các phần tử của môi trường tạo ra các vùng có mật độ phần tử cao thấp khác nhau Các vùng có mật độ phần tử cao được gọi là các vùng đậm đặc (compression) Các vùng có mật độ phần tử thấp được gọi là vùng loãng (rarefaction)

Trang 8

Các vùng loãng và vùng đậm đặc lan truyền theo hướng truyền của sóng Các phần tử dao động không lan truyền theo hứơng truyền sóng, chúng dao động xung quanh vị trí cân bằng của chúng Mỗi một dao động hoàn chỉnh được gọi là chu kỳ dao động (từ điểm bắt đầu của nó, tới một khoảng cách tối đa theo một hứơng, sau đó trở về vị trí ban đầu, tới một khoảng cách theo hướng ngược lại, và cuối cùng là trở về vị trí ban đầu ).

Số chu kỳ dao động được thực hiện trong một giây được gọi là tần số dao động, đây cũng chính là tần số của âm thanh Một trong những khác biệt chính giữa hai âm thanh là sự khác biệt về cao độ, và cũng chính tần số của âm thanh quyết định cao độ của nó

Tần số được tính bằng Hertz (Hz), KiloHertz (kHz,1kHz=1000Hz)…Một người bình thường có thể nghe được các nguồn âm có dải tần số từ 20Hz đến 20kHz

2 Biên độ sóng âm

Biên độ sóng âm chính là khoảng cách dịch chuyển tối đa của các phần tử dao động Tương quan giữa biên độ sóng âm với các vùng loãng và vùng đậm đặc

Biên độ của sóng âm thể hiện mức độ dao động của các phần tử của môi trường tạo nên sóng âm Biên độ sóng âm càng lớn thì các phần tử dao động có năng lượng càng lớn và âm thanh sẽ có cường độ càng lớn Cường độ âm thanh tỉ lệ nghịch với khoảng cách tính từ nguồn âm Càng

xa nguồn âm cường độ âm thanh càng giảm, kết quả là tai ta nghe càng khó

Cường độ âm được biểu diễn bởi mức áp suất âm thanh SPL (Sound Pressure Level) Mức SPL của một nguồn âm nào đó được tính như sau:

SPL(dB)= 20 log(P/P0)Trong đó P : áp suất của nguồn âm (N/m2)

P0: áp suất chuẩn qui chiếu, Po =2* 10-5 N/m2

Trang 9

Aâm thanh SPL(dB)Ngưỡng im lặng 0Tiếng thì thầm 10

Một số mức SPL của vài dạng âm thanh

II KHÁI QUÁT VỀ ÂM THANH SỐ

1 Lấy mẫu rời rạc thời gian, tín hiệu Audio tương tự

Tín hiệu audio tương tự thay đổi liên tục theo thời gian, nghĩa là biên bộ của tín hiệu thay đổi liên tục theo thời gian Lấy mẫu tín hiệu audio tương tự là xác định biên độ của tín hiệu ở những thời điểm theo những khoảng thời gian cách điều nhau vì vậy các mẫu là các xung có biên độ nhất định Khoảng thời gian cách đều này gọi là chu kỳ lấy mẫu Ts , tần số lấy mẫu (tốc độ lấy mẫu ) fs = (1 / Ts)

2 Lượng tử hoá và các mẫu rời rạc thời gian

Lượng tử hoá là biểu diễn biên độ của các xung tín hiệu thành 1 giá trị số sử dụng hệ thống số nhị phân Người ta dùng một từ ( word) có độ dài n bit để biểu diễn các giá trị đó Số bits n được chọn tùy thuộc vào giá trị của các mẫu và n được gọi là độ phân giải lượng tử hoá( quantization resolution) Giá trị của 1 word xác định 1 mức luợng tử hoá (quantization level) và độ chênh lệch giữa 2 mức liên tiếp gọi là khoảng lượng tử hoá (quantization interval)

Ví dụ: ta sử dụng n=8 bit để biểu diễn các giá trị điện thế liên tục từ

0 -> 25,5 V như sau:

V1=0 thì word= 0000 0000 ( mức 0)

V2=0,1 thì word= 0000 0001 ( mức 1)

Trang 10

Các giá trị lượng tử hoá chỉ là xấp xỉ gần bằng giá trị thực tế của các mẫu Độ sai biệt giữa giá trị lượng tử hoá và giá trị thực được gọi là sai số lượng tử hoá ( quantization error).

3 Tỉ số tín hiệu trên sai số (Signal-to-error ratio)

Để đánh giá chất lượng của hệ thống lượng tử hóa, một thông số quan trọng được định nghĩa là tỉ số của biên độ tín hiệu cực đại trên sai số lượng tử hóa cực đại, tỉ số này được gọi là tỉ số tỉ hiệu trên sai số (S/E)

Trang 11

CHƯƠNG II: GIỚI THIỆU VỀ MPEG

I GIỚI THIỆU

1 MPEG là gì?

MPEG, viết tắt của cụm từ ‘ Moving Picture Experts Group’, là 1 nhóm chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4 Chuẩn MPEG-3 được kết hợp vào MPEG-2 và không còn tách riêng nữa Nhóm MPEG hiện nay đã phát triển đến chuẩn MPEG-7 MPEG chỉ là một tên riêng, tên chính thức của nó là : ISO/IEC JTC1 SC29 WG11

ISO : International Organization for Standardization

(Tổ chức chuẩn quốc tế)

IEC : International Electro-technical Commission

(Hội đồng kỹ thuật điện tử quốc tế )

JTC1 : Joint Technical Committee 1

(Hội đồng kỹ thuật liên hợp 1)

SC29 : Sub-committee 29

(Hội đồng phụ 29)

WG11: Work Group 11 (moving picture with audio)

(Nhóm làm việc 11)

2 So sánh các chuẩn MPEG

MPEG-1 định nghĩa một tiêu chuẩn cho việc lưu trữ và phục hồi các hình ảnh động và âm thanh trên các thiết bị lưu trữ Tiêu chuẩn này định nghĩa rằng hình ảnh được phát lại ở tốc độ 30 frames một giây và âm thanh được phát lại ở chất lượng như CD-audio, độ phân giải hình ảnh là

352 x 240 Chuẩn MPEG-1 được dùng điển hình trong các phần mềm huấn luyện bằng máy tính, các game hành động trong máy tính, video chất lượng VHS, Karaoke

Trang 12

MPEG-2 định nghĩa cho một tiêu chuẩn kỹ thuật truyền hình số Chuẩn MPEG-2 khắc phục một vài nhược điểm của chuẩn MPEG-1 Ví dụ, MPEG-2 có thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao hơn và rõ hơn (720 x 480 và 1280 x 720) Các đặc tính của MPEG-2 bao gồm hình ảnh chất lượng cao và âm thanh nổi

MPEG-3 định nghĩa một tiêu chuẩn cho High Difinition Television (HDTV), là thế hệ tiếp theo của công nghệ truyền hình theo định dạng số đầu đủ Tiêu chuẩn này đã không được phát triển hoàn thiện và cuối cùng được kết hợp vào với chuẩn MPEG-2 MPEG-3 nhắm đến mục tiêu là các ứng dụng HDTV với kích thước mẫu lên đến 1920x1080x30 Hz và được mã hoá ở tốc độ bit 20 đến 40 Mbits/s Cuối cùng người ta đã nhận

ra rằng với một vài điều chỉnh thích hợp, MPEG-1 và MPEG-2 làm việc rất tốt đối với HDTV

MPEG-4 định nghĩa một tiêu chuẩn cho các ứng dụng Multi-media Đặc biệt nó định nghĩa tiêu chuẩn truyền cho dòng phức tạp các hình ảnh, âm thanh và dữ liệu đồ hoạ và việc tái hợp chúng trên thiết bị thu MPEG-4 được phát triển theo 2 giai đoạn, 1 và 2 Chuẩn MPEG-4 định nghĩa các đối tượng hình ảnh mà trong đó các phần của một cảnh có thể được thao tác trong khi những phần khác vẫn không đổi

MPEG-5 và MPEG-6 vẫn chưa được công bố

MPEG-7 định nghĩa một tiêu chuẩn về việc biểu diễn nội dung cho các nghiên cứu thông tin hình ảnh và âm thanh Tên chính thức là

“Multimedia Content Description Interface” Mục tiêu của MPEG-7 là chuẩn hoá việc biểu diễn các mô tả về nội dung nghe nhìn Tuy nhiên chuẩn không định nghĩa các công cụ để nhận ra nội dung nghe nhìn thật sự

3 Âm thanh MPEG

Về cơ bản, âm thanh MPEG sẽ làm giảm kích thước lưu trữ 1 tâp tin âm thanh đi rất nhiều Một đĩa Audio-CD lưu trữ được khoảng 650 Mbyte dữ liệu âm thanh thô với cách mã hóa 16 bit (bitdepth) và tần số lấy mẫu (sample rate) 44.1 kHz Nếu đem phát ra thì cũng chỉ được 60 đến 72 phút

• bitdepth: mô tả mức biên độ lớn nhất mà một mẫu âm thanh có thể đạt tới Ví dụ : 8 bit = 256 mức, 16 bit = 65.536 mức, về hình ảnh thì đó chính là độ phân giải

Trang 13

• sample rate: mô tả số mẫu âm thanh được lấy trong 1 giây Ví dụ :

22 kHz = 22.000 mẫu / 1giây

Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thông tin Nếu đổi cách lưu trữ âm thanh từ 16 bit sang 8 bit chúng ta có thể giảm kích thước lưu trữ đi 1 nửa, tuy nhiên như thế chất lượng âm thanh cũng sẽ giảm đi 1 nửa

4

Hoạt động

Khi đưa ra phương pháp mã hóa âm thanh, nền tảng vẫn là yếu tố

“hệ thống nghe” của con người Thật không may đó không phải 1 thiết bị hoàn hảo để nhận biết âm thanh nhưng là thiết bị duy nhất chúng ta có được Nhưng chúng ta có thể chuyển những khuyết điểm của nó thành ưu điểm : đó là đặc tính phi tuyến của ngưỡng nghe và khả năng thích hợp của nó

MPEG hoạt động dựa trên hệ thống nghe của con người, đó là cảm giác về âm mang đặc tính sinh lý và tâm lý

Âm thanh CD ghi lại tất cả tần số, kể cả những tần số bị ‘che’

Âm thanh MPEG chỉ ghi lại những tần số mà tai người có thể nghe Như vậy, MPEG sẽ bỏ qua những thông tin không quan trọng Dựa trên nghiên cứu về nhận thức âm thanh của con người, bộ mã hóa sẽ quyết định những thông tin nào là căn bản và những thông tin nào có thể bỏ qua

Trang 14

Hiệu quả này đặc biệt quan trọng trong âm nhạc Nếu trong một dàn nhạc có một nhạc cụ chơi cực mạnh, làm át tiếng của các nhạc cụ khác ta không thể nghe được Nhưng máy thâu âm vẫn ghi lại đầy đủ tất cả tần số của tất cả nhạc cụ, nghĩa là thiết bị thâu âm hoàn toàn không có khả năng thích nghi động như con người Nhưng khi phát lại, ta vẫn không nghe được âm thanh của những nhạc cụ bị át Vì vậy việc lưu trữ / ghi lại những tần số này là thừa, làm chiếm dung lượng khá nhiều Cách ghi âm tuyến tính trên đĩa CD là hoàn toàn không hiệu quả về khía cạnh này Do đó thay vì phải ghi lại thông tin của những âm không nghe được, ta sẽ dành chỗ cho các âm có thể nghe được Theo cách này, dung lượng của thiết bị ghi âm cần thiết có thể xem như giảm đi mà không làm giảm chất lượng âm thanh.Trước khi chúng ta nghe được điều gì, thông tin sẽ được phân tích bởi bộ não của chúng ta Não bộ sẽ dịch âm thanh và lọc bỏ những thông tin không cần thiết Kỹ thuật âm thanh MPEG làm việc này thay thế cho não bộ Như vậy, những thông tin lẽ ra phải được lọc bởi não bộ bây giờ không còn cần phải lưu trữ chiếm giữ không gian đĩa nữa.

II CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG

1 Lược đồ mã hóa Perceptual Subband

Bộ mã hóa âm thanh theo “perceptual subband” phân tích liên tục các tín hiệu vào và xác định ra đường cong che (masking curve), đó là mức ngưỡng mà những âm thanh ở dưới nó không thể nghe được bởi hệ thống nghe của con người

Trang 15

Tín hiệu vào được chia thành 1 số dãi tần số, gọi là “subband” Mỗi tín hiệu “subband” được lượng tử hóa theo cách mà sự lượng tử hóa tiếng ồn được bắt đầu bởi việc mã hóa sẽ không vượt quá đường cong che của subband đó Sự lượng tử hóa phổ tiếng ồn vì thế thích nghi động với phổ của tín hiệu Thông tin trên bộ số hóa được dùng trong mỗi subband được truyền dọc theo các mẫu subband được mã hóa Bộ giải mã sẽ giải mã dòng bit (bitstream) mà không cần phải biết cách mà bộ mã hóa xác định những thông tin này Điều này cho phép bộ mã hóa hoạt động với những mức độ khác nhau về chất lượng và độ phức tạp, và cũng cho phép sự phát triển trong tương lai của bộ mã hóa.

2 Giải thích về hiệu quả che (masking effect)

a Nén âm thanh MPEG

MPEG có thể nén 1 dòng bit 32 kbit/s đến 384 kbit/s Một dòng bit âm thanh PCM thô thì khoảng 705 kbit/s, do đó tỉ số nén tối đa có thể

Trang 16

là 22 Tỉ số nén bình thường là 1:6 hay 1:7 96 kbit/s là xem như trong suốt cho hầu hết các mục đích thực tế Có nghĩa rằng ta không cần phải lưu tâm đến bất kỳ sự khác biệt nào giữa tín hiệu gốc và tín hiệu nén đối với nhạc pop hay nhạc rock’n roll Đối với một số ứng dụng khác như là hòa tấu piano, tốc độ bit có thể lên tới 128 kbit/s.

Để đạt được tỉ số nén này, đối với âm thanh, về cơ bản ta có hai chọn lựa: hoặc giảm số lần lấy mẫu, hoặc giảm số bit để lượng tử hoá Con người có thể nghe âm thanh với tần số từ 20 Hz đến 20 kHz Theo thuyết của Nyquist, ta phải lấy mẫu âm thanh ở tần số tối thiểu là hai lần tần số cao nhất mà ta muốn phát lại Tần số lấy mẫu 44,1 kHz là thích hợp Vấn đề còn lại là phải chọn số bit cho một mẫu mã hóa là bao nhiêu Thông thường là 16 bit

Lý do để chọn con số 16 bit bắt nguồn từ tỉ số tín hiệu và nhiễu (S/N) Nhiễu nói ở đây sinh ra do qúa trình số hóa Cứ mỗi bit thêm vào, ta có tỉ số S/N tốt hơn 6dB (đối với tai người, 6 dB tương ứng với mức to gấp đôi) Âm thanh CD đạt tới khoảng 90 dB S/N Mức này phù hợp với phạm vi động của tai người còn tốt Nghĩa là ta không thể nghe được bất kỳ nhiễu nào đến từ bản thân hệ thống Điều gì xảy ra nếu

ta lấy mẫu với 8 bit? Ta sẽ nghe thấy rất nhiều tiếng sôi trong bản ghi Dễ dàng nghe thấy nhiễu trong khoảng nghỉ của bản nhạc hoặc giữa các từ nếu ta ghi âm một giọng nói

b Hiệu quả che

Giả sử có một âm mạnh với tần số 1000Hz, và một âm kèm theo có tần số 1100Hz nhưng với cường độ âm nhỏ hơn 18dB Ta sẽ không thể nghe thấy âm này vì nó đã bị che hoàn toàn bởi âm chủ 1000Hz Nói một cách khác, một âm thanh yếu gần một âm thanh mạnh sẽ bị che Nếu có một âm thanh khác tần số 2000Hz cũng có mức to thấp hơn âm 1000Hz là 18dB thì ta sẽ nghe được âm này Để không nghe được âm này ta phải giảm mức to của âm này xuống còn thấp hơn 45dB so với âm chủ 1000Hz Hiệu qủa che có ý nghĩa rằng ta có thể gia tăng mức ồn nền xung quanh một âm mạnh mà vẫn không nghe được tiếng ồn vì chúng sẽ bị che hoàn toàn Tăng mức ồn nền còn có nghĩa là dùng ít bit để số hóa Và điều này cũng giống như là ta đã nén âm thanh vậy

Bây giờ hãy xem bộ mã hoá âm thanh MPEG hoạt động như thế nào Bộ mã hóa chia phổ tần số (20Hz đến 20kHz) thành 32 dãi nhỏ (sub-

Trang 17

band) Mỗi sub-band giữ 1 phần nhỏ của phổ Trong vùng trên của sub-band 8 ta phát một âm có tần số 1000Hz với mức to 60dB Bộ mã hóa sẽ tính toán hiệu qủa che của âm này và nhận ra rằng có một ngưỡng che cho toàn bộ sub-band thứ 8 (tất cả những âm có cùng tần số) Ngưỡng che này thấp hơn âm phát ra 35 dB Tỉ số S/N có thể chấp nhận được là 60 - 35 = 25 dB, tương đương với 4 bit Ngoài ra nó còn ảnh hưởng trên các sub-band 9-13 và 5-7 với hiệu qủa che giảm dần từ sub-band 8 Hơn nữa, bộ mã hóa cũng xem xét mức độ nhạy cảm của tai đối với các tần số khác nhau Tai người ít nhạy cảm với các tần số cao và thấp Nó nhạy cảm nhất đối với tần số 2-4 kHz, cùng dãi tần số với tiếng nói con người.

Các sub-band nên phù hợp với tai người, nghĩa là mỗi sub-band cần có các tần số có cùng các tính chất âm học tâm lý Trong MPEG layer II, mỗi sub-band có độ rộng 625Hz, do đó cần phải có những bộ lọc băng thông phức tạp Để các bộ lọc đỡ phức tạp, người ta thêm FFT (Fast Fourier Transform) vào song song với bộ lọc và sử dụng các thành phần phổ từ FFT như là các thông tin thêm vào bộ mã hóa Bằng cách này ta sẽ lấy mật độ bit cao hơn đối với các tần số thấp mà tai người nhạy cảm hơn

Còn nhiều vấn đề cần phải bàn tới Chúng ta chỉ mới giải thích sự che đồng bộ, hiệu qủa che còn xảy ra trước và sau một âm mạnh

3 Các lớp âm thanh MPEG

Có nhiều sự nhầm lẫn về lớp âm thanh MPEG Tất cả các lớp đều dựa trên cùng một lược đồ mã hóa (mã hóa theo nhận thức) Mức độ phức tạp của bộ mã hóa và giải mã tuỳ thuộc vào mỗi lớp Sau đây là hình ảnh cho thấy tỉ số nén mà ta cần phải đạt tới 100% chất lượng

CD với các bộ mã hóa và giải mã khác nhau

Trang 18

Sau đây là chi tiết về các lớp.

a Lớp I (Layer I)

Đây là lớp đơn giản nhất phù hợp cho ứng dụng của người dùng Mô hình âm học tâm lý của lớp này chỉ sử dụng các tần số che Điều này có nghĩa rằng nó sẽ bỏ qua các tần số bị khuất sau các tần số khác Phạm vi tốc độ bit từ 32 kbit/s (mono) đến 448 kbit/s (stereo) Tùy thuộc vào mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng cao (gần với âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên một chương trình stereo Không nên mã hóa với mức nén cao hơn 384 kb/s Độ phức tạp của bộ giải mã thấp, độ phức tạp của bộ mã hóa cao hơn 1.5 - 3 lần Lớp I được dùng nhiều trong DDC và Solid State Audio

b Lớp II (Layer II)

Lớp II đề nghị mức độ nén cao hơn lớp I và mức độ lọc sâu hơn Nó có những ứng dụng số cho cả âm thanh chuyên nghiệp và nghiệp dư, như qua đài phát thanh, TiVi…Phạm vi tốc độ bit từ 32 - 192 kb/s cho âm thanh mono, và từ 64 - 384 kb/s cho âm thanh stereo Tùy thuộc vào mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng cao (gần với âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên

Trang 19

một chương trình stereo Mức độ phức tạp của bộ giải mã 25% cao hơn so với lớp I, và bộ mã hóa có mức phức tạp cao hơn 2 - 4 lần.

c Lớp III (Layer III)

Lớp III còn đưa ra mức độ nén và lọc cao hơn cả lớp II và sử dụng một bộ mã hóa Huffman

Những cải thiện của lớp 3 so với lớp 1 và lớp 2 :

• Giảm sự chồng phổ :Lớp 3 cung cấp phương pháp xử lý các giá trị MDCT để loại bỏ sự dư thừa do sự chồng lấp giữa các băng

• Lượng tử hóa phi tuyến :Bộ lượng tử hóa lớp 3 nâng các lối vào của nó lên ¾ năng lượng trứơc khi lượng tử hóa để cung cấp tỉ số tín hiệu trên nhiễu (SNR) cao hơn

• Mã hóa entropy các giá trị dữ liệu : Lớp 3 sử dụng mã Huffman để mã hóa các mẫu lượng tử hóa cho việc nén dữ liệu tốt hơn

• Sử dụng một bộ dữ trữ bit (bit reservoir): Dòng bit lớp 3 phù hợp hơn với độ dài thay đổi của dữ liệu được nén Cũng giống như lớp 2, khung dữ liệu lớp 3 có 1152 mẫu Lớp 3 không giống lớp 2 ở chỗ dữ liệu mã hóa không nhất thiết phải vừa

Trang 20

vặn trong một khung cố định Bộ mã hóa có thể lấy hoặc mượn các bit từ bộ dự trữ bit nếu cần thiết

• Sự phân bố nhiễu hay sự phân bố bit : Quá trình phân bố bit trong lớp 1 và lớp 2 chỉ xấp xỉ lượng nhiễu gây bởi lượng tử hóa theo số bit cho trước Bộ mã hóa lớp 3 sử dụng một vòng lặp phân bố nhiễu Theo cách này , các bộ lượng tử hóa được thay đổi theo thứ tự , và lượng tử hóa có được là do tính toán và được phân bố cho mỗi băng phụ

III CÁC THÔNG SỐ DÙNG TRONG MPEG

Chuẩn MPEG cho phép ta chọn lựa các thông số cho việc nén âm thanh tốt nhất phù hợp với ứng dụng mà ta sử dụng Lược đồ mã hóa cho các loại là tổng quát Các thông số có thể chọn lựa trong bộ mã hóa MPEG bao gồm : Mode, Sampling frequency, bitrate, và Layer

Intensity Stereo (còn gọi là Joint Stereo)

Chế độ Mono rõ ràng được dùng cho âm thanh 1 kênh

Để chọn chế độ cho các ứng dụng 2 kênh, đầu tiên ta phải xác định đâu là tín hiệu trái và đâu là tín hiệu phải để chia chúng ra thành 2 files khác nhau, nhằm sau này ta có thể làm việc độc lập trên kênh trái hoặc phải Lúc đó ta sẽ chọn chế độ Mono Nếu 2 kênh không cần hoạt động độc lập, ta chọn Stereo, Dual hay Intensity Stereo để tạo một file duy nhất

Chế độ Stereo hay kênh Dual là hoàn toàn đồng nhất khi chúng cùng sinh ra một file duy nhất cho tín hiệu stereo Tuy nhiên một bit chỉ thị sẽ nhận dạng xem một file là ở chế độ nào và có thể được dùng cho những áp dụng nào

Trang 21

Chế độ Intensity Stereo xem xét sự dư thừa giữa các kênh trái và phải nhằm tối ưu mã Chất lượng của Intensity Stereo thay đổi theo nội dung của tín hiệu đã mã hóa Tuy nhiên nó đặc biệt thích hợp cho tốc độ truyền bit thấp.

2 Sampling Frequency (tốc độ lấy mẫu)

Một số tốc độ lấy mẫu:

• 32 kHz, 44.1 kHz và 48 kHz đối với MPEG 1 (Tiêu chuẩn

ISO/IEC 11172-3)

• 16 kHz, 22.05 kHz và 24 kHz đối với MPEG 2 (Tiêu chuẩn

ISO/IEC 13818-3)

Khi chọn lựa tốc độ lấy mẫu cần xem xét các vấn đề:

Tần số lấy mẫu càng lớn thì càng nghe thuận tai (độ dài frame nhỏ hơn)

Băng thông tín hiệu giới hạn ở mức 15 kHz khi lấy mẫu ở tốc độ 32 kHz và 8 kHz ở tốc độ 16 kHz

Tần số lấy mẫu (kHz) và tốc độ của âm thanh mã hóa (kbps) có thể chọn độc lập

Tần số lấy mẫu 44.1 kHz hay 22.05 kHz là không thiết thực cho việc chọn lọc vì độ dài frame (byte) là thay đổi

Những file được lấy mẫu ở những tần số khác nhau thì rất khó khăn khi hòa trộn

Khi dùng ngõ nhập số AES/EBU, tần số lấy mẫu bị cố định bởi tín hiệu nhập

Nếu không bắt buộc, Digigram yêu cầu lấy mẫu ở 48 kHz hoặc 44.1 kHz cho phát thanh hay ứng dụng multimedia Nếu ta phải sử dụng tốc độ bit thấp cho sự truyền có hiệu quả, tốc độ 24 kHz là thích hợp

3 Bit Rate

Mỗi Layer và chế độ có nhiều cách chọn lựa tốc độ bit (bit rate) Việc chọn tốc độ bit tùy thuộc trước tiên vào chất lượng âm yêu cầu Băng thông tín hiệu là hẹp hơn nếu tốc độ bit thấp, khiến cho nó

Trang 22

không thực tế đối với một số ứng dụng Tốc độ bit được đo theo kilobits / sec(kbps).

Khi chọn lựa tốc độ bit cần xem xét các vấn đề:

Tại 128 kbps trên mỗi kênh (hay 256 kbps stereo), chất lượng âm thanh CD sẽ đạt được với Layer I hay Layer II

Tại 192 kbps trên mỗi kênh, chất lượng âm thanh là hoàn toàn trong suốt

Tốc độ 128 kbps / kênh được dùng phổ biến nhất trong phát thanh Nó tương ứng với tỉ số nén 1:6 ở tốc độ lấy mẫu 48 kHz Tốc độ thấp hơn 128 kbps / kênh được dùng trong các ứng dụng yêu cầu tỉ số nén lớn hơn do giới hạn của băng thông truyền hay thiết bị lưu trữ

Một số tốc độ bit cung cấp bởi chuẩn âm thanh MPEG :

• MPEG 1: 32 kHz, 44.1 kHz and 48 kHz

- Layer I :

32, 64, 96, 128, 160, 192, 224, 256, 288, 320, 352, 384, 416, 448 kbps.Những tốc độ này là có thể ở chế độ Mono hay stereo

- Layer II :

32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320, 384 kbps

32, 48, 56, 80 kbps chỉ có thể ở chế độ Mono; •64, 96, 112, 128, 160, 192 kbps có thể ở cả hai chế độ Mono và Stereo;•224, 256, 320, 384 kbps chỉ có thể ở chế độ Stereo

Trang 23

CHƯƠNG III: MÃ HÓA THỤ CẢM

I CƠ SỞ ÂM TÂM LÝ

Các thuật toán mã hoá thụ cảm đều dựa trên mô hình tiếp nhận âm thanh để tối ưu hiệu qủa mã hoá Đó chính là tai người , sự cảm nhận âm thanh bị ảnh hưởng bởi các tính chất che Aâm tâm lý học là 1 lĩnh vực khoa học nghiên cứu và giải thích sự cảm nhận âm thanh của tai người đối với sự kích thích của nguồn âm Các phương pháp mã hoá thụ cảm đều dựa vào các nguyên lý cơ bản của âm tâm lý học như :ngưỡng nghe, các băng tới hạn, hiện tượng che Các phương pháp này loại bỏ các thành phần dư thừa không nghe được của tín hiệu audio để giảm bớt dữ liệu trong quá trình nén

1. Ngưỡng nghe tuyệt đối (absolute threshold of hearing)

Ngưỡng nghe tuyệt đối là mức năng lượng cần thiết của một tone thuần (ở mức độ cho trước ) để mà nó có thể nghe được trong một môi trường không có tiếng ồn

2 Các băng tới hạn (critical bands)

Các nghiên cứu thực tế cho thấy tai người có thể cảm nhận được các nguồn âm có tần số từ 20 Hz đến 20KHz Ngoài ra , tai người còn được coi là bộ phân tích phổ đối với phổ tần nghe được Tai người được coi là 1 băng lọc (filter bank) gồm nhiều mạch lọc thông dãi với các băng thông có độ rộng khác nhau, nó đặc trưng cho khả năng phân giải âm thanh của tai người Các băng này được gọi là băng tới hạn, chúng có độ rộng thay đổi theo tần số từ thấp đến cao Trên thực tế có 25 băng tới hạn được qui ước theo bảng các băng tới hạn dưới , mỗi băng có một tần số trung tâm Độ rộng của mỗi băng có thể được tính xấp xỉ như sau :

BWc (f)=25+75[1+1.4(f/1000)2]0.69 (HZ)Một băng tới hạn có độ rộng là một Bark(đặt theo tên của nhà khoa học Barkhausen) Hàm sau đây cho phép chuyển từ giai tần số sang giai Bark:

Z(f) = 13arctan(0.00076f) + 3.5arctan[(f/75000)2] (Bark)Tai người có khả năng phân tích thời gian tần số, khả năng này tạo ra các hiện tượng che đồng thời và không đồng thời Các hiện tượng này được sử

Trang 24

dụng bởi các bộ mã hóa để xác định các thành phần dư thừa nhằm loại bỏ, không mã hóa chúng.

100100100110120140150160190210240280320380450550700900110013001800250035006550

100200300400510630770920108012701470172020002320270031503700440053006400770095001200015500

-10020030040051063077092010801270147017202000232027003150370044005300640077009500120001550022050

Bảng các băng tới hạn

3 Hiện tượng che( masking)

Hiện tượng che xảy ra khi một hoặc nhiều nguồn âm bị làm cho không nghe được do sự có mặt của một nguồn âm khác Tín hiệu che các tín hiệu khác

Trang 25

được gọi là các thành phần che (masker), các tín hiệu bị che thì gọi là các thành phẩn bị che (maskee) Độ chênh lệch giữa thành phần che và ngưỡng che (do tần số và mức áp suất âm thanh của thành phần che quyết định) gọi là tỉ số tín hiệu trên che SMR (Signal-to-masking ratio) Thông số này rất quan trọng trong phương pháp mã hóa thụ cảm Hiện tượng che có 2 loại : che đồng thời và che không đồng thời.

• Hiện tượng che đồng thời : xảy ra khi nhiều nguồn âm tác động vào tai người Mặc dù phổ tần âm thanh có thể chứa nhiều hiện tượng che đồng thời phức tạp, vì mục tiêu định dạng sái dạng mã hóa, ta chỉ cần quan tâm đến 3 loại che đồng thời : nhiễu che tone , tone che nhiễu, nhiễu che nhiễu

 Nhiễu che tone (Noise-Masking-Tone, NMT) : ví dụ như 1 nhiễu băng thông hẹp (có băng thông là 1 Bark) che một tone với điều kiện là tone bị che có mức SPL nhỏ hơn ngưỡng do nhiễu che quyết định

 Tone che nhiễu (Tone – Masking - Noise, TMN): Ví dụ như 1 tone ở tần số trung tâm của 1 băng nhiễu (băng thông là 1 Bark) che băng nhiễu đó khi mức SPL của băng nhiễu thấp hơn mức ngưỡng do tone che quyết định

 Nhiễu che nhiễu (Noise - Masking – Noise, NMN): Đây là trường hợp mà 1 nhiễu băng thông hẹp bị che bởi 1 băng nhiễu khác

• Hiện tượng che không đồng thời :xảy ra khi các tone (hoặc nhiễu) được phát lên đồng thời nhưng gần nhau theo thời gian Hiện tượng tiền che xảy ra khi một tone (hoặc nhiễu) bị che bởi một tone (hoặc nhiễu) xảy ra sau Tương tự, hiện tượng hậu che khi một tone xảy ra trước che một tone xảy ra sau đó

Bộ mã hoá thụ cảm phân tích thành phần tần số và biên độ của tín hiệu audio vào và so sánh với mô hình âm sinh lý của tai người Bộ mã hoá loại bỏ các thành phần dư thừa không cần thiết ( phần tai người không cảm nhận được) vì vậy giảm 1 lượng đáng kể dữ liệu cần mã hoá Về mặt lý thuyết, phương pháp này làm hao hụt thông tin nhưng tai người vẫn không cảm thấy được sự suy giảm chất lượng tín hiệu audio

Trang 26

II MÃ HÓA BĂNG PHỤ

Trong phương pháp mã hoá băng phụ tín hiệu Audio được cho vào 1 băng lọc gồm M mạch lọc thông dãi chiếm đầy phổ tần nghe được Mô hình âm tâm lý được sử dụng để tính toán ngưỡng che cho mỗi băng phụ Lối ra của mỗi mạch lọc được lấy mẫu tới hạn, và được lượng tử hoá và mã hoá một cách riêng biệt

Việc lượng tử hoá của mỗi băng phụ được dựa trên tỉ số năng lượng đỉnh trên mức che (độ chênh lệch giữa thành phần các mức SPL cao nhất và ngưỡng che) tính được cho mỗi băng phụ Tỉ số này được sử dụng bởi bộ phân phối bit để phân bố số bit cần thiết cho việc lượng tử hoá mỗi băng phụ, các thành phần thấp hơn ngưỡng che thì không được mã hoá Cuối cùng các mẫu lượng tử hoá được đóng thành các khung dữ liệu, trong khung có kèm theo các dữ liệu phụ khác

Phần mạch giải mã thì đơn giản hơn do nó không cần mô hình âm tâm lý Các khung dữ liệu được mở ra, các mẫu băng phụ thì được giải mã và đuợc phân tích tần số thời gian để tạo lại tín hiệu audio ban đầu

II MÃ HOÁ BIẾN ĐỔI

Trong phương pháp mã hoá biến đổi các mẫu Audio trong miền thời gian được chuyển sang miền tần số nhờ các phép biến đổi toán học Các bộ mã hoá có thể sử dụng các phép biến đổi như phép biến đổi Fourier rời rạc DFT (Discrete Fourier Transform) hoặc MDCT Các hệ số có được từ các phép biến đổi được lượng tử hoá và mã hoá dựa trên mô hình âm tâm lý, các thành phần bị che được loại bỏ Đứng trên quan điểm thông tin, sự biến đổi làm giảm Entropy của tín hiệu cho phép mã hoá hiệu quả hơn

Trong các bộ mã hoá biến đổi thích nghi, một mô hình được sử dụng để lượng tử hoá thích nghi mỗi băng phụ, nhưng các hệ số trong mỗi băng được lượng tử hoá vời cùng số bit Thuật toán phân phối bit tính toán nhiễu lượng tử hoá trong mỗi băng để có được tỉ số S/N cần thiết cho việc che Trong vài trường hợp tốc độ bit lối ra có thể thay đổi Trước khi truyền đi , dữ liệu thường được nén với phương pháp mã hoá Entropy, chẳng hạn như mã hoá Huffman Mô hình mã hóa thích nghi được minh họa như hình sau:

Trang 27

Bộ đệm,Biến đổi

Lượng tử hoá thích nghi

Tính toán ngưỡng che

FFT và mô hình âm tâm lý

Mã hoá EntropyAudio_vào Audio ra

Bộ mã hoá biến đổi thích nghi

III. MÃ HOÁ MP3 ( MP3 ENCODING)

Tín hiệu vào bộ mã hóa là bộ điều biến mã xung bình thường (PCM) được phân chia vào khung có 1152 mẫu Khung này được chia làm hai granules, mỗi granule là 576 mẫu Khung được gởi đến cả hai khối biến đổi Fourier nhanh (FFT) và băng lọc phân tích

1 Phân tích phép biến đổi Fourier nhanh (FFT analysis)

Khối FFT chuyển 576 mẫu đến miền tần số sử dụng phép biến đổi Fourier

Trang 28

2 Ngưỡng che (Masking Threshold)

Thông tin tần số từ khối FFT được sử dụng để liên kết mô hình âm tâm lý để xác định ngưỡng che cho tất cả các tần số Ngưỡng che được áp dụng vào bộ lượng tử hóa để xác định số bit cần thiết mã hóa cho mỗi mẫu Chúng thường xem xét liệu sự chuyển đổi cửa sổ có cần thiết trong khối biến đổi cosin rời rạc cải tiến (MDCT)

3. Băng lọc phân tích (Analysis Filterbank)

Băng lọc phân tích bao gồm 32 băng thông lọc bằng nhau Đầu ra của băng lọc là 1 mẫu tới hạn Nghĩa là mỗi granules gồm 576 mẫu, có 18 mẫu ra từ 32 băng thông lọc, mà đưa ra tổng cộng là 576 mẫu subband

4. MDCT với cửa sổ động

Mẫu subband được biến đổi đến miền tần số thông qua MDCT MDCT thực hiện 18 mẫu (khối dài ) cùng thời điểm để đạt độ phân giải tần số cao, thực hiện 6 mẫu (khối ngắn ) Do có sự chồng cửa sổ lên nhau 50% nên kích thước cửa sổ là 36 mẫu cho khối dài và 12 mẫu cho khối ngắn Khối ngắn cải thiện độ phân thời gian tốt hơn để dùng cho các tín hiệu chuyển tiếp và làm nhỏ tiếng vang lại Khối dài cho phép độ phân giải tần số tốt hơn Lớp 3 có 3 mode chọn khối : 2 mode khi tất cả các lối ra của băng lọc đều qua được biến đổi MDCT, và 1 mode hỗn hợp khi 2 băng tần thấp sử dụng khối dài còn 30 băng tần cao sử dụng khối ngắn

Trước mỗi đợt MDCT xuất ra subband, mỗi subband cũ phải nghịch đảo tần số (nhân -1) để dòng phổ xuất hiện theo thứ tự tăng dần

Khi mã hóa thụ cảm entropy vượt quá giá trị 1800 sẽ xác định hằng số Khối lọc MDCT sẽ được chuyển đến cửa sổ ngắn Để duy trì thuộc tính tái tạo lại của MDCT, sự chuyển đổi giữa khối ngắn và khối dài không thể tức thì, vì vậy có cửa sổ chuyển đổi từ dài đến ngắn, từ ngắn đến dài

Trang 29

Chiều dài của khối ngắn bằng 1/3 khối dài Trong chế độ khối ngắn, 3 khối ngắn thay thế 1 khối dài mà không kể đến loại cửa sổ áp dụng, số dòng MDCT còn lại không đổi Cho 1 khối riêng biệt của dữ liệu, tất cả các kênh khối lọc có thể cùng kiểu khối MDCT ( dài hoặc ngắn) hoặc 1 mode khối hỗn hợp nơi mà subband tần số nhỏ hơn 2 cho phép khối dài trong khi còn lại dãi trên 30 có khối ngắn Chế độ hỗn hợp cung cấp độ phân giải tần số tốt hơn cho tần số thấp hơn trong khi duy trì độ phân giải thời gian cao hơn.

MDCT biến đổi tín hiệu âm thanh vào miền tần số, sinh ra biệt danh được đưa vào bởi mẫu con trong khối lọc có thể thoát khỏi từng phần (partially cancelled)

5. Chia tỉ lệ và lượng tử hóa (Scaling và Quantization)

Ngưỡng che được sử dụng để tính toán có bao nhiêu bit cần thiết trong mỗi băng tới hạn để mã hóa mẫu sao cho nhiễu lượng tử hóa không thể nghe được Bộ mã hoá thường sử dụng tốc độ bit phù hợp với yêu cầu.Mã hoá Huffman là một phần của phép lặp bởi vì nó không có khả năng xác định số bit cần thiết cho việc mã hoá

Trang 30

6 Mã hóa Huffman và sinh ra dòng bit (Huffman Coding and Bitstream Generation)

Mẫu lượng tử hoá là lưu trữ và mã hoá Huffman trong dòng bit dọc theo hệ số tỉ lệ và thông tin (side infomation)

Huffman là phương pháp mã hoá không mất dữ liệu dùng từ mã (codeword) để lưu trữ bit nhị phân của “symbol” Ví dụ các symbol A, B,

C, D được mã hoá thông qua các code word như sau:

ABCD

010110111

Symbol A và B được phân biệt thông qua chiều dài của từ mã tương ứng là “0” và “10” Thế mạnh của của mã hoá Huffman là tất cả code word có khả năng giải mã đồng nhất ( uniquely decodable) Vì vậy trình tự mã hoá của các bit là:

01101110100tương ứng với chuỗi dữ liệu:

“ACDABA”

Giải thuật mã hoá Huffman dựa trên mô hình cây mã hoá (coding tree) dùng để phân biệt các symbol thông qua code word Symbol nào có xác suất cao thì code word ngắn, ngược lại symbol có xác suất thấp thì code dài hơn Trình tự thực hiện theo các bước sau:

• Sắp xếp số lần xuất hiện ( xác suất) các symbol theo thứ tự giảm dần

• Nối 2 symbol lại với nhau theo thứ tự từ trên xuống để tạo symbol mới

• Tiếp tục bước 2 cho đến khi còn lại 1 symbol với xác suất là 1

• Tiến hành đánh số cho cây mã hoá, bắt đầu từ gốc (symbol có xác suất là 1) trở lên phía trên thì đánh số “0” ngược lại từ gốc đi xuống ta đánh số “1”

Trang 31

Ví dụ ta có chuỗi cần mã hoá là “ EXAMPLE OF HUFFMAN CODING” Đầu tiên ta tính xác suất của từng symbol trong chuỗi ký tự.

Symbol Xác suất

EXAMPLOFHUCDINGspace

2/251/252/252/251/251/252/253/251/251/251/251/251/252/251/253/25

Trang 32

Tiếp tục sắp xếp các symbol theo xác xuất giảm dần.

7. Thông tin (Side Information)

Thông tin chứa các thông số điều khiển thao tác giải mã như là sự lựa chọn bảng Huffman, chuyển đổi cửa sổ, điều khiển độ lợi (gain control)

Trang 33

CHƯƠNG IV: GIẢI MÃ MPEG1 LỚP 3

I GIẢI MÃ MP3 (MP3 DECODING)

• Sơ đồ cấu trúc :

1 Định dạng khung (Frame Format)

Khung là một khái niệm trung tâm khi giải mã dòng bit MP3 Nó bao gồm 1152 mẫu đơn hoặc mẫu miền tần số, được chia hai granules mỗi granules gồm 576 mẫu Mỗi granules được chia làm 32 khối subband có

18 dòng tần số

Trang 34

Phổ tần số dao động từ 0 tới FS/2 Hz Subband phân chia phổ thành 32 phần bằng nhau Mỗi subband chứa 18 mẫu mà đã được biến đổi đến miền tần số bằng phép biến đổi MDCT.

576 dòng tần số trong một “granule” được phân chia vào trong 21 hệ số

tỉ lệ được thiết kế để phù hợp tần số băng tới hạn càng gần càng tốt Dãi hệ số tỉ lệ được sử dụng chính cho việc lượng tử hóa lại (requantization) của các mẫu

Khung (frame) bao gồm 4 phần: tiêu đề (header), thông tin (side infomation), dữ liệu chính (main data), dữ liệu phụ thuộc (ancillary data):

Trang 35

liệu bên trong MPEG Version 1 Layer III, khung thường lệ thuộc vào những thành phần khác và không thể cắt ra hát trực tiếp được Khi bạn muốn đọc thông tin về file MPEG thông thường chỉ đọc về khung đầu tiên, về header và cho rằng những khung khác cũng tương tự Điều này có thể không đúng trong mọi trường hợp File MPEG có tốc độ bit khác nhau có thể được sử dụng thì gọi là chuyển đổi tốc độ bit (bitrate switching) có nghĩa là tốc độ bit chuyển đổi dọc theo nội dung của khung Với cách này tốc độ bit thấp hơn có thể được sử dụng trong khung mà không làm giảm chất lượng âm thanh.

Khung có cơ chế kiểm tra lỗi CRC Bộ kiểm tra lỗi dài 16 bit Nếu có lỗi xảy ra thì được lưu trữ trong phần header Sau khi kiểm tra lỗi, có thể tính chiều dài của khung và sử dụng nó nếu cần những thông tin khác về header hay tính CRC của khung

Tiêu đề có chiều dài 4 bytes (32 bits) và chứa thông tin về lớp , tốc độ bit, tần số mẫu và chế độ stereo được mô tả cụ thể như sau:

AAAAAAAA AAABBCCD EEEEFFGH

IIJJKLMM

Sign Length

(bits)

Position (bits)

Trang 36

10 - MPEG Version 2 (ISO/IEC 13818-3)

11 - MPEG Version 1 (ISO/IEC 11172-3)

C 2 (18,17) Phần mô tả Layer

00 – dự trữ

01 - Layer III

10 - Layer II

11 - Layer I

0 – kiểm tra lỗi CRC (16bit CRC follows header)

1 - không kiểm tra

E 4 (15,12) Chỉ số tốc độ bit

L2 - Layer IIL3 - Layer III

Ngày đăng: 19/07/2014, 21:25

HÌNH ẢNH LIÊN QUAN

Bảng các băng tới hạn - Âm thanh số Chuẩn MPEG 1 Layer III Phân tích và ứng dụng
Bảng c ác băng tới hạn (Trang 24)
Hình aâm taâm  lyù - Âm thanh số Chuẩn MPEG 1 Layer III Phân tích và ứng dụng
Hình a âm taâm lyù (Trang 27)
Bảng tìm kiếm cho hàm y=x 4/3  có thể thực hiện dễ dàng. Bảng  này có thể gộp vào như một phần của dữ liệu khởi tạo, hoặc  nó có thể được tạo ra tại thời điểm  thực thi nếu hàm pow() có  saün . - Âm thanh số Chuẩn MPEG 1 Layer III Phân tích và ứng dụng
Bảng t ìm kiếm cho hàm y=x 4/3 có thể thực hiện dễ dàng. Bảng này có thể gộp vào như một phần của dữ liệu khởi tạo, hoặc nó có thể được tạo ra tại thời điểm thực thi nếu hàm pow() có saün (Trang 50)
Sơ đồ giải thuật của tần lọc đa pha sau khi tổng hợp 32 subband  : - Âm thanh số Chuẩn MPEG 1 Layer III Phân tích và ứng dụng
Sơ đồ gi ải thuật của tần lọc đa pha sau khi tổng hợp 32 subband : (Trang 63)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w