Kỹ thuật mã hóa thụ cảm

tài liệu tham khảo công nghệ thông tin Kỹ thuật mã hóa thụ cảm

Trang 1

MỤC LỤC

Mục lục…… 1

Lời mở đầu 5

Các thuật ngữ thường dùng 6

PHẦN 1 : LÝ THUYẾT 7

CHƯƠNG I: CÁC ĐẶC ĐIỂM CƠ BẢN CỦA ÂM THANH 7

I Các đặc tính cơ bản của âm thanh 7

1 Tần số sóng âm 7

2 Biên độ sóng âm 8

II Khái quát về âm thanh số 9

1 Lấy mẫu rời rạc thời gian, tín hiệu audio tương tự 9

2 Lượng tử hoá và các mẫu rời rạc thời gian 9

3 Tỉ số tín hiệu trên sai số (Signal-to-error ratio) 10

CHƯƠNG II: GIỚI THIỆU VỀ MPEG 11

I GIỚI THIỆU 11

1 MPEG là gì? 11

2 So sánh các chuẩn MPEG: 11

3 Âm thanh MPEG 12

4 Hoạt động: 13

II CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG 14

1 Lược đồ mã hóa Perceptual Subband 14

2 Giải thích về hiệu qủa che (masking effect) 14

a Nén âm thanh MPEG 15

b Hiệu quả che 16

3 Các lớp âm thanh MPEG 17

a Lớp I (Layer I) 18

b Lớp II (Layer II) 18

c Lớp III (Layer III) 19

III CÁC THÔNG SỐ DÙNG TRONG MPEG 20

Trang 2

I CƠ SỞ ÂM TÂM LÝ 23

1 Ngưỡng nghe tuyệt đối (absolute threshold of hearing) 23

2 Các băng tới hạn(critical bands) 23

3 Hiện tượng che (masking) 24

II MÃ HÓA BĂNG PHỤ 26

III MÃ HOÁ BIẾN ĐỔI 26

IV MÃ HOÁ MP3 ( MP3 ENCODING) 27

1 Phân tích phép biến đổi Fourier nhanh (FFT analysis) 27

2 Ngưỡng che(Masking Threshold) 28

3 Băng lọc phân tích (Analysis Filterbank) 28

4 MDCT với cửa sổ động 28

5 Chia tỉ lệ và lượng tử hóa (Scaling và Quantization) 29

6 Mã hóa Huffman và sinh ra dòng bit (Huffman Coding and Bitstream Generation) 30

7 Thông tin (Side Information) 32

CHƯƠNG IV: GIẢI MÃ MPEG1 LỚP 3 33

I GIẢI MÃ MP3 (MP3 DECODING) 33

1 Định dạng khung (Frame Format) 33

a Tiêu đề 34

b Thông tin (side infomation) 38

c Dữ liệu chính (main data) 39

d Dữ liệu phụ (Ancillary Data) 40

2 Giải mã Huffman 40

3 Lượng tử hoá lại (requantization) 41

4 Sắp xếp lại thứ tự ( reordering) 42

5 Giải mã stereo 42

a.Giải mã Stereo MS 42

b.Giải mã cường độ stereo 43

6 Giảm biệt danh (Alias Redution) 43

7 IMDCT 44

8 Khối lọc đa pha tổng hợp ( Synthesis Polyphase Filterbank) .46

II NHÌN CHUNG VỀ HIỆU QUẢ CÁC GIẢI THUẬT GIẢI MÃ MP3 46

1 Giải mã Huffman 46

2 Bộ lượng tử hóa lại (Requantizer) 48

3 Phép biến đổi cosin rời rạc cải tiến đảo ngược (IMDCT) 51

4 Băng lọc đa pha ( Polyphase Filterbank) 53

Trang 3

PHẦN 2: XÂY DỰNG PHẦN MỀM 57

CHƯƠNG I:GIAO DIỆN VÀ THUYẾT MINH CHƯƠNG TRÌNH 57

CHƯƠNG II : LƯU ĐỒ GIẢI THUẬT VÀ CẤU TRÚC DỮ LIỆU 60

I SƠ ĐỒ KHỐI 60

II LƯU ĐỒ GIẢI THUẬT .61

III CẤU TRÚC DỮ LIỆU 63

1 File Agrs.h 63

a Lớp MPArgs 63

b Cấu trúc MPInfo 66

c Cấu trúc frame 66

2 File Common.h 67

a Cấu trúc ID3TagStruct 67

b Cấu trúc gr_info_s 67

c Cấu trúc bandInfoStruct 68

d Cấu trúc III_sideinfo 68

3 File Elsound.h 69

a Cấu trúc esInputMode 69

b Cấu trúc esOutputMode 69

c Cấu trúc esPlayerMode 69

d Cấu trúc esPlayerError 69

4 File Huffman.h 70

IV ĐỊNH NGHĨA 70

1 Các định nghĩa dùng trong tập tin <Common.h> 70

2 Các định nghĩa dùng trong Player.h 71

Trang 4

3 Các định nghĩa dùng trong Resource.h 71

PHẦN 3 : TỔNG KẾT 72

Tài liệu tham khảo 73

Trang 5

LỜI MỞ ĐẦU

Trong thời đại bùng nổ của công nghệ thông tin, việc truyền tải dữ liệu lànhu cầu cần thiết Đặc biệt là việc gởi dữ liệu theo đường Internet, vì chấtlượng đường truyền thấp nên cần phải nén dữ liệu nhỏ gọn để thuận lợi choviệc upload hay download Đối với lĩnh vực âm nhạc cũng vậy, nhu cầu gởitặng bài hát cho nhau , nghe nhạc trực tuyến trên mạng rất phổ biến vì vậyviệc nén file nhạc vô cùng cần thiết để tiết kiệm đường truyền, thời gian vàtiền bạc.

Để giải quyết vấn đề này MPEG có rất nhiều chuẩn để nén như MPEG 1,MPEG 2,… dùng để nén file theo nhiều cách khác nhau Một trong nhữngchuẩn phổ biến là chuẩn MPEG 1, trong khuôn khổ đề tài này chúng em chỉtìm hiểu về chuẩn MPEG 1 Layer 3 hay còn gọi là mp3 và minh hoạ bằngmột chương trình giải mã file mp3, sau đó phát ra loa.

Trang 6

CÁC THUẬT NGỮ THƯỜNG DÙNG

Sample rate Tốc độ lấy mẫu.

Signal-to-noise (S/N) Tỉ số giữa tín hiệu và nhiễu.

FPU Floating point unit Hardware math acceleration inside a CPU.

MFLOPS Million floating-point operations per second.

within ISO.

Trang 7

PHẦN I : LÝ THUYẾT

CHƯƠNG I : CÁC ĐẶC ĐIỂM CƠ BẢN CỦA ÂMTHANH

Âm thanh được tạo bởi một thực thể dao động Không có dao động thì khôngcó âm thanh Thực thể dao động thì được gọi là nguồn âm Nguồn âm làmcho các phần tử của môi trường bên cạnh nó dao động Các phần tử này lạilàm cho các phần tử kế nó dao động Bằng cách này các phần tử của môitrường truyền đến tai của người nghe Khi chúng ta cảm nhận một âm thanhnào đó, các phần tử dao động làm cho màng nhĩ của chúng ta cũng daođộng Các dao động này được tiếp nhận và phân tích bởi bộ não của chúngta.

Âm thanh có thể truyền qua môi trường không khí, nước hoặc các cấu trúcxây dựng… âm thanh truyền đi dưới dạng sóng âm, sự truyền âm thanh thựcchất là sự truyền năng lượng từ nơi này đến nơi khác.

I CÁC ĐẶC TÍNH CƠ BẢN CỦA ÂM THANH

Bất kỳ âm thanh đơn giản nào chẳng hạn như một nốt nhạc đều có thể hoàntoàn được mô tả bởi 3 đặc tính cảm nhận sau: cao độ (pitch ), cường độ(intensity), âm sắc (timbre)

Những đặc tính này lần lượt tương ứng với các đặc tính vật lý sau của âmthanh: tần số (frequency), biên độ (amplitude), sự cấu thành của các hài(harmonic constitution).

1 Tần số sóng âm

Âm thanh được truyền đi dưới dạng sóng âm Khi sóng âm truyền đi sựtruyền dao động của các phần tử dao động theo hướng truyền sóng Sựdịch chuyển của các phần tử của môi trường tạo ra các vùng có mật độphần tử cao thấp khác nhau Các vùng có mật độ phần tử cao được gọi làcác vùng đậm đặc (compression) Các vùng có mật độ phần tử thấp đượcgọi là vùng loãng (rarefaction).

Trang 8

Các vùng loãng và vùng đậm đặc lan truyền theo hướng truyền củasóng Các phần tử dao động không lan truyền theo hứơng truyền sóng,chúng dao động xung quanh vị trí cân bằng của chúng Mỗi một daođộng hoàn chỉnh được gọi là chu kỳ dao động (từ điểm bắt đầu của nó,tới một khoảng cách tối đa theo một hứơng, sau đó trở về vị trí ban đầu,tới một khoảng cách theo hướng ngược lại, và cuối cùng là trở về vị tríban đầu ).

Số chu kỳ dao động được thực hiện trong một giây được gọi là tần số daođộng, đây cũng chính là tần số của âm thanh Một trong những khác biệtchính giữa hai âm thanh là sự khác biệt về cao độ, và cũng chính tần sốcủa âm thanh quyết định cao độ của nó

Tần số được tính bằng Hertz (Hz), KiloHertz (kHz,1kHz=1000Hz)…Mộtngười bình thường có thể nghe được các nguồn âm có dải tần số từ 20Hzđến 20kHz.

2 Biên độ sóng âm

Biên độ sóng âm chính là khoảng cách dịch chuyển tối đa của các phầntử dao động Tương quan giữa biên độ sóng âm với các vùng loãng vàvùng đậm đặc

Biên độ của sóng âm thể hiện mức độ dao động của các phần tử của môitrường tạo nên sóng âm Biên độ sóng âm càng lớn thì các phần tử daođộng có năng lượng càng lớn và âm thanh sẽ có cường độ càng lớn.Cường độ âm thanh tỉ lệ nghịch với khoảng cách tính từ nguồn âm Càngxa nguồn âm cường độ âm thanh càng giảm, kết quả là tai ta nghe càngkhó

Cường độ âm được biểu diễn bởi mức áp suất âm thanh SPL (SoundPressure Level) Mức SPL của một nguồn âm nào đó được tính như sau:

SPL(dB)= 20 log(P/P0)Trong đó P : áp suất của nguồn âm (N/m2)

P0: áp suất chuẩn qui chiếu, Po =2* 10-5 N/m2

Trang 9

Aâm thanh SPL(dB)Ngưỡng im lặng 0Tiếng thì thầm 10

Một số mức SPL của vài dạng âm thanh.

II KHÁI QUÁT VỀ ÂM THANH SỐ

1 Lấy mẫu rời rạc thời gian, tín hiệu Audio tương tự

Tín hiệu audio tương tự thay đổi liên tục theo thời gian, nghĩa là biên bộ củatín hiệu thay đổi liên tục theo thời gian Lấy mẫu tín hiệu audio tương tự làxác định biên độ của tín hiệu ở những thời điểm theo những khoảng thờigian cách điều nhau vì vậy các mẫu là các xung có biên độ nhất định.Khoảng thời gian cách đều này gọi là chu kỳ lấy mẫu Ts , tần số lấy mẫu(tốc độ lấy mẫu ) fs = (1 / Ts).

2 Lượng tử hoá và các mẫu rời rạc thời gian

Lượng tử hoá là biểu diễn biên độ của các xung tín hiệu thành 1 giá trị số sửdụng hệ thống số nhị phân Người ta dùng một từ ( word) có độ dài n bit đểbiểu diễn các giá trị đó Số bits n được chọn tùy thuộc vào giá trị của cácmẫu và n được gọi là độ phân giải lượng tử hoá( quantization resolution).Giá trị của 1 word xác định 1 mức luợng tử hoá (quantization level) và độchênh lệch giữa 2 mức liên tiếp gọi là khoảng lượng tử hoá (quantizationinterval).

Ví dụ: ta sử dụng n=8 bit để biểu diễn các giá trị điện thế liên tục từ 0 -> 25,5 V như sau:

Trang 10

V1=0 thì word= 0000 0000 ( mức 0)V2=0,1 thì word= 0000 0001 ( mức 1)V3 = 0,2 thì word= 0000 0010 ( mức 2)……….

V255= 25,5 thì word =1111 1111 (mức 255)

Giả sử ta có Va =0,15 V thì word ở mức 1 (0000 0001 ) hoặc mức 2 (00000010) tuỳ thuộc vào sự lựa chọn của chúng ta Nhưng nếu V a =0.12 thì nóthuộc mức 1 vì gần giá trị ở mức 1 hơn.

Các giá trị lượng tử hoá chỉ là xấp xỉ gần bằng giá trị thực tế của các mẫu.Độ sai biệt giữa giá trị lượng tử hoá và giá trị thực được gọi là sai số lượngtử hoá ( quantization error).

3 Tỉ số tín hiệu trên sai số (Signal-to-error ratio)

Để đánh giá chất lượng của hệ thống lượng tử hóa, một thông số quan trọngđược định nghĩa là tỉ số của biên độ tín hiệu cực đại trên sai số lượng tử hóacực đại, tỉ số này được gọi là tỉ số tỉ hiệu trên sai số (S/E)

Trang 11

CHƯƠNG II: GIỚI THIỆU VỀ MPEG

I GIỚI THIỆU

1 MPEG là gì?

MPEG, viết tắt của cụm từ ‘ Moving Picture Experts Group’, là 1 nhómchuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âmthanh theo chuẩn ISO/IEC Ngày nay, nhóm làm việc MPEG đã pháttriển và phát hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4 ChuẩnMPEG-3 được kết hợp vào MPEG-2 và không còn tách riêng nữa NhómMPEG hiện nay đã phát triển đến chuẩn MPEG-7 MPEG chỉ là một tênriêng, tên chính thức của nó là : ISO/IEC JTC1 SC29 WG11.

ISO : International Organization for Standardization(Tổ chức chuẩn quốc tế)

IEC : International Electro-technical Commission(Hội đồng kỹ thuật điện tử quốc tế )

JTC1 : Joint Technical Committee 1(Hội đồng kỹ thuật liên hợp 1)SC29 : Sub-committee 29

(Hội đồng phụ 29)

WG11: Work Group 11 (moving picture with audio).(Nhóm làm việc 11)

2 So sánh các chuẩn MPEG

MPEG-1 định nghĩa một tiêu chuẩn cho việc lưu trữ và phục hồi các hìnhảnh động và âm thanh trên các thiết bị lưu trữ Tiêu chuẩn này địnhnghĩa rằng hình ảnh được phát lại ở tốc độ 30 frames một giây và âmthanh được phát lại ở chất lượng như CD-audio, độ phân giải hình ảnh là352 x 240 Chuẩn MPEG-1 được dùng điển hình trong các phần mềm

Trang 12

huấn luyện bằng máy tính, các game hành động trong máy tính, videochất lượng VHS, Karaoke

MPEG-2 định nghĩa cho một tiêu chuẩn kỹ thuật truyền hình số ChuẩnMPEG-2 khắc phục một vài nhược điểm của chuẩn MPEG-1 Ví dụ,MPEG-2 có thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao hơnvà rõ hơn (720 x 480 và 1280 x 720) Các đặc tính của MPEG-2 bao gồmhình ảnh chất lượng cao và âm thanh nổi

MPEG-3 định nghĩa một tiêu chuẩn cho High Difinition Television(HDTV), là thế hệ tiếp theo của công nghệ truyền hình theo định dạngsố đầu đủ Tiêu chuẩn này đã không được phát triển hoàn thiện và cuốicùng được kết hợp vào với chuẩn MPEG-2 MPEG-3 nhắm đến mục tiêulà các ứng dụng HDTV với kích thước mẫu lên đến 1920x1080x30 Hz vàđược mã hoá ở tốc độ bit 20 đến 40 Mbits/s Cuối cùng người ta đã nhậnra rằng với một vài điều chỉnh thích hợp, MPEG-1 và MPEG-2 làm việcrất tốt đối với HDTV.

MPEG-4 định nghĩa một tiêu chuẩn cho các ứng dụng Multi-media Đặcbiệt nó định nghĩa tiêu chuẩn truyền cho dòng phức tạp các hình ảnh, âmthanh và dữ liệu đồ hoạ và việc tái hợp chúng trên thiết bị thu MPEG-4được phát triển theo 2 giai đoạn, 1 và 2 Chuẩn MPEG-4 định nghĩa cácđối tượng hình ảnh mà trong đó các phần của một cảnh có thể được thaotác trong khi những phần khác vẫn không đổi.

MPEG-5 và MPEG-6 vẫn chưa được công bố.

MPEG-7 định nghĩa một tiêu chuẩn về việc biểu diễn nội dung cho cácnghiên cứu thông tin hình ảnh và âm thanh Tên chính thức là“Multimedia Content Description Interface” Mục tiêu của MPEG-7 làchuẩn hoá việc biểu diễn các mô tả về nội dung nghe nhìn Tuy nhiênchuẩn không định nghĩa các công cụ để nhận ra nội dung nghe nhìn thậtsự

3 Âm thanh MPEG

Về cơ bản, âm thanh MPEG sẽ làm giảm kích thước lưu trữ 1 tâp tin âmthanh đi rất nhiều Một đĩa Audio-CD lưu trữ được khoảng 650 Mbyte dữliệu âm thanh thô với cách mã hóa 16 bit (bitdepth) và tần số lấy mẫu(sample rate) 44.1 kHz Nếu đem phát ra thì cũng chỉ được 60 đến 72phút

Trang 13

 bitdepth: mô tả mức biên độ lớn nhất mà một mẫu âm thanh cóthể đạt tới Ví dụ : 8 bit = 256 mức, 16 bit = 65.536 mức, về hìnhảnh thì đó chính là độ phân giải.

 sample rate: mô tả số mẫu âm thanh được lấy trong 1 giây Ví dụ :22 kHz = 22.000 mẫu / 1giây.

Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thông tin.Nếu đổi cách lưu trữ âm thanh từ 16 bit sang 8 bit chúng ta có thể giảmkích thước lưu trữ đi 1 nửa, tuy nhiên như thế chất lượng âm thanh cũngsẽ giảm đi 1 nửa.

4

Hoạt động

Khi đưa ra phương pháp mã hóa âm thanh, nền tảng vẫn là yếu tố“hệ thống nghe” của con người Thật không may đó không phải 1thiết bị hoàn hảo để nhận biết âm thanh nhưng là thiết bị duy nhấtchúng ta có được Nhưng chúng ta có thể chuyển những khuyết điểmcủa nó thành ưu điểm : đó là đặc tính phi tuyến của ngưỡng nghe vàkhả năng thích hợp của nó.

MPEG hoạt động dựa trên hệ thống nghe của con người, đó là cảmgiác về âm mang đặc tính sinh lý và tâm lý.

Âm thanh CD ghi lại tất cả tần số, kể cả những tần số bị ‘che’.Âm thanh MPEG chỉ ghi lại những tần số mà tai người có thể nghe Như vậy, MPEG sẽ bỏ qua những thông tin không quan trọng Dựatrên nghiên cứu về nhận thức âm thanh của con người, bộ mã hóa sẽ

Trang 14

quyết định những thông tin nào là căn bản và những thông tin nào cóthể bỏ qua.

Hiệu quả này đặc biệt quan trọng trong âm nhạc Nếu trong một dànnhạc có một nhạc cụ chơi cực mạnh, làm át tiếng của các nhạc cụkhác ta không thể nghe được Nhưng máy thâu âm vẫn ghi lại đầy đủtất cả tần số của tất cả nhạc cụ, nghĩa là thiết bị thâu âm hoàn toànkhông có khả năng thích nghi động như con người Nhưng khi phátlại, ta vẫn không nghe được âm thanh của những nhạc cụ bị át Vìvậy việc lưu trữ / ghi lại những tần số này là thừa, làm chiếm dunglượng khá nhiều Cách ghi âm tuyến tính trên đĩa CD là hoàn toànkhông hiệu quả về khía cạnh này Do đó thay vì phải ghi lại thông tincủa những âm không nghe được, ta sẽ dành chỗ cho các âm có thểnghe được Theo cách này, dung lượng của thiết bị ghi âm cần thiếtcó thể xem như giảm đi mà không làm giảm chất lượng âm thanh.Trước khi chúng ta nghe được điều gì, thông tin sẽ được phân tích bởibộ não của chúng ta Não bộ sẽ dịch âm thanh và lọc bỏ những thôngtin không cần thiết Kỹ thuật âm thanh MPEG làm việc này thay thếcho não bộ Như vậy, những thông tin lẽ ra phải được lọc bởi não bộbây giờ không còn cần phải lưu trữ chiếm giữ không gian đĩa nữa.

II CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG

1 Lược đồ mã hóa Perceptual Subband

Bộ mã hóa âm thanh theo “perceptual subband” phân tích liên tục cáctín hiệu vào và xác định ra đường cong che (masking curve), đó là mứcngưỡng mà những âm thanh ở dưới nó không thể nghe được bởi hệ thốngnghe của con người.

Trang 15

Tín hiệu vào được chia thành 1 số dãi tần số, gọi là “subband” Mỗi tínhiệu “subband” được lượng tử hóa theo cách mà sự lượng tử hóa tiếng ồnđược bắt đầu bởi việc mã hóa sẽ không vượt quá đường cong che củasubband đó Sự lượng tử hóa phổ tiếng ồn vì thế thích nghi động với phổcủa tín hiệu Thông tin trên bộ số hóa được dùng trong mỗi subband đượctruyền dọc theo các mẫu subband được mã hóa Bộ giải mã sẽ giải mãdòng bit (bitstream) mà không cần phải biết cách mà bộ mã hóa xác địnhnhững thông tin này Điều này cho phép bộ mã hóa hoạt động với nhữngmức độ khác nhau về chất lượng và độ phức tạp, và cũng cho phép sựphát triển trong tương lai của bộ mã hóa.

2 Giải thích về hiệu quả che (masking effect)

a Nén âm thanh MPEG

MPEG có thể nén 1 dòng bit 32 kbit/s đến 384 kbit/s Một dòng bitâm thanh PCM thô thì khoảng 705 kbit/s, do đó tỉ số nén tối đa có thể

Trang 16

là 22 Tỉ số nén bình thường là 1:6 hay 1:7 96 kbit/s là xem như trongsuốt cho hầu hết các mục đích thực tế Có nghĩa rằng ta không cầnphải lưu tâm đến bất kỳ sự khác biệt nào giữa tín hiệu gốc và tín hiệunén đối với nhạc pop hay nhạc rock’n roll Đối với một số ứng dụngkhác như là hòa tấu piano, tốc độ bit có thể lên tới 128 kbit/s.

Để đạt được tỉ số nén này, đối với âm thanh, về cơ bản ta có hai chọnlựa: hoặc giảm số lần lấy mẫu, hoặc giảm số bit để lượng tử hoá Conngười có thể nghe âm thanh với tần số từ 20 Hz đến 20 kHz Theothuyết của Nyquist, ta phải lấy mẫu âm thanh ở tần số tối thiểu là hailần tần số cao nhất mà ta muốn phát lại Tần số lấy mẫu 44,1 kHz làthích hợp Vấn đề còn lại là phải chọn số bit cho một mẫu mã hóa làbao nhiêu Thông thường là 16 bit.

Lý do để chọn con số 16 bit bắt nguồn từ tỉ số tín hiệu và nhiễu (S/N).Nhiễu nói ở đây sinh ra do qúa trình số hóa Cứ mỗi bit thêm vào, tacó tỉ số S/N tốt hơn 6dB (đối với tai người, 6 dB tương ứng với mức togấp đôi) Âm thanh CD đạt tới khoảng 90 dB S/N Mức này phù hợpvới phạm vi động của tai người còn tốt Nghĩa là ta không thể ngheđược bất kỳ nhiễu nào đến từ bản thân hệ thống Điều gì xảy ra nếuta lấy mẫu với 8 bit? Ta sẽ nghe thấy rất nhiều tiếng sôi trong bảnghi Dễ dàng nghe thấy nhiễu trong khoảng nghỉ của bản nhạc hoặcgiữa các từ nếu ta ghi âm một giọng nói.

b Hiệu quả che

Giả sử có một âm mạnh với tần số 1000Hz, và một âm kèm theo cótần số 1100Hz nhưng với cường độ âm nhỏ hơn 18dB Ta sẽ khôngthể nghe thấy âm này vì nó đã bị che hoàn toàn bởi âm chủ 1000Hz.Nói một cách khác, một âm thanh yếu gần một âm thanh mạnh sẽ bịche Nếu có một âm thanh khác tần số 2000Hz cũng có mức to thấphơn âm 1000Hz là 18dB thì ta sẽ nghe được âm này Để không ngheđược âm này ta phải giảm mức to của âm này xuống còn thấp hơn45dB so với âm chủ 1000Hz Hiệu qủa che có ý nghĩa rằng ta có thểgia tăng mức ồn nền xung quanh một âm mạnh mà vẫn không ngheđược tiếng ồn vì chúng sẽ bị che hoàn toàn Tăng mức ồn nền còn cónghĩa là dùng ít bit để số hóa Và điều này cũng giống như là ta đãnén âm thanh vậy.

Bây giờ hãy xem bộ mã hoá âm thanh MPEG hoạt động như thế nào.Bộ mã hóa chia phổ tần số (20Hz đến 20kHz) thành 32 dãi nhỏ (sub-

Trang 17

band) Mỗi sub-band giữ 1 phần nhỏ của phổ Trong vùng trên củasub-band 8 ta phát một âm có tần số 1000Hz với mức to 60dB Bộ mãhóa sẽ tính toán hiệu qủa che của âm này và nhận ra rằng có mộtngưỡng che cho toàn bộ sub-band thứ 8 (tất cả những âm có cùng tầnsố) Ngưỡng che này thấp hơn âm phát ra 35 dB Tỉ số S/N có thểchấp nhận được là 60 - 35 = 25 dB, tương đương với 4 bit Ngoài ra nócòn ảnh hưởng trên các sub-band 9-13 và 5-7 với hiệu qủa che giảmdần từ sub-band 8 Hơn nữa, bộ mã hóa cũng xem xét mức độ nhạycảm của tai đối với các tần số khác nhau Tai người ít nhạy cảm vớicác tần số cao và thấp Nó nhạy cảm nhất đối với tần số 2-4 kHz,cùng dãi tần số với tiếng nói con người.

Các sub-band nên phù hợp với tai người, nghĩa là mỗi sub-band cầncó các tần số có cùng các tính chất âm học tâm lý Trong MPEGlayer II, mỗi sub-band có độ rộng 625Hz, do đó cần phải có những bộlọc băng thông phức tạp Để các bộ lọc đỡ phức tạp, người ta thêmFFT (Fast Fourier Transform) vào song song với bộ lọc và sử dụngcác thành phần phổ từ FFT như là các thông tin thêm vào bộ mã hóa.Bằng cách này ta sẽ lấy mật độ bit cao hơn đối với các tần số thấpmà tai người nhạy cảm hơn.

Còn nhiều vấn đề cần phải bàn tới Chúng ta chỉ mới giải thích sựche đồng bộ, hiệu qủa che còn xảy ra trước và sau một âm mạnh.

3 Các lớp âm thanh MPEG

Có nhiều sự nhầm lẫn về lớp âm thanh MPEG Tất cả các lớp đềudựa trên cùng một lược đồ mã hóa (mã hóa theo nhận thức) Mức độphức tạp của bộ mã hóa và giải mã tuỳ thuộc vào mỗi lớp Sau đây làhình ảnh cho thấy tỉ số nén mà ta cần phải đạt tới 100% chất lượngCD với các bộ mã hóa và giải mã khác nhau

Trang 18

Sau đây là chi tiết về các lớp.

a Lớp I (Layer I)

Đây là lớp đơn giản nhất phù hợp cho ứng dụng của người dùng Môhình âm học tâm lý của lớp này chỉ sử dụng các tần số che Điều nàycó nghĩa rằng nó sẽ bỏ qua các tần số bị khuất sau các tần số khác.Phạm vi tốc độ bit từ 32 kbit/s (mono) đến 448 kbit/s (stereo) Tùythuộc vào mức độ phức tạp của bộ mã hóa, một âm thanh chất lượngcao (gần với âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/strên một chương trình stereo Không nên mã hóa với mức nén caohơn 384 kb/s Độ phức tạp của bộ giải mã thấp, độ phức tạp của bộmã hóa cao hơn 1.5 - 3 lần Lớp I được dùng nhiều trong DDC vàSolid State Audio.

b Lớp II (Layer II)

Lớp II đề nghị mức độ nén cao hơn lớp I và mức độ lọc sâu hơn Nócó những ứng dụng số cho cả âm thanh chuyên nghiệp và nghiệp dư,như qua đài phát thanh, TiVi…Phạm vi tốc độ bit từ 32 - 192 kb/s choâm thanh mono, và từ 64 - 384 kb/s cho âm thanh stereo Tùy thuộcvào mức độ phức tạp của bộ mã hóa, một âm thanh chất lượng cao(gần với âm thanh CD) yêu cầu tốc độ bit khoảng 256 - 384 kb/s trên

Trang 19

một chương trình stereo Mức độ phức tạp của bộ giải mã 25% caohơn so với lớp I, và bộ mã hóa có mức phức tạp cao hơn 2 - 4 lần.

c Lớp III (Layer III)

Lớp III còn đưa ra mức độ nén và lọc cao hơn cả lớp II và sử dụngmột bộ mã hóa Huffman.

Những cải thiện của lớp 3 so với lớp 1 và lớp 2 :

 Giảm sự chồng phổ :Lớp 3 cung cấp phương pháp xử lý các giátrị MDCT để loại bỏ sự dư thừa do sự chồng lấp giữa các băng. Lượng tử hóa phi tuyến :Bộ lượng tử hóa lớp 3 nâng các lối

vào của nó lên ¾ năng lượng trứơc khi lượng tử hóa để cungcấp tỉ số tín hiệu trên nhiễu (SNR) cao hơn.

 Mã hóa entropy các giá trị dữ liệu : Lớp 3 sử dụng mãHuffman để mã hóa các mẫu lượng tử hóa cho việc nén dữ liệutốt hơn

 Sử dụng một bộ dữ trữ bit (bit reservoir): Dòng bit lớp 3 phùhợp hơn với độ dài thay đổi của dữ liệu được nén Cũng giốngnhư lớp 2, khung dữ liệu lớp 3 có 1152 mẫu Lớp 3 khônggiống lớp 2 ở chỗ dữ liệu mã hóa không nhất thiết phải vừa

Trang 20

vặn trong một khung cố định Bộ mã hóa có thể lấy hoặc mượncác bit từ bộ dự trữ bit nếu cần thiết

 Sự phân bố nhiễu hay sự phân bố bit : Quá trình phân bố bittrong lớp 1 và lớp 2 chỉ xấp xỉ lượng nhiễu gây bởi lượng tửhóa theo số bit cho trước Bộ mã hóa lớp 3 sử dụng một vònglặp phân bố nhiễu Theo cách này , các bộ lượng tử hóa đượcthay đổi theo thứ tự , và lượng tử hóa có được là do tính toánvà được phân bố cho mỗi băng phụ

III CÁC THÔNG SỐ DÙNG TRONG MPEG

Chuẩn MPEG cho phép ta chọn lựa các thông số cho việc nén âmthanh tốt nhất phù hợp với ứng dụng mà ta sử dụng Lược đồ mã hóacho các loại là tổng quát Các thông số có thể chọn lựa trong bộ mãhóa MPEG bao gồm : Mode, Sampling frequency, bitrate, và Layer.

1 Mode

Chuẩn MPEG có 4 chế độ:Mono.

Dual channel.Stereo.

Intensity Stereo (còn gọi là Joint Stereo).

Chế độ Mono rõ ràng được dùng cho âm thanh 1 kênh.

Để chọn chế độ cho các ứng dụng 2 kênh, đầu tiên ta phải xác địnhđâu là tín hiệu trái và đâu là tín hiệu phải để chia chúng ra thành 2files khác nhau, nhằm sau này ta có thể làm việc độc lập trên kênhtrái hoặc phải Lúc đó ta sẽ chọn chế độ Mono Nếu 2 kênh khôngcần hoạt động độc lập, ta chọn Stereo, Dual hay Intensity Stereo đểtạo một file duy nhất.

Chế độ Stereo hay kênh Dual là hoàn toàn đồng nhất khi chúng cùngsinh ra một file duy nhất cho tín hiệu stereo Tuy nhiên một bit chỉ thịsẽ nhận dạng xem một file là ở chế độ nào và có thể được dùng chonhững áp dụng nào.

Trang 21

Chế độ Intensity Stereo xem xét sự dư thừa giữa các kênh trái vàphải nhằm tối ưu mã Chất lượng của Intensity Stereo thay đổi theonội dung của tín hiệu đã mã hóa Tuy nhiên nó đặc biệt thích hợp chotốc độ truyền bit thấp.

2 Sampling Frequency (tốc độ lấy mẫu)

Một số tốc độ lấy mẫu:

 32 kHz, 44.1 kHz và 48 kHz đối với MPEG 1 (Tiêu chuẩnISO/IEC 11172-3).

 16 kHz, 22.05 kHz và 24 kHz đối với MPEG 2 (Tiêu chuẩnISO/IEC 13818-3).

Khi chọn lựa tốc độ lấy mẫu cần xem xét các vấn đề:

Tần số lấy mẫu càng lớn thì càng nghe thuận tai (độ dài frame nhỏhơn).

Băng thông tín hiệu giới hạn ở mức 15 kHz khi lấy mẫu ở tốc độ 32kHz và 8 kHz ở tốc độ 16 kHz.

Tần số lấy mẫu (kHz) và tốc độ của âm thanh mã hóa (kbps) có thểchọn độc lập.

Tần số lấy mẫu 44.1 kHz hay 22.05 kHz là không thiết thực cho việcchọn lọc vì độ dài frame (byte) là thay đổi.

Những file được lấy mẫu ở những tần số khác nhau thì rất khó khănkhi hòa trộn.

Khi dùng ngõ nhập số AES/EBU, tần số lấy mẫu bị cố định bởi tínhiệu nhập.

Nếu không bắt buộc, Digigram yêu cầu lấy mẫu ở 48 kHz hoặc 44.1kHz cho phát thanh hay ứng dụng multimedia Nếu ta phải sử dụngtốc độ bit thấp cho sự truyền có hiệu quả, tốc độ 24 kHz là thích hợp

3 Bit Rate

Mỗi Layer và chế độ có nhiều cách chọn lựa tốc độ bit (bit rate).Việc chọn tốc độ bit tùy thuộc trước tiên vào chất lượng âm yêu cầu.Băng thông tín hiệu là hẹp hơn nếu tốc độ bit thấp, khiến cho nó

Trang 22

không thực tế đối với một số ứng dụng Tốc độ bit được đo theokilobits / sec(kbps).

Khi chọn lựa tốc độ bit cần xem xét các vấn đề:

Tại 128 kbps trên mỗi kênh (hay 256 kbps stereo), chất lượng âmthanh CD sẽ đạt được với Layer I hay Layer II.

Tại 192 kbps trên mỗi kênh, chất lượng âm thanh là hoàn toàn trongsuốt.

Tốc độ 128 kbps / kênh được dùng phổ biến nhất trong phát thanh.Nó tương ứng với tỉ số nén 1:6 ở tốc độ lấy mẫu 48 kHz Tốc độ thấphơn 128 kbps / kênh được dùng trong các ứng dụng yêu cầu tỉ số nénlớn hơn do giới hạn của băng thông truyền hay thiết bị lưu trữ

Một số tốc độ bit cung cấp bởi chuẩn âm thanh MPEG : MPEG 1: 32 kHz, 44.1 kHz and 48 kHz

- Layer I :

32, 64, 96, 128, 160, 192, 224, 256, 288, 320, 352, 384, 416, 448 kbps.Những tốc độ này là có thể ở chế độ Mono hay stereo

- Layer II :

32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320, 384 kbps.32, 48, 56, 80 kbps chỉ có thể ở chế độ Mono; •64, 96, 112, 128, 160, 192kbps có thể ở cả hai chế độ Mono và Stereo;•224, 256, 320, 384 kbps chỉcó thể ở chế độ Stereo.

Trang 23

CHƯƠNG III: MÃ HÓA THỤ CẢM

I CƠ SỞ ÂM TÂM LÝ

Các thuật toán mã hoá thụ cảm đều dựa trên mô hình tiếp nhận âm thanhđể tối ưu hiệu qủa mã hoá Đó chính là tai người , sự cảm nhận âm thanh bịảnh hưởng bởi các tính chất che Aâm tâm lý học là 1 lĩnh vực khoa họcnghiên cứu và giải thích sự cảm nhận âm thanh của tai người đối với sựkích thích của nguồn âm Các phương pháp mã hoá thụ cảm đều dựa vàocác nguyên lý cơ bản của âm tâm lý học như :ngưỡng nghe, các băng tớihạn, hiện tượng che Các phương pháp này loại bỏ các thành phần dư thừakhông nghe được của tín hiệu audio để giảm bớt dữ liệu trong quá trìnhnén.

1 Ngưỡng nghe tuyệt đối (absolute threshold of hearing)

Ngưỡng nghe tuyệt đối là mức năng lượng cần thiết của một tone thuần (ởmức độ cho trước ) để mà nó có thể nghe được trong một môi trường khôngcó tiếng ồn.

2 Các băng tới hạn (critical bands)

Các nghiên cứu thực tế cho thấy tai người có thể cảm nhận được các nguồnâm có tần số từ 20 Hz đến 20KHz Ngoài ra , tai người còn được coi là bộphân tích phổ đối với phổ tần nghe được Tai người được coi là 1 băng lọc(filter bank) gồm nhiều mạch lọc thông dãi với các băng thông có độ rộngkhác nhau, nó đặc trưng cho khả năng phân giải âm thanh của tai người.Các băng này được gọi là băng tới hạn, chúng có độ rộng thay đổi theo tầnsố từ thấp đến cao Trên thực tế có 25 băng tới hạn được qui ước theo bảngcác băng tới hạn dưới , mỗi băng có một tần số trung tâm Độ rộng của mỗibăng có thể được tính xấp xỉ như sau :

BWc (f)=25+75[1+1.4(f/1000)2]0.69 (HZ)

Một băng tới hạn có độ rộng là một Bark(đặt theo tên của nhà khoa họcBarkhausen) Hàm sau đây cho phép chuyển từ giai tần số sang giai Bark:

Z(f) = 13arctan(0.00076f) + 3.5arctan[(f/75000)2] (Bark)

Tai người có khả năng phân tích thời gian tần số, khả năng này tạo ra cáchiện tượng che đồng thời và không đồng thời Các hiện tượng này được sử

Trang 24

dụng bởi các bộ mã hóa để xác định các thành phần dư thừa nhằm loại bỏ,không mã hóa chúng.

Băng tới

hạn Tần số trungtâm Độ rộng(Hz) Tần số dưới(Hz) Tần số trên(Hz)1

Bảng các băng tới hạn

3 Hiện tượng che( masking)

Hiện tượng che xảy ra khi một hoặc nhiều nguồn âm bị làm cho không ngheđược do sự có mặt của một nguồn âm khác Tín hiệu che các tín hiệu khác

Trang 25

được gọi là các thành phần che (masker), các tín hiệu bị che thì gọi là cácthành phẩn bị che (maskee) Độ chênh lệch giữa thành phần che và ngưỡngche (do tần số và mức áp suất âm thanh của thành phần che quyết định) gọilà tỉ số tín hiệu trên che SMR (Signal-to-masking ratio) Thông số này rấtquan trọng trong phương pháp mã hóa thụ cảm Hiện tượng che có 2 loại :che đồng thời và che không đồng thời.

 Hiện tượng che đồng thời : xảy ra khi nhiều nguồn âm tác động vào taingười Mặc dù phổ tần âm thanh có thể chứa nhiều hiện tượng che đồngthời phức tạp, vì mục tiêu định dạng sái dạng mã hóa, ta chỉ cần quantâm đến 3 loại che đồng thời : nhiễu che tone , tone che nhiễu, nhiễu chenhiễu.

 Nhiễu che tone (Noise-Masking-Tone, NMT) : ví dụ như 1 nhiễubăng thông hẹp (có băng thông là 1 Bark) che một tone với điềukiện là tone bị che có mức SPL nhỏ hơn ngưỡng do nhiễu che quyếtđịnh.

 Tone che nhiễu (Tone – Masking - Noise, TMN): Ví dụ như 1 tone ởtần số trung tâm của 1 băng nhiễu (băng thông là 1 Bark) che băngnhiễu đó khi mức SPL của băng nhiễu thấp hơn mức ngưỡng do toneche quyết định

 Nhiễu che nhiễu (Noise - Masking – Noise, NMN): Đây là trườnghợp mà 1 nhiễu băng thông hẹp bị che bởi 1 băng nhiễu khác.

 Hiện tượng che không đồng thời :xảy ra khi các tone (hoặc nhiễu) đượcphát lên đồng thời nhưng gần nhau theo thời gian Hiện tượng tiền chexảy ra khi một tone (hoặc nhiễu) bị che bởi một tone (hoặc nhiễu) xảy rasau Tương tự, hiện tượng hậu che khi một tone xảy ra trước che một tonexảy ra sau đó

Bộ mã hoá thụ cảm phân tích thành phần tần số và biên độ của tín hiệuaudio vào và so sánh với mô hình âm sinh lý của tai người Bộ mã hoá loạibỏ các thành phần dư thừa không cần thiết ( phần tai người không cảm nhậnđược) vì vậy giảm 1 lượng đáng kể dữ liệu cần mã hoá Về mặt lý thuyết,phương pháp này làm hao hụt thông tin nhưng tai người vẫn không cảm thấyđược sự suy giảm chất lượng tín hiệu audio.

Trang 26

II MÃ HÓA BĂNG PHỤ

Trong phương pháp mã hoá băng phụ tín hiệu Audio được cho vào 1 bănglọc gồm M mạch lọc thông dãi chiếm đầy phổ tần nghe được Mô hình âmtâm lý được sử dụng để tính toán ngưỡng che cho mỗi băng phụ Lối ra củamỗi mạch lọc được lấy mẫu tới hạn, và được lượng tử hoá và mã hoá mộtcách riêng biệt.

Việc lượng tử hoá của mỗi băng phụ được dựa trên tỉ số năng lượng đỉnhtrên mức che (độ chênh lệch giữa thành phần các mức SPL cao nhất vàngưỡng che) tính được cho mỗi băng phụ Tỉ số này được sử dụng bởi bộphân phối bit để phân bố số bit cần thiết cho việc lượng tử hoá mỗi băngphụ, các thành phần thấp hơn ngưỡng che thì không được mã hoá Cuối cùngcác mẫu lượng tử hoá được đóng thành các khung dữ liệu, trong khung cókèm theo các dữ liệu phụ khác.

Phần mạch giải mã thì đơn giản hơn do nó không cần mô hình âm tâm lý.Các khung dữ liệu được mở ra, các mẫu băng phụ thì được giải mã và đuợcphân tích tần số thời gian để tạo lại tín hiệu audio ban đầu.

II MÃ HOÁ BIẾN ĐỔI

Trong phương pháp mã hoá biến đổi các mẫu Audio trong miền thời gianđược chuyển sang miền tần số nhờ các phép biến đổi toán học Các bộ mãhoá có thể sử dụng các phép biến đổi như phép biến đổi Fourier rời rạc DFT(Discrete Fourier Transform) hoặc MDCT Các hệ số có được từ các phépbiến đổi được lượng tử hoá và mã hoá dựa trên mô hình âm tâm lý, cácthành phần bị che được loại bỏ Đứng trên quan điểm thông tin, sự biến đổilàm giảm Entropy của tín hiệu cho phép mã hoá hiệu quả hơn.

Trong các bộ mã hoá biến đổi thích nghi, một mô hình được sử dụng đểlượng tử hoá thích nghi mỗi băng phụ, nhưng các hệ số trong mỗi băng đượclượng tử hoá vời cùng số bit Thuật toán phân phối bit tính toán nhiễu lượngtử hoá trong mỗi băng để có được tỉ số S/N cần thiết cho việc che Trong vàitrường hợp tốc độ bit lối ra có thể thay đổi Trước khi truyền đi , dữ liệuthường được nén với phương pháp mã hoá Entropy, chẳng hạn như mã hoáHuffman Mô hình mã hóa thích nghi được minh họa như hình sau:

Trang 27

Bộ đệm,Biến đổi

Lượng tử hoáthích nghi

Tính toánngưỡng cheFFT và mô

hình âm tâmlý

Mã hoá Entropy

Bộ mã hoá biến đổi thích nghi

III MÃ HOÁ MP3 ( MP3 ENCODING)

Tín hiệu vào bộ mã hóa là bộ điều biến mã xung bình thường (PCM) đượcphân chia vào khung có 1152 mẫu Khung này được chia làm hai granules,mỗi granule là 576 mẫu Khung được gởi đến cả hai khối biến đổi Fouriernhanh (FFT) và băng lọc phân tích.

1 Phân tích phép biến đổi Fourier nhanh (FFT analysis)

Khối FFT chuyển 576 mẫu đến miền tần số sử dụng phép biến đổiFourier.

Trang 28

2 Ngưỡng che (Masking Threshold)

Thông tin tần số từ khối FFT được sử dụng để liên kết mô hình âm tâmlý để xác định ngưỡng che cho tất cả các tần số Ngưỡng che được ápdụng vào bộ lượng tử hóa để xác định số bit cần thiết mã hóa cho mỗimẫu Chúng thường xem xét liệu sự chuyển đổi cửa sổ có cần thiết trongkhối biến đổi cosin rời rạc cải tiến (MDCT).

3 Băng lọc phân tích (Analysis Filterbank)

Băng lọc phân tích bao gồm 32 băng thông lọc bằng nhau Đầu ra củabăng lọc là 1 mẫu tới hạn Nghĩa là mỗi granules gồm 576 mẫu, có 18mẫu ra từ 32 băng thông lọc, mà đưa ra tổng cộng là 576 mẫu subband.

4 MDCT với cửa sổ động

Mẫu subband được biến đổi đến miền tần số thông qua MDCT MDCTthực hiện 18 mẫu (khối dài ) cùng thời điểm để đạt độ phân giải tần sốcao, thực hiện 6 mẫu (khối ngắn ) Do có sự chồng cửa sổ lên nhau 50%nên kích thước cửa sổ là 36 mẫu cho khối dài và 12 mẫu cho khối ngắn.Khối ngắn cải thiện độ phân thời gian tốt hơn để dùng cho các tín hiệuchuyển tiếp và làm nhỏ tiếng vang lại Khối dài cho phép độ phân giảitần số tốt hơn Lớp 3 có 3 mode chọn khối : 2 mode khi tất cả các lối racủa băng lọc đều qua được biến đổi MDCT, và 1 mode hỗn hợp khi 2băng tần thấp sử dụng khối dài còn 30 băng tần cao sử dụng khối ngắn Trước mỗi đợt MDCT xuất ra subband, mỗi subband cũ phải nghịch đảotần số (nhân -1) để dòng phổ xuất hiện theo thứ tự tăng dần.

Khi mã hóa thụ cảm entropy vượt quá giá trị 1800 sẽ xác định hằng số.Khối lọc MDCT sẽ được chuyển đến cửa sổ ngắn Để duy trì thuộc tínhtái tạo lại của MDCT, sự chuyển đổi giữa khối ngắn và khối dài khôngthể tức thì, vì vậy có cửa sổ chuyển đổi từ dài đến ngắn, từ ngắn đến dài.

Trang 29

Chiều dài của khối ngắn bằng 1/3 khối dài Trong chế độ khối ngắn, 3khối ngắn thay thế 1 khối dài mà không kể đến loại cửa sổ áp dụng, sốdòng MDCT còn lại không đổi Cho 1 khối riêng biệt của dữ liệu, tất cảcác kênh khối lọc có thể cùng kiểu khối MDCT ( dài hoặc ngắn) hoặc 1mode khối hỗn hợp nơi mà subband tần số nhỏ hơn 2 cho phép khối dàitrong khi còn lại dãi trên 30 có khối ngắn Chế độ hỗn hợp cung cấp độphân giải tần số tốt hơn cho tần số thấp hơn trong khi duy trì độ phân giảithời gian cao hơn.

MDCT biến đổi tín hiệu âm thanh vào miền tần số, sinh ra biệt danhđược đưa vào bởi mẫu con trong khối lọc có thể thoát khỏi từng phần(partially cancelled)

5 Chia tỉ lệ và lượng tử hóa (Scaling và Quantization)

Ngưỡng che được sử dụng để tính toán có bao nhiêu bit cần thiết trongmỗi băng tới hạn để mã hóa mẫu sao cho nhiễu lượng tử hóa không thểnghe được Bộ mã hoá thường sử dụng tốc độ bit phù hợp với yêu cầu.Mã hoá Huffman là một phần của phép lặp bởi vì nó không có khả năngxác định số bit cần thiết cho việc mã hoá.

Trang 30

6 Mã hóa Huffman và sinh ra dòng bit (Huffman Coding andBitstream Generation)

Mẫu lượng tử hoá là lưu trữ và mã hoá Huffman trong dòng bit dọc theohệ số tỉ lệ và thông tin (side infomation).

Huffman là phương pháp mã hoá không mất dữ liệu dùng từ mã(codeword) để lưu trữ bit nhị phân của “symbol” Ví dụ các symbol A, B,C, D được mã hoá thông qua các code word như sau:

Symbol A và B được phân biệt thông qua chiều dài của từ mã tương ứnglà “0” và “10” Thế mạnh của của mã hoá Huffman là tất cả code wordcó khả năng giải mã đồng nhất ( uniquely decodable) Vì vậy trình tự mãhoá của các bit là:

01101110100tương ứng với chuỗi dữ liệu:

“ACDABA”

Giải thuật mã hoá Huffman dựa trên mô hình cây mã hoá (coding tree)dùng để phân biệt các symbol thông qua code word Symbol nào có xácsuất cao thì code word ngắn, ngược lại symbol có xác suất thấp thì codedài hơn Trình tự thực hiện theo các bước sau:

 Sắp xếp số lần xuất hiện ( xác suất) các symbol theo thứ tự giảmdần.

 Nối 2 symbol lại với nhau theo thứ tự từ trên xuống để tạo symbolmới.

 Tiếp tục bước 2 cho đến khi còn lại 1 symbol với xác suất là 1. Tiến hành đánh số cho cây mã hoá, bắt đầu từ gốc (symbol có xác

suất là 1) trở lên phía trên thì đánh số “0” ngược lại từ gốc đixuống ta đánh số “1”.

Trang 31

Ví dụ ta có chuỗi cần mã hoá là “ EXAMPLE OF HUFFMANCODING” Đầu tiên ta tính xác suất của từng symbol trong chuỗi ký tự.

SymbolXác suất

2/251/252/252/251/251/252/253/251/251/251/251/251/252/251/253/25

Trang 32

Tiếp tục sắp xếp các symbol theo xác xuất giảm dần.

7 Thông tin (Side Information)

Thông tin chứa các thông số điều khiển thao tác giải mã như là sự lựachọn bảng Huffman, chuyển đổi cửa sổ, điều khiển độ lợi (gain control).

Trang 33

CHƯƠNG IV: GIẢI MÃ MPEG1 LỚP 3

I GIẢI MÃ MP3 (MP3 DECODING)

 Sơ đồ cấu trúc :

1 Định dạng khung (Frame Format)

Khung là một khái niệm trung tâm khi giải mã dòng bit MP3 Nó baogồm 1152 mẫu đơn hoặc mẫu miền tần số, được chia hai granules mỗigranules gồm 576 mẫu Mỗi granules được chia làm 32 khối subband có18 dòng tần số.

Trang 34

Phổ tần số dao động từ 0 tới FS/2 Hz Subband phân chia phổ thành 32phần bằng nhau Mỗi subband chứa 18 mẫu mà đã được biến đổi đếnmiền tần số bằng phép biến đổi MDCT.

576 dòng tần số trong một “granule” được phân chia vào trong 21 hệ sốtỉ lệ được thiết kế để phù hợp tần số băng tới hạn càng gần càng tốt Dãihệ số tỉ lệ được sử dụng chính cho việc lượng tử hóa lại (requantization)của các mẫu.

Khung (frame) bao gồm 4 phần: tiêu đề (header), thông tin (sideinfomation), dữ liệu chính (main data), dữ liệu phụ thuộc (ancillary data):

Trang 35

liệu bên trong MPEG Version 1 Layer III, khung thường lệ thuộc vàonhững thành phần khác và không thể cắt ra hát trực tiếp được Khibạn muốn đọc thông tin về file MPEG thông thường chỉ đọc về khungđầu tiên, về header và cho rằng những khung khác cũng tương tự.Điều này có thể không đúng trong mọi trường hợp File MPEG có tốcđộ bit khác nhau có thể được sử dụng thì gọi là chuyển đổi tốc độ bit(bitrate switching) có nghĩa là tốc độ bit chuyển đổi dọc theo nộidung của khung Với cách này tốc độ bit thấp hơn có thể được sửdụng trong khung mà không làm giảm chất lượng âm thanh.

Khung có cơ chế kiểm tra lỗi CRC Bộ kiểm tra lỗi dài 16 bit Nếucó lỗi xảy ra thì được lưu trữ trong phần header Sau khi kiểm tra lỗi,có thể tính chiều dài của khung và sử dụng nó nếu cần những thôngtin khác về header hay tính CRC của khung

Tiêu đề có chiều dài 4 bytes (32 bits) và chứa thông tin về lớp , tốcđộ bit, tần số mẫu và chế độ stereo được mô tả cụ thể như sau:

AAAAAAAA AAABBCCD EEEEFFGH IIJJKLMMSign Length

10 - MPEG Version 2 (ISO/IEC 13818-3)11 - MPEG Version 1 (ISO/IEC 11172-3)

Trang 36

C 2 (18,17) Phần mô tả Layer00 – dự trữ

01 - Layer III10 - Layer II11 - Layer I

0 – kiểm tra lỗi CRC (16bit CRC follows header)

1 - không kiểm tra.E 4 (15,12) Chỉ số tốc độ bit

bits V1,L1 V1,L2 V1,L3 V2,L1 V2, L2 & L30000 free Free Free free Free

"free" : format tuỳ ý.

Định dạng
Số trang	73
Dung lượng	1,85 MB