sơ đồ khối bộ mã hóa DPCM

Ưu nhược điểm của LPC Giới hạn 1: Trong một số trường hợp, một khung âm thanh không phải chỉ được phân loại thành hữu thanh và vô thanh  Giới hạn 2: Việc sử dụng hoàn toàn nhiễu ngẫu n

Trang 1

Sơ đồ khối bộ mã hóa DPCM

Bộ lọc dự đoán

 Thực chất bộ lọc dự đoán gồm nhiều mạch trễ nối tiếp

 Thời gian trễ TS của mỗi mạch bằng chu kỳ lấy mẫu

 Nếu bộ lọc dự đoán chỉ dùng 1 mạch trễ thì sự dự đoán là bậc 1

 Nếu dùng 3 mạch trễ liên tiếp dự đoán bậc 3

Dự đoán bậc 3 cho sự đánh giá tốt hơn bậc 1, tạo ra khả năng mã hoá và số bit ít hơn

Trang 2

Lấy mẫu

fs =8000

mẫu/s

{ap(k) }

Xác định âm hữu thanh hay vô thanh và kích thích

Tín

hiệu

thoại

Mã hóa

Pitch Kích thích

Sơ đồ khối bộ giải mã DPCM

Phương pháp mã hóa dự đoán tuyến tính LPC (tt)

 Sơ đồ khối bộ mã hóa và giải mã LPC:

 Mã hóa:

 Giải mã:

Trang 3

Bộ lọc IIR H(z)

Lọc thông thấp

{ap(k)}

Bộ tạo tín hiệu

Tín hiệu thoại

Giải mã

Pitch

Kích thích

1

( )

1 ( )

p

k p k

G

H z

a k z−

=



 Quá trình mã hóa:

• Tín hiệu tiếng nói được lấy mẫu ở tốc độ fs = 8000 mẫu/s

• Sau đó được chia thành các segment: (160 mẫu, 20 ms)

• Căn cứ vào biên độ (năng lượng) hay tần số tín hiệu trong segment

• Dùng 1 bit để báo cho bộ giải mã biết

• Dựa vào hàm tự tương quan

• Giá trị pitch được lượng tử hóa và mã hóa dùng 6 bit

Trang 4

• Các hệ số của bộ lọc G, {ap(k)}.

 Quá trình giải mã:

 Xác định tín hiệu kích thích và tần số pitch:

• Khi segment là âm vô thanh: tạo nguồn kích thích là nhiễu trắng

• Khi segment là âm hữu thanh: tạo nguồn là chuỗi xung tuần hoàn

 Xác định các hệ số G và {ap(k)} cho từng segment

 Cho tín hiệu kích thích qua bộ lọc à tạo ra tín hiệu thoại

Mỗi segment được giải mã độc lập, sau đó được kết hợp lại với nhau

Kết hợp câu 2.6 trrong đề cương

Bài tập liên quan

Trang 6

Ưu nhược điểm của LPC

 Giới hạn 1: Trong một số trường hợp, một khung âm thanh không phải chỉ được phân loại thành hữu thanh và vô thanh

 Giới hạn 2: Việc sử dụng hoàn toàn nhiễu ngẫu nhiên hoặc hoàn toàn chuỗi xung có chu

kỳ tạo kích thích không phù hợp với thực tế

 Giới hạn 3: Thông tin về pha của tín hiệu nguyên thủy không được xem xét

 Giới hạn 4: Phương pháp thực hiện việc tổng hợp các khung thoại, trong khi một chuỗi xung dùng để kích thích bộ lọc tổng hợp với các hệ số có được từ việc phân tích LP vi phạm nền tảng của mô hình AR

Mã hóa âm thanh bằng cảm nhận

Trang 7

Kỹ thuật che(masking)

Con người khi nghe một âm với sự có mặt của một âm khác sẽ cảm nhận yếu đi khi âm này có tần số gần với âm cần nghe hoặc biên độ lớn

Mặt nạ tần số:

Khi nghe hai âm thanh mạnh yếu khác nhau với tần số khác nhau xảy ra cùng lúc,

âm mạnh hơn có thể “che khuất” khiến tai không nghe được âm yếu hơn

Hiệu ứng này gọi là mặt nạ tần số

Mặt nạ thời gian:

Trang 8

Nếu âm yếu hơn được phát ra ngay trước hoặc ngay sau âm mạnh hơn thì cũng bị

“che khuất” Hiệu ứng này gọi là mặt nạ thời gian (temporal masking)

Mã hóa audio cảm quan (perceptual encoding) là một kỹ thuật lợi dụng những đặc điểm cảm quan của tai người để đạt được tỷ lệ nén cao với chất lượng nén tốt

 Phân tích tín hiệu thành các dải tần số riêng biệt qua việc sử dụng dải bộ lọc

 Phân tích năng lượng tín hiệu trong các dải khác nhau và xác định ngưỡng che tổng của mỗi dải bởi các tín hiệu trong dải khác

 Lượng tử hóa các mẫu trong các dải khác nhau có tỷ lệ chính xác với mức che

 Một tín hiệu nào đó dưới mức che không cần mã hóa

Tín hiệu trên mức che được lượng tử hóa và các bit được gán qua các dải sao cho mỗi bit thêm vào có thể giảm tối đa méo cảm nhận.

Giải thuật mã hóa cảm nhận

Output

Trang 9

1 Bộ lọc chia tín hiệu audio (e.g., 48 kHz sound) thành các băng con

ví dụ MPEG chia thành 32 băng con (sub-band filtering)

1 Xác định masking cho mỗi băng dựa trên ngưỡng nghe và mức năng lượng của các băng liền kề (Psychoacoustic Model)

2 Nếu năng lượng trong băng thấp hơn ngưỡng mặt nạ thì không mã hóa

3 Nếu không xác định số các bít cần đại diện hệ số trong băng sao cho nhiễu lượng tử dưới ngưỡng mặt nạ

4 Định dạng luồng bít: Chèn phần tiêu đề, mã hóa dùng Huffman vv Ex:

 Say, performing the sub-band filtering step on the input results in the following values (for demonstration, we are only looking at the first 16

of the 32 bands):

2

1 3

1 4

1 5

1 6

Leve

l

0 8 1

2

1 0

6 2 1

0

6 0

3 5

2 0

1 5

❒ The 60dB level of the 8th band gives a masking of 12 dB in the 7th band, 15dB in the 9th (according to the Psychoacoustic model)

❒ The level in 7th band is 10 dB ( < 12 dB ), so ignore it

❒ The level in 9th band is 35 dB ( > 15 dB ), so send it

❒ We only send the amount above the masking level

❒ Therefore, instead of using 6 bits to encode it, we can use 4 bits a saving of 2 bits (= 12 dB)

❒ “determine number of bits needed to represent the coefficient such that, the noise introduced by quantization is below the masking effect” [noise introduced = 12bB; masking = 15 dB]

Liên hệ MP#3

Trang 10

Kết quả: input: 16*8=128bit

output : 5*8+5*9=85bit

Trang 11

tỷ số nén 128/85=1,5

Nénanhr

 Tín hiệu video thường chứa đựng một lượng lớn các thông tin thừa, chúng thường được chia thành hai loại:

 1 Thừa tĩnh bên trong từng frame (statistical) : Nén trong ảnh

 2 Thừa động giữa các frame (subjective): Nén liên ảnh

Nén liên ảnh:

 Loại bỏ dư thừa về thời gian được thực hiện trước hết nhờ sử dụng các tính chất giống nhau giữa các ảnh liên tiếp (Inter-frame techniques)

 Các bức ảnh mới được tạo ra nhờ vào những thông tin từ những ảnh đã gửi trước nó (“predicted”)

dùng phương pháp nén về không gian để loại bỏ sự dư thừa về không gian trong chính bức ảnh sai khác này

Dự đoán chuyển động và bù chuyển động

 Nguyên lý dự đoán bù chuyển động là tìm ra các vùng ảnh giống nhau hoặc gần giống nhau giữa hai ảnh kế tiếp (gọi là ảnh tham khảo và ảnh dự đoán) Thông tin về ảnh dự đoán sẽ được truyền đi dưới dạng vector chuyển động tức vector xác định vị trí mới của vùng ảnh thuộc ảnh tham khảo có mặt trong ảnh dự đoán

 Quá trình tìm kiếm hướng chuyển động của vật thế là “ước lượng chuyển động” (Motion

bằng giá trị vector gọi là “vector chuyển động”

 Quá trình khôi phục ảnh dựa trên vector này gọi là quá trình bù chuyển động (motion

 Dựa trên sự phán đoán hướng chuyển động của các bức ảnh tức là các ảnh thành phần trong dãy video sẽ được thay thế gần đúng

 Hạn chế bớt các thông số của chuyển động bởi việc dùng các vector chuyển động để mô

tả sự dịch chuyển của các điểm ảnh

 Kết quả tiên đoán tốt nhất của một điểm ảnh là dựa trên sự tiên đoán bù chuyển động từ một bức ảnh đã mã hoá được truyền phía trước của nó

động) đều được truyền tới phía bên nhận

Nén trong ảnh;

Trang 12

 Nén về không gian dựa trên nguyên tắc là phát hiện sự giống nhau của các điểm ảnh (pixels) lân cận nhau (Intra-frame coding techniques): Ví dụ JPEG



MPEG

 MPEG-1 ~ 1-1.5Mbps (early 90s)

 For compression of 320x240 full-motion video at rates around 1.15Mb/s

 Applications: video storage (VCD)

 MPEG-2 ~ 2-80Mbps (mid 90s)

 For higher resolutions

 Support interlaced video formats and a number of features for HDTV

 Address scalable video coding

 Also used in DVD

 MPEG-4 ~ 9-40kbps (later 90s)

 For very low bit rate video and audio coding

 Applications: interactive multimedia and video telephony

 MPEG-21 ~ ongoing

CHUẨN nén MPEG

 Tiêu chuẩn MPEG là sự kết hợp giữa nén trong ảnh và nén liên ảnh

 Phương pháp nén có tổn hao dựa trên sự biến đổi DCT

 Bù chuyển động

 MPEG dùng biểu diễn màu bằng YC

rCb.

 Nén MPEG là sự kết hợp hài hoà của bốn kỹ thuật cơ bản:

 1.Tiền xử lý (Preprocessing)

 2 Dự đoán trước sự chuyển động của các frame ở bộ mã hoá (temporal prediction)

 3 Bù chuyển động ở bộ giải mã (motion compensation)

 4 Mã lượng tử hoá (quatisation coding)



 Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu video và những thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ của mắt người

 Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các ảnh trong chuỗi video dường như

có liên quan mật thiết với nhau theo thời gian: Mỗi frame tại một thời điểm nhất định sẽ

có nhiều khả năng giống với các frame đứng ngay phía trước và ngay phía sau nó

 Các bộ mã hoá sẽ tiến hành quét lần lượt từng phần nhỏ trong mỗi frame gọi là macro blocks, sau đó nó sẽ phát hiện macro block nào không thay đổi từ frame này tới frame khác Bộ mã hoá sẽ tiên đoán trước sự xuất hiện của các macro blocks khi biết vị trí và hướng chuyển động của nó Do đó chỉ những sự thay đổi giữa các khối trong frame hiện tại (motion compesated residual) và các khối được tiên đoán mới được truyền tới bên phía thu Phía bên thu tức bộ giải mã đã lưu trữ sẵn những thông tin mà không thay đổi từ frame này tới frame khác trong bộ nhớ đệm của nó và chúng được dùng để điền thêm một cách đều đặn vào các vị trí trống trong ảnh được khôi phục

Trang 13

 Ảnh loại I (Intra-picture)

 Ảnh loại P (Predicted-picture)

 Ảnh loại B ( Bi-directional predicted picture)

Cấu trúc của một GOP có thể được mô tả bởi hai tham số: N là số các ảnh trong GOP và M là khoảng cách giữa các ảnh P-pictures

ảnh I

 Kiểu ảnh ‘Intra’ (I-pictures) là ảnh được mã hoá một cách độc lập mà không cần tham khảo tới các ảnh khác Hiệu quả nén tín hiệu đạt được do loại bỏ sự thừa về không gian mà không

có yếu tố thời gian tham gia vào quá trình

 I-pictures được dùng một cách tuần hoàn để tạo thành các điểm tựa cho dòng dữ liệu trong quá trình giải mã

ảnh P

I1 BBB P1 BBB P2 BBB I2 …

I1 P1 BBB P2 BBB I2 BBB …

Trang 14

 Ảnh ‘Predictive’ (P-pictures) có thể sử dụng các ảnh I hoặc P ngay sát phía trước nó để

bù chuyển động và chính nó cũng có thể được dùng để tham khảo cho việc tiên đoán các ảnh khác tiếp theo

 Mỗi khối ảnh trong P-picture có thể hoặc được mã theo kiểu tiên đoán (predicted) hoặc được mã một cách độc lập (intra-coded)

 Do sử dụng cả nén theo không gian và thời gian, hiệu quả nén của P-pictures được tăng lên một cách đáng kể so với I-pictures

ẢNh B

 Ảnh B- Pictures có thể sử dụng các ảnh I hoặc P phía trước hoặc phía sau nó cho việc bù chuyển động và do vậy cho kết quả nén cao nhất

 Mỗi khối trong B-pictures có thể được tiên đoán theo chiều ngược, xuôi, cả hai hướng hoặc được mã một cách độc lập Để có thể tiên đoán ngược từ một bức ảnh phía sau nó,

bộ mã hoá sẽ tiến hành sắp xếp lại các bức ảnh từ thứ tự xuất hiện một cách tự nhiên sang một thứ tự khác của các ảnh trên đường truyền

 B-pictures được truyền sau các ảnh dùng để tham khảo ở phía trước và phía sau của nó

 Điều này sẽ tạo ra độ trễ do phải sắp xếp lại thông tin, độ trễ này lớn hay nhỏ là tuỳ thuộc vào số các bức ảnh B-pictures liên tiếp nhau được truyền

Cấu trúc dòng bit MPEG

Kiến trúc dòng dữ liệu MPEG

Trang 15

 1 Khối: là block 8x8 điểm ảnh của tín hiệu chói hoặc tín hiệu màu

 2 Lớp macroblock: Ảnh số trong MPEG được chia ra thành các Macroblock kích thước

 16x16 Trong một macroblock có thông tin về 4 block Y, 1 block Cr và 1 block Cb (theo chuẩn lấy mẫu 4:2:0)

 3 Mảng (Slice): Là một chuỗi macroblock kề nhau Kích thước lớn nhất của mảng có thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một macroblock Slice header chứa đựng vị trí của mảng trong toàn bộ ảnh, và hệ số lượng tử dùng để xác định

ma trận lượng tử trong quá trình giải mã slice

 4 Ảnh (Picture): có 3 loại ảnh là ảnh P, I hay ảnh B Picture header chứa thông tin về: thứ tự ảnh trong nhóm ảnh (thông tin này dùng để sắp xếp các lại thứ tự ảnh ở decoder), loại ảnh, kích thước vùng tìm kiếm vector chuyển động

 Nhóm ảnh (GOP): nhóm ảnh là tổ hợp của nhiều ảnh I, P và B Như đã đề cập ở phần trên, cấu trúc nhóm ảnh được xác định bằng hai tham số M và N Mỗi một nhóm ảnh bắt đầu bằng một khung I GOP header chứa mã xác định thời gian của ảnh đầu tiên trong nhóm

 Đoạn ảnh (Sequence of pictures): Đoạn ảnh bắt đầu bằng sequence header, sau đó là một hoặc nhiều GOP, cuối cùng là từ mã "end-of-sequence" Sequence header chứa đựng các

Trang 16

thông số như: kích thước của ảnh, khổ ảnh, tần số ảnh, tốc độ bit của dòng video số, tần

số ảnh và kích thước bộ nhớ đệm

Bộ mã hóa MPEG tiêu biểu

Bộ giải mã MPEG

Hoạt động mã hóa MPEG

 Quá trình mã hoá cho P pictures và B pictures được giải thích như sau:

 Dữ liệu từ các khối ảnh (macroblocks) cần được mã hoá sẽ được đưa đến cả bộ trừ (Subtractor) và bộ đoán chuyển động (Motion Estimator)

Trang 17

 1 Bộ đoán chuyển động sẽ so sánh các khối ảnh mới được đưa vào này với các khối ảnh

đã được đưa vào trước đó và được lưu lại như là các ảnh dùng để tham khảo (Reference Picture) Kết quả là bộ đoán chuyển động sẽ tìm ra các khối ảnh trong ảnh tham khảo gần giống nhất với khối ảnh mới này Bộ đoán chuyển động sau đó sẽ tính toán vector chuyển động (Motion Vector), vector này sẽ đặc trưng cho sự dịch chuyển theo cả hai chiều dọc

và ngang của khối ảnh mới cần mã hoá so với ảnh tham khảo Chúng ta lưu ý rằng vector chuyển động có độ phân giải bằng một nửa do thực hiện quét xen kẽ

 2 Bộ đoán chuyển động cũng đồng thời gửi các khối ảnh tham khảo này mà chúng thường được gọi là các khối tiên đoán (Predicted macroblock) tới bộ trừ để trừ với khối ảnh mới cần mã hoá (thực hiện trừ từng điểm ảnh tương ứng tức là Pixel by pixel) Kết quả là ta sẽ được các sai số tiên đoán (Error Prediction) hoặc tín hiệu dư, chúng sẽ đặc trưng cho sự sai khác giữa khối ảnh cần tiên đoán và khối ảnh thực tế cần mã hoá

 3.Tín hiệu dư hay sai số tiên đoán này sẽ được biến đổi DCT, các hệ số nhận được sau biến đổi DCT sẽ được lượng tử hoá để làm giảm số lượng các bits cần truyền Các hệ số này sẽ được đưa tới bộ mã hoá Huffman, tại đây số bits đặc trưng cho các hệ số tiếp tục được làm giảm đi một cách đáng kể Dữ liệu từ đầu ra của mã hoá Huffman sẽ được kết hợp với vector chuyển động và các thông tin khác (thông tin về I, P, B pictures) để gửi tới

bộ giải mã

 Đối với trường hợp P-pictures, các hệ số DCT cũng được đưa đến bộ giải mã nội bộ (nằm ngay trong bộ mã hoá) Tín hiệu dư hay sai số tiên đoán được biến đổi ngược lại dùng phép biến đổi IDCT và được cộng thêm vào ảnh đứng trước để tạo nên ảnh tham khảo (ảnh tiên đoán) Vì dữ liệu ảnh trong bộ mã hoá được giải mã luôn nhờ vào bộ giải mã nội bộ ngay chính bên trong bộ mã hoá, do đó ta có thể thực hiện thay đổi thứ tự các bức ảnh và dùng các phương pháp tiên đoán

Giải mã

 Quá trình khôi phục lại ảnh tại bộ giải mã là hoàn toàn ngược lại Từ luồng dữ liệu nhận được ở đầu vào, vector chuyển động được tách ra và đưa vào bộ bù chuyển động (Motion Compensator), các hệ số DCT được đưa vào bộ biến đổi ngược IDCT để biến tín hiệu từ miền tần số thành tín hiệu ở miền không gian Đối với P pictures và B pictures, vector chuyển động sẽ được kết hợp với các khối tiên đoán (predicted macroblock) để tạo thành các ảnh tham khảo

Định dạng
Số trang	17
Dung lượng	820,73 KB