Ưu nhược điểm của LPC Giới hạn 1: Trong một số trường hợp, một khung âm thanh không phải chỉ được phân loại thành hữu thanh và vô thanh Giới hạn 2: Việc sử dụng hoàn toàn nhiễu ngẫu n
Trang 1Sơ đồ khối bộ mã hóa DPCM
Bộ lọc dự đoán
Thực chất bộ lọc dự đoán gồm nhiều mạch trễ nối tiếp
Thời gian trễ TS của mỗi mạch bằng chu kỳ lấy mẫu
Nếu bộ lọc dự đoán chỉ dùng 1 mạch trễ thì sự dự đoán là bậc 1
Nếu dùng 3 mạch trễ liên tiếp dự đoán bậc 3
Dự đoán bậc 3 cho sự đánh giá tốt hơn bậc 1, tạo ra khả năng mã hoá và số bit ít hơn
Trang 2Lấy mẫu
fs =8000
mẫu/s
{ap(k) }
Xác định âm hữu thanh hay vô thanh và kích thích
Tín
hiệu
thoại
Mã hóa
Pitch Kích thích
Sơ đồ khối bộ giải mã DPCM
Phương pháp mã hóa dự đoán tuyến tính LPC (tt)
Sơ đồ khối bộ mã hóa và giải mã LPC:
Mã hóa:
Giải mã:
Trang 3Bộ lọc IIR H(z)
Lọc thông thấp
{ap(k)}
Bộ tạo tín hiệu
Tín hiệu thoại
Giải mã
Pitch
Kích thích
1
( )
1 ( )
p
k p k
G
H z
a k z−
=
=
Quá trình mã hóa:
• Tín hiệu tiếng nói được lấy mẫu ở tốc độ fs = 8000 mẫu/s
• Sau đó được chia thành các segment: (160 mẫu, 20 ms)
• Căn cứ vào biên độ (năng lượng) hay tần số tín hiệu trong segment
• Dùng 1 bit để báo cho bộ giải mã biết
• Dựa vào hàm tự tương quan
• Giá trị pitch được lượng tử hóa và mã hóa dùng 6 bit
Trang 4• Các hệ số của bộ lọc G, {ap(k)}.
Quá trình giải mã:
Xác định tín hiệu kích thích và tần số pitch:
• Khi segment là âm vô thanh: tạo nguồn kích thích là nhiễu trắng
• Khi segment là âm hữu thanh: tạo nguồn là chuỗi xung tuần hoàn
Xác định các hệ số G và {ap(k)} cho từng segment
Cho tín hiệu kích thích qua bộ lọc à tạo ra tín hiệu thoại
Mỗi segment được giải mã độc lập, sau đó được kết hợp lại với nhau
Kết hợp câu 2.6 trrong đề cương
Bài tập liên quan
Trang 6Ưu nhược điểm của LPC
Giới hạn 1: Trong một số trường hợp, một khung âm thanh không phải chỉ được phân loại thành hữu thanh và vô thanh
Giới hạn 2: Việc sử dụng hoàn toàn nhiễu ngẫu nhiên hoặc hoàn toàn chuỗi xung có chu
kỳ tạo kích thích không phù hợp với thực tế
Giới hạn 3: Thông tin về pha của tín hiệu nguyên thủy không được xem xét
Giới hạn 4: Phương pháp thực hiện việc tổng hợp các khung thoại, trong khi một chuỗi xung dùng để kích thích bộ lọc tổng hợp với các hệ số có được từ việc phân tích LP vi phạm nền tảng của mô hình AR
Mã hóa âm thanh bằng cảm nhận
Trang 7Kỹ thuật che(masking)
Con người khi nghe một âm với sự có mặt của một âm khác sẽ cảm nhận yếu đi khi âm này có tần số gần với âm cần nghe hoặc biên độ lớn
Mặt nạ tần số:
Khi nghe hai âm thanh mạnh yếu khác nhau với tần số khác nhau xảy ra cùng lúc,
âm mạnh hơn có thể “che khuất” khiến tai không nghe được âm yếu hơn
Hiệu ứng này gọi là mặt nạ tần số
Mặt nạ thời gian:
Trang 8Nếu âm yếu hơn được phát ra ngay trước hoặc ngay sau âm mạnh hơn thì cũng bị
“che khuất” Hiệu ứng này gọi là mặt nạ thời gian (temporal masking)
Mã hóa audio cảm quan (perceptual encoding) là một kỹ thuật lợi dụng những đặc điểm cảm quan của tai người để đạt được tỷ lệ nén cao với chất lượng nén tốt
Phân tích tín hiệu thành các dải tần số riêng biệt qua việc sử dụng dải bộ lọc
Phân tích năng lượng tín hiệu trong các dải khác nhau và xác định ngưỡng che tổng của mỗi dải bởi các tín hiệu trong dải khác
Lượng tử hóa các mẫu trong các dải khác nhau có tỷ lệ chính xác với mức che
Một tín hiệu nào đó dưới mức che không cần mã hóa
Tín hiệu trên mức che được lượng tử hóa và các bit được gán qua các dải sao cho mỗi bit thêm vào có thể giảm tối đa méo cảm nhận.
Giải thuật mã hóa cảm nhận
Output
Trang 91 Bộ lọc chia tín hiệu audio (e.g., 48 kHz sound) thành các băng con
ví dụ MPEG chia thành 32 băng con (sub-band filtering)
1 Xác định masking cho mỗi băng dựa trên ngưỡng nghe và mức năng lượng của các băng liền kề (Psychoacoustic Model)
2 Nếu năng lượng trong băng thấp hơn ngưỡng mặt nạ thì không mã hóa
3 Nếu không xác định số các bít cần đại diện hệ số trong băng sao cho nhiễu lượng tử dưới ngưỡng mặt nạ
4 Định dạng luồng bít: Chèn phần tiêu đề, mã hóa dùng Huffman vv Ex:
Say, performing the sub-band filtering step on the input results in the following values (for demonstration, we are only looking at the first 16
of the 32 bands):
2
1 3
1 4
1 5
1 6
Leve
l
0 8 1
2
1 0
6 2 1
0
6 0
3 5
2 0
1 5
❒ The 60dB level of the 8th band gives a masking of 12 dB in the 7th band, 15dB in the 9th (according to the Psychoacoustic model)
❒ The level in 7th band is 10 dB ( < 12 dB ), so ignore it
❒ The level in 9th band is 35 dB ( > 15 dB ), so send it
❒ We only send the amount above the masking level
❒ Therefore, instead of using 6 bits to encode it, we can use 4 bits a saving of 2 bits (= 12 dB)
❒ “determine number of bits needed to represent the coefficient such that, the noise introduced by quantization is below the masking effect” [noise introduced = 12bB; masking = 15 dB]
Liên hệ MP#3
Trang 10Kết quả: input: 16*8=128bit
output : 5*8+5*9=85bit
Trang 11tỷ số nén 128/85=1,5
Nénanhr
Tín hiệu video thường chứa đựng một lượng lớn các thông tin thừa, chúng thường được chia thành hai loại:
1 Thừa tĩnh bên trong từng frame (statistical) : Nén trong ảnh
2 Thừa động giữa các frame (subjective): Nén liên ảnh
Nén liên ảnh:
Loại bỏ dư thừa về thời gian được thực hiện trước hết nhờ sử dụng các tính chất giống nhau giữa các ảnh liên tiếp (Inter-frame techniques)
Các bức ảnh mới được tạo ra nhờ vào những thông tin từ những ảnh đã gửi trước nó (“predicted”)
dùng phương pháp nén về không gian để loại bỏ sự dư thừa về không gian trong chính bức ảnh sai khác này
Dự đoán chuyển động và bù chuyển động
Nguyên lý dự đoán bù chuyển động là tìm ra các vùng ảnh giống nhau hoặc gần giống nhau giữa hai ảnh kế tiếp (gọi là ảnh tham khảo và ảnh dự đoán) Thông tin về ảnh dự đoán sẽ được truyền đi dưới dạng vector chuyển động tức vector xác định vị trí mới của vùng ảnh thuộc ảnh tham khảo có mặt trong ảnh dự đoán
Quá trình tìm kiếm hướng chuyển động của vật thế là “ước lượng chuyển động” (Motion
bằng giá trị vector gọi là “vector chuyển động”
Quá trình khôi phục ảnh dựa trên vector này gọi là quá trình bù chuyển động (motion
Dựa trên sự phán đoán hướng chuyển động của các bức ảnh tức là các ảnh thành phần trong dãy video sẽ được thay thế gần đúng
Hạn chế bớt các thông số của chuyển động bởi việc dùng các vector chuyển động để mô
tả sự dịch chuyển của các điểm ảnh
Kết quả tiên đoán tốt nhất của một điểm ảnh là dựa trên sự tiên đoán bù chuyển động từ một bức ảnh đã mã hoá được truyền phía trước của nó
động) đều được truyền tới phía bên nhận
Nén trong ảnh;
Trang 12 Nén về không gian dựa trên nguyên tắc là phát hiện sự giống nhau của các điểm ảnh (pixels) lân cận nhau (Intra-frame coding techniques): Ví dụ JPEG
MPEG
MPEG-1 ~ 1-1.5Mbps (early 90s)
For compression of 320x240 full-motion video at rates around 1.15Mb/s
Applications: video storage (VCD)
MPEG-2 ~ 2-80Mbps (mid 90s)
For higher resolutions
Support interlaced video formats and a number of features for HDTV
Address scalable video coding
Also used in DVD
MPEG-4 ~ 9-40kbps (later 90s)
For very low bit rate video and audio coding
Applications: interactive multimedia and video telephony
MPEG-21 ~ ongoing
CHUẨN nén MPEG
Tiêu chuẩn MPEG là sự kết hợp giữa nén trong ảnh và nén liên ảnh
Phương pháp nén có tổn hao dựa trên sự biến đổi DCT
Bù chuyển động
MPEG dùng biểu diễn màu bằng YC
rCb.
Nén MPEG là sự kết hợp hài hoà của bốn kỹ thuật cơ bản:
1.Tiền xử lý (Preprocessing)
2 Dự đoán trước sự chuyển động của các frame ở bộ mã hoá (temporal prediction)
3 Bù chuyển động ở bộ giải mã (motion compensation)
4 Mã lượng tử hoá (quatisation coding)
Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu video và những thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ của mắt người
Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các ảnh trong chuỗi video dường như
có liên quan mật thiết với nhau theo thời gian: Mỗi frame tại một thời điểm nhất định sẽ
có nhiều khả năng giống với các frame đứng ngay phía trước và ngay phía sau nó
Các bộ mã hoá sẽ tiến hành quét lần lượt từng phần nhỏ trong mỗi frame gọi là macro blocks, sau đó nó sẽ phát hiện macro block nào không thay đổi từ frame này tới frame khác Bộ mã hoá sẽ tiên đoán trước sự xuất hiện của các macro blocks khi biết vị trí và hướng chuyển động của nó Do đó chỉ những sự thay đổi giữa các khối trong frame hiện tại (motion compesated residual) và các khối được tiên đoán mới được truyền tới bên phía thu Phía bên thu tức bộ giải mã đã lưu trữ sẵn những thông tin mà không thay đổi từ frame này tới frame khác trong bộ nhớ đệm của nó và chúng được dùng để điền thêm một cách đều đặn vào các vị trí trống trong ảnh được khôi phục
Trang 13 Ảnh loại I (Intra-picture)
Ảnh loại P (Predicted-picture)
Ảnh loại B ( Bi-directional predicted picture)
Cấu trúc của một GOP có thể được mô tả bởi hai tham số: N là số các ảnh trong GOP và M là khoảng cách giữa các ảnh P-pictures
ảnh I
Kiểu ảnh ‘Intra’ (I-pictures) là ảnh được mã hoá một cách độc lập mà không cần tham khảo tới các ảnh khác Hiệu quả nén tín hiệu đạt được do loại bỏ sự thừa về không gian mà không
có yếu tố thời gian tham gia vào quá trình
I-pictures được dùng một cách tuần hoàn để tạo thành các điểm tựa cho dòng dữ liệu trong quá trình giải mã
ảnh P
I1 BBB P1 BBB P2 BBB I2 …
I1 P1 BBB P2 BBB I2 BBB …
Trang 14 Ảnh ‘Predictive’ (P-pictures) có thể sử dụng các ảnh I hoặc P ngay sát phía trước nó để
bù chuyển động và chính nó cũng có thể được dùng để tham khảo cho việc tiên đoán các ảnh khác tiếp theo
Mỗi khối ảnh trong P-picture có thể hoặc được mã theo kiểu tiên đoán (predicted) hoặc được mã một cách độc lập (intra-coded)
Do sử dụng cả nén theo không gian và thời gian, hiệu quả nén của P-pictures được tăng lên một cách đáng kể so với I-pictures
ẢNh B
Ảnh B- Pictures có thể sử dụng các ảnh I hoặc P phía trước hoặc phía sau nó cho việc bù chuyển động và do vậy cho kết quả nén cao nhất
Mỗi khối trong B-pictures có thể được tiên đoán theo chiều ngược, xuôi, cả hai hướng hoặc được mã một cách độc lập Để có thể tiên đoán ngược từ một bức ảnh phía sau nó,
bộ mã hoá sẽ tiến hành sắp xếp lại các bức ảnh từ thứ tự xuất hiện một cách tự nhiên sang một thứ tự khác của các ảnh trên đường truyền
B-pictures được truyền sau các ảnh dùng để tham khảo ở phía trước và phía sau của nó
Điều này sẽ tạo ra độ trễ do phải sắp xếp lại thông tin, độ trễ này lớn hay nhỏ là tuỳ thuộc vào số các bức ảnh B-pictures liên tiếp nhau được truyền
Cấu trúc dòng bit MPEG
Kiến trúc dòng dữ liệu MPEG
Trang 15 1 Khối: là block 8x8 điểm ảnh của tín hiệu chói hoặc tín hiệu màu
2 Lớp macroblock: Ảnh số trong MPEG được chia ra thành các Macroblock kích thước
16x16 Trong một macroblock có thông tin về 4 block Y, 1 block Cr và 1 block Cb (theo chuẩn lấy mẫu 4:2:0)
3 Mảng (Slice): Là một chuỗi macroblock kề nhau Kích thước lớn nhất của mảng có thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một macroblock Slice header chứa đựng vị trí của mảng trong toàn bộ ảnh, và hệ số lượng tử dùng để xác định
ma trận lượng tử trong quá trình giải mã slice
4 Ảnh (Picture): có 3 loại ảnh là ảnh P, I hay ảnh B Picture header chứa thông tin về: thứ tự ảnh trong nhóm ảnh (thông tin này dùng để sắp xếp các lại thứ tự ảnh ở decoder), loại ảnh, kích thước vùng tìm kiếm vector chuyển động
Nhóm ảnh (GOP): nhóm ảnh là tổ hợp của nhiều ảnh I, P và B Như đã đề cập ở phần trên, cấu trúc nhóm ảnh được xác định bằng hai tham số M và N Mỗi một nhóm ảnh bắt đầu bằng một khung I GOP header chứa mã xác định thời gian của ảnh đầu tiên trong nhóm
Đoạn ảnh (Sequence of pictures): Đoạn ảnh bắt đầu bằng sequence header, sau đó là một hoặc nhiều GOP, cuối cùng là từ mã "end-of-sequence" Sequence header chứa đựng các
Trang 16thông số như: kích thước của ảnh, khổ ảnh, tần số ảnh, tốc độ bit của dòng video số, tần
số ảnh và kích thước bộ nhớ đệm
Bộ mã hóa MPEG tiêu biểu
Bộ giải mã MPEG
Hoạt động mã hóa MPEG
Quá trình mã hoá cho P pictures và B pictures được giải thích như sau:
Dữ liệu từ các khối ảnh (macroblocks) cần được mã hoá sẽ được đưa đến cả bộ trừ (Subtractor) và bộ đoán chuyển động (Motion Estimator)
Trang 17 1 Bộ đoán chuyển động sẽ so sánh các khối ảnh mới được đưa vào này với các khối ảnh
đã được đưa vào trước đó và được lưu lại như là các ảnh dùng để tham khảo (Reference Picture) Kết quả là bộ đoán chuyển động sẽ tìm ra các khối ảnh trong ảnh tham khảo gần giống nhất với khối ảnh mới này Bộ đoán chuyển động sau đó sẽ tính toán vector chuyển động (Motion Vector), vector này sẽ đặc trưng cho sự dịch chuyển theo cả hai chiều dọc
và ngang của khối ảnh mới cần mã hoá so với ảnh tham khảo Chúng ta lưu ý rằng vector chuyển động có độ phân giải bằng một nửa do thực hiện quét xen kẽ
2 Bộ đoán chuyển động cũng đồng thời gửi các khối ảnh tham khảo này mà chúng thường được gọi là các khối tiên đoán (Predicted macroblock) tới bộ trừ để trừ với khối ảnh mới cần mã hoá (thực hiện trừ từng điểm ảnh tương ứng tức là Pixel by pixel) Kết quả là ta sẽ được các sai số tiên đoán (Error Prediction) hoặc tín hiệu dư, chúng sẽ đặc trưng cho sự sai khác giữa khối ảnh cần tiên đoán và khối ảnh thực tế cần mã hoá
3.Tín hiệu dư hay sai số tiên đoán này sẽ được biến đổi DCT, các hệ số nhận được sau biến đổi DCT sẽ được lượng tử hoá để làm giảm số lượng các bits cần truyền Các hệ số này sẽ được đưa tới bộ mã hoá Huffman, tại đây số bits đặc trưng cho các hệ số tiếp tục được làm giảm đi một cách đáng kể Dữ liệu từ đầu ra của mã hoá Huffman sẽ được kết hợp với vector chuyển động và các thông tin khác (thông tin về I, P, B pictures) để gửi tới
bộ giải mã
Đối với trường hợp P-pictures, các hệ số DCT cũng được đưa đến bộ giải mã nội bộ (nằm ngay trong bộ mã hoá) Tín hiệu dư hay sai số tiên đoán được biến đổi ngược lại dùng phép biến đổi IDCT và được cộng thêm vào ảnh đứng trước để tạo nên ảnh tham khảo (ảnh tiên đoán) Vì dữ liệu ảnh trong bộ mã hoá được giải mã luôn nhờ vào bộ giải mã nội bộ ngay chính bên trong bộ mã hoá, do đó ta có thể thực hiện thay đổi thứ tự các bức ảnh và dùng các phương pháp tiên đoán
Giải mã
Quá trình khôi phục lại ảnh tại bộ giải mã là hoàn toàn ngược lại Từ luồng dữ liệu nhận được ở đầu vào, vector chuyển động được tách ra và đưa vào bộ bù chuyển động (Motion Compensator), các hệ số DCT được đưa vào bộ biến đổi ngược IDCT để biến tín hiệu từ miền tần số thành tín hiệu ở miền không gian Đối với P pictures và B pictures, vector chuyển động sẽ được kết hợp với các khối tiên đoán (predicted macroblock) để tạo thành các ảnh tham khảo