Tổng hợp các câu hỏi ôn thi trong đề thi môn Xử lý dữ liệu đa phương tiện Đại học Bách Khoa Hà Nội. Bao gồm trả lời các câu hỏi của các đề thi năm trước.Các câu hỏi được trả lời mạch lạc và xúc tích.
Trang 1TỔNG HỢP CÁC CÂU HỎI THI MÔN: XỬ LÝ DỮ LIỆU ĐA PHƯƠNG TIỆN – ĐH BÁCH KHOA HÀ NỘI
Câu số 1: Phương pháp SBC (Câu 1 – Đề 1 vs Câu 2 – Đề 4 vs Câu 1 – Đề 5)
1 Trình bày sơ đồ nguyên lý phương pháp mã hóa dải tần (Subband Coding – SBC) (Câu 1,1 – Đề 1) (Câu 1,1 – Đề 5) Giải thích vai trò của băng lọc số (Digital Filter Banks) trong nguyên lý giảm tần số lấy mẫu và nội suy của phương pháp này (Subsampling and Interpolation with Band pass Filters) (Câu 2,1 – Đề 4).
Trả lời:
Xét sơ đồ nguyên lý của phương pháp mã hóa dải tần con (Subband Coding – SBC) trongtrường hợp tín hiệu 1 chiều rời rạc
Phương pháp mã hóa SBC bao gồm các bước sau: Subband và Coding
Quá trình subband được thực hiện như sau:
Lọc phân tích: tín hiệu ban đầu được đưa qua các bộ lọc nhằm chia tín hiệu thành cácthành phần tín hiệu ứng với các dải tần không bị chồng nhau
Tín hiệu của các các dải tần sau khi đi qua bộ lọc được giảm tần số lấy mẫu đi M lần (M là
số dải tần chia tín hiệu)
Quá trình Coding: là quá trình thực hiện lượng tử hóa và mã hóa riêng trên các dải tần số Quátrình này đòi hỏi phương pháp lượng tử hóa và mã hóa, thực hiện phân phối dòng bit dựa trêntín chất của dòng tín hiệu sau bộ lọc Đây là bước mang lại hiệu quả nén cho toàn bộ quá trình
mã hóa SBC Trong đó, phân phối bit là việc phân chia số bit hiện có cho mã hóa từng dải, dựatheo tín hiệu của từng dải do trong từng dải, lượng thông tin là khác nhau Phân phối bit ảnhhưởng lớn đến khôi phục dữ liệu sau quá trỉnh giải nén
Giải thích vai trò của băng lọc số trong giảm tần số lấy mẫu và nội suy của phương pháp SBC:
Vai trò của băng lọc số (Digital Filter Banks): Băng lọc số trong phương pháp SBC giúp phântách tín hiệu nguồn ban đầu thành các tín hiệu trên các băng tần khác nhau, phục vụ cho việc
mã hóa Trong quá trình giải mã, băng lọc số sẽ kết hợp các tín hiệu trên các băng tần khácnhau để có thể khôi phục được tín hiệu ban đầu
Việc giảm tần số lấy mẫu của tín hiệu sau bộ lọc làm phổ tín hiệu rộng ra, trải hết trên trục tần
số, nên số mẫu lúc này cũng giảm theo Giảm tần số lấy mẫu được thực hiện dựa trên định lýlấy mẫu Nyquist và hệ quả của định lý Nyquist Tỷ lệ giảm tần số lấy mẫu phụ thuộc vào tỷ lệgiữa dải thông của bộ lọc với dải tần tín hiệu vào
2 Trình bày và giải thích sơ đồ mã hóa SBC dùng trong nén ảnh JPEG-2000 như thế nào? (Câu 1,2 – Đề 1) Giải thích kỹ thuật xử lý đa phân giải được áp dụng như thế nào trong
sơ đồ này (Câu 2,2 – đề 4)
Trả lời: (Câu này không rõ ý hỏi của câu hỏi, nên chỉ làm tạm thời)
Trang 2Trong nén ảnh JPEG-2000, sơ đồ mã hóa SBC được sử dụng là sơ đồ kỹ thuật băng lọc thôngthấp thông cao:
Đầu vào của sơ đồ là tín hiệu gốc ban đầu, được cho qua 2 bộ lọc thông thấp – thông cao, sauquá trình này sẽ thu được 2 dải tần con tương ứng với hai bộ lọc, tín hiệu tương ứng hai dải tầncon này sẽ được lấy mẫu xuống hai lần Quá trình này sẽ được tiếp tục với hai băng tần connày, tùy thuộc vào ứng dụng mà người thiết kế có thể sử dụng bao nhiêu băng lọc
Kỹ thuật xử lý đa phân giải được áp dụng trong sơ đồ: Trong sơ đồ này, quá trình subsamplinghay còn gọi là giảm tần số lấy mẫu đi 2 lần chính là quá trình xử lý đa phân giải Xét với ảnh,việc giảm tần số lấy mẫu chính là giảm độ phân giải, tùy thuộc vào số lượng băng lọc mà cóthể xác định các độ phân giải khác nhau Ví dụ: Ảnh ban đầu có độ phân giải NxN pixels,trước hết áp dụng bộ lọc theo chiều ngang cho từng dòng của dữ liệu ảnh với một bộ lọc thôngthấp và một bộ lọc thông cao, sau đó giảm tần số lấy mẫu ở đầu ra của 2 bộ lọc đi 2 lần, tađược 2 ảnh mới có kích thước (NxN)/2 Tiếp theo, áp dụng 2 bộ lọc thông thấp và thông caotheo chiều dọc của 2 ảnh mới, ở đầu ra của 2 bộ lọc tiếp tục giảm tần số lấy mẫu đi 2 lần, ta thuđược 4 ảnh có kích thước N/2 x N/2 pixels
3 Trình bày và giải thích sơ đồ mã hóa SBC dùng trong mã hóa âm thanh dải rộng như thế nào? (Câu 1,3 – Đề 1) (Câu 2,3 – đề 4)
Trả lời:
Sơ đồ mã hóa SBC dùng trong mã hóa âm thanh
Trang 3Đặc điểm của các khối chức năng trong sơ đồ mã hóa (sơ đồ a), và sơ đồ giải mã (sơ đồ b).Đầu vào của sơ đồ mã hóa là tín hiệu gốc ban đầu, đầu ra của sơ đồ là các dòng bit.
Khối Time/Frequency Mapping: Đây là khối được sử dụng để chia tín hiệu đầu vào thànhcác dải tần con (subband), khối này thường là các băng lọc với nhiều bộ lọc có đáp ứng tần
số khác nhau Đối với âm thanh dải rộng, kỹ thuật băng lọc thông dải được sử dụng, baogồm M băng lọc thông dải, sau khi tín hiệu đi qua M băng lọc sẽ thu được M dải tần tươngứng với từng bộ lọc Sau đó thực hiện giảm tần số lấy mẫu của mỗi băng tần con đi M lần
Khối Psychoacoustic Model: khối này đầu vào là tín hiệu gốc và tín hiệu sau khi đã đượcchia thành các subbands Khối này được sử dụng để tính toán các hiệu ứng che của tín hiệuđưa vào dựa trên mô hình cảm thụ âm thanh của con người Tín hiệu này được đưa vàokhối này được tính toán để tìm ra các thành phần tần số có năng lượng nhỏ dưới ngưỡngnghe và các thành phần tần số bị che bởi các thành phần tần số trên các dải tần khác Từ đótính ra ngưỡng che cho mỗi dải tần và đưa tới khối lượng tử hóa để tiến hành lượng tử Độrộng về thời gian của khối tín hiệu đưa vào khối Psychoacoustic Model để tiến hành phântích càng lớn ta thu được hiệu quả nén càng cao
Khối lượng tử hóa và mã hóa (Quantizer and Coding): Khối có đầu vào là các subbandđược chia sau khi tín hiệu gốc đi qua băng lọc và các hiệu ứng che được tính toán từ khốiPsychoacoustic Model Nhiệm vụ của khối này là tiến hành lượng tử hóa tín hiệu trên cácsubbands một cách phù hợp sao cho số bit sử dụng cho mỗi subband là ít nhất (nhưng vẫnphải đảm bảo chất lượng của tín hiệu) và sau đó mã hóa tín hiệu trên các subband vớiphương pháp mã hóa như Huffman, mã hóa đại số… Ngoài ra, mỗi subband đều cóngưỡng nghe riêng, khối lượng tử hóa làm nhiệm vụ lượng tử tín hiệu của mỗi subband với
đủ số bit để duy trì khoảng cách giữa nhiễu do lượng tử và ngưỡng nghe của mỗi subband.Như vậy ta có thể giảm được số bit cần để lượng tử hóa mỗi mẫu tín hiệu của subband tùythuộc vào ngưỡng che của subband tương ứng nhờ vậy ta có thể tăng được hiệu quả nén dữliệu
Khối Frame Packing: Dữ liệu sau khi ta lượng tử và mã hóa được đưa vào khối này đểđóng gói thành các frame và chuyển đi trong hệ thống mạng
4 Tại sao có sự khác nhau khi áp dụng SBC cho mã hóa ảnh và mã hóa âm thanh dải rộng (Câu 1,4 – Đề 1) Tại sao có sự khác nhau khi áp dụng SBC cho mã hóa ảnh JPEG – 2000
và mã hóa âm thanh dải rộng MP3 (Câu 2,4 – Đề 4) (Câu 1,3 – Đề 5)
Trả lời: (Về bản chất câu hỏi đều giống nhau, nên sẽ trả lời chung ý thứ nhất cho cả câu).
Sự khác nhau khi áp dụng SBC cho mã hóa ảnh và mã hóa âm thanh dải rộng
Trong nén âm thanh dải rộng, băng lọc được sử dụng là băng lọc thông dải có nhiều bộ lọcvới đáp ứng tần số khác nhau, còn trong nén ảnh sử dụng băng lọc thông thấp – thông cao
Nén âm thanh dải rộng có khối tính toán các hiệu ứng che, nén ảnh không có khối chứcnăng này và cũng không cần thiết
Nén ảnh loại bỏ các thành phần tần số chứa ít thông tin ngay sau quá trình lọc, còn nén âmthanh dải rộng loại bỏ các thành phần tần số dựa theo ngưỡng nghe
Nén ảnh sau đó sử dụng mã hóa dự đoán DPCM và lượng tử hóa vô hướng (ScalarQuantization) Trong nén âm thanh dải rộng, lượng tử hóa sao cho số bit sử dụng cho mỗisubband là ít nhất rồi mã hóa tín hiệu dựa trên các subband bằng phương pháp mã hóaHuffman, mã hóa đại số…
Nén ảnh không cần có khối frame packing do không cần đóng gói dữ liệu sau lượng tử và
mã hóa thành các frame
Có sự khác nhau là do: ảnh và âm thanh có bản chất vật lý khác nhau và cách con ngườicảm nhận hình ảnh và âm thanh là khác nhau Ảnh là thông tin về vật thể hay quang cảnhđược chiếu sáng mà con người quan sát và cảm nhận được bằng mắt và hệ thống thần kinhthị giác Trong khi đó âm thanh là các dao động cơ học của các nguyên tử, phân tử hoặccác hạt vật chất lan truyền trong không gian, được cảm nhận trực tiếp qua tai người bởi sự
va đập vào màng nhĩ, làm rung màng nhĩ và kích hoạt hệ thống thần kinh thính giác Và
Trang 4con người nhạy cảm với âm thanh hơn so với hình ảnh.
Câu số 2: Phương pháp mã hóa dự đoán
1 Trình bày sơ đồ nguyên lý phương pháp mã hóa dự đoán DPCM và vai trò của bộ dự đoán (predictor) (Câu 1,1 – Đề 2) Hãy cho biết tỷ số nén và mức độ tổn hao phụ thuộc vào các khối xử lý như thế nào trong sơ đồ này? (câu 2,1-Đề 3).
Trả lời:
+ Trình bày sơ đồ nguyên lý phương pháp mã hóa DPCM và vai trò của bộ dự đoán.
Sơ đồ nguyên lý của phương pháp mã hóa dự đoán DPCM (Ở đây là trình bày sơ đồ nguyên lýnên chắc chỉ cần vẽ sơ đồ và nêu vai trò cơ bản của các khối chức năng trong đó)
Trong sơ đồ này, có các khối chức năng:
Bộ lấy mẫu: là quá trính rời rạc hóa tín hiệu tương tự, đây là bước chuyển tín hiệu mangthông tin dạng liên tục thành tín hiệu mang thông tin rời rạc, bằng phương pháp lấy mẫu(Sampling) sao cho tín hiệu rời rạc phải mang đầy đủ thông tin của tín hiệu tương tự, để táitạo được thông tin một cách trung thực ở đầu thu
Bộ dự đoán (Predictor):
Bộ dự đoán được sử dụng để tính toán dự đoán ra các mẫu tín hiệu theo mẫu tại thời điểmtrước (tín hiệu tham chiếu) Trong quá trình dự đoán sẽ có sai số dự đoán (Predictor error).Cần phải phân biệt giữa sai số dự đoán và sai số lượng tử hóa
o Sai số dự đoán (prediction error) chỉ sự chênh lệch giữa giá trị dự đoán và giá trịthực Nó không làm tổn thất thông tin dẫn đến làm suy giảm chất lượng của ảnh.Giá trị sai số này quyết định tốc độ bit giảm đi nhiều hay ít, tức là ảnh hưởng đếnhiệu suất nén
o Sai số lượng tử hóa (quantization error) là sai số đặc trưng cho sự tổn thất dữ liệudẫn đến làm suy giảm chất lượng ảnh phục hồi
Bộ mã hóa (Encoder): là quá trình mã hóa các sai số dự đoán
+ Hãy cho biết tỷ số nén và mức độ tổn hao phụ thuộc vào các khối xử lý như thế nào trong sơ đồ này?
Tỷ số nén phụ thuộc vào khối dự đoán vì: quá trình dự đoán mẫu hiện tại dựa trên mẫu trước
đó, do đó, dự đoán càng chính xác thì mức độ sai khác giữa giá trị mẫu thực với giá trị mẫu dựđoán càng nhỏ nên sẽ cần số lượng bit để mã hóa sai số dự đoán nên tốc độ bit sẽ giảm hoặcngược lại, quá trình dự đoán khiến cho sai số dự đoán lớn sẽ ảnh hưởng đến số bit cần để mãhóa sai số dự đoán này là lớn và tốc độ dòng bit sẽ lớn Vì vậy, tỷ số nén phụ thuộc vào khối
dự đoán
Mức độ tổn hao sẽ phụ thuộc vào khối lượng tử hóa (trong sơ đồ nên viết gộp lấy mẫu vàlượng tử hóa làm 1) vì: quá trình lượng tử hóa là quá trình rời rạc hóa các mẫu về miền sốnguyên, do đó, nếu dữ liệu ban đầu là số thực sau khi qua khối lượng tử hóa sẽ được làm trònthành số nguyên Do đó, sự tổn hao phụ thuộc vào khối lượng tử hóa
2 Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong nén ảnh video? Giải thích sơ đồ mã hóa DPCM trong nén video (Câu 1,2) – Đề 2)
Trả lời:
+ Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong nén ảnh video
Trang 5Dựa trên khái niệm mặt phẳng ảnh (frame) TV chuẩn bao gồm 2 trường, mỗi trường gồm cácdòng được quét chẵn/lẻ của frame ảnh Ảnh truyền hình được dự đoán là những dòng ảnh đơnthuần (không chứa đựng tín hiệu âm thanh) Từ phương pháp quét, có các phương pháp dựđoán trong nén ảnh video như sau:
Dự đoán Intrafield (Intrafield Prediction): Chỉ sử dụng các điểm ảnh (pixel) thuộc một
½ frame ảnh (hay còn gọi là một mảnh) để tạo dự đoán Dự đoán trong mảnh không tậndụng được quan hệ giữa các điểm ảnh lân cận nhau theo chiều đứng nên có thể cho sai số
dự đoán cao
Dự đoán Intraframe (Intraframe Prediction): Với sự hỗ trợ của một bộ nhớ mảnh, dự
đoán trong ảnh sử dụng tất cả các điểm ảnh (pixel) thuộc cả hai mảnh của mọt khung đểtạo dự đoán Như vậy sẽ lợi dụng được quan hệ tương hỗ của các điểm ảnh lân cận theo cảphương ngang và phương đứng nên dự đoán chính xác hơn, cho sai số dự đoán nhỏ hơn
Dự đoán interfield (Interfield Prediction): phương pháp tạo dự đoán này sử dụng cả khunghiện tại và khung tham chiếu Dự đoán liên mảnh chỉ sử dụng một mảnh của mỗi khung ởcác khung khác nhau
Dự đoán interframe (Interframe Prediction): phương pháp này sử dụng cả hai mảnh củamỗi khung ở khung hiện tại và khung tham chiếu để dự đoán
Trang 6a: Dự báo trong mảnh (Intrafield)b: Dự báo trong ảnh (Intraframe) c: Dự báo liên mảnh (Interfield) d: Dự báo liên ảnh (Interframe
+ Giải thích sơ đồ mã hóa trong nén ảnh video
Do đặc điểm nén ảnh video chia ra làm 2 loại là intraframe và interframe nên mã hóa dự đoánDPCM trong nén ảnh video cũng chia thành 2 loại:
Mã hóa dự đoán DPCM Intraframe video
Intraframe được nén như nén ảnh tĩnh (ví dụ theo chuẩn JPEG), trong quá trình nénintraframe thì mã hóa dự đoán DPCM thường được sử dụng để dự đoán và mã hóa cácthành phần 1 chiều DC của mỗi khối điểm ảnh trong một intraframe Cụ thể như sau: ảnhban đầu được chia thành các block có kích thước 8x8 pixels, mỗi block sẽ được biến đổiDCT, kết quả sau biến đổi DCT là ma trận có kích thước 8x8, sau đó các ma trận này đượclượng tử hóa dựa trên bảng lượng tử hóa Kết quả sau lượng tử hóa sẽ là ma trận có kíchthước 8x8 với các giá trị là số nguyên Thành phần 1 chiều DC chính là giá trị đầu tiên bêntrái của ma trận này Các giá trị thành phần 1 chiều DC của mỗi block sẽ được mã hóa dựđoán DPCM
Mã hóa dự đoán DPCM Interframe video
Interframe là chuỗi các frame có mối quan hệ về mặt thời gian, do đó việc mã hóainterframe giúp giảm độ dư thừa về mặt thời gian Các frame liên tiếp nhau trong mỗichuỗi frame nhìn chung khá giống nhau Do đó ta có thể sử dụng đặc điểm này để dự đoán
Để tái hiện sự lặp lại tương tự giữa các frame người ta sử dụng khái niệm “bù chuyểnđộng” là sự đo lường sự sai khác giữa mối khối điểm ảnh giữa các khung hình Việc khôi
Trang 7phục ảnh chính là việc sử dụng vector chuyển động giữa các khối ảnh tương tự giữa khunghiện tại và khung tham chiếu với sai số chuyển động (phần sai lệch nhỏ nhất giữa hai ảnh).
3 Hãy cho biết bộ dự đoán DPCM được áp dụng như thế nào trong nén ảnh theo chuẩn JPEG (Câu 2 , 2)– Đề 3).
Trả lời:
Trong nén ảnh JPEG, bộ dự đoán DPCM được sử dụng để mã hóa các thành phần 1 chiều DC
Ở đây thành phần 1 chiều DC là dữ liệu của phần tử đầu tiên của mỗi block sau lượng tử hóađược quét zig-zag Việc sử dụng DPCM chính là tìm ra sự sai khác giữa giá trị của thành phần
1 chiều DC của block hiện tại với giá trị của thành phần 1 chiều DC của block trước đó Dữliệu sau quá trình DPCM sẽ được mã hóa Huffman
4 Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong mã hóa tiếng nói thoại? Giải thích sơ đồ mã hóa DPCM trong mã hóa tiếng nói thoại (Câu 1, 3 – Đề 2)
Trả lời: (Câu này khó trình bày quá!!!)
+ Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong quá trình mã hóa tiếng nói thoại: Do tính chất của âm thanh tiếng nói thoại, độ tương quan giữa các mẫu tín
hiệu là tương đối lớn Do đó, người ta áp dụng phương pháp dự đoán DPCM dựa trên dự đoánmẫu tín hiệu hiện tại dựa trên các mẫu tín hiệu tại thời điểm trước đó Cụ thể, trong mã hóatiếng nói thoại, người ta thường sử dụng phương pháp DPCM dựa trên dự đoán tuyến tính(Linear Prediction)
+ Giải thích sơ đồ mã hóa DPCM trong mã hóa tiếng nói thoại:
(Vẽ lại hình ảnh trong slide 13 – chapter 3: sơ đồ DPCM tuyến tính)
Giải thích:
Mẫu tín hiệu x[n] đầu vào, bộ dự đoán dự đoán mẫu p[n] dựa trên các mẫu trước đó Bộ lượng
tử hóa tiến hành lượng tử hóa sự sai khác giữa x[n] và p[n] chính là d[n] Sai số dự đoán d[n]
sẽ được mã hóa và truyền đi trên kênh truyền, đồng thời được kết hợp với p[n] làm đầu vào để
bộ dự đoán tiến hành dự đoán các mẫu sau đó
5 Hãy giải thích sơ đồ mã hóa dự đoán được áp dụng trong quá trình nén video, và trình bày một thuật toán dự đoán trong nén video theo MPEG-1 (Câu 2,3 – Đề 3)
Trang 8chiều sẽ được mã hóa.
Nén interframe: Dữ liệu đầu vào của sơ đồ này là khối điểm ảnh (block) của các frame.Nếu khối điểm ảnh ở frame hiện tại được tìm thấy ở frame tham chiếu, ta sẽ tìm được sựsai khác giữa hai khối điểm ảnh này đó là một block mới là hiệu của 2 block được nêu ởtrên Block sai khác này sẽ được biến đổi DCT, lượng tử hóa và cũng được mã hóa DPCMthành phần một chiều tương tự như nén intraframe Ngoài ra, sự sai khác về vị trí giữa haiblock của frame hiện tại và frame tham chiều cũng được mã hóa dựa theo nguyên tắc của
mã hóa DPCM
+ Trình bày một thuật toán dự đoán trong nén video theo chuẩn MPEG-1 (thật sự thì cái
này nó quá chung chung, không hiểu là nên nêu phần nào cả vì nó có nhiều thứ: thuật toán ướclượng chuyển động, thuật toán so sánh khối, Nếu nói thuật toán dự đoán thì không hiểu là nênnêu về cái gì… Bó tay!!!) Đây là 1 ý, có thể chém theo cái này, hoặc nêu hẳn quá trình thựchiện ước lượng chuyển động và bù chuyển động
MPEG-1 là sự phối hợp của các kỹ thuật ước lượng chuyển động và bù chuyển động Về bảnchất thì, dự đoán bù chuyển động ở MPEG-1 chính là khối tiên đoán trong dự đoán DPCM.Tuy nhiên về mặt tính toán, độ phức tạp của giải thuật, dự đoán chuyển động sẽ tốn chi phícao, nhưng bù lại, độ chính xác dự đoán lại cao hơn nhiều so với các giải thuật dự đoánDPCM
6 Nén ảnh theo chuẩn JPEG, phương pháp mã hóa dự đoán DPCM được kết hợp với phương pháp mã hóa dựa trên phép biến đổi DCT như thế nào? (Câu 1,4 – Đề 2)
Trả lời:
Theo chuẩn nén ảnh JPEG, mỗi ảnh được chia thành các block có kích thước 8x8 pixels, mỗiblock này qua phép biến đổi DCT Đây là quá trình biến đổi tập các giá trị pixel của ảnh trongmiền không gian sang một tập các giá trị khác trong miền tần số sao cho các hệ số trong tập giátrị mới này có tương quan giữa các điểm ảnh gần nhau nhỏ hơn Nhiệm vụ của quá trình biếnđổi DCT là tập trung năng lượng vào một số ít các hệ số biến đổi tương ứng với vùng tần sốthấp, dẫn đến có thể cho các hệ số vùng tần số cao về gần 0 hoặc bằng 0 mà không ảnh hưởngđáng kể đến chất lượng ảnh Mỗi block sau khi qua biến đổi DCT sẽ là một ma trận 8x8 hệ sốthực, hệ số đầu tiên của ma trận này được gọi là thành phần 1 chiều DC, các hệ số còn lại đượcgọi là hệ số xoay chiều AC
Phương pháp mã hóa dự đoán DPCM được sử dụng trong chuẩn JPEG chính là việc mã hóa dựđoán các thành phần 1 chiều DC của mỗi block hiện tại so với thành phần 1 chiều DC củablock trước đó
7 Hãy giải thích nguyên lý bộ dự đoán được áp dụng trong nén ảnh JPEG khác với bộ dự đoán được áp dụng trong nén video theo chuẩn MPEG như thế nào? Và tại sao? (Câu 2,4 – Đề 3)
Trả lời:
Câu số 3: Nén video số (Đề 3)
1 Trình bày các phương pháp nén ảnh video số Nén video theo chuẩn MPEG và các chuẩn H26x dựa trên phương pháp nào? Tại sao? Xét sơ đồ nén video số theo chuẩn MPEG-1, hãy giải thích vai trò của khối ước lượng chuyển động và bù chuyển động trong quá trình nén video? (Câu 1,1 – Đề 3)
Trả lời:
Quá trình nén ảnh video gồm các kỹ thuật chủ yếu:
Nén ảnh video không dùng kỹ thuật ước lượng chuyển động và bù chuyển động Phươngpháp này ứng dụng để nén intraframe Nén chuỗi ảnh video bằng cách nén liên tiếp các ảnh
Trang 9độc lập như JPEG với điều kiện đảm bảo tốc độ khung hình -> tỷ số nén không cao.
Nén ảnh video dùng kỹ thuật ước lượng và bù chuyển động Phương pháp này dùng để néninterframe (các mặt phẳng ảnh cùng 1 cảnh) Dự đoán giữa các frame kết hợp kỹ thuật bùchuyển động Các frame liên tiếp trong cùng 1 cảnh của video có sự tương quan cao theothời gian Sự tương quan thể hiện bởi sự dịch chuyển của các đối tượng trong cùng 1 cảnh
Do đó, thay vì mã hóa toàn bộ ảnh, người ta chỉ mã hóa vector chuyển động và ảnh sai số
Cấu trúc số hóa 4:2:2 hoặc 4:2:0 vẫn cho phép đảm bảo chất lượng video số vì: trong nén video
số, không gian màu RGB được chuyển đổi sang không giản màu YcrCb hoặc YUV theo cáccấu trúc số hóa 4:2:2, 4:2:0,… Các cấu trúc số hóa này giúp giảm kích thước của dữ liệu video
số trong quá trình lưu trữ và truyền tải dữ liệu Ngoài ra, theo kết quả nghiên cứu về độ cảmthụ của mắt người thì mắt người nhạy cảm với sự thay đổi của độ chói hơn là sự thay đổi vềmàu sắc Do đó, việc sử dụng không gian màu YcrCb hoặc YUV vẫn tạo ra độ cảm thụ tốt màlại tăng hiệu quả nén Vì vậy, các cấu trúc số hóa này được sử dụng trong nén video và chophép đảm bảo chất lượng video số
3 Biết các tham số trong cấu trúc số liệu của video số trên là n = 12, và m = 3 trong đó n là
số frame trong một GOP và m là khoảng cách dự đoán trong kỹ thuật mã hóa dự đoán theo chuẩn MPEG, hãy cho biết các tham số này ảnh hưởng đến chất lượng video như thế nào Trong trường hợp này, hãy cho biết thời gian tối đa để nén một frame I, để nén frame P là bao nhiêu?
Theo bài ra, n = 12, m = 3, ta có thể biểu diễn chuỗi các frame trong GOP này như sau:
N = 12 => có 12 frame trong 1 GOP
M=3 => giữa frame I và frame P hoặc giữa hai frame P liên tiếp sẽ có 2 frame B
I B B P B B P B B P B B
Với tốc độ khung hình là 30 frame/s, tức là 1 giây sẽ có 3 frame I, và 7 frame P
Để nén 1 frame I mất tối đa 1/3 giây
Để nén 1 frame P mất 1/3 : 3 = 1/9 giây
Câu số 4: Xử lý dữ liệu đa phương tiện và nén âm thanh (Đề 4)
1 Hãy cho biết vấn đề xử lý dữ liệu đa phương tiện trong truyền thông đa phương tiện gồm
Trang 10các kỹ thuật xử lý chủ yếu gì? Tại sao? (Câu 1,1 – Đề 4)
Trả lời:
Các chuẩn nén của ITU (ví dụ G728, G729,…, GSM) thường được dùng trong các dịch vụ VOIP hơn là chuẩn nén âm thanh MP3 hiện nay vì:
Tín hiệu âm thanh được chia thành 2 loại theo 2 dải tần là:
- Âm thanh dải tần cơ sở: là tiếng nói thoại có dải tần từ 30Hz đến 4kHz
- Âm thanh dải tần rộng: là tiếng hát, âm nhạc,… có dải tần từ 100Hz đến 20kHz.Theo đó, dữ liệu truyền trong các dịch vụ VOIP chủ yếu là tiếng nói thoại có một số đặcđiểm khi số hóa như sau:
- Giới hạn dải phổ trong khoảng 4kHz
Phương pháp mã hóa CELP:
Bên phát và bên thu đều có một bảng mã (codebook) lưu trữ các tín hiệu kích thích tươngứng với một tập tham số đầu vào của tín hiệu tiếng nói thoại
Tại bên phát, tiếng nói nguồn sẽ được cho qua bộ phân tích tín hiệu để thu được các tham
số đặc trưng cho tiếng nói Các tham số này sẽ được đem so sánh với một danh sách tínhiệu kích thích trong codebook để tìm ra tín hiệu có khả năng tạo dạng sóng giống tín hiệuban đầu nhất, khi đó, bên phát sẽ chỉ gửi đi những số thứ tự của tín hiệu kích thích tìm rađược ở trên
Tại bên thu, khi nhận được số thứ tự của dạng sóng trên sẽ đem tín hiệu kích thích đã lưutrữ sẵn để tái tạo lại tiếng nói ban đầu
Trong CELP có khái niệm codebook: đây là một tập các vector (hay từ mã) kích thích vàmỗi vector có độ dài cố định Các vector này được tạo thành từ các dãy nhiễu Gauss
Xét ví dụ tiếng nói được mã hóa theo chuẩn G.729, xác định tỷ số nén tốc độ dòng cụ thểtrong trường hợp này: (không chắc chắn đúng!!!)
- Xét với tín hiệu tiếng nói: Tần số lấy mẫu 8kHz, cần 8 bit để lượng tử hóa một mẫu
Trang 11Xét dữ liệu video số theo chuẩn MPEG-1, có các tham số sau:
- Ảnh video: 352x240 pixels, 30 frame/s, hệ màu YcrCb, cấu trúc số hóa 4:2:2
- Audio: 2 channels, 48k sample/s, 16 bits/sample
1 Hãy tính dung lượng dữ liệu video trên đã giải nén cần cho 10 phút thể hiện.
Trả lời:
(Ở câu hỏi này, theo t có hai hướng suy nghĩ)
Dung lượng dữ liệu cho 10 phút thể hiện chính bằng tổng dung lượng của video và audio.Nhưng dung lượng video ở đây vẫn được tính với cấu trúc số hóa 4:2:2 Dung lượng ảnhvideo cho 10 phút là: 352x240x30x16x10x60 = 2.83 Gbyte Dung lượng audio là:2x48x1000x16x10x60 = 0.107 Gbyte Dung lượng video là: 2.83 + 0.107 = 2.937 Gbytes
Do ở đây là dữ liệu video đã giải nén, tức là hiển thị nên hệ màu sẽ là RGB chứ không phảiYcrCb nữa (cái này cô giáo rất hay đề cập) Do đó dung lượng ảnh video là:352x240x30x24x10x60 = 4.25 Gbytes Vậy dung lượng video sẽ là: 4.25 + 0.107 = 4.357Gbyte
2 Giả thiết video số này được nén theo chuẩn MPEG-1, đạt được tốc độ dòng bit sau nén là 1,2 Mbit/s với tham số cấu trúc số liệu video là: n = 15 và m = 3, trong đó n là số frame trong một GOP và m là khoảng cách dự đoán trong kỹ thuật mã hóa theo chuẩn MPEG Hãy tính tỷ số nén tốc độ dòng bit đạt được trong trường hợp này?
Trả lời (chưa liên quan đến n = 15 và m = 3)
Tốc độ dòng bit trước nén theo là:
+ Với cấu trúc số hóa là 4:2:0 => cần 12 bit để mã hóa 1 pixel
Tốc độ dòng bit trước nén là: 352x240x30x12 = 30.42 Mbit/s
Tỷ số nén dòng bit là: 30.42 : 1.2 = 25 : 1
+ Với tham số cấu trúc số liệu là n = 10, m = 2 Nhận thấy tham số n giảm (từ 15 xuống 10),tức là trong chuỗi frame sẽ có nhiều frame I hơn => tốc độ dữ liệu sau nén tăng (có thể là tănglên 15/10=3/2=1.5 lần) => tỷ số nén giảm (có thể là giảm 1.5 lần)
Câu số 6: Chuẩn MPEG-1 (Câu 2 – Đề 6)
1 Hãy giải thích quá trình xử lý dữ liệu trong sơ đồ nén video theo chuẩn MPEG-1 dưới đây Sơ đồ này có yêu cầu xử lý thời gian thực như thế nào?
Trang 12Trả lời:
+ Quá trình xử lý dữ liệu trong sơ đồ mã hóa video theo chuẩn MPEG-1
Đầu vào của sơ đồ này chuỗi các frame video, đầu ra của sơ đồ chính là chuỗi dòng bit sau
khi mã hóa Ta sẽ đi vào phân tích cụ thể quá trình xử lý như sau:
Đầu vào là chuỗi các frame ảnh, nếu frame ảnh đầu vào là frame I, thì frame này sẽ được mãhóa toàn bộ giống như mã hóa ảnh JPEG, tức là, các khối điểm ảnh có kích thước 8x8 pixels sẽđược biến đổi DCT, được lượng tử hóa, và được mã hóa Vector chuyển động = 0, frame này
sẽ được lưu vào bộ nhớ làm frame tham chiếu cho các frame sau
Nếu frame đầu vào là frame P, frame này sẽ được đánh giá chuyển động cùng với frame thamchiếu I đã được lưu trước đó để tìm ra vector chuyển động và vector chuyển động này sẽ được
mã hóa trực tiếp Frame P này cũng được khôi phục bằng cách sử dụng vector chuyển động vàframe tham chiếu, sau khi khôi phục sẽ được lưu lại bộ nhớ để sử dụng làm frame tham chiếucho frame B
Nếu frame đầu vào là frame B, thì frame này cũng được đánh giá chuyển động dựa trên 2frame tham chiếu I và P hoặc 2 frame P Sau khi xác định được 2 vector chuyển động củaframe B hiện tại với 2 frame tham chiếu thì 2 vector này cũng được mã hóa trực tiếp Để khôiphục lại frame B, người ta cũng sử dụng vector chuyển động và frame tham chiếu, đây chính làkhối bù chuyển động
+ Sơ đồ này yêu cầu xử lý thời gian thực như thế nào?
Trong sơ đồ nén video theo chuẩn MPEG-1, khối “Điều chỉnh” có thể điều chỉnh được sai sốlượng tử hóa gây ra bởi khối “Lượng tử hóa” Ngoài ra, khối “Điều chỉnh” cũng có thể điềuchỉnh kích thước bộ đệm lưu trữ tạm thời Từ 2 nhiệm vụ cơ bản đó của khối “Điều chỉnh” ta
có thể tùy chỉnh thay đổi chất lượng video Đây chính là yếu tố xử lý thời gian thực trong nénvideo theo chuẩn MPEG-1
2 Hãy chỉ ra trong sơ đồ nén video trên kỹ thuật mã hóa dự đoán được áp dụng trong nén Intraframe và nén Interframe như thế nào? Trình bày một giải thuật đánh giá ước lượng chuyển động trong sơ đồ nén video trên đây.