Tổng hợp các câu hỏi thi Xử lý dữ liệu đa phương tiện

25 1.4K 6
Tổng hợp các câu hỏi thi Xử lý dữ liệu đa phương tiện

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tổng hợp các câu hỏi ôn thi trong đề thi môn Xử lý dữ liệu đa phương tiện Đại học Bách Khoa Hà Nội. Bao gồm trả lời các câu hỏi của các đề thi năm trước.Các câu hỏi được trả lời mạch lạc và xúc tích.

TỔNG HỢP CÁC CÂU HỎI THI MÔN: XỬ DỮ LIỆU ĐA PHƯƠNG TIỆN – ĐH BÁCH KHOA HÀ NỘI Câu số 1: Phương pháp SBC (Câu – Đề vs Câu – Đề vs Câu – Đề 5) Trình bày sơ đồ nguyên phương pháp mã hóa dải tần (Subband Coding – SBC) (Câu 1,1 – Đề 1) (Câu 1,1 – Đề 5) Giải thích vai trò băng lọc số (Digital Filter Banks) nguyên giảm tần số lấy mẫu nội suy phương pháp (Subsampling and Interpolation with Band pass Filters) (Câu 2,1 – Đề 4) Trả lời: Xét sơ đồ nguyên phương pháp mã hóa dải tần (Subband Coding – SBC) trường hợp tín hiệu chiều rời rạc Phương pháp mã hóa SBC bao gồm bước sau: Subband Coding Quá trình subband thực sau: • Lọc phân tích: tín hiệu ban đầu đưa qua lọc nhằm chia tín hiệu thành thành phần tín hiệu ứng với dải tần không bị chồng • Tín hiệu các dải tần sau qua lọc giảm tần số lấy mẫu M lần (M số dải tần chia tín hiệu) Quá trình Coding: trình thực lượng tử hóa mã hóa riêng dải tần số Quá trình đòi hỏi phương pháp lượng tử hóa mã hóa, thực phân phối dòng bit dựa tín chất dòng tín hiệu sau lọc Đây bước mang lại hiệu nén cho toàn trình mã hóa SBC Trong đó, phân phối bit việc phân chia số bit có cho mã hóa dải, dựa theo tín hiệu dải dải, lượng thông tin khác Phân phối bit ảnh hưởng lớn đến khôi phục liệu sau trỉnh giải nén Giải thích vai trò băng lọc số giảm tần số lấy mẫu nội suy phương pháp SBC: Vai trò băng lọc số (Digital Filter Banks): Băng lọc số phương pháp SBC giúp phân tách tín hiệu nguồn ban đầu thành tín hiệu băng tần khác nhau, phục vụ cho việc mã hóa Trong trình giải mã, băng lọc số kết hợp tín hiệu băng tần khác để khôi phục tín hiệu ban đầu Việc giảm tần số lấy mẫu tín hiệu sau lọc làm phổ tín hiệu rộng ra, trải hết trục tần số, nên số mẫu lúc giảm theo Giảm tần số lấy mẫu thực dựa định lấy mẫu Nyquist hệ định Nyquist Tỷ lệ giảm tần số lấy mẫu phụ thuộc vào tỷ lệ dải thông lọc với dải tần tín hiệu vào Trình bày giải thích sơ đồ mã hóa SBC dùng nén ảnh JPEG-2000 nào? (Câu 1,2 – Đề 1) Giải thích kỹ thuật xử đa phân giải áp dụng sơ đồ (Câu 2,2 – đề 4) Trả lời: (Câu không rõ ý hỏi câu hỏi, nên làm tạm thời) Trong nén ảnh JPEG-2000, sơ đồ mã hóa SBC sử dụng sơ đồ kỹ thuật băng lọc thông thấp thông cao: Đầu vào sơ đồ tín hiệu gốc ban đầu, cho qua lọc thông thấp – thông cao, sau trình thu dải tần tương ứng với hai lọc, tín hiệu tương ứng hai dải tần lấy mẫu xuống hai lần Quá trình tiếp tục với hai băng tần này, tùy thuộc vào ứng dụng mà người thiết kế sử dụng băng lọc Kỹ thuật xử đa phân giải áp dụng sơ đồ: Trong sơ đồ này, trình subsampling hay gọi giảm tần số lấy mẫu lần trình xử đa phân giải Xét với ảnh, việc giảm tần số lấy mẫu giảm độ phân giải, tùy thuộc vào số lượng băng lọc mà xác định độ phân giải khác Ví dụ: Ảnh ban đầu có độ phân giải NxN pixels, trước hết áp dụng lọc theo chiều ngang cho dòng liệu ảnh với lọc thông thấp lọc thông cao, sau giảm tần số lấy mẫu đầu lọc lần, ta ảnh có kích thước (NxN)/2 Tiếp theo, áp dụng lọc thông thấp thông cao theo chiều dọc ảnh mới, đầu lọc tiếp tục giảm tần số lấy mẫu lần, ta thu ảnh có kích thước N/2 x N/2 pixels Trình bày giải thích sơ đồ mã hóa SBC dùng mã hóa âm dải rộng nào? (Câu 1,3 – Đề 1) (Câu 2,3 – đề 4) Trả lời: Sơ đồ mã hóa SBC dùng mã hóa âm Đặc điểm khối chức sơ đồ mã hóa (sơ đồ a), sơ đồ giải mã (sơ đồ b) Đầu vào sơ đồ mã hóa tín hiệu gốc ban đầu, đầu sơ đồ dòng bit • Khối Time/Frequency Mapping: Đây khối sử dụng để chia tín hiệu đầu vào thành dải tần (subband), khối thường băng lọc với nhiều lọc có đáp ứng tần số khác Đối với âm dải rộng, kỹ thuật băng lọc thông dải sử dụng, bao gồm M băng lọc thông dải, sau tín hiệu qua M băng lọc thu M dải tần tương ứng với lọc Sau thực giảm tần số lấy mẫu băng tần M lần • Khối Psychoacoustic Model: khối đầu vào tín hiệu gốc tín hiệu sau chia thành subbands Khối sử dụng để tính toán hiệu ứng che tín hiệu đưa vào dựa mô hình cảm thụ âm người Tín hiệu đưa vào khối tính toán để tìm thành phần tần số có lượng nhỏ ngưỡng nghe thành phần tần số bị che thành phần tần số dải tần khác Từ tính ngưỡng che cho dải tần đưa tới khối lượng tử hóa để tiến hành lượng tử Độ rộng thời gian khối tín hiệu đưa vào khối Psychoacoustic Model để tiến hành phân tích lớn ta thu hiệu nén cao • Khối lượng tử hóa mã hóa (Quantizer and Coding): Khối có đầu vào subband chia sau tín hiệu gốc qua băng lọc hiệu ứng che tính toán từ khối Psychoacoustic Model Nhiệm vụ khối tiến hành lượng tử hóa tín hiệu subbands cách phù hợp cho số bit sử dụng cho subband (nhưng phải đảm bảo chất lượng tín hiệu) sau mã hóa tín hiệu subband với phương pháp mã hóa Huffman, mã hóa đại số… Ngoài ra, subband có ngưỡng nghe riêng, khối lượng tử hóa làm nhiệm vụ lượng tử tín hiệu subband với đủ số bit để trì khoảng cách nhiễu lượng tử ngưỡng nghe subband Như ta giảm số bit cần để lượng tử hóa mẫu tín hiệu subband tùy thuộc vào ngưỡng che subband tương ứng nhờ ta tăng hiệu nén liệu • Khối Frame Packing: Dữ liệu sau ta lượng tử mã hóa đưa vào khối để đóng gói thành frame chuyển hệ thống mạng Tại có khác áp dụng SBC cho mã hóa ảnh mã hóa âm dải rộng (Câu 1,4 – Đề 1) Tại có khác áp dụng SBC cho mã hóa ảnh JPEG – 2000 mã hóa âm dải rộng MP3 (Câu 2,4 – Đề 4) (Câu 1,3 – Đề 5) Trả lời: (Về chất câu hỏi giống nhau, nên trả lời chung ý thứ cho câu) Sự khác áp dụng SBC cho mã hóa ảnh mã hóa âm dải rộng • Trong nén âm dải rộng, băng lọc sử dụng băng lọc thông dải có nhiều lọc với đáp ứng tần số khác nhau, nén ảnh sử dụng băng lọc thông thấp – thông cao • Nén âm dải rộng có khối tính toán hiệu ứng che, nén ảnh khối chức không cần thiết • Nén ảnh loại bỏ thành phần tần số chứa thông tin sau trình lọc, nén âm dải rộng loại bỏ thành phần tần số dựa theo ngưỡng nghe • Nén ảnh sau sử dụng mã hóa dự đoán DPCM lượng tử hóa vô hướng (Scalar Quantization) Trong nén âm dải rộng, lượng tử hóa cho số bit sử dụng cho subband mã hóa tín hiệu dựa subband phương pháp mã hóa Huffman, mã hóa đại số… • Nén ảnh không cần có khối frame packing không cần đóng gói liệu sau lượng tử mã hóa thành frame • Có khác do: ảnh âm có chất vật khác cách người cảm nhận hình ảnh âm khác Ảnh thông tin vật thể hay quang cảnh chiếu sáng mà người quan sát cảm nhận mắt hệ thống thần kinh thị giác Trong âm dao động học nguyên tử, phân tử hạt vật chất lan truyền không gian, cảm nhận trực tiếp qua tai người va đập vào màng nhĩ, làm rung màng nhĩ kích hoạt hệ thống thần kinh thính giác Và người nhạy cảm với âm so với hình ảnh Câu số 2: Phương pháp mã hóa dự đoán Trình bày sơ đồ nguyên phương pháp mã hóa dự đoán DPCM vai trò dự đoán (predictor) (Câu 1,1 – Đề 2) Hãy cho biết tỷ số nén mức độ tổn hao phụ thuộc vào khối xử sơ đồ này? (câu 2,1-Đề 3) Trả lời: + Trình bày sơ đồ nguyên phương pháp mã hóa DPCM vai trò dự đoán Sơ đồ nguyên phương pháp mã hóa dự đoán DPCM (Ở trình bày sơ đồ nguyên nên cần vẽ sơ đồ nêu vai trò khối chức đó) Trong sơ đồ này, có khối chức năng: • Bộ lấy mẫu: trính rời rạc hóa tín hiệu tương tự, bước chuyển tín hiệu mang thông tin dạng liên tục thành tín hiệu mang thông tin rời rạc, phương pháp lấy mẫu (Sampling) cho tín hiệu rời rạc phải mang đầy đủ thông tin tín hiệu tương tự, để tái tạo thông tin cách trung thực đầu thu • Bộ dự đoán (Predictor): Bộ dự đoán sử dụng để tính toán dự đoán mẫu tín hiệu theo mẫu thời điểm trước (tín hiệu tham chiếu) Trong trình dự đoán có sai số dự đoán (Predictor error) Cần phải phân biệt sai số dự đoán sai số lượng tử hóa o Sai số dự đoán (prediction error) chênh lệch giá trị dự đoán giá trị thực Nó không làm tổn thất thông tin dẫn đến làm suy giảm chất lượng ảnh Giá trị sai số định tốc độ bit giảm nhiều hay ít, tức ảnh hưởng đến hiệu suất nén Sai số lượng tử hóa (quantization error) sai số đặc trưng cho tổn thất liệu dẫn đến làm suy giảm chất lượng ảnh phục hồi • Bộ mã hóa (Encoder): trình mã hóa sai số dự đoán + Hãy cho biết tỷ số nén mức độ tổn hao phụ thuộc vào khối xử sơ đồ này? Tỷ số nén phụ thuộc vào khối dự đoán vì: trình dự đoán mẫu dựa mẫu trước đó, đó, dự đoán xác mức độ sai khác giá trị mẫu thực với giá trị mẫu dự đoán nhỏ nên cần số lượng bit để mã hóa sai số dự đoán nên tốc độ bit giảm ngược lại, trình dự đoán khiến cho sai số dự đoán lớn ảnh hưởng đến số bit cần để mã hóa sai số dự đoán lớn tốc độ dòng bit lớn Vì vậy, tỷ số nén phụ thuộc vào khối dự đoán Mức độ tổn hao phụ thuộc vào khối lượng tử hóa (trong sơ đồ nên viết gộp lấy mẫu lượng tử hóa làm 1) vì: trình lượng tử hóa trình rời rạc hóa mẫu miền số nguyên, đó, liệu ban đầu số thực sau qua khối lượng tử hóa làm tròn thành số nguyên Do đó, tổn hao phụ thuộc vào khối lượng tử hóa Bộ dự đoán thực áp dụng DPCM nén ảnh video? Giải thích sơ đồ mã hóa DPCM nén video (Câu 1,2) – Đề 2) Trả lời: + Bộ dự đoán thực áp dụng DPCM nén ảnh video Dựa khái niệm mặt phẳng ảnh (frame) TV chuẩn bao gồm trường, trường gồm dòng quét chẵn/lẻ frame ảnh Ảnh truyền hình dự đoán dòng ảnh đơn (không chứa đựng tín hiệu âm thanh) Từ phương pháp quét, có phương pháp dự đoán nén ảnh video sau: • Dự đoán Intrafield (Intrafield Prediction): Chỉ sử dụng điểm ảnh (pixel) thuộc ½ frame ảnh (hay gọi mảnh) để tạo dự đoán Dự đoán mảnh không tận dụng quan hệ điểm ảnh lân cận theo chiều đứng nên cho sai số dự đoán cao • Dự đoán Intraframe (Intraframe Prediction): Với hỗ trợ nhớ mảnh, dự đoán ảnh sử dụng tất điểm ảnh (pixel) thuộc hai mảnh mọt khung để tạo dự đoán Như lợi dụng quan hệ tương hỗ điểm ảnh lân cận theo phương ngang phương đứng nên dự đoán xác hơn, cho sai số dự đoán nhỏ • Dự đoán interfield (Interfield Prediction): phương pháp tạo dự đoán sử dụng khung khung tham chiếu Dự đoán liên mảnh sử dụng mảnh khung khung khác • Dự đoán interframe (Interframe Prediction): phương pháp sử dụng hai mảnh khung khung khung tham chiếu để dự đoán o • • a: Dự báo mảnh (Intrafield)b: Dự báo ảnh (Intraframe) c: Dự báo liên mảnh (Interfield) d: Dự báo liên ảnh (Interframe + Giải thích sơ đồ mã hóa nén ảnh video Do đặc điểm nén ảnh video chia làm loại intraframe interframe nên mã hóa dự đoán DPCM nén ảnh video chia thành loại: • Mã hóa dự đoán DPCM Intraframe video Intraframe nén nén ảnh tĩnh (ví dụ theo chuẩn JPEG), trình nén intraframe mã hóa dự đoán DPCM thường sử dụng để dự đoán mã hóa thành phần chiều DC khối điểm ảnh intraframe Cụ thể sau: ảnh ban đầu chia thành block có kích thước 8x8 pixels, block biến đổi DCT, kết sau biến đổi DCT ma trận có kích thước 8x8, sau ma trận lượng tử hóa dựa bảng lượng tử hóa Kết sau lượng tử hóa ma trận có kích thước 8x8 với giá trị số nguyên Thành phần chiều DC giá trị bên trái ma trận Các giá trị thành phần chiều DC block mã hóa dự đoán DPCM • Mã hóa dự đoán DPCM Interframe video Interframe chuỗi frame có mối quan hệ mặt thời gian, việc mã hóa interframe giúp giảm độ thừa mặt thời gian Các frame liên tiếp chuỗi frame nhìn chung giống Do ta sử dụng đặc điểm để dự đoán Để tái lặp lại tương tự frame người ta sử dụng khái niệm “bù chuyển động” đo lường sai khác mối khối điểm ảnh khung hình Việc khôi phục ảnh việc sử dụng vector chuyển động khối ảnh tương tự khung khung tham chiếu với sai số chuyển động (phần sai lệch nhỏ hai ảnh) Hãy cho biết dự đoán DPCM áp dụng nén ảnh theo chuẩn JPEG (Câu , 2)– Đề 3) Trả lời: Trong nén ảnh JPEG, dự đoán DPCM sử dụng để mã hóa thành phần chiều DC Ở thành phần chiều DC liệu phần tử block sau lượng tử hóa quét zig-zag Việc sử dụng DPCM tìm sai khác giá trị thành phần chiều DC block với giá trị thành phần chiều DC block trước Dữ liệu sau trình DPCM mã hóa Huffman Bộ dự đoán thực áp dụng DPCM mã hóa tiếng nói thoại? Giải thích sơ đồ mã hóa DPCM mã hóa tiếng nói thoại (Câu 1, – Đề 2) Trả lời: (Câu khó trình bày quá!!!) + Bộ dự đoán thực áp dụng DPCM trình mã hóa tiếng nói thoại: Do tính chất âm tiếng nói thoại, độ tương quan mẫu tín hiệu tương đối lớn Do đó, người ta áp dụng phương pháp dự đoán DPCM dựa dự đoán mẫu tín hiệu dựa mẫu tín hiệu thời điểm trước Cụ thể, mã hóa tiếng nói thoại, người ta thường sử dụng phương pháp DPCM dựa dự đoán tuyến tính (Linear Prediction) + Giải thích sơ đồ mã hóa DPCM mã hóa tiếng nói thoại: (Vẽ lại hình ảnh slide 13 – chapter 3: sơ đồ DPCM tuyến tính) Giải thích: Mẫu tín hiệu x[n] đầu vào, dự đoán dự đoán mẫu p[n] dựa mẫu trước Bộ lượng tử hóa tiến hành lượng tử hóa sai khác x[n] p[n] d[n] Sai số dự đoán d[n] mã hóa truyền kênh truyền, đồng thời kết hợp với p[n] làm đầu vào để dự đoán tiến hành dự đoán mẫu sau Hãy giải thích sơ đồ mã hóa dự đoán áp dụng trình nén video, trình bày thuật toán dự đoán nén video theo MPEG-1 (Câu 2,3 – Đề 3) Trả lời: Sơ đồ mã hóa dự đoán áp dụng trình nén video (Theo t, sơ đồ với yêu cầu câu hỏi sử dụng sơ đồ slide 12 – chapter 3) vì: nén video DPCM sử dụng nén thành phần chiều DC intraframe nén sai khác block frame với block frame tham chiếu Do đó, sử dụng sơ đồ dạng Closed – Prediction hợp Việc trình bày giải thích trình thực giải thích dựa trình nén video: nén intraframe nén interframe • Nén intraframe: Dữ liệu đầu vào sơ đồ thành phần chiều DC khối điểm ảnh sau biến đổi DCT Thành phần chiều khối (block) so sánh với thành phần chiều khối (block) trước Sự sai khác hai thành phần chiều mã hóa • Nén interframe: Dữ liệu đầu vào sơ đồ khối điểm ảnh (block) frame Nếu khối điểm ảnh frame tìm thấy frame tham chiếu, ta tìm sai khác hai khối điểm ảnh block hiệu block nêu Block sai khác biến đổi DCT, lượng tử hóa mã hóa DPCM thành phần chiều tương tự nén intraframe Ngoài ra, sai khác vị trí hai block frame frame tham chiều mã hóa dựa theo nguyên tắc mã hóa DPCM + Trình bày thuật toán dự đoán nén video theo chuẩn MPEG-1 (thật chung chung, không hiểu nên nêu phần có nhiều thứ: thuật toán ước lượng chuyển động, thuật toán so sánh khối, Nếu nói thuật toán dự đoán không hiểu nên nêu gì… Bó tay!!!) Đây ý, chém theo này, nêu hẳn trình thực ước lượng chuyển động bù chuyển động MPEG-1 phối hợp kỹ thuật ước lượng chuyển động bù chuyển động Về chất thì, dự đoán bù chuyển động MPEG-1 khối tiên đoán dự đoán DPCM Tuy nhiên mặt tính toán, độ phức tạp giải thuật, dự đoán chuyển động tốn chi phí cao, bù lại, độ xác dự đoán lại cao nhiều so với giải thuật dự đoán DPCM Nén ảnh theo chuẩn JPEG, phương pháp mã hóa dự đoán DPCM kết hợp với phương pháp mã hóa dựa phép biến đổi DCT nào? (Câu 1,4 – Đề 2) Trả lời: Theo chuẩn nén ảnh JPEG, ảnh chia thành block có kích thước 8x8 pixels, block qua phép biến đổi DCT Đây trình biến đổi tập giá trị pixel ảnh miền không gian sang tập giá trị khác miền tần số cho hệ số tập giá trị có tương quan điểm ảnh gần nhỏ Nhiệm vụ trình biến đổi DCT tập trung lượng vào số hệ số biến đổi tương ứng với vùng tần số thấp, dẫn đến cho hệ số vùng tần số cao gần mà không ảnh hưởng đáng kể đến chất lượng ảnh Mỗi block sau qua biến đổi DCT ma trận 8x8 hệ số thực, hệ số ma trận gọi thành phần chiều DC, hệ số lại gọi hệ số xoay chiều AC Phương pháp mã hóa dự đoán DPCM sử dụng chuẩn JPEG việc mã hóa dự đoán thành phần chiều DC block so với thành phần chiều DC block trước Hãy giải thích nguyên dự đoán áp dụng nén ảnh JPEG khác với dự đoán áp dụng nén video theo chuẩn MPEG nào? Và sao? (Câu 2,4 – Đề 3) Trả lời: Câu số 3: Nén video số (Đề 3) Trình bày phương pháp nén ảnh video số Nén video theo chuẩn MPEG chuẩn H26x dựa phương pháp nào? Tại sao? Xét sơ đồ nén video số theo chuẩn MPEG-1, giải thích vai trò khối ước lượng chuyển động bù chuyển động trình nén video? (Câu 1,1 – Đề 3) Trả lời: Quá trình nén ảnh video gồm kỹ thuật chủ yếu: • Nén ảnh video không dùng kỹ thuật ước lượng chuyển động bù chuyển động Phương pháp ứng dụng để nén intraframe Nén chuỗi ảnh video cách nén liên tiếp ảnh độc lập JPEG với điều kiện đảm bảo tốc độ khung hình -> tỷ số nén không cao • Nén ảnh video dùng kỹ thuật ước lượng bù chuyển động Phương pháp dùng để nén interframe (các mặt phẳng ảnh cảnh) Dự đoán frame kết hợp kỹ thuật bù chuyển động Các frame liên tiếp cảnh video có tương quan cao theo thời gian Sự tương quan thể dịch chuyển đối tượng cảnh Do đó, thay mã hóa toàn ảnh, người ta mã hóa vector chuyển động ảnh sai số dự đoán -> tỷ số nén cao Giả thiết video số nén theo chuẩn MPEG-1 có: 352x240 pixels, 30 frame/s, hệ màu YcrCb, cấu trúc số hóa 4:2:2, đạt tốc độ dòng bit sau nén 1,2 Mbps Hãy tính tỷ số nén dòng liệu trường hợp Tại cấu trúc số hóa 4:2:2 4:2:0 cho phép đảm bảo chất lượng video số? (Câu 1,2 – Đề 3) Trả lời: Với hệ màu YcrCb có cấu trúc số hóa 4:2:2 => cần 16 bit để mã hóa cho pixel Do tốc độ dòng bit trước nén là: 352x240 pixels x 16 bit/pixel x 30 frame/s = 40.55 Mbit/s Vậy tỷ số nén dòng bit là: 40.55 : 1.2 = 34:1 Cấu trúc số hóa 4:2:2 4:2:0 cho phép đảm bảo chất lượng video số vì: nén video số, không gian màu RGB chuyển đổi sang không giản màu YcrCb YUV theo cấu trúc số hóa 4:2:2, 4:2:0,… Các cấu trúc số hóa giúp giảm kích thước liệu video số trình lưu trữ truyền tải liệu Ngoài ra, theo kết nghiên cứu độ cảm thụ mắt người mắt người nhạy cảm với thay đổi độ chói thay đổi màu sắc Do đó, việc sử dụng không gian màu YcrCb YUV tạo độ cảm thụ tốt mà lại tăng hiệu nén Vì vậy, cấu trúc số hóa sử dụng nén video cho phép đảm bảo chất lượng video số Biết tham số cấu trúc số liệu video số n = 12, m = n số frame GOP m khoảng cách dự đoán kỹ thuật mã hóa dự đoán theo chuẩn MPEG, cho biết tham số ảnh hưởng đến chất lượng video Trong trường hợp này, cho biết thời gian tối đa để nén frame I, để nén frame P bao nhiêu? Trả lời: Các tham số cấu trúc số liệu video số theo chuẩn MPEG-1 n m, đó: N: số frame GOP M: khoảng cách dự đoán Theo chuẩn nén video MPEG-1, có loại frame là: frame I (Intraframe) frame bắt đầu GOP, frame P: frame dự đoán, frame B: frame dự đoán nội suy hai chiều Các tham số cấu trúc số liệu video số ảnh hưởng đến chất lượng video, kích thước GOP khác thu chất lượng khác nhau, nói cách khác, kích thước GOP ảnh hưởng tới tốc độ ghi liệu (bit rate) Do đó, người thiết kế tùy chỉnh chất lượng video dựa tùy chỉnh kích thước GOP cho thích hợp với ứng dụng Theo ra, n = 12, m = 3, ta biểu diễn chuỗi frame GOP sau: • N = 12 => có 12 frame GOP • M=3 => frame I frame P hai frame P liên tiếp có frame B IBBPBBPBBPBB Với tốc độ khung hình 30 frame/s, tức giây có frame I, frame P  Để nén frame I tối đa 1/3 giây  Để nén frame P 1/3 : = 1/9 giây Câu số 4: Xử liệu đa phương tiện nén âm (Đề 4) Hãy cho biết vấn đề xử liệu đa phương tiện truyền thông đa phương tiện gồm kỹ thuật xử chủ yếu gì? Tại sao? (Câu 1,1 – Đề 4) Trả lời: Hãy cho biết phương pháp nén âm thường chia thành loại chính: mã hóa nén tiếng nói thoại mã hóa âm dải rộng (Câu 1,2 – Đề 4) Trả lời: Tại chuẩn nén ITU (ví dụ G728, G729,…, GSM) thường dùng dịch vụ VOIP chuẩn nén âm MP3 nay? Trình bày nguyên phương pháp mã hóa tiếng nói CELP Xét ví dụ tiếng nói mã hóa theo chuẩn G.729, xác định tỷ số nén dòng cụ thể trường hợp (Câu 1,3 – Đề 4) Trả lời: • Các chuẩn nén ITU (ví dụ G728, G729,…, GSM) thường dùng dịch vụ VOIP chuẩn nén âm MP3 vì: Tín hiệu âm chia thành loại theo dải tần là: - Âm dải tần sở: tiếng nói thoại có dải tần từ 30Hz đến 4kHz - Âm dải tần rộng: tiếng hát, âm nhạc,… có dải tần từ 100Hz đến 20kHz Theo đó, liệu truyền dịch vụ VOIP chủ yếu tiếng nói thoại có số đặc điểm số hóa sau: - Giới hạn dải phổ khoảng 4kHz - Tần số lấy mẫu Fs = 8kHz - Lượng tử hóa giá trị: mã hóa bit - Tốc độ cần thiết: 8*8 = 64kbps Mặt khác, chuẩn nén ITU GSM chuẩn nén dành riêng cho âm thoại sử dụng phương pháp mã hóa lai: kết hợp xử phân tích tiếng nói dựa mô hình phát âm người mã hóa tín hiệu dạng sóng Âm nén theo chuẩn GSM thường có tần số lấy mẫu 8kHz, có tốc độ bit cần thiết thấp, nằm khoảng 6,5 đến 13kbps Âm thoại nén theo chuẩn GSM có yêu cầu thấp băng thông đường truyền, đó, chuẩn nén thường sử dụng nhiều dịch vụ VOIP Ngoài ra, chuẩn MP3 chuẩn nén âm dựa phương pháp SBC sử dụng chủ yếu mã hóa âm dải rộng Do đó, phương pháp xây dựng dựa mô hình cảm thụ âm thính giác người Âm nén • • theo chuẩn MP3 lấy tần số lấy mẫu 32kHz, 44.1 kHz, 48kHz… tốc độ bit đa dạng (32kbps, 48kbps…) Do MP3 không thích hợp sử dụng ứng dụng VOIP Phương pháp mã hóa CELP: Bên phát bên thu có bảng mã (codebook) lưu trữ tín hiệu kích thích tương ứng với tập tham số đầu vào tín hiệu tiếng nói thoại Tại bên phát, tiếng nói nguồn cho qua phân tích tín hiệu để thu tham số đặc trưng cho tiếng nói Các tham số đem so sánh với danh sách tín hiệu kích thích codebook để tìm tín hiệu có khả tạo dạng sóng giống tín hiệu ban đầu nhất, đó, bên phát gửi số thứ tự tín hiệu kích thích tìm Tại bên thu, nhận số thứ tự dạng sóng đem tín hiệu kích thích lưu trữ sẵn để tái tạo lại tiếng nói ban đầu Trong CELP có khái niệm codebook: tập vector (hay từ mã) kích thích vector có độ dài cố định Các vector tạo thành từ dãy nhiễu Gauss Xét ví dụ tiếng nói mã hóa theo chuẩn G.729, xác định tỷ số nén tốc độ dòng cụ thể trường hợp này: (không chắn đúng!!!) - Xét với tín hiệu tiếng nói: Tần số lấy mẫu 8kHz, cần bit để lượng tử hóa mẫu Suy ra, tốc độ dòng là: 8*8 = 64kbps - Theo chuẩn G.729 (Slide 15 – Chương – Truyền thông đa phương tiện): tốc độ dòng là: 8kbps - Vậy tỷ số nén trường hợp là: 64:8 = 8:1 Câu số 5: Đề Xét liệu video số theo chuẩn MPEG-1, có tham số sau: - Ảnh video: 352x240 pixels, 30 frame/s, hệ màu YcrCb, cấu trúc số hóa 4:2:2 - Audio: channels, 48k sample/s, 16 bits/sample Hãy tính dung lượng liệu video giải nén cần cho 10 phút thể Trả lời: (Ở câu hỏi này, theo t có hai hướng suy nghĩ) • Dung lượng liệu cho 10 phút thể tổng dung lượng video audio Nhưng dung lượng video tính với cấu trúc số hóa 4:2:2 Dung lượng ảnh video cho 10 phút là: 352x240x30x16x10x60 = 2.83 Gbyte Dung lượng audio là: 2x48x1000x16x10x60 = 0.107 Gbyte Dung lượng video là: 2.83 + 0.107 = 2.937 Gbytes • Do liệu video giải nén, tức hiển thị nên hệ màu RGB YcrCb (cái cô giáo hay đề cập) Do dung lượng ảnh video là: 352x240x30x24x10x60 = 4.25 Gbytes Vậy dung lượng video là: 4.25 + 0.107 = 4.357 Gbyte Giả thiết video số nén theo chuẩn MPEG-1, đạt tốc độ dòng bit sau nén 1,2 Mbit/s với tham số cấu trúc số liệu video là: n = 15 m = 3, n số frame GOP m khoảng cách dự đoán kỹ thuật mã hóa theo chuẩn MPEG Hãy tính tỷ số nén tốc độ dòng bit đạt trường hợp này? Trả lời (chưa liên quan đến n = 15 m = 3) Tốc độ dòng bit trước nén theo là: 352x240x30x16 = 40.55 Mbit/s Tỷ số nén dòng bit là: 40.55:1.2 = 34:1 Tỷ số nén thay đổi hai trường hợp sau đây: + Cấu trúc số hóa là: 4:2:0 + Tham số cấu trúc số liệu là: n = 10, m = Trả lời + Với cấu trúc số hóa 4:2:0 => cần 12 bit để mã hóa pixel Tốc độ dòng bit trước nén là: 352x240x30x12 = 30.42 Mbit/s Tỷ số nén dòng bit là: 30.42 : 1.2 = 25 : + Với tham số cấu trúc số liệu n = 10, m = Nhận thấy tham số n giảm (từ 15 xuống 10), tức chuỗi frame có nhiều frame I => tốc độ liệu sau nén tăng (có thể tăng lên 15/10=3/2=1.5 lần) => tỷ số nén giảm (có thể giảm 1.5 lần) Câu số 6: Chuẩn MPEG-1 (Câu – Đề 6) Hãy giải thích trình xử liệu sơ đồ nén video theo chuẩn MPEG-1 Sơ đồ có yêu cầu xử thời gian thực nào? Trả lời: + Quá trình xử liệu sơ đồ mã hóa video theo chuẩn MPEG-1 Đầu vào sơ đồ chuỗi frame video, đầu sơ đồ chuỗi dòng bit sau mã hóa Ta vào phân tích cụ thể trình xử sau: Đầu vào chuỗi frame ảnh, frame ảnh đầu vào frame I, frame mã hóa toàn giống mã hóa ảnh JPEG, tức là, khối điểm ảnh có kích thước 8x8 pixels biến đổi DCT, lượng tử hóa, mã hóa Vector chuyển động = 0, frame lưu vào nhớ làm frame tham chiếu cho frame sau Nếu frame đầu vào frame P, frame đánh giá chuyển động với frame tham chiếu I lưu trước để tìm vector chuyển động vector chuyển động mã hóa trực tiếp Frame P khôi phục cách sử dụng vector chuyển động frame tham chiếu, sau khôi phục lưu lại nhớ để sử dụng làm frame tham chiếu cho frame B Nếu frame đầu vào frame B, frame đánh giá chuyển động dựa frame tham chiếu I P frame P Sau xác định vector chuyển động frame B với frame tham chiếu vector mã hóa trực tiếp Để khôi phục lại frame B, người ta sử dụng vector chuyển động frame tham chiếu, khối bù chuyển động + Sơ đồ yêu cầu xử thời gian thực nào? Trong sơ đồ nén video theo chuẩn MPEG-1, khối “Điều chỉnh” điều chỉnh sai số lượng tử hóa gây khối “Lượng tử hóa” Ngoài ra, khối “Điều chỉnh” điều chỉnh kích thước đệm lưu trữ tạm thời Từ nhiệm vụ khối “Điều chỉnh” ta tùy chỉnh thay đổi chất lượng video Đây yếu tố xử thời gian thực nén video theo chuẩn MPEG-1 Hãy sơ đồ nén video kỹ thuật mã hóa dự đoán áp dụng nén Intraframe nén Interframe nào? Trình bày giải thuật đánh giá ước lượng chuyển động sơ đồ nén video Trả lời: Trong sơ đồ trên, kỹ thuật mã hóa dự đoán áp dụng nén Intraframe Interframe sau: • Trong nén Intraframe: Mã hóa dự đoán thành phần chiều DC nội khối Intraframe • Trong nén Interframe: Tìm sai khác khối điểm ảnh frame kề nhau, hay nói cách khác dự đoán chuyển động block frame với block frame tham chiếu Trình bày giải thuật đánh giá ước lượng chuyển động sơ đồ nén video theo chuẩn MPEG-1 Ở có nhiều thuật toán sử dụng để đánh giá chuyển động tức tìm vector chuyển động Nhưng nguyên tắc chung tìm block frame tham chiếu có số MAE (Mean Absolute Error) nhỏ với block frame Sẽ trình bày thuật toán là: TTS 2D-LOG (có thể chọn để trình bày) - Giải thuật tìm kiếm loga chiều 2D-LOG (2-D Logarithmic Search): giải thuật có cách tiếp cận: • Hướng tiếp cận thứ đưa Jain, với ý tưởng tính toán so sánh MAE nút hàng xóm lân cận để tìm MAE nhỏ Hàm loga (chia 2) thực theo trường hợp: điểm gần giống nằm trung tâm điểm (hình bên phải) điểm gần giống nằm biên vùng tìm kiếm (hình bên trái) • Hướng tiếp cận thứ tính toán so sánh MAE nút, thực lặp lại hai bước sau vùng tìm kiếm có kích thước pixel o Bước 1: Tìm vị trí vị trí có số MAE nhỏ o Bước 2: Tạo vùng tìm kiếm có kích thước nửa kích thước vùng tìm kiếm cũ có vị trí trung tâm vị trí tìm bước - Hình 2.12: Hướng tiếp cận thứ thuật toán 2D-LOG Giải thuật tìm kiếm ba bước TSS (Three Step Search): giải thuật thực qua ba bước sau: • Bước 1: Xác định kích thước bước dịch ban đầu, kiểm tra điểm • Bước 2: Giảm kích thước dựa tiêu chuẩn MAD, kiểm tra điểm • Bước 3: Lặp lại bước trên, xác định điểm có MAD nhỏ Câu số 7: Đồng (Câu – Đề 6): Trình bày mô hình đồng liệu đa phương tiện cho biết mô hình thường áp dụng truyền đa phương tiện mạng IP Trả lời: Các mô hình đồng DỮ LIỆU ĐPT (chưa xét đến audio/video hay j hết): mô hình •Mô hình dòng thời gian (Timeline): Các hành động xác định thời điểm bắt đầu, thực đồng bám theo thời gian tồn đối tượng (hình chap9 slide 11) Mô hình sử dụng dòng thời gian tổng thể Đồng bám liên tục theo dòng thời gian, yêu cầu cần phải có đồng đồng hồ Mô hình cho chất lượng cao có yêu cầu chi phí cao •Mô hình điểm tham chiếu (Reference point) : Trong mô hình thời điểm tham chiếu hay điểm đồng xác định bên thời gian tồn đối tượng đa phương tiện, thời điểm thực đồng thời gian dòng liệu đa phương tiện để trình diễn (player) Mô hình dùng nhãn thời gian đánh dấu bên đối tượng thời điểm cần đồng •Mô hình phân cấp (Hierarchic): thực theo chế phân cấp thứ tự đối tượng đồng theo hình Tuy nhiên thời điểm cần đồng điểm bắt đầu hay kết thúc đối tượng mà nằm đối tượng bị phân mảnh •Đồng dựa kiện (Event based): Thực đồng dựa kiện bắt đầu kết thúc đối tượng Ở hành động, thao tác bắt đầu kết thúc thời điểm xác định Ví dụ: ứng dụng tương tác, việc ấn nút, kích hoạt menu làm hiển thị lên hình ảnh chơi đoạn audio số… •Đồng audio-video thời gian thực nơi nhận : Mô hình thiết lập lại quan hệ thời gian gói liệu audio – video để trình diễn liên tục, cảm thụ trung thực nơi nhận so với nguồn Kĩ thuật bao gồm: + Điều độ trình diễn hướng thời gian + Điều độ trình diễn dựa đệm liệu nhận •Tích hợp audio–video: kết hợp, bổ sung vào hệ thống có loại liệu, ứng dụng trình diễn thể đa phương tiện (tích hợp định dạng file, vào định dạng Web, tích hợp vào CSDL…) Hiện mô hình thường áp dụng truyền thông đa phương tiện mạng IP là: (Câu – Đề 2): Xét nguyên tắc đồng audio – video biểu diễn hình Hình (Slide 17 – Chương 9) 2.1 Giải thích nguyên tắc theo mô hình đồng nào? Tại dòng audio coi chủ? Trả lời: Đây mô hình Đồng audio -video thời gian thực nơi nhận, sử dụng kĩ thuật đồng theo dòng audio Dòng audio coi chủ (không lắm): + Dòng audio chủ (principle jet) người nhạy cảm với âm so với hình ảnh Dòng video (slave jet) đồng theo dòng audio + Tại điểm đồng bộ: nhãn thời gian gói tin dòng video so sánh với nhãn thời gian gói tin dòng audio Nếu frame video bị trễ giới hạn bị loại bỏ 2.2 Hãy giải thích nguyên tắc đồng audio – video ý nghĩa tham số jitter, skew sơ đồ thời gian Trả lời: Nguyên tắc đồng bộ: âm hình ảnh truyền theo dòng khác (tốc độ dòng liệu có chất yêu cầu hoàn toàn khác nhau), cần phải xác lập đồng audio-video nơi nhận đảm bảo thời gian thực.Vấn đề thiết lập lại quan hệ thời gian gói liệu audio-video để trình diễn liên tục, cảm thụ trung thực nơi nhận so với nguồn Ý nghĩa tham số: (xem slide chap9 page 17) + Jitter (độ trễ biến thiên) : khác tức thời thời gian trễ dòng videoaudio + Skew: độ lệch thời gian dòng audio video 2.3 - Thế hiệu ứng che (masking effects) mô hình cảm thụ âm Hãy cho biết phương pháp mã hóa tiếng nói thoại không xét đến hiệu ứng che? Hãy trình bày nguyên tắc mã hóa âm dải rộng dựa hiệu ứng che nào? Trả lời: Hiệu ứng che: Hiểu âm lớn át âm bé, âm mạnh át âm yếu Có loại hiệu ứng che: Threshold in quiet: ngưỡng che biên độ âm – ngưỡng im lặng Frequency masking: Che tần số Temporal masking : Che thời gian Phương pháp mã hóa tiếng nói thoại không xét đến hiệu ứng che Vì: - Nguyên tắc mã hóa âm dải rộng dựa hiệu ứng che Bộ mã hóa chi phổ tần số (20Hz đến 20kHz) thành 32 dải nhỏ (sub-band) Mỗi sub-band phần nhỏ phổ Câu số 8: (Câu – Đề 5): Xét sơ đồ khung phương pháp nén ảnh dựa phép biến đổi hình sau (Hình ảnh slide – Chương 6) Hãy cho biết chức năng, nhiệm vụ khối sơ đồ Trả lời: Trong sơ đồ khung chia làm phần: phía nén, phía giải nén Xét phần nén sơ đồ bao gồm có khối chức năng: • Khối T hay gọi khối Transform: khối thực biến đổi liệu ảnh gốc sang miền không gian khác • Khối Q hay gọi khối Quantization: khối lượng tử hóa thực biến đổi miền liệu số thực sau biến đổi sang miền số nguyên Đây khối định mát thông tin trình nén • Khối E hay gọi khối Encode: khối mã hóa dựa phương pháp mã hóa VLC (Variable Length Coding), … Phân tích đặc điểm cho yêu cầu kỹ thuật nén dựa phép biến đổi cho biết kỹ thuật dùng chuẩn nén nén ảnh, nén video, nén audio? Phương pháp nén dựa phép biến đổi có ảnh hưởng đến chất lượng mã hóa nén liệu (Coder) truyền thông đa phương tiện Trả lời: Câu số 9: (Câu – Đề 5): Hãy giải thích trình xử liệu sơ đồ nén ảnh theo chuẩn JPEG trình bày thuật toán xử liệu khối sơ đồ (Hình ảnh slide 32 – Chương 6) Trả lời: Từ sơ đồ nén ảnh theo chuẩn JPEG (slide 32 – chapter 6) Ta giải thích chức khối chức sau: - Color Converter: Đây khối thực biến đổi không gian màu từ RGB sang YcrCb (hoặc YUV) tức là: tăng thành phần độ chói Y, giảm thành phần màu sắc U, V (do mắt người nhạy cảm với độ sáng màu sắc) - Level Offset: Đây khối thực việc xử liệu cho thành phần hệ màu YUV (hoặc YcrCb) Các tín hiệu màu U, V có biên độ cực đại (giá trị nhị phân hệ thống lấy mẫu bit), tín hiệu Y có khoảng cực đại từ đến 255 giá trị Để đơn giản cho việc thiết kế mã hóa DCT, tín hiệu Y dịch xuống cách trừ 128 giá trị điểm ảnh (pixel) khối để có khoảng cực đại tín hiệu tương tự tín hiệu U V Ở phần giải mã DCT, giá trị 128 cộng vào thành phần độ chói - Khối 8x8 DCT: khối thực chia ảnh thành khối có kích thước 8x8 pixel Nhằm mục đích giảm thời gian tính toán tăng khả xác thực tính toán Do điểm ảnh lân cận có độ tương quan cao, phép biến đổi DCT cho khối nhỏ tập trung lượng vào số hệ số biến đổi, việc loại bỏ số mức lượng thấp khối tạo ta mát thông tin cục giúp nâng cao chất lượng hình ảnh - Khối Uniform Quantization: Đây khối lượng tử hóa, thực chuyển đổi giá trị khối 8x8 pixels từ miền số thực sang số nguyên, kết sau biến đổi DCT miền không gian số thực Việc thực lượng tử hóa điểm mấu chốt việc xác định độ mát thông tin trình nén Ngoài ra, khối lượng tử hóa giúp việc xác định lượng tập trung chủ yếu miền tần số thấp, liệu miền tần số cao khối sau lượng tử hóa có giá trị nên việc loại bỏ thành phần không cần thiết dễ dàng - Sau lượng tử hóa: khối điểm ảnh 8x8 pixels có thành phần là: thành phần chiều DC thành phần xoay chiều AC • Thành phần chiều DC giá trị trung bình thành phần khác ma trận sau lượng tử hóa Thành phần chiều thực mã hóa dự đoán DPCM với thành phần chiều khối điểm ảnh khác • Thành phần xoay chiều AC giá trị thành phần khác ma trận sau lượng tử hóa Ma trận thực quét Zig – Zag nhằm mục tích tăng hiệu tính toán Thông thường hệ số tương ứng tần số cao có giá trị nên quét Zig zag tạo nhiều dãy hệ số liên tiếp Sau đó, sử dụng thuật toán mã hóa có độ dài thay đổi VLC (ví dụ Huffman, …) để mã hóa thành phần + Trình bày thuật toán xử khối sơ đồ: Trong khối khối Color Converter: khối thực việc chuyển đổi hệ màu RGB sang hệ màu YUV YcrCb - Đối với hệ màu YUV, thuật toán biến đổi giá trị điểm ảnh sau: • Y = 0.299*R + 0.587*G + 0.144*B • U = -0.147*R – 0.289*G + 0.436*B = 0.492* (B – Y) • V = 0.615*R – 515*G – 0.100*B = 0.877* (R – Y) 1.Sơ đồ nguyên phương pháp mã hóa DPCM vai trò dự đoán Sơ đồ nguyên Điều xung mã sai phân (DPCM – Differentical Pulse Code Modulation) phương pháp nén liệu có mát thông tin Cơ sở phương pháp dựa mã hóa dự đoán, thường đước sử dụng tín hiệu lấy mẫu có độ tương quan mạnh (nghĩa hai mẫu gần tương tự nhau), có quan hệ lân cận mẫu, tín hiệu ảnh video, tín hiệu tiếng nói… Như có nhiều lợi ích mã hóa khác mẫu kế cận thay cho mã hóa giá trị tuyệt đối mẫu Nguyên tắc mã hóa dự đoán : Mã hóa sai khác mẫu : mẫu dự đoán theo thời điểm trước mẫu Giá trị mẫu giải mã dựa sai khác giá trị dự đoán thời điểm trước Như thấy thay truyền toàn thông tin mẫu, ta truyền sai lệch mẫu Điều cho phép đạt hiệu nén cao nhiều so với việc mã hóa truyền giá trị mẫu riêng biệt Tín hiệu đầu vào qua lấy mẫu để tiến hành lấy mẫu tín hiệu,sau mã hóa mã hóa (mã hóa sai khác mẫu thông qua mẫu trước dựa vào dự đoán),sau truyền đi.Phía nhận giải mã lại tín hiệu giải mã ,dựa vào dự đoán khôi phục lại tín hiệu ban đầu Vai trò dự đoán: Do độ tương quan mẫu tín hiệu tín hiệu tiếng nói, tín hiệu video, lớn nên thực dự đoán cách gần giá trị mẫu từ số mẫu trước Bộ dự đoán sử dụng để tính toán dự đoán mẫu tín hiệu theo mẫu thời điểm trước (tín hiệu tham chiếu) Trong trình dự đoán có sai số dự đoán(Pridection error) Cần phân biệt sai số dự đoán sai số lượng tử Hai khái niệm có chất khác : Sai số dự đoán (prediction error) chênh lệch giá trị dự đoán giá trị thực Nó không làm tổn thất thông tin dẫn đến suy giảm chất lượng ảnh Giá trị sai số định tốc độ bit giảm nhiều hay ít, tức ảnh hưởng đến hiệu suất nén Sai số lượng tử (quantization error) sai số đặc trưng cho tổn thất liệu dẫn đến làm suy giảm chất lượng ảnh phục hồi 2.Bộ dự đoán thực áp dụng DPCM nén ảnh video.Giải thích sơ đồ mã hóa DPCM nén video Phương pháp DPCM dùng nén ảnh video: • • Mã hóa dự đoán DPCM Intraframe video Mã hóa dự đoán DPCM Interframe video a: Dự báo mảnh (Intrafield)b: Dự báo ảnh (Intraframe) c: Dự báo liên mảnh (Interfield) d: Dự báo liên ảnh (Interframe a Dự đoán Intrafield (Intrafield Prediction): Chỉ sử dụng điểm thuộc nửa ảnh (một mảnh) để tạo dự đoán Dự đoán mảnh không tận dụng quan hệ điểm ảnh lân cận theo chiều đứng nên cho sai số dự đoán cao b Dự đoán Intraframe (Intraframe Prediction): Với hỗ trợ nhớ mảnh, dự đoán ảnh sử dụng tất điểm thuộc hai mảnh khung để tạo dự đoán Như lợi dụng quan hệ tương hỗ điểm lân cận theo Phương ngang Phương đứng nên dự đoán xác hơn, cho sai số dự đoán nhỏ c Dự đoán Interfield (Interfield prediction): Phương pháp tạo dự đoán sử dụng khung hành khung tham chiếu khác Dự đoán liên mảnh sử dụng mảnh (chẵn lể) khung khác d Dự đoán interframe (Interframe prediction): Phương pháp sử dụng hai mảnh ảnh kề Bộ dự đoán thực áp dụng DPCM mã hóa tiếng nói.Giải thích sơ đồ mã hóa DPCM mã hóa tiếng nói thoại Bộ dự đoán thực áp dụng DPCM mã hóa tiếng nói:dự đoán mẫu tín hiệu theo mẫu thời điểm trước (tín hiệu tham chiếu) Sơ đồ mã hóa DPCM mã hóa tiếng nói thoại Giải thích:Mẫu x(n) đầu vào,bộ dự đoán dự đoán mẫu x’(n),bộ lượng tử hóa tiến hành lượng tử hóa sai khác x(n) x’(n),đầu d’(n).d’(n) mã hóa truyền kênh truyền,đồng thời kết hợp với x’(n) làm đầu vào để dự đoán tiến hành dự đoán mẫu sau Nén ảnh theo chuẩn Jpeg,phương pháp DPCM kết hợp với phương pháp mã hóa dựa biến đổi DCT ? DPCM dùng JPEG để mã hóa thành phần DC Từng thành phần DC block mã hóa DPCM sau mã hóa Huffman DiffDC(blocki) = DC(blocki) – DC(blocki–1) Bài 2: - Mô hình ảnh mô hình đồng theo dòng audio Dòng liệu audio có vai trò chủ (principle jet) dòng video (slave jet) đồng theo dòng audio - Nguyên tắc: Dòng liệu audio có vai trò chủ (principle jet), dòng video (slave jet) đồng - theo dòng audio Tại điểm đồng bộ: nhãn thời gian gói tin dòng video so sánh với nhãn thời gian gói tin dòng audio Nếu frame video bị trễ giới hạn bị loại bỏ Cảm thụ độ lệch audio video: - Vùng đồng (in synchronization): độ lệch cho phép từ -80 ms đến +80 ms Vùng đồng (out synchronization): độ lệch từ -160 ms đến +160 ms Vùng trung gian (transient): độ lệch khoảng +80 đến +160 -160 đến -80 - Độ rung trễ ‘jitter’: khác tức thời thời gian dòng video – audio - Độ lệch ‘skew’: độ lệch thời gian hai dòng audio – video - Độ trễ điểm đầu cuối ‘end – to – end delay’ định nghĩa toàn thời gian trễ từ âm thanh,hình ảnh hình thành điểm nguồn,được truyền qua mạng đến điểm đích thể 3.Thế hiệu ứng che Hiệu ứng che tượng số âm tồn không gian (vẫn nằm dải tần số mà người cảm nhận được) tai ta không nghe thấy số định (biên độ nhỏ bị âm khác lấn át) tượng gọi che hoàn toàn Một trường hợp khác hiệu ứng che che phần âm bị che không biến hoàn toàn mà cảm nhận nhiên với biên độ thấp (âm trở nên bé hơn) Các giá trị hiệu ứng che chủ yếu xác định dựa thực nghiệm có giá trị không giống người Có hiệu ứng che : - Ngưỡng nghe (Threshold in Quiet) - Che mặt tần số (Frequency masking) - Che mặt thời gian (Temporal masking) Tại phương pháp mã hóa tiếng nói thoại ko xét đến hiệu ứng che: Bởi tai người không cảm nhận âm bị che âm khác có lượng lớn mức định).Tiếng nói thoại khoảng 300-3kHz,đại loại ta nghe thấy âm bị che.(???) Giải thích nguyên tắc mã hóa âm dải rộng dựa hiệu ứng che: Nén âm tiếng nói kết hợp với mô hình cảm nhận âm phương pháp giảm lượng liệu cần thiết số hóa tín hiệu âm Cơ sở phương pháp nén số tín hiệu âm có khả gây kích thích mạnh lên não khiến não bỏ qua không xử lí tín hiệu âm định khác Nói cách khác, âm che lấp âm khác, ta lợi dụng điểm bỏ qua không mã hóa âm Ta kể vài ví dụ AAC, ATRAC… Hình 2.5 Sơ đồ trình nén mã hóa Trong hình 2.5 ta thấy bước trình nén Tín hiệu đầu vào chia thành nhiều dải tần số khác nhau, trải rộng khắp phổ tần số Sau thực xong việc phân chia, ta xử lí dải tần số cách riêng rẽ, dựa vào đặc điểm trình cảm nhận âm quan thính giác người từ ảnh hưởng che dải tần số xung quanh, dải có ngưỡng nghe định Nếu dải có cường độ thấp ngưỡng nghe ta loại bỏ (vì dải bị che dải lân cận tai người cảm nhận nữa) Đối với dải có cường độ cao ngưỡng nghe trình mã hóa thực Tín hiệu có cường độ cao người cảm nhận rõ ràng, mã hóa nhiều bit so với tín hiệu có cường độ thấp [...]... thời gian + Điều độ trình diễn dựa trên bộ đệm dữ liệu nhận •Tích hợp audio–video: sự kết hợp, bổ sung vào hệ thống hiện có các loại dữ liệu, các ứng dụng và trình diễn thể hiện đa phương tiện (tích hợp trong định dạng file, vào định dạng Web, tích hợp vào CSDL…) Hiện nay những mô hình thường được áp dụng trong truyền thông đa phương tiện trên mạng IP là: 2 (Câu 2 – Đề 2): Xét nguyên tắc đồng bộ audio... thuật này đã được dùng trong các chuẩn nén nào đối với nén ảnh, nén video, nén audio? Phương pháp nén dựa trên phép biến đổi có ảnh hưởng như thế nào đến chất lượng bộ mã hóa nén dữ liệu (Coder) trong truyền thông đa phương tiện Trả lời: Câu số 9: (Câu 3 – Đề 5): Hãy giải thích quá trình xử dữ liệu trong sơ đồ nén ảnh theo chuẩn JPEG dưới đây và trình bày thuật toán xử dữ liệu của khối đầu tiên trong... tốc độ dữ liệu sau nén tăng (có thể là tăng lên 15/10=3/2=1.5 lần) => tỷ số nén giảm (có thể là giảm 1.5 lần) Câu số 6: Chuẩn MPEG-1 (Câu 2 – Đề 6) 1 Hãy giải thích quá trình xử dữ liệu trong sơ đồ nén video theo chuẩn MPEG-1 dưới đây Sơ đồ này có yêu cầu xử thời gian thực như thế nào? Trả lời: + Quá trình xử dữ liệu trong sơ đồ mã hóa video theo chuẩn MPEG-1 Đầu vào của sơ đồ này chuỗi các frame... lại bước trên, xác định điểm có MAD nhỏ nhất Câu số 7: Đồng bộ 1 (Câu 3 – Đề 6): Trình bày các mô hình đồng bộ dữ liệu đa phương tiện và cho biết hiện nay những mô hình nào thường được áp dụng trong truyền đa phương tiện trên mạng IP Trả lời: Các mô hình đồng bộ DỮ LIỆU ĐPT (chưa xét đến audio/video hay j hết): 6 mô hình •Mô hình dòng thời gian (Timeline): Các hành động được xác định bởi thời điểm bắt... Truyền thông đa phương tiện) : tốc độ dòng là: 8kbps - Vậy tỷ số nén trong trường hợp này là: 64:8 = 8:1 Câu số 5: Đề 1 Xét dữ liệu video số theo chuẩn MPEG-1, có các tham số sau: - Ảnh video: 352x240 pixels, 30 frame/s, hệ màu YcrCb, cấu trúc số hóa 4:2:2 - Audio: 2 channels, 48k sample/s, 16 bits/sample 1 Hãy tính dung lượng dữ liệu video trên đã giải nén cần cho 10 phút thể hiện Trả lời: (Ở câu hỏi này,... 1.Sơ đồ nguyên phương pháp mã hóa DPCM và vai trò bộ dự đoán Sơ đồ nguyên Điều xung mã sai phân (DPCM – Differentical Pulse Code Modulation) là phương pháp nén dữ liệu có mất mát thông tin Cơ sở của phương pháp này dựa trên mã hóa dự đoán, thường đước sử dụng đối với các tín hiệu lấy mẫu có độ tương quan mạnh (nghĩa là hai mẫu gần nhau là khá tương tự nhau), có quan hệ lân cận giữa các mẫu, như... thời gian giữa các dòng dữ liệu đa phương tiện để trình diễn (player) Mô hình sẽ dùng nhãn thời gian đánh dấu bên trong các đối tượng tại các thời điểm cần đồng bộ •Mô hình phân cấp (Hierarchic): thực hiện theo cơ chế phân cấp thứ tự các đối tượng đồng bộ theo hình cây Tuy nhiên nếu thời điểm cần đồng bộ không phải là điểm bắt đầu hay kết thúc của đối tượng mà là nằm ở giữa thì các đối tượng có thể bị... thành phần độ chói Y, giảm các thành phần màu sắc U, V (do mắt người nhạy cảm với độ sáng hơn màu sắc) - Level Offset: Đây là khối thực hiện việc xử dữ liệu cho các thành phần của hệ màu YUV (hoặc YcrCb) Các tín hiệu màu U, V có biên độ cực đại là (giá trị nhị phân trong hệ thống lấy mẫu 8 bit), còn tín hiệu Y có một khoảng cực đại từ 0 đến 255 giá trị Để đơn giản cho việc thi t kế bộ mã hóa DCT, tín... gian tổng thể Đồng bộ bám liên tục theo dòng thời gian, vì vậy yêu cầu cần phải có đồng bộ đồng hồ Mô hình này cho chất lượng cao nhưng có các yêu cầu chi phí cao •Mô hình điểm tham chiếu (Reference point) : Trong mô hình này thì các thời điểm tham chiếu hay điểm đồng bộ được xác định bên trong thời gian tồn tại của đối tượng đa phương tiện, tại thời điểm đó thực hiện đồng bộ thời gian giữa các dòng dữ. .. che: Nén âm thanh tiếng nói kết hợp với mô hình cảm nhận âm thanh là phương pháp giảm lượng dữ liệu cần thi t khi số hóa các tín hiệu âm thanh Cơ sở chính của phương pháp nén này đó là một số tín hiệu âm thanh có khả năng gây kích thích mạnh lên não bộ và khiến não bộ bỏ qua không xử lí những tín hiệu âm thanh nhất định khác Nói cách khác, một âm thanh có thể che lấp những âm thanh khác, vì vậy ta

Ngày đăng: 24/07/2016, 12:27

Từ khóa liên quan

Mục lục

  • Câu số 1: Phương pháp SBC (Câu 1 – Đề 1 vs Câu 2 – Đề 4 vs Câu 1 – Đề 5)

  • Câu số 2: Phương pháp mã hóa dự đoán

  • Câu số 3: Nén video số (Đề 3)

  • Câu số 4: Xử lý dữ liệu đa phương tiện và nén âm thanh (Đề 4)

  • Câu số 5: Đề 1

  • Câu số 6: Chuẩn MPEG-1 (Câu 2 – Đề 6)

  • Câu số 7: Đồng bộ

  • Câu số 8: (Câu 2 – Đề 5):

  • Câu số 9: (Câu 3 – Đề 5):

  • 1.Sơ đồ nguyên lý phương pháp mã hóa DPCM và vai trò bộ dự đoán

    • Sơ đồ nguyên lý

    • Vai trò của bộ dự đoán:

    • 2.Bộ dự đoán được thực hiện thế nào khi áp dụng DPCM trong nén ảnh video.Giải thích sơ đồ mã hóa DPCM trong nén video

    • 3. Bộ dự đoán được thực hiện thế nào khi áp dụng DPCM trong mã hóa tiếng nói.Giải thích sơ đồ mã hóa DPCM trong mã hóa tiếng nói thoại

    • 4. Nén ảnh theo chuẩn Jpeg,phương pháp DPCM được kết hợp với phương pháp mã hóa dựa trên biến đổi DCT như thế nào ?

    • Bài 2:

      • 1.

      • 2.

      • 3.Thế nào là hiệu ứng che

        • Tại sao các phương pháp mã hóa tiếng nói thoại ko xét đến hiệu ứng che:

        • Giải thích nguyên tắc mã hóa âm thanh dải rộng dựa trên hiệu ứng che:

Tài liệu cùng người dùng

Tài liệu liên quan