Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
6,02 MB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - - BÀI TẬP LỚN XỬ LÍ ÂM THANH VÀ HÌNH ẢNH Giáo viên: Nhóm sinh viên: 1.PHẠM ĐÌNH SƠN 2.ĐẬU VĂN THẮNG 3.ĐINH DUY ANH 4.HỒ ĐĂNG HẠNH 5.NGUYỄN ĐỨC LONG LỚP: D13VT6 Hà Nội – 4/2016 Câu 2.8: a Trình bày hiệu ứng che mã hóa âm b Giải thích sự khác giữa che miền thời gian che miền tần số? c Xác định số bit cần thiết để mã hóa cho băng ? Biết băng che 12 dB băng 7, 15 dB băng tín hiệu gốc được mã hóa bit/mẫu/băng Băng Mức (db) 10 11 12 13 14 15 16 12 10 20 60 14 20 15 Bài làm: c – Băng bị che 15dB, thực chất có 14dB -> băng nằm ngưỡng nghe -> không cần mã hóa - Băng bị che 12dB, thực chất có 20dB -> băng nằm ngưỡng nghe, 20-12=8dB cần phải mã hóa - Ta có: SNR=6.n - Khi tăng giảm bit -> SNR tăng giảm 6dB - Mà băng bị che 12dB -> bị che bit => số bít cần để mã hóa là: 8-2=6 (bit) Câu 2.13: Xét chuỗi video được mã hóa sử dụng H.263 chế độ PB, có kích cỡ ảnh 4CIF, tốc độ 30 fps Chuỗi video được trình chiếu 90 phút Các tham số nén được cho sau: trung bình có ảnh I được mã hóa giây Chuỗi video chất lượng yêu cầu có tỉ lệ nén trung bình ảnh I, P, B tương ứng 10:1, 20:1, 40:1 Tính dung lượng của chuỗi video sau mã hóa? Tính thời gian để tải đoạn video trường hợp sử dụng ADSL2+? Bài làm: -1- Câu 2.14: Cho hệ thống LPC tổng quát hình vẽ đây: Tính giá trị 10 mẫu tổng hợp đầu tiên đầu ra? Biết: - Bộ dự đoán có bậc p=4 với hệ số dự đoán: a1=1,793; a2=-1,401; a3=0,566; a4=-0,147 - Độ lợi G=2, độ dài chu kỳ pitch=60; giả thiết âm hữu thanh, -2- - u(m)=1 m=1 u(m)=0 giá trị m khác Các điều kiện đầu =0 thời điểm bắt đầu của chu kỳ pitch Bài làm: Câu 2.15: Sử dụng thuật toán Levinson-Durbin để tìm hệ số dự đoán của dự đoán bậc (ai, i=1,2,3)? Biết khối dữ liệu thoại có giá trị tự tương quan sau: R(0)=1; R(1)=0,866; R(2)=0,554 R(3)=0,225 Bài làm: -3- Câu 2.16: Sử dụng phương pháp tối thiểu hóa bình phương sai số để tìm hệ số dự đoán của dự đoán bậc (ai, i=1,2)? Biết khối dữ liệu thoại có giá trị tự tương quan sau: R(0)=1; R(1)=0,6 R(2)=-0,2 Cho x[4]=0,5 x[3]=-0,1 giả thiết dự đoán lỗi bình phương trung bình có độ dài Tính giá trị dự đoán cho mẫu tín hiệu x[5]=? Bài làm: -4- Câu 2.17: a Trình bày về mô hình màu ảnh? b Cho ảnh màu RGB với R=200, G=150, B=40 Xác định thành phần Y, Cb, Cr cho ảnh theo mô hình Y, Cb, Cr? Giả sử với ảnh màu RGB đã cho có thành phần mầu được mã hóa bit/pixel Nếu chúng ta muốn biểu diễn thành ảnh màu bít sử dụng lượng tử hóa đều với tỷ lệ R, G, B tương ứng dùng 3, 3, bit mã hóa Xác định giá trị màu sau lượng tử hóa? Bài làm: Câu 2.18: Mã hóa chuỗi sau {3, 5, 2, 4, 7, 8, 6, 5, 3, 1,…} việc sử dụng mã hóa DPCM? Ở đây, sử dụng dự đoán x p ( n) = ˆ ˆ [ x(n − 1) + x(n − 2)] lượng tử mức đây: -5- d ≥ −1 Q(d ) = d “1”, Error “2” -> “01”, Error “-2” -> 00” Bài làm: Câu 2.19: Cho nguồn ký hiệu A, B, C, D, E, F, G, H có xác suất xuất hiện của ký hiệu sau: m A B C D E F G H P(m) 0.11 0.19 0.41 0.06 0.05 0.09 0.06 0.03 a Xác định mã Huffman cho ký hiệu nói trên? Tính độ dài từ mã trung bình hiệu suất mã? Bài làm: -6- Câu 2.20: Cho chuỗi ký tự {a, b, c, d} Xác suất xuất hiên của ký tự là: p(a)=0.4, p(b) = 0.1, p(c)=0.2, p(d)= 0.3 a Thiết kế Huffman codebook cho ký tự Tính tốc độ bít trung bình (average bit rate) so sánh với entropy của nguồn Dùng codebook vừa thiết kế viết luồng bít nhị phân cho chuỗi {baacddacbda} Bài làm: -7- Câu 2.23: Nêu ý nghĩa của tăng cường ảnh? Cho ảnh đa mức xám I với mức xám nằm đoạn [0, 255] Dùng biến đổi s=log(1+r) để tìm ảnh đầu ra? -8- Bài làm: Câu 2.24: -9- - 16 - - 17 - Câu 3.10: Cho ma trận ảnh 4x4: 126 126 39 39 126 126 39 39 126 126 126 39 39 39 39 126 a Sử dụng mã hóa từ điển LZW để mã hóa ảnh Tính tỷ số nén? Với dữ liệu ảnh nén có được câu a, sử dụng giải mã LZW để tìm ảnh ban đầu? (Giả thiết ảnh được đọc hiển thị theo thứ tự từ trái qua phải, từ xuống dưới) Bài làm: - 18 - Câu 3.11: - 19 - a Mã hóa chuỗi ký tự sau sử dụng mã hóa số học: MEDIA; biết các ký tự xuất hiện với các xác suất sau: M = 0.1, E = 0.3, D = 0.3, I = 0.2 và A = 0.1 b Cho bảng sau: Kí tư Tần suất Xác suất Dải A 0.5 [0.0, 0.5) B 0.25 [0.5, 0.75) C 0.25 [0.75, 1.0) Giải mã số học chuỗi đã mã hóa có ký tự là: 0.59375? Bài làm: - 20 - Câu 3.12: Trình bày khuôn dạng lấy mẫu YcbCr ? Cho hệ thống truyền hình chất lượng cao với số dòng z=1080, tỷ lệ khuôn hình 16:9, tần số quét 60 mành/giây - 21 - (quét đan xen) Tín hiệu video được số hóa với độ phân giải theo chiều ngang chiều dọc giống Mức lượng tử 256 cho thành phần chói 128 cho hai thành phần màu Tính khối lượng thông tin số có được sau thực hiện số hóa chương trình truyền hình có thời gian giờ với khuôn dạng lấy mẫu : 4:2:0? Bài làm: +256 mức cho chói => có bit biểu diễn chói +128 mức cho màu => có bit biểu diễn màu +Kích thước ảnh 16:9 Số dòng z= 1080 => Số cột: (1080x16)/9=1920 Số điểm ảnh: (1920x1080) pixel + điểm ảnh sử dụng bit chói, 14 bit màu (2 màu) => 22 bit + Tần số quét: 60/2=30(Hz) + Lấy mẫu theo chuẩn 4:2:0 => Tần số quét cho màu =1/2 tần cố quét cho chói Dung lượng 2h: 1080x1920(8.30 + 7.30/2 + 7.30/2).2.3600=6718.464 Gb Câu 3.13: Cho đoạn tiếng nói đã được số hóa, x(n) Nguồn X, được giả thiết trình dừng WSS, có trung bình Ước lượng nguồn có hàm tự tương quan sau: RX (k ) = 1; 0,9;0, 7; 0,2; 0,5; 0,8; 0,5; 0,1 , k = 0, ,7 đó: k = i − j , vơi I j được xác định từ ma trận tự tương quan, RX (i, j ) = E { X (i ) X ( j )} a Ước tính chu kỳ pitch, P, của tín hiệu tiếng nói b Tính hệ số dự đoán, a1 của dự đoán tuyến tính (LPC) bậc (p=1) đối với tín hiệu c Cho giá trị đầu tiên của đoạn tiếng nói: x(n)=[1,2,3,5]: - Hãy tính hệ số MDCT sử dụng N=2 Biết ma trận biến đổi thuận A (2x4) sau: 0, −0,7 −1,8 −1,8 −1,8 1,8 −0,7 −0,7 - 22 - - Lượng tử hóa hệ số MDCT sử dụng lượng tử hóa đều mid-tread với bước lượng tử = Khôi phục x(n) qua việc thực hiện biến đổi MDCT ngược hệ số đã lượng tử T hóa Biết ma trận biến đổi ngược A Bài làm: Câu 3.14: Cho đoạn tiếng nói gồm mẫu thoại sau: X(n)=[1,-2,-1,0,1,2,-1,0] với n=0,…,7 Thực hiện phân tích đa phân giải tín hiệu trên, với sóng con: a Tìm biến đổi Haar mức b Khôi phục lại x(n) qua biến đổi Haar ngược Tính MSE giữa tín hiệu bạn đầu tín hiệu khôi phục? Bài làm: - 23 - - 24 - Câu 3.15: Cho tín hiệu X có hàm mật độ xác suất sau: a Thiết kế lượng tử hóa đều bit Xác định mức quyết định mức khôi phục b Tính giá trị méo kỳ vọng (MSE) đối với tín hiệu đã lượng tử hóa c Sử dụng thuật toán Max-Lloyd để thiết kế lượng tử hóa không đều Sử dụng thiết lập trước đối với lượng tử hóa đều để khởi tạo thuật toán Sử dụng ít vòng lặp để đưa mức quyết định khôi phục? Bài làm: Câu 3.16: Cho ảnh I (4x4) (8 bits/pixel) sau: 0 0 256 0 I= 0 0 0 0 Tính toán biến đổi sóng Haar mức ảnh I mã hóa trung bình bits/pixel sau: a Mã hóa băng LL với bits/pixel băng lại bits/pixel sử dụng lượng tử hóa đều vô hướng b Mã hóa băng với bits/pixel sử dụng lượng tử hóa đều vô hướng c Mã hóa băng sử dụng DPCM với lượng tử hóa đều vô hướng bits/pixel So sánh ảnh khôi phục của ảnh I tương ứng với chế mã hóa Bài làm: - 25 - Câu 3.17: Cho tín hiệu x[n] gồm 12 mẫu sau: n 10 11 x[n] 0 0 -1 0 0 Phân đoạn tín hiệu thành đoạn gồm có mẫu: a Thực hiện biến đổi DCT-4 mỗi đoạn b Thực hiện biến đổi DWT mức mỗi đoạn sử dụng lọc Haar Tính toán phương sai hệ số biến đổi mỗi trường hợp? Mô tả thủ tục gán 36 bit cho 12 giá trị sau biến đổi cho méo MSE nhỏ nhất? Phép biến đổi cho hiệu tốt hơn? Bài làm: Câu 3.18: a So sánh giữa chuẩn JPEG JPEG2k b Xác định số bít trung bình cho điểm ảnh ( bao gồm cả chói màu) Biết ảnh sử dụng chuẩn lấy mẫu 4:2:2 với 16 bít/mẫu tỷ số nén của cả chói màu 25 c Cần bít để lưu trữ nếu ảnh sử dụng chuẩn lấy mẫu 4:2:0 độ phân giải chói 576x720, nếu tỷ số nén chói 20 tỷ số nén màu gấp lần chói? d Xác định phương pháp điều chế đơn giản dùng để truyền băng tần 2MHz, tần số 25hz ảnh được mã hóa theo định dang câu b ? Bài làm: - 26 - Câu 3.19: Dữ liệu đa phương tiện được truyền qua mạng với tốc độ 1.5 Mbps Dữ liệu bao gồm video audio số Audio có tốc độ bít trung bình 300kbps Biết Video số có định dạng chuẩn PAL nén dùng MPEG1 Khung video có cấu trúc IBBPBBPBBPBBI…Tỷ số nén 10:1 20:1 tương ứng cho khung I khung P Tính tỷ số nén của khung B để đảm bảo truyền dữ liệu đa phương tiện với tốc độ 1.5 Mbps Giả sử chuẩn PAL tín hiệu chói có độ phân giải 352x288 tín hiệu màu được lấy mẫu nửa độ phân giải của chói Tần số quét hình 25Hz Mào đầu ghép kênh đóng gói không được vượt 15% của luồng dữ liệu video MPEG- Bài làm: - Tốc độ trung bình của video là: 1,5 – 0,3 = 1,2 Mbps - Khung video có 1I, 8B, 3P - Tốc độ của 1I được nén xuống 10 lần 0,1 - Tốc độ của 3P được nén xuống 20 lần 3/20= 0,15 - Tốc độ của 8B được nén xuống X lần 8/X Tốc độ trung bình (0,1+0,15+8/X)/(1+8+3) - 27 - - Mỗi mẫu được mã hóa bít Số bit khung là: 352x288x8+2(352/2)(288/2)x8= 1216512 Tốc độ trung bình của video là: (1216512x(0,1+0,15+8/X)/(1+8+3))x25=1,2.106/1,15 ( màu đầu không được vượt 15%) X=50 Vậy tỷ số nén của khung B 50:1 Câu 3.20: Trình bày về cấu trúc luồng video nén theo chuẩn MPEG-1; Chuẩn mã hóa Video MPEG với tốc độ mã hóa 1.15Mbit/s tần số quét 25hz với M=4 N=16 Nếu khung I có số bít gấp lần khung P khung P có số bít gấp lần khung B Tính số bít trung bình cho mỗi macroblock tương ứng với mỗi kiểu khung giả sử mỗi khung có 396 macroblock Bài làm: M=4: khoảng cách giữa I P, giữa P P N=16: chiều dài khung Thứ tự khung I, P, B khung lớn là:IBBBPBBBPBBBPBBB Vậy có khung I, 12 khung B khung P - Gọi x số bit khung P Số bit khung I 4x, số bit khung B x/5 Tốc độ mã hóa là: [(4x.1+x.3+12x/5)/(1+12+3)].25=1,15.106 X=78298 bit Số bit trung bình của khung P mỗi macroblock=x/396=197,7 Số bit trung bình của khung I mỗi macroblock=4x/396=790,8 Số bit trung bình của khung B mỗi macroblock=x/5.396=39.5 Câu 3.21: Phân tích ý nghĩa của dự đoán bù chuyển động mô hình mã hóa video? Dựa vào kỹ thuật ánh xạ khối xác định véc tơ chuyển động MB in đậm hình vẽ Biết cửa số tìm kiếm có kích thước 4x4 - 28 - Bài làm: Câu 3.23: a Kể tên loại ảnh của MPEG cấu trúc của GOP - 29 - b Chuẩn mã hóa Video Mpeg tần số quét 25hz với M=3 N=12 Nếu khung I có số bít gấp lần khung P khung P có số bít gấp lần khung B Mỗi macroblock của khung B sử dụng 50 bít Xác định tốc độ bít của luồng video giả sử mỗi khung có 396 macroblock Bài làm: Ta có M=3 khoảng cách giữa khung I P, khung P P N=12: độ dài toàn khung Thứ tự xếp khung là: IBBBPBBBPBBBPBB Có khung I, khung B khung P Gọi x số bit của khung P số bit khung I 3x số bit của khung B x/4 Tốc độ mã hóa là: [(3x.1+x.3+8x.4)/(1+3+8)].25 Vậy số bit trung bình của khung I macroblock 3x/396 Số bit trung bình của khung P macroblock x/396 Số bit trung bình của khung B macroblock x/(4.396)=50 (bit) X=7920 (bit) – tốc độ mã hóa của luồng video 0,132Mbps - 30 -