Bài giảng xử lý ảnh và video

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG TS VŨ HỮU TIẾN ThS PHÍ CÔNG HUY ThS NGUYỄN THỊ HƯƠNG THẢO BÀI GIẢNG XỬ LÝ ẢNH VÀ VIDEO Mã học phần: MUL14125 (03 tín chỉ) Hà Nội, 11/2018 MỤC LỤC MỤC LỤC .2 DANH SÁCH HÌNH VẼ .5 DANH SÁCH BẢNG 10 CHƯƠNG TỔNG QUAN VỀ XỬ LÝ ẢNH 11 1.1 Khái niệm ảnh số xử lý ảnh số 11 1.2 Lấy mẫu lượng tử hóa ảnh 11 1.3 Biểu diễn ảnh kỹ thuật số 12 1.4 Phân loại ảnh số 14 1.4.1 Ảnh nhị phân .14 1.4.2 Ảnh xám 15 1.4.3 Ảnh màu 15 1.5 Các giai đoạn trình xử lý ảnh 16 1.6 Một số ứng dụng xử lý ảnh 18 CHƯƠNG KỸ THUẬT TĂNG CƯỜNG ẢNH TRONG MIỀN KHÔNG GIAN VÀ MIỀN TẦN SỐ 20 2.1 Tổng quan kỹ thuật tăng cường ản miền không gian 20 2.2 Một số hàm biến đổi mức xám 21 2.2.1 Phép biến đổi âm 21 2.2.2 Phép biến đổi hàm Log .22 2.2.3 Phép biến đổi hàm mũ .23 2.2.4 Phép biến đổi tuyến tính phân đoạn 23 2.3 Xử lý lược đồ xám 27 2.4 Bộ lọc không gian 32 2.4.1 Nguyên tắc lọc không gian 32 2.4.2 Lọc không gian làm mịn ảnh .33 2.4.3 Lọc không gian làm sắc nét ảnh 36 2.5 Bộ lọc tần số 43 2.5.1 Biến đổi ảnh miền tần số 43 2.5.2 Lọc ảnh miền tần số 44 2.5.3 Các bước lọc ảnh miền tần số 45 2.5.4 Một số lọc miền tần số 46 2.5.4.1 Bộ lọc thông thấp lý tưởng 46 2.5.4.2 Bộ lọc thông thấp Butterworth 48 2.5.4.3 Bộ lọc thông thấp Gaussian 49 2.5.4.4 Bộ lọc thông cao lý tưởng 50 2.5.4.5 Bộ lọc thông cao Butterword 51 2.5.4.6 Bộ lọc thông cao Gaussian 52 CHƯƠNG XỬ LÝ HÌNH THÁI .54 3.1 Khái niệm chung phép biến đổi hình thái ảnh 54 3.2 Một số khái niệm lý thuyết tập hợp 54 3.3 Phép biến đổi co giãn ảnh 56 3.3.1 Phép biến đổi giãn ảnh 57 3.3.2 Phép co ảnh .58 3.4 Phép đóng mở ảnh 60 3.5 Phép biến đổi Hit-or-Miss 62 3.6 Một số thuật tốn xử lý hình thái 64 3.6.1 Tách biên 64 3.6.2 Điền đầy vùng 65 3.6.3 Trích xuất thành phần kết nối .67 CHƯƠNG PHÂN ĐOẠN ẢNH 69 4.1 Khái niệm chung phân đoạn ảnh 69 4.2 Phát điểm, đường cạnh 70 4.2.1 Phát điểm 70 4.2.2 Phát đường thẳng .71 4.2.3 Phát cạnh 73 4.3 Một số kỹ thuật phân đoạn ảnh 76 4.3.1 Phân đoạn theo ngưỡng dựa vào mức xám .76 4.3.2 Phân đoạn theo ngưỡng dựa Histogram: 78 4.3.3 Phân đoạn theo vùng 80 CHƯƠNG NÉN ẢNH VÀ VIDEO 83 5.1 Cơ nén ảnh 83 5.1.1 Vai trò việc nén ảnh 83 5.1.2 Dư thừa mã hóa 83 5.1.3 Dư thừa thời gian không gian .86 5.1.4 Một số phương pháp đo đánh giá chất lượng ảnh 88 5.1.5 Các mơ hình nén ảnh 89 5.1.6 Một số chuẩn nén ảnh .91 5.2 Một số phương pháp nén ảnh 93 5.2.1 Mã Huffman 93 5.2.2 Mã số học 94 5.2.3 Mã LZW 95 5.2.4 Mã hóa dự đốn 96 5.3 Tổng quan xử lý tín hiệu video 103 5.3.1 Thu nhận hình ảnh video tự nhiên 104 5.3.2 Lấy mẫu theo không gian 104 5.3.3 Lấy mẫu theo thời gian 106 5.3.4 Frame Field 106 5.4 Nguyên lý nén video 106 5.4.1 Kỹ thuật giảm dư thừa thông tin miền không gian 107 5.4.2 Kỹ thuật giảm dư thừa thông tin miền thời gian 108 5.4.3 Sơ đồ tổng quát mã hóa video 111 5.4.4 Giải nén 113 5.5 Định dạng hình ảnh video 114 5.6 Một số chuẩn mã hóa 116 TÀI LIỆU THAM KHẢO 119 DANH SÁCH HÌNH VẼ Hình 1 Tạo ảnh kỹ thuật số (a) Ảnh liên tục (b) Đường thẳng từ A đến B ảnh liên tục, sử dụng để mô khái niệm lấy mẫu lượng tử hóa (c) Lấy mẫu lượng tử hóa (d) Đường quét kỹ thuật số 12 Hình 2(a) Ảnh vẽ bề mặt (b) Ảnh hiển thị mảng cường độ (c) Ảnh mô tả mảng số hai chiều (0, 0.5 biểu diễn màu đen, xám trắng tương ứng) 13 Hình Ảnh nhị phân 14 Hình Ảnh xám 15 Hình Ảnh màu 16 Hình Các bước trình xử lý ảnh số .16 Hình Ma trận điểm ảnh lân cận điểm ảnh (x,y) .20 Hình 2 Hàm biến đổi mức xám nhằm tăng cường độ phản ảnh 21 Hình Một số hàm biến đổi mức xám 22 Hình (a) Ảnh gốc, (b) Ảnh âm 22 Hình Phép biến đổi mũ với hệ số 𝐜 = 𝟏 giá trị khác 𝛄 23 Hình (a) Hàm nén/giãn đổi độ tương phản, (b) Ảnh có độ tương phản thấp, (c) Ảnh sau nén/giãn độ tương phản, (d) Ảnh sau tăng độ tương phản dựa vào ngưỡng 24 Hình (a) Phép biến đổi làm tăng cường mức xám đối tượng ảnh có mức xám khoảng [A,B] làm mờ đối tượng lại (b) Phép biến đổi làm tăng cường mức xám đối tượng ảnh có mức xám khoảng [A,B] bảo lưu đối tượng lại (c) Ảnh gốc (d) Ảnh sau sử dụng phép đổi (a) .25 Hình Mặt phẳng bit điểm ảnh biểu diễn bit 26 Hình Ảnh bit 26 Hình 10 Các ảnh mặt phẳng bit ảnh 26 Hình 11 Phân bố mức xám ảnh sáng, tối, độ tương phản thấp độ tương phản cao 28 Hình 12 Hàm biến đổi mức xám .29 Hình 13 Lược đồ xám ảnh gốc (a) lược đồ xám sau cân (b) 31 Hình 14 Q trình lọc lọc khơng gian kích thước 3x3 32 Hình 15 Hai lọc trung bình với hệ số khác 34 Hình 16 Ảnh sau lọc trung bình 34 Hình 17 Kết lọc với lọc có kích thước khác 35 Hình 18 Kết lọc ảnh gốc (a) với lọc trung bình (b) lọc trung vị (c) 36 Hình 19 Mức xám điểm nằm đường AB .37 Hình 20 Đạo hàm bậc điểm đường AB 38 Hình 21 Đạo hàm bậc điểm đường AB 38 Hình 22 Bộ lọc Laplacian theo công thức (2.21) 39 Hình 23 Bộ lọc Laplacian mở rộng thêm hướng chéo 39 Hình 24 Bộ lọc Laplacian 40 Hình 25 Ảnh làm sắc nét lọc Laplacian 40 Hình 26 Mặt nạ lọc có kích thước x .41 Hình 27 Ảnh sau lọc qua lọc Sobel 42 Hình 28 Biến đổi Fourier ảnh .44 Hình 29 Ảnh phổ ảnh chụp bảng mạch điện tử 45 Hình 30 Quá trình thực lọc ảnh miền tần số 46 Hình 31 Ảnh phổ lọc thông thấp lý tưởng .47 Hình 32 Ảnh gốc lọc thông thấp lý tưởng 47 Hình 33 Ảnh gốc ảnh sau cho qua lọc với tần số cắt khác 48 Hình 34 Hình ảnh lọc thơng thấp Butterworth: (a) Hình ảnh chiều; (giữa) ảnh phổ lọc; (trái) mặt cắt đứng lọc 48 Hình 35 Hình ảnh sau qua lọc Butterworth 49 Hình 36 Hình ảnh lọc thơng thấp Gaussian: (a) Hình ảnh chiều; (giữa) ảnh phổ lọc; (trái) mặt cắt lọc với tần số cắt khác 49 Hình 37 Hình ảnh sau cho qua lọc thơng thấp Gaussian 50 Hình 38 Hình ảnh lọc thơng cao lý tưởng: (a) Hình ảnh chiều; (giữa) ảnh phổ lọc; (trái) mặt cắt đứng lọc 51 Hình 39 Hình ảnh sau qua lọc thông cao lý tưởng 51 Hình 40 Hình ảnh lọc thơng cao Butterword: (a) Hình ảnh chiều; (giữa) ảnh phổ lọc; (trái) mặt cắt đứng lọc 52 Hình 41 Hình ảnh sau qua lọc thông cao lý tưởng 52 Hình 42 Hình ảnh lọc thơng cao Gaussian: (a) Hình ảnh chiều; (giữa) ảnh phổ lọc; (trái) mặt cắt đứng lọc 53 Hình 43 Hình ảnh sau qua lọc thông cao Gaussian 53 Hình Một số ví dụ phần tử cấu trúc Vị trí bơi đậm tâm phần tử cấu trúc .54 Hình (a) Hai tập A B (b) Hợp A B (c) Giao A B (d) Bù A (e) Sai khác A B .56 Hình 3 (a) Tịnh tiến tập A với vector tịnh tiến z (b) Đối xứng tập B Các tập 𝐴 𝐵 từ hình 3.1 .56 Hình (a) Tập A (b) Phần tử cấu trúc hình vng (chấm đen tâm) (c) Phép giãn A B , ký hiệu phần tơ đậm (d) Phần tử cấu trúc hình chữ nhật (e) Phép giãn ảnh A phần tử cấu trúc 58 Hình (a) Văn mẫu độ phân giải với chữ viết bị thiếu nét (b) Phần tử cấu trúc (c) Phép giãn ảnh (a) phần tử cấu trúc (b) Các đoạn đứt nét nối lại 58 Hình (a) Tập A (b) Phần tử cấu trúc hình vng (c) Phép co A B , mô tả phần bôi đậm (d) Phần tử cấu trúc hình chữ nhật (e) Phép co A phần tử cấu trúc .59 Hình (a) Ảnh hình vng có kích thước cạnh 1, 3, 7, 15 pixel (b) Co ảnh (a) với phần tử cấu trúc hình vng bao gồm mức xám 1với kích thước cạnh 13 pixel (c) Giãn ảnh (b) với phần tử cấu trúc 60 Hình Phép đóng mở hình thái Phần tử cấu trúc hình trịn nhỏ mơ tả vị trí khác (b) Chấm đen tâm phần tử cấu trúc .61 Hình 9(a) Ảnh nhiễu (b) Phần tử cấu trúc (c) Ảnh bị co (d) Mở tập A (e) Giãn kết phép mở (f) Đóng kết phép mở 62 Hình 10(a) Tập A (b) Cửa sổ W cục X tương ứng với W, W − X (c) Phần bù A (d) Phép co A X (e) Phép co Ac W − X (f) Phần giao (d) (e), mơ tả vị trí tâm X, mong muốn 63 Hình 11(a) Tập A (b) Phần tử cấu trúc B (c) Co A B (d) Biên, sai khác tập A kết phép co A B .65 Hình 12(a) Ảnh nhị phân đơn giản với mức xám biểu diễn màu trắng (b) Kết việc sử dụng công thức (3.20) với phần tử cấu trúc Hình 3.11(b) 65 Hình 13 Điền đầy vùng (a) Tập A (b) Phần bù A (c) Phần tử cấu trúc B (d) Điểm bắt đầu bên biên (e)-(h) Các bước khác công thức (3.21) (i) Kết cuối (kết hợp (a) (h)) 66 Hình 14(a) Ảnh nhị phân (chấm trắng bên vùng điểm bắt đầu thuật toán điền đầy vùng) (b) Kết việc điền đầy vùng (c) Kết việc điền đầy tất vùng .67 Hình 15(a) Tập A mơ tả điểm khởi đầu p (tất điểm tối màu có giá trị 1, mô tả khác với p để báo chúng chưa tìm thuật tốn) (b) Phần tử cấu trúc (c) Kết bước lặp (d) Kết bước thứ hai (e) Kết cuối .68 Hình Bức hình đội bóng bầu dục (bên trái) phân đoạn theo vùng (bên phải) Mỗi vùng kết nối với điểm ảnh tương đồng, khó để tách cầu thủ tương đồng 70 Hình 2(a) điểm xác định mặt nạ, (b) Ảnh X-ray, (c) Kết xác định điểm, (d) kết xác định điểm dùng công thức 4.1 71 Hình Mặt nạ đường thẳng .72 Hình 4 Phát đường thẳng với (a) nhị phân hóa với mặt nạ liên kết, (b) kết giá trị tuyệt bước phát đường theo -45 độ ; (c) kết điều chỉnh ngưỡng ảnh .72 Hình Mô tả đầu thông số cho kỹ thuật Roberts 73 Hình Mơ tả đầu vào kỹ thuật Sobel 74 Hình Mơ tả đầu vào kỹ thuật Prewitt 74 Hình Mơ hình mặt nạ Kirsch 75 Hình Mơ hình mặt nạ Robinson .75 Hình 10 Một số kết so sánh với ảnh gốc kỹ thuật phát cạnh 76 Hình 11 Sáu phân đoạn ảnh đất dùng ngưỡng khác như: (a): 7, (b): 10, (c): 13, (d): 20, (e): 29 (f): 38 Những kết tương ứng với xấp xỉ 10%, 20%, 60% làm ảnh tối .77 Hình 12 Các đường viền tạo ba kiểu phân đoạn dạng sợi cơ: (a) ngưỡng, (b) kết nối vùng sau sử dụng ngưỡng kèm lọc cạnh Prewitt loại bỏ vùng nhỏ, (c) kết cuối đưa với thuật tốn có thay đổi lọc Gaussian với (𝝈𝟐 = 𝟗𝟔) 78 Hình 13 Biểu đồ Histogram ảnh đất 80 Hình 14 Phân đoạn ảnh đất dựa ngưỡng, (a) 33, giá trị ngưỡng áp dụng theo công thức điểm trung bình; (b) 24, dựa cơng thức tỷ lệ lỗi nhỏ 80 Hình 15 Phân đoạn thủ cơng hình ảnh cách sử dụng thuật tốn thủy phân:(a) định vị tay `hạt 'ở tâm tất đầu ra, (b) từ đầu Prewitt, với ranh giới đầu nguồn, (c) ranh giới thủy phân chồng lên hình ảnh .81 Hình 16 Phân đoạn phát triển theo khu vực hình ảnh log-transform SAR : (a) giai đoạn đầu, phân chia ảnh thành thành vng có phương sai nhỏ 0,60, (b) giai đoạn cuối, sau hợp ô vuông, tùy thuộc vào giới hạn phương sai 0,60 82 Hình Biểu diễn dạng đồ thị sở tảng nén liệu thơng qua mã hóa chiều dài thay đổi 86 Hình Các ảnh 𝟐𝟓𝟔 × 𝟐𝟓𝟔 × 𝟖 bit tạo máy tính với (a) dư thừa mã hóa, (b) dư thừa không gian (c) thông tin không liên quan (mỗi ảnh thiết kế để mô tả loại dư thừa chứa dư thừa khác) 87 Hình Lược đồ xám ảnh Hình 5.1(b) 87 Hình Ba xấp xỉ ảnh Hình 5.1(a) .89 Hình 5 Mơ hình nén giải nén ảnh 90 Hình Quá trình chia khoảng mã hóa thuật tốn 95 Hình Sơ đồ nén khơng tổn hao .97 Hình Pixel x dự đốn từ pixel a, b, c .97 Hình Thuật tốn mã hóa tổn hao 98 Hình 10 Bảng lượng tử cho kênh chói hai kênh màu Q(u,v) 99 Hình 11 Mã hóa hệ số DCT theo đường zigzag 100 Hình 12 Sơ đồ khối xử lý tín hiệu video 104 Hình 13 Lưới lấy mẫu ảnh .105 Hình 14 Hình ảnh lấy mẫu thưa 105 Hình 15 Hình ảnh lấy mẫu dày 105 Hình 16 Sơ đồ khối CODEC DPCM xử lý video 108 Hình 17 (a) Sự khác biệt khung hình thời trước đó; (b) Ảnh sau bù chuyển động 109 Hình 18 Vùng tìm vector chuyển động macroblock thời 109 Hình 19 Sơ đồ nguyên lý tổng quát mã hóa video .112 Hình 20 Sơ đồ giải nén tín hiệu video .114 Hình 21 Tỷ lệ lấy mẫu kênh màu định dạng SIF 114 Hình 23 So sánh tương quan kích thước hình ảnh chuẩn video 116 Hình 24 Một số tiêu chuẩn mã hóa Video .118 DANH SÁCH BẢNG Bảng Ví dụ mã chiều dài thay đổi .85 Bảng Bảng giá trị CAT 101 Bảng Các hệ số DCT kênh chói khối ảnh 8x8 102 10 điểm giao đường Ảnh sau lấy mẫu tập hợp giao điểm gọi phần tử ảnh (pixel) Như lấy mẫu nhiều điểm khung hình tự nhiên ảnh lấy mẫu giống với khung hình thật Ngược lại, điểm lấy mẫu thưa ảnh lấy mẫu khơng giống với ảnh gốc bị nhiều thơng tin Hình 5.13 ví dụ ảnh với lưới lấy mẫu khác Hình 13 Lưới lấy mẫu ảnh Hình 14 Hình ảnh lấy mẫu thưa Hình 15 Hình ảnh lấy mẫu dày 105 Lưới lấy mẫu màu đen có điểm lấy mẫu thưa cho ta ảnh có độ phân giải thấp (Hình 5.14) Lưới lấy mẫu màu trắng có điểm lấy mẫu dày cho ta ảnh có độ phân giải cao (Hình 5.15) 5.3.3 Lấy mẫu theo thời gian Khung hình lấy mẫu trường hợp khung hình tĩnh không thấy chuyển động đối tượng ảnh Trong trường hợp muốn mô tả chuyển động đối tượng, phải phải lấy mẫu liên tục khung hình tự nhiên khoảng thời gian Sử dụng chuỗi khung hình sau lấy mẫu để trình chiếu ta tái tạo lại chuyển động đối tượng ảnh Việc lấy mẫu theo cách gọi lấy mẫu theo thời gian Số lần lấy mẫu khoảng thời gian (frame rate) cao tạo cho người xem cảm nhận chuyển động đối tượng video liên tục (smooth motion) Frame rate thấp (dưới 10 frame/giây) thường sử dụng truyền thơng có băng thơng hạn chế liệu video Tuy nhiên chất lượng hình ảnh frame rate thấp tạo tượng chuyển động đối tượng bị giật tượng cưa (jerky) Hiện tượng cưa tượng đường viền đối tượng ảnh có hình cưa Frame rate khoảng từ 10 đến 20 frame/giây thường sử dụng nhiều truyền tín hiệu video tốc độ thấp Khi đó, chuyển động đối tượng video liên tục tượng jerky xảy đối tượng chuyển động nhanh Frame rate khoảng 25 đến 30 frame/giây tiêu chuẩn truyền hình Nếu frame rate khoảng 50 đến 60 frame/giây cho hình ảnh chất lượng cao Tuy nhiên lúc chi phí cao địi hỏi đường truyền tốc độ cao để truyền hình ảnh video 5.3.4 Frame Field Mỗi khung hình chuỗi hình ảnh video lấy mẫu theo hai chế độ: toàn (progressive) xen kẽ (interlace) Trong chế độ progressive, tồn khung hình lấy mẫu từ xuống từ trái qua phải Khi đó, toàn điểm lấy mẫu gọi frame Trong chế độ interlace, frame chia phần (field) Mỗi field bao gồm toàn dòng chẵn lẻ frame Ưu điểm chế độ interlace tốc độ field cao gấp hai lần so với tốc độ frame chế độ progressive tạo cho người xem cảm giác chuyển động đối tượng ảnh trở lên liên tục 5.4 Nguyên lý nén video Các nghiên cứu trước frame chuỗi video pixel frame có mối tương quan định Dựa vào mối tương quan thực việc nén tín hiệu video mà khơng làm ảnh hưởng tới độ phân giải ảnh Ngoài ra, khai thác đặc điểm mắt người nhạy cảm với số thơng tin hình ảnh theo khơng gian thời gian nên loại bỏ thơng 106 tin q trình nén Đây kỹ thuật nén tổn hao để tiết kiệm băng thông đảm bảo chất lượng video mức chấp nhận Trong trình nén ảnh tĩnh, kỹ thuật nén sử dụng mối tương quan theo không gian pixel ảnh Kỹ thuật gọi nén “trong ảnh” (Intraframe) Thuật ngữ có hàm ý q trình nén ảnh, thơng tin sử dụng phạm vi nội ảnh Đây kỹ thuật chuẩn nén JPEG giới thiệu phần sau Trường hợp mối tương quan theo thời gian khai thác kỹ thuật nén gọi nén “ngồi ảnh” (Interframe) Khi thơng tin sử dụng để nén ảnh nằm ảnh trước sau chuỗi video Đây kỹ thuật sử dụng chuẩn nén video H.261, H.263, MPEG -1, Nguyên lý việc nén video dựa kỹ thuật giảm dư thừa thông tin sau: - - - Dư thừa thông tin miền không gian (Spatial redundancy): Dư thừa thông tin miền không gian xuất pixel khung hình (ví dụ tương đồng pixel) Thơng tin dư thừa loại bỏ kỹ thuật mã hóa biến đổi (transform coding) Dư thừa thông tin miền thời gian (Temporal redundancy): Loại thông tin dư thừa xuất khung ảnh liên tiếp có thông tin tương đồng Để giảm dư thừa người ta dùng kỹ thuật mã hóa khác biệt frame Dư thừa thông tin liệu ảnh sau nén: Để loại bỏ dư thừa người ta dùng mã entropy, cụ thể mã có độ dài thay đổi (Variable Lenth Coding) Chi tiết kỹ thuật nén đề cập chi tiết mục sau 5.4.1 Kỹ thuật giảm dư thừa thông tin miền không gian Tại thời điểm ban đầu, phương pháp giảm dư thông không gian đưa dựa việc dự báo giá trị pixel dựa vào giá trị pixel mã hóa trước Phương pháp gọi “Điều chế xung mã sai phân” (Differential Pulse Code Modulation – DPCM) Hình 5.16 mơ tả sơ đồ khối mã hóa Theo sơ đồ, sai khác giá trị pixel giá trị dự đoán từ dự đoán lượng tử mã hóa trước truyền Tại phía giải mã, sai khác cộng với giá trị dự đoán từ dự đoán để khôi phục lại giá trị pixel Trong trường hợp lượng tử không sử dụng kỹ thuật gọi mã hóa khơng tổn hao (loss-less coding) 107 Ảnh đầu vào + Mã hóa entropy Bộ lượng tử - Mã nhị phân + + Bộ dự đoán Mã nhị phân Giải mã entropy Ảnh giải nén + + Bộ dự đốn Hình 16 Sơ đồ khối CODEC DPCM xử lý video Bộ dự đoán cho kết tốt trình dự báo dựa giá trị pixel liền kề mã hóa trước Các pixel liền kề nằm frame (mã hóa nội ảnh) nằm frame trước (mã hóa liên ảnh) Nếu dự đốn sử dụng hai kỹ thuật gọi “mã hóa dự đốn lai” (Hybrid predictive coding) 5.4.2 Kỹ thuật giảm dư thừa thông tin miền thời gian Kỹ thuật giảm dư thừa thông tin miền thời gian thực dựa việc tìm khác khung hình liên tiếp Đây thuật tốn mã hóa liên ảnh Đối với đối tượng tĩnh ảnh , khác biệt gần Do đối tượng khơng cần nhiều thơng tin để mã hóa Ngược lại, đối tượng chuyển động nhiều, khác biệt khung hình lớn Điều đồng nghĩa với việc cần nhiều thơng tin để mã hóa Để làm giảm lượng thơng tin này, người ta tiến hành thêm bước trung gian gọi ước lượng chuyển động (motion estimation) cho đối tượng hình Quá trình ước lượng chuyển động cho kết vector chuyển động Dựa vào vector khung hình trước đó, khung hình dự đốn Q trình gọi “bù chuyển động” (motion compensated) Như vậy, khác biệt khung hình khung hình dự đốn giảm so với khác biệt khung hình thời khung khung hình trước Hình 5.17 biểu diễn khác biệt khung hình thời với khung hình trước (a) với khung hình sau bù chuyển động (b) 108 (b) (a) Hình 17 (a) Sự khác biệt khung hình thời trước đó; (b) Ảnh sau bù chuyển động a Ước lượng chuyển động Trong tiêu chuẩn mã hóa video, thuật toán BMA (Block Matching Algorith) thường sử dụng để ước lượng chuyển động Trong thuật toán này, khung hình chia thành khối có kích thước N x N pixel Mỗi khối pixel di chuyển quanh vị trí ban đầu khoảng w pixel để tìm vị trí khối khoảng (N+2w) x (N+2w) có tọa độ khung hình trước giống với Khoảng cách từ tâm hình vng (N+2w) x (N+2w) tới tọa độ khối tìm khoảng chuyển động khối pixel N x N Vector chuyển động N + 2w Vùng tìm kiếm khối giống với khối N x N Vùng tìm vector chuyển động N + 2w w Frame P w Khối pixel NxN Frame I Hình 18 Vùng tìm vector chuyển động macroblock thời Để tìm đánh giá mức độ giống hai khối pixel, sử dụng số phương pháp sử dụng hàm tương quan chéo (Crosscorrelation function - CCF), hàm trung bình bình phương lỗi (Mean Square Error – MSE) hàm trung bình tuyệt đối lỗi (Mean absolute error – MAE) Khối pixel giống với khối ban đầu có CCF lớn có MSE MAE nhỏ Trong thực tế, chuẩn mã hóa video thường sử dụng phương pháp MSE MAE: Phương pháp MSE: M(i, j) = N2 N ∑N m=1 ∑n=1(f(m, n) − g(m + i, n + j)) ,⁡⁡⁡ − w ≤ i, j ≤ w (5.13) 109 Phương pháp MAE: M(i, j) = N2 N ∑N m=1 ∑n=1|f(m, n) − g(m + i, n + j)| ,⁡⁡⁡ − w ≤ i, j ≤ w (5.14) Trong f(m,n) giá trị pixel có tọa độ (m,n) khối pixel N x N frame tại, g(m+i,n+j) giá trị pixel có tọa độ (m+i,n+j) khối pixel N x N trước Để xác định khối pixel giống nhất, cần thực (2w+1)2 phép so sánh Do vậy, phương pháp MAE thường hay sử dụng MSE để giảm phức tạp tính tốn b Bù chuyển động Sau trình ước lượng chuyển động ta có vector chuyển động đối tượng khối pixel N x N Dựa vào vector chuyển động, khối pixel N x N khung hình trước dịch chuyển theo hướng độ lớn vector chuyển động Quá trình gọi bù chuyển động Kết trình khung hình cho giống với khung hình thời Tuy nhiên, q trình dự đốn nên khung hình dự đốn khơng thể giống hồn tồn với khung hình thời c Mã hóa có chiều dài thay đổi (VLC) Trong trường hợp muốn giảm số bit mã hóa đầu mã hóa, hệ số DCT vector chuyển động mã hóa mã có chiều dài thay đổi (Variable Length Coding – VLC) Nguyên lý việc mã hóa từ mã ngắn gán cho thơng tin có xác suất xuất lớn, từ mã dài gán cho thơng tin có xác suất xuất bé Như vậy, độ dài từ mã biến đổi tỷ lệ nghịch với xác suất xuất ký hiệu cần mã hóa Theo định luật Shannon, số bit tối thiểu cần thiết để mã hóa ký hiệu có xác suất xuất p -log2p Như vậy, số lượng bit trung bình tối thiểu cần để mã hóa n ký hiệu nguồn thơng tin S tính sau: H(x) = − ∑ni=1 pi log pi (2.15) H(x) gọi entropy nguồn tin S Đây giới hạn (Shannon limit) người ta mong muốn đạt xây dựng mã cho nguồn tin Khi giới hạn đạt đồng nghĩa với việc q trình mã hóa q trình nén tối ưu Trong chuẩn nén video có hai loại mã VLC thường sử dụng mã Huffman mã số học (Arithmetic) Mã Huffman thường sử dụng nhiều phương pháp cho khơng tối ưu mã bị ràng buộc phải gán cho ký hiệu nguồn số nguyên bit Ví dụ, với ký hiệu có xác suất xuất 0.9, theo giới hạn Shannon ta cần 0.15 bit để mã hóa ký hiệu Tuy nhiên mã Huffman bắt buộc phải sử dụng bit để mã hóa Điều dẫn đến việc lãng phí tài ngun (ví dụ băng 110 thơng) Khác với mã Huffman, mã số học đạt giới hạn Shannon ký hiệu khơng cần phải mã hóa riêng biệt Mã Huffman thường sử dụng để mã hóa hệ số DCT vector chuyển động Trong trường hợp cần mã hóa thơng tin khác mã số học sử dụng 5.4.3 Sơ đồ tổng qt mã hóa video Hình 2.26 mơ tả sơ đồ tổng quát mã hóa video sử dụng chuẩn nén H.261, H.264, MPEG-1, MPEG-2 H.264/MPEG-4 part 10 a Intraframe/Interframe loop Trong chế độ nén liên ảnh, giá trị khác biệt pixel khung hình khung hình dự đốn dựa vào khung hình trước mã hóa truyền Tại phía thu, sau giải mã, giá trị khác biệt cộng với khung hình dự đốn bên thu đưa để xây dựng lên khung hình Như trình dự đốn đóng vai trị quan trọng dự đốn xác giá trị khác biệt nhỏ cần thơng tin để truyền Đối với trường hợp chuỗi ảnh tĩnh, giá trị dự đoán pixel khung hình pixel tọa độ khung hình trước Trong chế độ nén nội ảnh, giá trị dự đoán dựa khối pixel liền kề trước khung hình Chế độ áp dụng cho khung hình nhóm khung hình áp dụng việc nén ảnh tĩnh JPEG đề cập chi tiết phần sau b Ước lượng chuyển động Lượng liệu truyền lớn với pixel có vector chuyển động Thay vào đó, người ta gán cho nhóm pixel (block) vector chuyển động Trong chuẩn nén, nhóm pixel hình vng có kích thước 16x16 (được gọi Macroblock - MB) ước lượng chuyển động bù chuyển động Thông thường, việc ước lượng chuyển động thực kênh chói (kênh Y) khung hình 111 Ảnh đầu vào Intra mode - Inter mode DCT Bộ lượng tử VLC Buffer Bit stream IQ & IDCT Intra mode + Inter mode Bù chuyển động Lưu trữ frame Ước lượng chuyển động Hình 19 Sơ đồ nguyên lý tổng quát mã hóa video c Inter/Intra switch Inter/Intra switch có tác dụng chuyển đổi hai chế độ liên ảnh nội ảnh Trong chuẩn nén ảnh JPEG, tất MB ảnh nén chế độ nội ảnh Với chuẩn nén video H.26x MPEG, số loại frame nén chế độ nội ảnh, số loại frame nén chế độ liên ảnh Ngoài ra, frame liên ảnh, số MB nén chế độ nội ảnh để tối ưu hóa tỷ lệ nén d DCT Trên kênh Y hai kênh màu U,V, MB chia thành khối nhỏ có kích thước 8x8 Như vậy, có khối 8x8 thuộc kênh Y số khối thuộc kênh màu tùy theo độ phân giải ảnh Mỗi khối 8x8 biến đổi DCT để có ma trận 8x8 hệ số biến đổi DCT e Lượng tử hóa Như đề cập mục 2, có hai loại lượng tử hóa Một loại có dead zone sử dụng cho hệ số AC hệ số DC MB nén liên ảnh Loại cịn lại khơng có dead zone sử dụng cho hệ số DC MB nội ảnh Khoảng giá trị hệ số lượng tử từ -2047 đến +2047 Với lượng tử có dead zone, trị tuyệt đối hệ số nhỏ bước lượng tử q gán Ngược lại, theo công thức 3.6, giá trị hệ số sau lượng tử khoảng từ đến 31 112 f Variable Length Coding Các hệ số sau lượng tử mã hóa mã có độ dài thay đổi Ngồi ra, giá trị vector chuyển động mã hóa mã với hệ số lượng tử g Giải lượng tử (Inverse Quantization) biến đổi DCT ngược (Inverse DCT) Để tái tạo khung hình thời, hệ số DCT sau lượng tử giải lượng tử biến đổi DCT ngược Sau đó, giá trị cộng với khung hình trước mã hóa lưu giữ để tái tạo lại khung hình thời Khung hình thời lại lưu giữ để dùng cho q trình dự đốn khung hình h Bộ đệm Tốc độ bit tạo mã hóa liên tục thay đổi tốc độ bit phụ thuộc vào mức độ chuyển động đối tượng video Vì vậy, trước truyền tín hiệu video kênh truyền có băng thơng cố định (ví dụ 2Mb/s) bit lưu đệm để điều tiết việc truyền Bộ đệm trường hợp nhớ có hai cổng ghi đọc Cổng ghi có nhiệm vụ nhận liệu bit sau mã hóa Cổng đọc có nhiệm vụ đọc liệu với tốc độ ổn định Mỗi liệu đọc đệm giải phóng liệu đệm Trong trường hợp có liệu ghi vào nhiều liệu đọc (với video có nhiều chuyển động) đệm gửi thông tin phản hồi tới lượng tử để tăng mức lượng tử Khi liệu mã hóa hệ số DCT bị giảm Ngược lại, với video có chuyển động lượng tử giảm mức lượng tử để cải thiện chất lượng video Quá trình gọi ổn định tốc độ bit (Constant Bit Rate) Với mã hóa có tốc độ bit thay đổi (Variable Bit Rate – VBR) đệm khơng sử dụng mức lượng tử giữ ngun suốt q trình mã hóa 5.4.4 Giải nén Về bản, trình giải nén bao gồm bước giống trình nén thứ tự ngược lại Hình 2.46 mơ tả q trình giải nén tín hiệu video Ban đầu liệu nhận tín hiệu mã hóa tách thành hai phần: liệu mã hóa giá trị khác biệt liệu mã hóa giá trị vector chuyển động Vector chuyển động đưa vào dự đoán để dự đốn khung hình Dữ liệu mã hóa giá trị khác biệt khung hình khung hình trước giải mã entropy, giải luợng tử, biến đổi DCT ngược Sau biến đổi DCT ngược ta khung hình hiệu số khung hình khung hình dự đốn Sau cộng với khung hình dự đốn, ta thu khung hình tái tạo khung hình 113 Dữ liệu mã hóa Buffer Giải mã VLC Inverse Quantization IDCT Khung hình tái tạo + Khung hình dự đốn Bù chuyển động Lưu trữ frame Vector chuyển động Hình 20 Sơ đồ giải nén tín hiệu video 5.5 Định dạng hình ảnh video a Định dạng SIF Khuyến nghị ITU-R BT.601, thường biết đến với chữ viết tắt Rec 601 BT.601 (hoặc tên cũ nó, CCIR 601) tiêu chuẩn công bố vào năm 1982 Liên minh Viễn thông quốc tế - lĩnh vực thông tin vô tuyến (trước CCIR) nhằm khuyến nghị việc chuyển đổi tín hiệu video tương tự sang tín hiệu video số Theo khuyến nghị này, trước tín hiệu video mã hóa, số đường qt tích cực theo hướng dọc, ngang khung hình video tương tự giảm xuống nửa Dạng tín hiệu video gọi SIF (Source Input Format) Với tiêu chuẩn châu Âu, độ phân giải ảnh SIF 360 pixel dòng, 288 dòng khung hình 25 khung hình giây Với tiêu chuẩn Bắc Mỹ, tham số tương ứng 360, 240 30 Trong định dạng SIF, người ta phân loại số định dạng tùy theo tỷ lệ số pixel kênh chói số pixel kênh màu dòng Nếu số pixel kênh chói gấp đơi số pixel kênh màu ta có định dạng SIF 4:2:2 Nếu pixel kênh chói ta có pixel kênh màu định dạng SIF 4:2:0 Hình 5.21 mô tả tỷ lệ số lượng pixel kênh chói kênh màu Y pixel Cb pixel C r pixel Hình 21 Tỷ lệ lấy mẫu kênh màu định dạng SIF 114 b Định dạng CIF Trong ứng dụng truyền hình hội nghị, mã hóa video xử lý hai loại nguồn tín hiệu video theo tiêu chuẩn Châu Âu (625 dòng, 50Hz) tiêu chuẩn Bắc Mỹ (525 dòng, 60Hz) Để làm điều này, video nguồn trước tiên phải chuyển thành định dạng chung gọi định dạng CIF (Common Intermediate Format) Cả hai chuẩn Châu Âu Bắc Mỹ có số pixel dịng 720 Vì định dạng chung, độ phân giải theo chiều ngang 360 pixel/dòng Theo tiêu chuẩn châu Âu 625/50, số dịng qt tích cực 576 dịng nên tiêu chuẩn chung 288 dòng Theo tiêu chuẩn Bắc Mỹ 525/60, tần số quét 60Hz nên tiêu chuẩn chung, tần số quét 30Hz Tóm lại, kênh chói định dạng CIF, dịng có 360 pixel, khung hình có 288 dịng tốc độ khung hình 30 hình/giây Trong kênh màu, dịng có 180 pixel, 144 dịng khung hình tốc độ khung hình 30 hình/giây c Sub-QCIF, QSIF, QCIF Trong dịch vụ truyền hình qua mạng di động hay thoại video, tốc độ khung hình yêu cầu cần 15, 10 7.5 hình/giây Để cân độ phân giải theo không gian thời gian, định dạng SIF CIF phải giảm độ phân giải theo không gian xuống nửa Khi đó, định dạng tương ứng gọi QSIF (Quarter-SIF) QCIF (Quarter-CIF) Một vài ứng dụng truyền hình qua mạng di động chí u cầu định dạng ảnh có kích thước bé QCIF QSIF Định dạng gọi Sub-QCIF với kích thước ảnh 128x96, tốc độ khung hình hình/giây d HDTV HDTV viết tắt High Definition TV, có nghĩa tiêu chuẩn truyền hình độ nét cao để phân biệt với tiêu chuẩn truyền hình có độ nét chuẩn (SDTV) Trong tiêu chuẩn HDTV, độ phân giải hình ảnh 720p, 1080i/p 720p độ phân giải thấp số độ phân giải coi HD, với kích thước hình ảnh quy định 1280x720 Độ phân giải phù hợp với chuẩn ảnh rộng (16:9) dần trở thành tiêu chuẩn, thay cho chuẩn hình ảnh tỉ lệ 4:3 So với độ phân giải chuẩn CCIR-601(720x480) gia tăng đột biến số lượng điểm ảnh thị hình mang lại hình ảnh chi tiết nhiều lần so với trước 1080i đời thời điểm với 720p Tuy mang độ phân giải hiển thị 1960x1080 độ phân giải phải hiển thị với phương thức đan xen (1080i có nghĩa 1080 dịng qt đan xen) nên số trường hợp hình ảnh mang lại chi tiết so với 720p 1080p tiêu chuẩn có độ phân giải lớn thời điểm thuộc chuẩn hình ảnh HD Tuy nhiên độ phân giải ứng dụng phương thức hiển thị quét (Progressive Scan) mức độ trung thực hình ảnh mang lại lớn 115 e Ultra HDTV Tiêu chuẩn Ultra HDTV hay gọi chuẩn 4K bao gồm hai độ phân giải độ nét cao: 3840 x 2160 pixel 4096 x 2160 pixel 4K hiểu độ phân giải cao gấp bốn lần so với độ phân giải độ nét cao full HD - 1080p (1920x1080 pixel) - tiêu chuẩn độ phân giải cao Hiện tại, 4K thức định cho sản phẩm tiêu dùng Ultra HD Ultra High Definition, tùy vào thời điểm lĩnh vực, chẳng hạn môi trường chuyên nghiệp thương mại 4K x 2K, Quad High Definition, 2160p 4K 1080p 2K 720p DVD VCD Hình 22 So sánh tương quan kích thước hình ảnh chuẩn video Độ phân giải 4K sử dụng ngày nhiều máy quay phim điện ảnh kỹ thuật số thương mại sử dụng tùy chọn độ phân giải 4096 x 2160 ảnh điểm, nhiều nhiều phim điện ảnh quay sử dụng master với định dạng 4K, upscaled từ 2K (1998x1080 tỉ lệ khung hình 1.85:1 / 2048 x 858 tỉ lệ khung hình 2.35:1) Ngồi ra, 4K, tên tiêu dùng thức Ultra HD, bắt đầu triển khai vào mơi trường rạp hát gia đình, cách sử dụng tùy chọn 3840 x 2160 điểm ảnh khả upscaling chất lượng video lên 4K, số TV 3D máy chiếu video 3D 5.6 Một số chuẩn mã hóa Hầu hết ứng dụng video hỗ trợ vài chuẩn nén quốc tế Trên giới có hai tổ chức đưa tiêu chuẩn cho mã hóa video Tổ chức Viễn thông quốc tế (International Standards Organisation – ISO) Hiện hội Viễn thông quốc tế (International Telecommunications Union – ITU) Tiêu chuẩn ITU đưa tập trung vào ứng dụng video thời gian thực, ứng dụng thoại video Nhóm đưa tiêu chuẩn ITU có tên VCEG (Video Coding Experts Group) tiêu chuẩn đề xuất nhóm bao gồm: - H.261 (1990): Sử dụng cho ứng dụng thoại video qua kênh có tốc độ bit khơng đổi Ví dụ kênh ISDN với tốc độ kênh p x 64 kbps 116 - - - H.263 (1995): Sử dụng cho ứng dụng thoại video qua mạng chuyển mạch kênh mạng chuyển mạch gói với tốc độ bit thấp từ 20-30 kbps đến tốc độ cao vài Mbps H.263+ (1998), H.263++ (2001): Mở rộng chuẩn H.263 có hiệu suất nén cao để hỗ trợ ứng dụng thoại video qua mạng mạng mạng chuyển mạch kênh chuyển mạch gói H.26L: Sử dụng cho ứng dụng giao tiếp video qua kênh có tốc độ bit từ 20 kbps đến kênh có tốc độ bit cao Cùng với ITU, ISO đưa số chuẩn nén hỗ trợ lưu trữ ứng dụng video Có hai nhóm ISO tham gia vào việc đề xuất chuẩn: JPEG (Joint Photographic Experts Group) MPEG (Moving Picture Expert Group) - - JPEG (1992): Sử dụng cho việc nén ảnh tĩnh MPEG-1 (1993): Sử dụng cho nén video audio để lưu trữ đĩa CDROM (tốc độ bit 1.4 Mbps) MPEG-2 (1995): MPEG-4 (1998): Sử dụng cho ứng dụng thiết bị đầu cuối đa phương tiện để nén truyền video audio qua mạng với tốc độ bit từ 2030kbps cao JPEG-2000 (2000): Sử dụng cho việc nén ảnh tĩnh có hiệu suất cao JPEG Sau đề xuất chuẩn nén MPEG-4, nhóm MPEG đưa tiếp hai tiêu chuẩn MPEG-7 MPEG-21 khung làm việc cho ứng dụng đa phương tiện: - - MPEG-7: Giao diện mô tả nội dung đa phương tiện Đây tiêu chuẩn mô tả kiểu liệu đa phương tiện cho ứng dụng truy cập thông tin đa phương tiện chế cho việc mã hóa nén video MPEG-7 đưa vào năm 2001 MPEG-21: Khung làm việc đa phương tiện MPEG-21 định nghĩa phần tử bao gồm mô tả nội dung, xử lý nội dung, quản lý nội dung, mạng thiết bị đầu cuối mạng đa phương tiện Mục đích MPEG-21 tích hợp công nghệ để tạo ra, phân phối giải mã liệu đa phương tiện MPEG-21 đưa đưa vào năm 2000 Vào năm 2003, đời chuẩn H.264/MPEG-4 Part 10 hay gọi AVC (Advanced Video Coding) đánh dấu hợp tác hiệu hai nhóm VCEG MPEG Mục đích dự án H.264/AVC tạo tiêu chuẩn có khả cung cấp video có chất lượng tốt với tốc độ bit thấp đáng kể so với tiêu chuẩn trước MPEG-2, MPEG-4, H.263, mà không làm tăng phức tạp hệ thống Các ứng dụng H.264/AVC bao gồm: - Truyền hình quảng bá qua mạng cáp, vệ tinh, mạng IP 117 - Ứng dụng tương tác lưu trữ phương tiện đĩa quang, đĩa từ, DVD,… Dịch vụ thoại video qua ISDN, Ethernet, LAN, DSL, vô tuyến mạng di động Dịch vụ VoD hay dịch vụ đa phương tiện qua mạng cáp, DSL, ISDN, LAN mạng di động Dịch vụ nhắn tin đa phương tiện qua mạng IP Hình 2.49 mơ tả tóm tắt chuẩn hai tổ chức ISO ITU đưa ISO JPEG JPEG JPEG-2000 ITU VCEG MPEG MPEG-1 MPEG-2 MPEG-4 MPEG-7 MPEG-21 H.264/ MPEG-4 Part 10 H.261 H.263 H.26L Hình 23 Một số tiêu chuẩn mã hóa Video 118 TÀI LIỆU THAM KHẢO [1] Rafael C Gonzalez, Richard E Woods Digital Image Processing Nhà xuất Pearson Education, ISBN: 81-7808-629-8, 2010 [2] Mohammed Ghanbari Video coding – an introduction to standard codecs Nhà xuất Viện Kỹ thuật điện tử, London, United Kingdom, 1999 [3] PGS TS Lê Thanh Hà Giáo trình xử lý ảnh Nhà xuất Đại học Quốc gia Hà nội, 2015 [4] Iain E G Richardson H264 And Mpeg-4 Video Compression - Video Coding for Next-generation Multimedia Nhà xuất John Wiley & Sons, 2003 119 ... xử lý ảnh số máy tính kỹ thuật số Xử lý ảnh số nhằm làm thay đổi chất ảnh số Xử lý ảnh số tập trung vào hai mục đích là: (1) cải thiện thơng tin hình ảnh để tăng khả cảm nhận người (2) xử lý. .. ảnh màu mơ tả hình 1.5 15 Hình Ảnh màu 1.5 Các giai đoạn trình xử lý ảnh Sẽ hữu ích chia q trình xử lý ảnh đề cập giảng thành hai phần: phương pháp mà đầu vào đầu ảnh phương pháp mà đầu vào ảnh. .. ảnh điểm Nếu x, y giá trị f đại lượng rời rạc hữu hạn ảnh gọi ảnh số Một ảnh số gồm hữu hạn thành phần gọi điểm ảnh hay pixel, điểm ảnh có vị trí giá trị cụ thể Xử lý ảnh số nói đến q trình xử

Định dạng
Số trang	119
Dung lượng	5,45 MB