Mô tả kiểu CIF và QCIF

Kiểu Số GOB/khung Số MB/GOB Tổng MB/khung

CIF 12 33 396

QCIF 3 33 99

Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các GOB. Mỗi header chữa dữ liệu là dạng ảnh và số khung. Cấu trúc của một MB như sau:

MBA MTYPE MQUANT MVD CBP Block Data MBA: Địa chỉ, MTYPE: Dạng Intra, Inter

MQUANT: Hệ số lượng tử, MVD: Vector chuyển động CBP: Mẫu khối đã mã hóa, Block Data: Dữ liệu

Intra Frame: Trong khung, Khung I cho khả năng truy cập ngẫu nhiên, kiểu nén intra tương tự như JPEG dựa trên mã hóa DCT từng MB.

Inter Frame: Liên khung, liên hệ với các khung I và P trước, MB đầu có thể bù chuyển động (MC – Motion Compensation) hoặc không. Cung cấp các tùy chọn cho từng MB như lượng tử với các hệ số lượng tử và sử dụng bộ lọc bù chuyển động.

Chuẩn Video H.263

Khái niệm:

H.263 là tiêu chuẩn cải tiến của H.261 cho Video tốc độ thấp, có thể truyền trên mạng điện thoại công cộng PSTN, được công nhận năm 1996. Giống như H.261, mã hóa DCT cho các MB trong I Frame và DCT sai biệt dự đoán trong P Frame, tốc độ tối thiểu.

Ưu điểm:

 Chính xác sai biệt dự đoán với ½ điểm ảnh  Không hạn chế vector chuyển động

 Mã hóa số học theo cú pháp

 Dự đoán thuận lợi với các khung P,…

Chuẩn Video MPEG-1

MPEG-1 là một chuẩn được phát triển và thừa nhận năm 1992 để lưu trữ Video dạng CIF và kết hợp với audio khoảng 1.5 Mbps trên nhiều môi trường lưu trữ số khác nhau như CD-ROM, DAT, Winchester, đĩa quang với ứng dụng chính là các hệ thống đa phương tiện trực tuyến.

MPEG-1 có các đặc tính sau:

 Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ước lượng chuyển động, dự đoán bù chuyển động, dùng thuật toán mã hóa rời rạc cosine DCT

 Không định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ mã hóa linh hoạt

 Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị, tốc độ khác nhau

 Truy cập ngẫu nhiên dựa trên các điểm truy cập độc lập (khung I)

 Tìm nhanh xem như quét dòng bit mã hóa, chỉ hiển thị các khung được chọn

 Trễ mã hóa và giải mã hợp lí (1s), gây ấn tượng tốt cho truy cập video đơn công.

MPEG-1 chỉ xét các tín hiệu Video lũy tiến. Sử dụng không gian màu (Y, Cr, Cb) đã được thừa nhận theo kiến nghị CCIR 601. Trong SIF (Standard Input Format) MPEG kênh chí là 352 pixel x 240 dòng và 30 khung hình/s.

Sau đây là một số ràng buộc đối với MPEG-1:

Bảng 1.3. Một số ràng buộc của MPEG-1

Số pixel lớn nhất trên một dòng 720 Số dòng lớn nhất trên một ảnh 576 Số ảnh trong một giây 30 Số MB trên một ảnh 396 Số MB trên một giây 9900 Tốc độ bit tối đa 1.86 Mbps Kích thước bộ đệm giải nén tối đa 376.832 bits

Cấu trúc dữ liệu của chuẩn MPEG-1

Cấu trúc dữ liệu gồm 6 lớp, cho phép bộ giải mã hiểu được những tín hiệu chưa xác định.

1. Các chuỗi được định dạng bởi một vài nhóm ảnh GOP (Group of Picture)

2. Nhóm ảnh tạo nên ảnh, nhóm ảnh được xác định bởi hai thông số m và n. Thông số m xác định số khung hình P và khung hình B xuất hiện giữa hai khung hình I gần nhau nhất. Số n xác định số khung hình B giữa hai khung P

3. Ảnh bao gồm các phần (Slice). Có 4 dạng ảnh tương ứng với các kiểu nén đó là ảnh I, ảnh P, B và D.

Trong đó, ảnh I là ảnh được mã hóa DCT trong khung sử dụng thuật toán giống như mã hóa ảnh JPEG. Chúng cho phép các điểm truy cập ngẫu nhiên đến chuỗi. Có hai dạng ảnh được mã hóa liên khung là ảnh P và ảnh I. Các ảnh này mã hóa DCT bù chuyển động sai biệt dự đoán. Chỉ có việc dự đoán tới là được sử dụng trong kiểu ảnh P, là các ảnh được mã hóa liên quan đến ảnh I và ảnh P trước đó. Sự dự đoán trong ảnh B có thể là tới hoặc lùi hoặc liên hệ hai chiều tới các ảnh I hoặc P khác. Các ảnh D chỉ

chứa các thành phần DC trong mỗi khối với mục đích cho các tốc độ bít rất thấp. Số khung hình I, P và B trong một GOP được áp dụng một cách phụ thuộc, tùy thuộc vào thời gian truy cập và tốc độ bit yêu cầu.

Ví dụ: Một GOP như hình vẽ được kết hợp bởi 9 ảnh. Chú ý khung ảnh đầu của mỗi GOP luôn là một ảnh I. Trong MPEG, trật tự trong các ảnh không cần thiết giống nhau theo thứ tự liên tiếp. Nghĩa là thứ tự truyền ảnh và thứ tự ảnh hiện lên màn hình là không giống nhau. Ảnh trong hình vẽ có thể được mã hóa trong một trật tự như sau: 0, 4, 1, 2, 3, 8, 5, 6, 7.

Hình 1.11. Nhóm ảnh trong MPEG-1

4. Các phần (slice) được tạo bởi các MB. Chúng được đưa ra với mục đích nhằm khôi phục lỗi.

5. Sự kết hợp các MB là tương tự như trong H.261. Một vài tham số nén có thể được mang trong MB cơ sở.

I: Nội suy (hai hướng); B: Lùi A: Thích ứng; F: Tới D: Sai biệt dự đoán

6. Các khối là các mảng 8x8 pixel. Chúng là một đơn vị DCT nhỏ nhất. Các tiêu đề được định nghĩa cho các chuỗi, GOB, ảnh, phần, và các MB để xác định duy nhất dữ liệu sau nó.

Bảng 1.4. Các tham số có trong MB cơ sở

Ảnh I Ảnh P Ảnh B

Intra Intra Intra Intra-A Intra-A Intra-A

Inter-D Inter-F Inter-DA Inter-FD Inter-F Inter-FDA Inter-Fd Inter-B Inter-FDA Inter-BD Skipped Inter-BDA Inter-I Inter-ID Inter-IDA Skipped

Chuẩn Video MPEG-2

MPEG-2 là một phiên bản mở rộng của MPEG-1 để cung cấp phạm vi rộng các ứng dụng với tốc độ bit và các độ phân giải khác nhau (2-20Mbps)

Chuẩn Video MPEG-4

Phiên bản 1: tháng 8/1998 Phiên bản 2: tháng 12/1999

MPEG-4 phát triển cho tốc độ bit rất thấp: 4.8 đến 68 kbps, tuy nhiên sau đó đã nâng tốc độ lên đáng kể.

- Video: 5kbps đến 10 Mbps - Audio: 2kbps đến 64 kbps

Dạng chuẩn này nhằm hỗ trợ phát triển riêng cho các đối tượng khác nhau tạo khả năng thích nghi, linh động để cải thiện chất lượng của các dịch vụ như: tivi số, đồ họa trình diễn, World Wide Web và các mở rộng của chúng.

Chuẩn Video MPEG-7

MPEG-7 đề xuất cho việc tìm kiếm, chọn lựa, quản lý và phân tích thông tin đa phương tiện, không tập trung vào một ứng dụng cụ thể, không phải là một tiêu chuẩn mã hóa thực sự cho Audio, Video hay multimedia.

MPEG-7 cũng là một dạng phát triển lên từ phiên bản của MPEG-1 và nó đang được phát triển.

1.2.2.3 Thuật toán chuyển đổi Cosine rời rạc trong nén ảnh (Descrete Cosine Transform - DCT) (Descrete Cosine Transform - DCT)

Mô hình DCT như sau:

Hình 1.12. Mô hình DCT cho khối 8x8

DCT thuận: ) , ( 16 ). 1 2 ( cos . 7 0 7 0 16 ). 1 2 ( cos 4 ) ( ) ( ) , ( j v f i j i j u i v u v u F                  ra ngoài cho 1 0 2 1 ) (  DCT nghịch: ) , ( 16 ). 1 2 ( cos . 7 0 7 0 16 ). 1 2 ( cos ) ( ) ( 4 1 ) , ( j v F u v u v u i v u j i f                  ra ngoài cho 1 0 2 1 ) ( 

DCT làm giảm độ tương quan không gian của thông tin trong khối, biểu diễn DCT có độ dư thừa thông tin ít hơn. Đồng thời, DCT chứa thông tin về nội dung tần số không gian của thông tin trong khối, dựa vào đặc tính sinh lý thị giác, ta chỉ mã hóa những hệ số DCT quan trọng [13].

1.2.2.4 Bù chuyển động

Sự dịch chuyển tọa độ tương đối của các đối tượng trong các khung hình liên tục là hiệu quả tạo ra sự chuyển động. Do đó, việc tính toán sự chuyển vị của các đối tượng trong ảnh là yếu tố quan trọng của kỹ thuật chế biến ảnh động. Đặc điểm của nén liên ảnh là làm xấp xỉ, bù chuyển động và nén trong ảnh; ý tưởng đó xây dựng nên mô hình nén liên ảnh như trong hình bên dưới. Ngoài sự thay đổi vị trí toạ độ, sự thay đổi về cường độ sáng của đối tượng ảnh từ khung ảnh này tới khung ảnh khác cũng tạo nên ảnh chuyển động. Trong kĩ thuật bù chuyển động, khung ảnh hiện hành được dự báo từ khung ảnh kế trước bằng cách làm xấp xỉ chuyển động giữa hai khung ảnh và bù chuyển động đó. Sự khác nhau giữa khung ảnh hiện hành và khung ảnh dự báo được gọi là phần dư thừa bù chuyển động; và kỹ thuật nén liên ảnh chính là đưa vào việc mã hoá phần dư thừa bù chuyển động này.

Hình 1.13. Mô hình nén liên ảnh

Cường độ chói màu của ảnh còn gọi là năng lượng hiển thị hình ảnh. Đối với ảnh động, đặc trưng về năng lượng ảnh của phần dư thừa bù chuyển động thấp hơn nhiều so với ảnh gốc. Do đó, việc mã hoá phần dư thừa thay vì mã hoá cả xâu ảnh video nên đã giúp tránh được phần dư thừa này bị mã hoá lặp nhiều lần. Như vậy, việc xác định phần ảnh động để làm xấp xỉ chuyển động là quá trình khôi phục một ảnh bằng cách dùng các phần ảnh trong khung ảnh trước đó cùng với các thông tin về chuyển động của khung ảnh này chính là công việc bù chuyển động. Sự đánh giá chuyển động của ảnh có thể thực hiện trên toàn khung ảnh: người ta chia mỗi khung ảnh thành các ô mẫu nhỏ (thường lấy 8x8 pixel/1ô), sau đó đánh giá chuyển động của từng ô. Hình sau minh hoạ chuyển động chiếc xe máy kéo với một cặp khung ảnh liền kề từ xâu ảnh động để đánh giá ô nào biểu diễn phần ảnh tĩnh và ô nào biểu diễn phần ảnh động. Việc đánh giá này dẫn tới hai vấn đề:

1. Phải xác định biên và khoảng dịch chuyển của vùng ảnh chuyển động giữa hai khung ảnh.

2. Phải xác định cái gì được điền vào không gian trống do vùng ảnh đã chuyển động.

Hình 1.14. Khảo sát ô mẫu pixel của ảnh chuyển động

Phép xấp xỉ và bù chuyển động chính là giải quyết hai yêu cầu nêu ở trên trong hệ thống mã hoá nén và giải mã nén: đầu tiên bộ giải mã phải lưu khung ảnh 1 trong khi tạo lại khung ảnh tiếp theo (khung ảnh 2); khi bộ mã hoá thực hiện mã hoá khung ảnh 2 thì đồng thời phải tạo lại mỗi ảnh (sau khi mã hoá nó) để dự báo cho bộ giải mã tạo lại ảnh này (khung ảnh 2) vì bộ giải mã không có chức năng tạo lại các ô mẫu bù chuyển động.

Phương pháp dự đoán để tìm ra các chi tiết ảnh thay thế giữa hai khung ảnh liền kề và tạo ra một vector chuyển động chỉ rõ vị trí mới của đối tượng ảnh chuyển động được nêu như ở trong hình sau. Ở đó, vector chuyển động sẽ phối hợp với các ô ở trong biên biểu diễn vùng chuyển động được mã hoá trước đó để lặp lại các ô này tại vị trí mới của ảnh. Các ô mẫu ở vị trí hiện tại sẽ phối hợp trong số các ô của khung ảnh trước đó, sử dụng chúng như là thành phần dự đoán trong bảng mã hoá đã được thiết lập trước đó: thành phần dự đoán này được lấy từ đầu vào của khung ảnh trước để tạo ra một khung dự đoán có sai số thông tin nhỏ. Sai lệch giữa ô hiện tại và ô dự đoán của nó trong khung ảnh trước sẽ tạo ra ô mẫu dự đoán bù chuyển động.

Khung ảnh 1

Hình 1.15. Mô tả vector chuyển động giữa hai khung ảnh kế cận nhau

Vùng tìm kiếm được xác định nằm trong biên của vùng ảnh có chứa các ô mẫu ảnh chuyển động của khung ảnh hiện tại, nó bao phủ cả vị trí hiện tại và vị trí trước đó của ô mẫu chuyển động đang khảo sát. Kích thước của vùng tìm kiếm được quyết định bởi độ phức tạp của quá trình phối hợp ô mẫu ảnh chuyển động của vị trí trước và vị trí hiện tại, thường vùng này lấy kích thước 16x16 hay 24x24 pixel.

Để giảm thiểu công việc nặng nhọc của quá trình xác định vector chuyển động, người ta có thể xử lý ảnh động theo các bước:

i. Bước xử lý thô: Đầu tiên, giảm độ phân giải của ảnh xử lý, chẳng hạn ảnh 720x480 giảm xuống 360x240 (pixel); khi đó số bit cần xử lý giảm nhiều và vùng dự đoán trở nên lớn hơn, do đó ảnh dự đoán chuyển động mức thô xác định được nhanh hơn.

ii. Bước xử lý tinh: Sau khi có ảnh dự đoán thô, người ta tiến hành phép dự đoán vector chuyển động chính xác bằng cách xác định vị trí chính xác của các đối tượng chuyển động giữa hai khung ảnh với độ phân giải 720x480.

Chương 2:- CÁC KỸ THUẬT ĐÁNH GIÁ VẬN ĐỘNG CỦA ĐỐI TƯỢNG TRONG VIDEO

2.1 Kỹ thuật bắt đối tượng chuyển động

Đối với ảnh chuyển động, người ta tiến hành trừ hai ảnh quan sát được tại hai thời điểm khác nhau. Trong trường hợp này, phần ảnh không thay đổi sẽ nhận giá trị không, những phần thay đổi sẽ nhận giá trị dương hay âm tương ứng với thay đổi hay dịch chuyển. Như vậy việc trừ ảnh thực ra là một xấp xỉ của đạo hàm theo thời gian của ảnh. Thực vậy, giả sử I(t) và I(t+) là hai ảnh quan sát được ở thời điểm t và t+.

Nếu thời gian quan sát  là nhỏ, ta sẽ nhận được xấp xỉ của đạo hàm một cách trực tiếp:  ) ( ) (t I t I t I      ,

Với cách tính này ta có thể biết được vận tốc dịch chuyển của ảnh.

Từ kĩ thuật trừ ảnh này ta có thể xác định sự xuất hiện của những đối tượng mới (tín hiệu dương) hay sự biến mất của các đối tượng trong ảnh trước (tín hiệu âm). [2]

2.1.1 Kỹ thuật trừ ảnh

Phép toán trừ ảnh có thể hữu dụng đặc biệt khi ảnh a trình bày một vùng quan tâm mà chúng ta muốn phân tích tự động và ảnh b trình bày đố tượng đó, ảnh này đã được phân tích, từ đây ta có thể tiến hành đánh giá và trích xuất đối tượng bằng cách tiến hành phép toán trừ hai ảnh cho nhau. Phép toán này được thực hiện trên lược đồ mức xám của điểm ảnh (mỗi ảnh được hiểu như là một ma trận hai chiều mang các thông tin về giá trị điểm ảnh).

Với hai ảnh đầu vào là ảnh A và ảnh B, phép toán trừ điểm ảnh sẽ cho ra ảnh thứ 3 là ảnh kết quả của phép toán trừ ảnh. Kết quả này được thực hiện thông qua việc trừ lần lượt các giá trị của từng điểm ảnh tương ứng vị trí trên hai ảnh với nhau. Bên cạnh việc thực hiện trừ ảnh với đầu vào là hai ảnh và đầu ra là ảnh kết quả, phép toán trừ ảnh còn được thực hiện thông qua một ảnh đầu vào và kết quả cho ta một ảnh đầu ra bằng cách trừ ảnh cho một hằng số C nào đó cho tất cả các điểm ảnh có trong ảnh.

Phép toán trừ hai ảnh được thực hiện dễ dàng thông qua công thức sau, với giá trị điểm ảnh đầu ra là:

Q(i,j)=A(i,j)-B(i,j)

Hoặc phép toán này dùng để tính toán sai khác tuyệt đối giữa hai ảnh đầu vào như sau:

Q=|A(i,j)-B(i,j)|

Hoặc một yêu cầu đơn giản trong việc trừ cho một hằng số C từ một ảnh đã cho được thực hiện theo công thức sau:

Q=A(i,j)-C

Nếu ảnh đầu vào là ảnh có nhiều thành phần màu (R, G, B) thì việc trừ ảnh sẽ được thực hiện một cách đơn giản và riêng biệt trên từng thành phần màu để cho ra kết

Các dạng chuẩn và kiến trúc của Video

Phương pháp đánh giá vận động toàn diện