1.2.2.1 Video tương tự
NTSC Video: Đây là dạng Video tương tự với 525 dòng trên một khung hình,
30 khung hình trong một giây, quét cách dòng, chia làm hai trường (mỗi trường 262.5 dòng), có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm bắt đầu mỗi trường.
PAL Video: Dạng Video này có 625 dòng trên một khung hình, 25 khung hình
trong một giây, quét cách dòng. Khung gồm hai trường chẳn lẽ, mỗi trường bào gồm 312.5 dòng.
1.2.2.2 Video số
Một số tiêu chuẩn của Video số lấy theo tiêu chuẩn CCIR (Consultative Committee for International Radio)
Bảng1.1. Các tiêu chuẩn của Video số
CCIR 601525/60
NTSC
CCIR 601625/50
PAL/SECAM CIF QCIF
Độ phân giải
độ chói 720x480 360x576 352x288 176x144 Độ phân giải
màu sắc 360x480 360x576 176x144 88x72 Lẫy mẫu màu 4:2:2 4:2:2 4:2:0 4:2:0 Số trường /s 60 50 30,15,10,7.5 30,15,10,7.5 Cách quét Cách dòng Cách dòng Liên tục Liên tục
Chuẩn Video H.261
H.261 được phát triển cho dịch vụ truyền hình hội nghị và Video phone qua ISDN ở tốc độ px64kbps/s (p=1, 2, …,30), H.261 làm cơ sở cho các chuẩn nén sau này như MPEG 1, 2.
H.261 sử dụng dạng thức trung gian CIF (Common Intermediate Format) với các tốc độ bit thấp hơn, nó sử dụng dạng có tốc độ nhỏ hơn ¼ là QCIF (Quadrature).
Với tốc độ 30 khung hình/s thì tốc độ dữ liệu của CIF là 37.3 Mbps, QCIF là 9.35 Mbps. Tốc độ càng thấp thì càng giảm số khung hình/s.
Tín hiệu video được phân thành các lớp, mỗi lớp đều có các header để định nghĩa các tham số được sử dụng bởi bộ mã hóa khi tạo dòng bit. Lớp ảnh được phân thành các nhóm khối GOB (Group of Block), các GOB bao gồm các MB (MacroBlock). MB là đơn vị nhỏ nhất bao gồm 4 khối 8x8 của tín hiệu Y và hai khối 8x8 của tín hiệu sắc.
Hình 1.9. MacroBlock
Lớp GOB luôn được kết hợp của 33 MB hợp thành ma trận 3x11. Mỗi MB có một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối
Bảng 1.2. Mô tả kiểu CIF và QCIF
Kiểu Số GOB/khung Số MB/GOB Tổng MB/khung
CIF 12 33 396
QCIF 3 33 99
Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các GOB. Mỗi header chữa dữ liệu là dạng ảnh và số khung. Cấu trúc của một MB như sau:
MBA MTYPE MQUANT MVD CBP Block Data MBA: Địa chỉ, MTYPE: Dạng Intra, Inter
MQUANT: Hệ số lượng tử, MVD: Vector chuyển động CBP: Mẫu khối đã mã hóa, Block Data: Dữ liệu
Intra Frame: Trong khung, Khung I cho khả năng truy cập ngẫu nhiên, kiểu nén intra tương tự như JPEG dựa trên mã hóa DCT từng MB.
Inter Frame: Liên khung, liên hệ với các khung I và P trước, MB đầu có thể bù chuyển động (MC – Motion Compensation) hoặc không. Cung cấp các tùy chọn cho từng MB như lượng tử với các hệ số lượng tử và sử dụng bộ lọc bù chuyển động.
Chuẩn Video H.263
Khái niệm:
H.263 là tiêu chuẩn cải tiến của H.261 cho Video tốc độ thấp, có thể truyền trên mạng điện thoại công cộng PSTN, được công nhận năm 1996. Giống như H.261, mã hóa DCT cho các MB trong I Frame và DCT sai biệt dự đoán trong P Frame, tốc độ tối thiểu.
Ưu điểm:
Chính xác sai biệt dự đoán với ½ điểm ảnh Không hạn chế vector chuyển động
Mã hóa số học theo cú pháp
Dự đoán thuận lợi với các khung P,…
Chuẩn Video MPEG-1
MPEG-1 là một chuẩn được phát triển và thừa nhận năm 1992 để lưu trữ Video dạng CIF và kết hợp với audio khoảng 1.5 Mbps trên nhiều môi trường lưu trữ số khác nhau như CD-ROM, DAT, Winchester, đĩa quang với ứng dụng chính là các hệ thống đa phương tiện trực tuyến.
MPEG-1 có các đặc tính sau:
Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ước lượng chuyển động, dự đoán bù chuyển động, dùng thuật toán mã hóa rời rạc cosine DCT
Không định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ mã hóa linh hoạt
Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị, tốc độ khác nhau
Truy cập ngẫu nhiên dựa trên các điểm truy cập độc lập (khung I)
Tìm nhanh xem như quét dòng bit mã hóa, chỉ hiển thị các khung được chọn
Trễ mã hóa và giải mã hợp lí (1s), gây ấn tượng tốt cho truy cập video đơn công.
MPEG-1 chỉ xét các tín hiệu Video lũy tiến. Sử dụng không gian màu (Y, Cr, Cb) đã được thừa nhận theo kiến nghị CCIR 601. Trong SIF (Standard Input Format) MPEG kênh chí là 352 pixel x 240 dòng và 30 khung hình/s.
Sau đây là một số ràng buộc đối với MPEG-1:
Bảng 1.3. Một số ràng buộc của MPEG-1
Số pixel lớn nhất trên một dòng 720 Số dòng lớn nhất trên một ảnh 576 Số ảnh trong một giây 30 Số MB trên một ảnh 396 Số MB trên một giây 9900 Tốc độ bit tối đa 1.86 Mbps Kích thước bộ đệm giải nén tối đa 376.832 bits
Cấu trúc dữ liệu của chuẩn MPEG-1
Cấu trúc dữ liệu gồm 6 lớp, cho phép bộ giải mã hiểu được những tín hiệu chưa xác định.
1. Các chuỗi được định dạng bởi một vài nhóm ảnh GOP (Group of Picture)
2. Nhóm ảnh tạo nên ảnh, nhóm ảnh được xác định bởi hai thông số m và n. Thông số m xác định số khung hình P và khung hình B xuất hiện giữa hai khung hình I gần nhau nhất. Số n xác định số khung hình B giữa hai khung P
3. Ảnh bao gồm các phần (Slice). Có 4 dạng ảnh tương ứng với các kiểu nén đó là ảnh I, ảnh P, B và D.
Trong đó, ảnh I là ảnh được mã hóa DCT trong khung sử dụng thuật toán giống như mã hóa ảnh JPEG. Chúng cho phép các điểm truy cập ngẫu nhiên đến chuỗi. Có hai dạng ảnh được mã hóa liên khung là ảnh P và ảnh I. Các ảnh này mã hóa DCT bù chuyển động sai biệt dự đoán. Chỉ có việc dự đoán tới là được sử dụng trong kiểu ảnh P, là các ảnh được mã hóa liên quan đến ảnh I và ảnh P trước đó. Sự dự đoán trong ảnh B có thể là tới hoặc lùi hoặc liên hệ hai chiều tới các ảnh I hoặc P khác. Các ảnh D chỉ
chứa các thành phần DC trong mỗi khối với mục đích cho các tốc độ bít rất thấp. Số khung hình I, P và B trong một GOP được áp dụng một cách phụ thuộc, tùy thuộc vào thời gian truy cập và tốc độ bit yêu cầu.
Ví dụ: Một GOP như hình vẽ được kết hợp bởi 9 ảnh. Chú ý khung ảnh đầu của mỗi GOP luôn là một ảnh I. Trong MPEG, trật tự trong các ảnh không cần thiết giống nhau theo thứ tự liên tiếp. Nghĩa là thứ tự truyền ảnh và thứ tự ảnh hiện lên màn hình là không giống nhau. Ảnh trong hình vẽ có thể được mã hóa trong một trật tự như sau: 0, 4, 1, 2, 3, 8, 5, 6, 7.
Hình 1.11. Nhóm ảnh trong MPEG-1
4. Các phần (slice) được tạo bởi các MB. Chúng được đưa ra với mục đích nhằm khôi phục lỗi.
5. Sự kết hợp các MB là tương tự như trong H.261. Một vài tham số nén có thể được mang trong MB cơ sở.
I: Nội suy (hai hướng); B: Lùi A: Thích ứng; F: Tới D: Sai biệt dự đoán
6. Các khối là các mảng 8x8 pixel. Chúng là một đơn vị DCT nhỏ nhất. Các tiêu đề được định nghĩa cho các chuỗi, GOB, ảnh, phần, và các MB để xác định duy nhất dữ liệu sau nó.
Bảng 1.4. Các tham số có trong MB cơ sở
Ảnh I Ảnh P Ảnh B
Intra Intra Intra Intra-A Intra-A Intra-A
Inter-D Inter-F Inter-DA Inter-FD Inter-F Inter-FDA Inter-Fd Inter-B Inter-FDA Inter-BD Skipped Inter-BDA Inter-I Inter-ID Inter-IDA Skipped
Chuẩn Video MPEG-2
MPEG-2 là một phiên bản mở rộng của MPEG-1 để cung cấp phạm vi rộng các ứng dụng với tốc độ bit và các độ phân giải khác nhau (2-20Mbps)
Chuẩn Video MPEG-4
Phiên bản 1: tháng 8/1998 Phiên bản 2: tháng 12/1999
MPEG-4 phát triển cho tốc độ bit rất thấp: 4.8 đến 68 kbps, tuy nhiên sau đó đã nâng tốc độ lên đáng kể.
- Video: 5kbps đến 10 Mbps - Audio: 2kbps đến 64 kbps
Dạng chuẩn này nhằm hỗ trợ phát triển riêng cho các đối tượng khác nhau tạo khả năng thích nghi, linh động để cải thiện chất lượng của các dịch vụ như: tivi số, đồ họa trình diễn, World Wide Web và các mở rộng của chúng.
Chuẩn Video MPEG-7
MPEG-7 đề xuất cho việc tìm kiếm, chọn lựa, quản lý và phân tích thông tin đa phương tiện, không tập trung vào một ứng dụng cụ thể, không phải là một tiêu chuẩn mã hóa thực sự cho Audio, Video hay multimedia.
MPEG-7 cũng là một dạng phát triển lên từ phiên bản của MPEG-1 và nó đang được phát triển.
1.2.2.3 Thuật toán chuyển đổi Cosine rời rạc trong nén ảnh (Descrete Cosine Transform - DCT) (Descrete Cosine Transform - DCT)
Mô hình DCT như sau:
Hình 1.12. Mô hình DCT cho khối 8x8
DCT thuận: ) , ( 16 ). 1 2 ( cos . 7 0 7 0 16 ). 1 2 ( cos 4 ) ( ) ( ) , ( j v f i j i j u i v u v u F ra ngoài cho 1 0 2 1 ) ( DCT nghịch: ) , ( 16 ). 1 2 ( cos . 7 0 7 0 16 ). 1 2 ( cos ) ( ) ( 4 1 ) , ( j v F u v u v u i v u j i f ra ngoài cho 1 0 2 1 ) (
DCT làm giảm độ tương quan không gian của thông tin trong khối, biểu diễn DCT có độ dư thừa thông tin ít hơn. Đồng thời, DCT chứa thông tin về nội dung tần số không gian của thông tin trong khối, dựa vào đặc tính sinh lý thị giác, ta chỉ mã hóa những hệ số DCT quan trọng [13].
1.2.2.4 Bù chuyển động
Sự dịch chuyển tọa độ tương đối của các đối tượng trong các khung hình liên tục là hiệu quả tạo ra sự chuyển động. Do đó, việc tính toán sự chuyển vị của các đối tượng trong ảnh là yếu tố quan trọng của kỹ thuật chế biến ảnh động. Đặc điểm của nén liên ảnh là làm xấp xỉ, bù chuyển động và nén trong ảnh; ý tưởng đó xây dựng nên mô hình nén liên ảnh như trong hình bên dưới. Ngoài sự thay đổi vị trí toạ độ, sự thay đổi về cường độ sáng của đối tượng ảnh từ khung ảnh này tới khung ảnh khác cũng tạo nên ảnh chuyển động. Trong kĩ thuật bù chuyển động, khung ảnh hiện hành được dự báo từ khung ảnh kế trước bằng cách làm xấp xỉ chuyển động giữa hai khung ảnh và bù chuyển động đó. Sự khác nhau giữa khung ảnh hiện hành và khung ảnh dự báo được gọi là phần dư thừa bù chuyển động; và kỹ thuật nén liên ảnh chính là đưa vào việc mã hoá phần dư thừa bù chuyển động này.
Hình 1.13. Mô hình nén liên ảnh
Cường độ chói màu của ảnh còn gọi là năng lượng hiển thị hình ảnh. Đối với ảnh động, đặc trưng về năng lượng ảnh của phần dư thừa bù chuyển động thấp hơn nhiều so với ảnh gốc. Do đó, việc mã hoá phần dư thừa thay vì mã hoá cả xâu ảnh video nên đã giúp tránh được phần dư thừa này bị mã hoá lặp nhiều lần. Như vậy, việc xác định phần ảnh động để làm xấp xỉ chuyển động là quá trình khôi phục một ảnh bằng cách dùng các phần ảnh trong khung ảnh trước đó cùng với các thông tin về chuyển động của khung ảnh này chính là công việc bù chuyển động. Sự đánh giá chuyển động của ảnh có thể thực hiện trên toàn khung ảnh: người ta chia mỗi khung ảnh thành các ô mẫu nhỏ (thường lấy 8x8 pixel/1ô), sau đó đánh giá chuyển động của từng ô. Hình sau minh hoạ chuyển động chiếc xe máy kéo với một cặp khung ảnh liền kề từ xâu ảnh động để đánh giá ô nào biểu diễn phần ảnh tĩnh và ô nào biểu diễn phần ảnh động. Việc đánh giá này dẫn tới hai vấn đề:
1. Phải xác định biên và khoảng dịch chuyển của vùng ảnh chuyển động giữa hai khung ảnh.
2. Phải xác định cái gì được điền vào không gian trống do vùng ảnh đã chuyển động.
Hình 1.14. Khảo sát ô mẫu pixel của ảnh chuyển động
Phép xấp xỉ và bù chuyển động chính là giải quyết hai yêu cầu nêu ở trên trong hệ thống mã hoá nén và giải mã nén: đầu tiên bộ giải mã phải lưu khung ảnh 1 trong khi tạo lại khung ảnh tiếp theo (khung ảnh 2); khi bộ mã hoá thực hiện mã hoá khung ảnh 2 thì đồng thời phải tạo lại mỗi ảnh (sau khi mã hoá nó) để dự báo cho bộ giải mã tạo lại ảnh này (khung ảnh 2) vì bộ giải mã không có chức năng tạo lại các ô mẫu bù chuyển động.
Phương pháp dự đoán để tìm ra các chi tiết ảnh thay thế giữa hai khung ảnh liền kề và tạo ra một vector chuyển động chỉ rõ vị trí mới của đối tượng ảnh chuyển động được nêu như ở trong hình sau. Ở đó, vector chuyển động sẽ phối hợp với các ô ở trong biên biểu diễn vùng chuyển động được mã hoá trước đó để lặp lại các ô này tại vị trí mới của ảnh. Các ô mẫu ở vị trí hiện tại sẽ phối hợp trong số các ô của khung ảnh trước đó, sử dụng chúng như là thành phần dự đoán trong bảng mã hoá đã được thiết lập trước đó: thành phần dự đoán này được lấy từ đầu vào của khung ảnh trước để tạo ra một khung dự đoán có sai số thông tin nhỏ. Sai lệch giữa ô hiện tại và ô dự đoán của nó trong khung ảnh trước sẽ tạo ra ô mẫu dự đoán bù chuyển động.
Khung ảnh 1
Hình 1.15. Mô tả vector chuyển động giữa hai khung ảnh kế cận nhau
Vùng tìm kiếm được xác định nằm trong biên của vùng ảnh có chứa các ô mẫu ảnh chuyển động của khung ảnh hiện tại, nó bao phủ cả vị trí hiện tại và vị trí trước đó của ô mẫu chuyển động đang khảo sát. Kích thước của vùng tìm kiếm được quyết định bởi độ phức tạp của quá trình phối hợp ô mẫu ảnh chuyển động của vị trí trước và vị trí hiện tại, thường vùng này lấy kích thước 16x16 hay 24x24 pixel.
Để giảm thiểu công việc nặng nhọc của quá trình xác định vector chuyển động, người ta có thể xử lý ảnh động theo các bước:
i. Bước xử lý thô: Đầu tiên, giảm độ phân giải của ảnh xử lý, chẳng hạn ảnh 720x480 giảm xuống 360x240 (pixel); khi đó số bit cần xử lý giảm nhiều và vùng dự đoán trở nên lớn hơn, do đó ảnh dự đoán chuyển động mức thô xác định được nhanh hơn.
ii. Bước xử lý tinh: Sau khi có ảnh dự đoán thô, người ta tiến hành phép dự đoán vector chuyển động chính xác bằng cách xác định vị trí chính xác của các đối tượng chuyển động giữa hai khung ảnh với độ phân giải 720x480.
Chương 2:- CÁC KỸ THUẬT ĐÁNH GIÁ VẬN ĐỘNG CỦA ĐỐI TƯỢNG TRONG VIDEO
2.1 Kỹ thuật bắt đối tượng chuyển động
Đối với ảnh chuyển động, người ta tiến hành trừ hai ảnh quan sát được tại hai thời điểm khác nhau. Trong trường hợp này, phần ảnh không thay đổi sẽ nhận giá trị không, những phần thay đổi sẽ nhận giá trị dương hay âm tương ứng với thay đổi hay dịch chuyển. Như vậy việc trừ ảnh thực ra là một xấp xỉ của đạo hàm theo thời gian của ảnh. Thực vậy, giả sử I(t) và I(t+) là hai ảnh quan sát được ở thời điểm t và t+.
Nếu thời gian quan sát là nhỏ, ta sẽ nhận được xấp xỉ của đạo hàm một cách trực