Luận văn sử dụng lưỡi hai chiều đê theo vết đối tượng trong video
Trang 2Loi cam on
Sau hon bén tháng nghiên cứu và thực hiện, luận văn đã được hoàn tat và đã đạt được những kết quả nhất định Nhìn lại quãng đường đã qua, tôi cảm thấy vô cùng biết ơn các thầy cô , xin cảm ơn các thầy các cô đã trang bị cho chúng tôi một nên tảng tri thức vững vàng , giúp chúng tôi có thể tự minh thực hiện việc nghiên cứu khoa học
Xin cảm ơn cô Phạm Phạm Tuyết Trinh , người đã hướng dẫn tôi trong suốt quá trình thực hiện luận văn Cô đã chỉ ra cho tôi những định hướng hết sức quan trọng
Xin cảm ơn bạn bè trong nhóm, cảm ơn các bạn Trương Thiên Đỉnh , Nguyễn Thanh Sơn, Trần Hồng Thái đã giúp đỡ tôi rất nhiều trong quá trình thực hiện luận văn cũng như trong suốt bốn năm học
Và cuỗi củng , con xin cảm ơn ông , cảm ơn mẹ và chị , những người
thân yêu đã luôn là chỗ dựa cho tôi trong những năm tháng qua
Trang 3Tổng Quan
Vấn đề theo vết đối tượng trong video đã và đang thu hút được nhiều sự quan tâm của cộng đồng nghiên cứu bởi nó có nhiều ứng dụng hữu ích trong lĩnh vực giải trí , truyền thông, thị giác máy tính và đa phương tiện , chắng
hạn như ứng dụng trong xử lý và biên tập video số , trong nén video , trong
các thư viện số , trong các hệ thống giám sát giao thông v.v Đối tượng
trong video , hay ngắn gọn là đối tượng video , là những thành phần có ý
nghĩa đầy đủ của một khung cảnh Theo vết đối tượng bao gồm việc theo vết đường biên , theo vết những chuyên động cục bộ và những biến đổi về cường độ (độ sáng tối , độ tương phản) của đối tượng đó
Nội dung chính của luận văn này là nghiên cứu và thực hiện việc theo vết đối tượng theo hướng tiếp cận mới : sử dụng lưới hai chiều Theo đó , van đề theo vết đường biên , theo vết những chuyên động cục bộ và những biến đổi về cường độ sẽ được hợp nhất lại thành vấn đề theo vét lưới 2 chiều Lưới ở đây được thiết kế dựa theo nội dung của đối tượng giúp cho việc theo
vết đối tượng được chính xác hơn Quá trình ước lượng chuyên động tại các
node của lưới được ràng buộc chặt chẽ đê bảo toàn kêt câu của lưới
Trang 42.3 Video, video tương tự, video số
2.4 Đối tượng video , chuyển động của đối tượng video , ước lượng chuyển
động
2.5 Hiện tượng che phủ
3 Mô Hình Theo Vết Đối Tượng Video
Trang 5Chuong |
Gidi Thiéu
Van đề theo vết đối tượng trong video đã và đang thu hút được sự quan tâm của cộng đồng nghiên cứu bởi nó có nhiều ứng dụng hữu ích trong lĩnh vực giải trí , truyền thông, thị giác máy tính và đa phương tiện , chẳng hạn
như ứng dụng trong xử lý và biên tập video số , trong nén video , trong các thư viện số , trong các hệ thống giám sát giao thông v.v Xét một đoạn
video quay một khung cảnh , đối tượng trong đoạn video , hay ngắn gọn là đối tượng video , là những thành phân có ý nghĩa đây đủ trong khung cảnh đó Theo vết đối tượng bao gồm việc theo vết đường biên , theo vết những
chuyển động cục bộ và những biến đổi về cường độ (độ sáng tối , độ tương
phản) của đối tượng
Nội dung chính của luận văn này là nghiên cứu và thực hiện việc theo vết đối tượng theo hướng tiếp cận mới : sử dụng lưới hai chiều Với hướng tiếp cận này , ba vẫn đề : theo vết đường biên , theo vết những chuyển động cục bộ và theo vết những biến đổi về cường độ sẽ được hợp nhất lại thành vẫn đề
theo vết lưới 2 chiêu
Theo thuật ngữ thông dụng , mặt phắng alpha của một đối tượng video là
tập hợp tất cả các điểm ảnh thuộc đối tượng đó Luận văn này đề ra một phương pháp theo vết đối tượng bán tự động , theo đó mặt phẳng alpha của đôi tượng video sẽ được xác định bằng tay tại một s6 frame quan trong , sau
Trang 6cách sử dụng mô hình theo vết lưới 2 chiều Lưới ở đây được thiết kế dựa theo nội dung của đối tượng giúp cho việc theo vết đối tượng được chính xác
hon
Phân tiếp theo của chương này sẽ trình bày những động lực thúc đây việc
nghiên cứu vẫn đề theo vết đối tượng , những hướng tiếp cận đã được đề ra,
và cuôi cùng là giới thiệu bô cục của luận văn
1.1 Động lực thúc đây
Có thể dễ dàng nhận ra rằng phần lớn thông tin mà con người thu nhận từ
bên ngoài là thông qua thị giác Bằng cách quan sát , con người thu nhận những hình ảnh từ môi trường xung quanh , nhận dạng và đưa ra những phản
hỗi thích hợp Một cách tự nhiên, hình ảnh trở thành một trong những dạng
thông tin giữ vai trò quan trọng trong đời sống con người Câu châm ngôn
từ xa xưa “một hình ảnh có giá tri hon van lời nói” hay “trăm nghe không bằng một thấy” đã phân nào nói lên ý nghĩa to lớn của hình ảnh trong việc truyền tải thông tin Vẫn đề nảy sinh là làm sao có thể biểu diễn , lưu trữ và trao đôi được dạng thông tin này Bằng lao động và sáng tạo , con người đã tìm ra những giải pháp cho vấn đề trên , từ giản đơn như những hình thù khắc trên đá , những kí hiệu trên tắm da thú v.v cho đến những bức tranh , tâm ảnh đầy màu sắc , những hình ảnh video sinh động ngày nay
Ra đời vào những năm 30 của thế kỉ 20 , video , hiểu một cách đơn giản, là một chuỗi các anh tinh (con được gọi là khung hình - ame) liên tiếp , sắp xếp theo trật tự thời gian Một đoạn video chứa đựng được nhiều thông tin
trực quan hơn một ảnh tĩnh , do video có khả năng thu giữ được chuyển
động Một ảnh tĩnh chỉ có thể cung cấp cho người xem những thông tin tĩnh
Trang 7về một khung cảnh trong khi một đoạn video có thể đem lại cho người xem
phần động trong khung cảnh đó Ban đầu video ở dạng tương tự , và do bản chất tương tự nên nó có rất ít khả năng xử lý cũng như tương tác , chỉ có thể đơn giản như chuyển kênh truyền hình hay quay tới quay lui một đoạn băng Sự phát triển mạnh mẽ của công nghệ phần cứng đã góp phần hướng người sử dụng đến với video số , vốn găn liền với một khả năng xử lý tương tác tốt hơn Ta có thể dễ dàng thu nhận, lưu trữ, xử lý tín hiệu video đưới định dạng số , cũng như trao đổi và chia sẻ nó giữa các nền tảng và lĩnh vực
ứng dụng khác nhau
Theo nguyên thủy , video số được biểu diễn dựa trên cơ sở khung hình , tức là mỗi đoạn video bao gồm nhiều khung hình , mỗi khung hình là một tập hợp các điểm ảnh Cách biểu diễn như vậy chỉ mới thể hiện được chiều
thời gian của video , trong khi lại làm ân đi phần rất quan trọng , đó là nội dung , là những thông tin mà video chứa đựng, là các đối tượng video
Những nhu cầu mới xuất hiện gần đây đã làm bộc lộ những hạn chế của cách biểu diễn này Những thư viện số , nơi chứa số lượng không lồ dữ liệu
video số , đòi hỏi phải được trang bị tính năng truy xuất, rút trích và phân
tích đữ liệu ở mức đối tượng , việc thực hiện theo từng frame tốn chỉ phí quá
lớn và không khả thi Công việc xử lý hậu kì, biên tập video đòi hỏi khả năng kết hợp các đối tượng , các khung cảnh tự nhiên và nhân tạo để tạo ra
hiệu ứng Việc tương tác với các đối tượng trong môi trường trực quan hiện chỉ mới giới hạn trong đồ họa máy tính và mong muốn đưa khả năng này
vào các ứng dụng multimedia , truyền thông, giải trí ngày càng lớn Rõ
ràng , kiến trúc frame và pixel không đủ để thỏa mãn các nhu cầu trên , cần có một cách biểu diễn video số cấp cao hơn Và biểu diễn video dựa trên cơ
Trang 8môi frame của video sẽ bao gôm nhiêu lớp chông lên nhau , môi lớp tương
ứng với một đối tượng video khác nhau
Hình 1.1 : Biểu diễn video dựa trên cơ sở đối tượng
Đề có thể chuyên video từ fame-based sang object-based can phai thuc hiện việc phân vùng video , tức là phân mỗi fame của video thành nhiều
vùng , mỗi vùng sẽ tương ứng với một đối tượng video khác nhau
Cách lý tưởng để thực hiện việc phân vùng là sử dụng phông nền xanh
Theo đó , từng đối tượng video riêng lẻ sẽ được ghi nhận trên phông nên
Trang 9xanh , việc tách đối tượng ra khỏi phông nền xanh là dễ dàng , và cuối cùng
ta chỉ việc chồng các đối tượng này lên nhau để tạo ra hình ảnh video mong muốn Cách này đòi hỏi phải có những trang thiết bị kĩ thuật , những phần cứng chuyên dụng và nhất là phải thực hiện ngay trong giai đoạn thu nhận
hình ảnh Với những điều kiện phức tạp như vậy , kĩ thuật phông nên xanh thường chỉ được sử dụng trong việc tạo các kĩ xảo điện ảnh hay trong các
chương trình truyền hình
Phân vùng bằng tay là một công việc rất tốn thời gian và công sức Với tốc độ chiếu 24 hình / giây , để phân vùng một đoạn video dài 5 phút ta phải thực hiện thủ công trên 24x60x5 = 7200 frame Hơn nữa , kết quả phân vùng lại không ổn định và thường thay đổi theo chủ quan của mỗi người
Đã có những phương pháp phân vùng video hoàn toàn tự động được đề ra
, tuy nhiên các phương pháp này chỉ có thể sử dụng trong những điều kiện nhất định và mới chỉ dừng ở mức phân vùng các đối tượng video đơn giản, rất khó có thể áp dụng cách này cho những đoạn video thông thường hàng ngày
Giải pháp thích hợp được lựa chọn hiện nay là thực hiện phân vùng ban tự động Với sự trợ giúp của máy tính , việc phân vùng sẽ được thực hiện bằng tay ở một số ame quan trọng , kết quả thu được , tức là các đỗi tượng video , sẽ được theo vết ở các ame còn lại Ở đây, có thê hiểu “theo vết”
là xác định xem trong các #ame tiếp theo thì đối tượng xuất hiện ở đâu và
xuất hiện như thế nào Cuối cùng ta sẽ thu được bản đồ phân vùng cũng như các lớp đối tượng tại từng frame và quï đạo chuyển động của từng đối tượng theo thời gian
Theo vết đối tượng trở thành vấn đề cốt lõi trong việc biểu diễn video dựa trên cơ sở đối tượng Nó giữ một vai trò hết sức quan trọng trong việc
Trang 10giúp cho máy tính “hiểu” các cảnh động , giúp thiết lập mối dây liên kết giữa
các đôi tượng video trong quá trình chuyền động theo thời gian
Không chỉ giữ vai trò trên , trong thực tế , việc theo vết đối tượng còn
được ứng dụng theo kiểu thời gian thực trong các hệ thống giám sát giao thông , giám sát an ninh , điều khiên robot v.v
Hầu hết các phương pháp theo vết đối tượng trước đây đều thu được kết quả không cao , do chỉ sử dụng những mô hình đơn giản để mô tả chuyển động của đối tượng video , chăng hạn như mô hình so khớp khối , mô hình
so khớp vùng v.v Để cải thiện được kết quả , cần tìm ra những mô hình
chuyển động thích hợp hơn , mạnh mẽ hơn Sử dụng mô hình lưới 2 chiều được xem như một hướng tiếp cận mới đầy hứa hẹn Theo mô hình này , mỗi phần tử của lưới (tức là các mắt lưới) được giả thiết là vùng có chuyển động đồng nhất và chuyển động này có thể được biểu diễn chính xác bằng một phép biến đổi khéng gian (affine , bilinear , .) Phép bién déi này có thé được suy ra từ vectơ chuyển động tại các đỉnh của mắt lưới đang xét
Thực tế đã cho thấy , biêu diễn đối tượng và theo vết đối tượng bằng cách sử
dụng lưới 2 chiều cho ra kết quả chính xác hơn và ổn định hơn Xét về mặt
lý thuyết , đáp án tốt nhất cho bài toán theo vết đối tượng là sử dụng các mô
hình theo vết 3 chiều Tuy nhiên , việc sử dụng các mô hình 3 chiều đòi hỏi chi phí tính toán quá cao , đồng thời phải biết rõ cấu trúc 3 chiều của đối
tượng được quan tâm Sử dụng lưới 2 chiều là một giải pháp cân bằng giữa
chỉ phí tính toán và kết quả thu được Giải pháp này không đòi hỏi phải biết
trước về cầu trúc của đối tượng , không đòi hỏi chỉ phí tính toán cao , đồng
thời cho ra kết quả đầy hứa hẹn
Trang 111.2 Một số hướng tiếp cận
Đã có nhiều phương pháp theo vết được đề ra , theo Toklu [5], các
phương pháp này có thể được phân thành bốn nhóm : Theo vết điểm đặc trưng (feature-point tracking) , Theo vết đường biên (boundary tracking),
Theo vết vùng (region tracking) và Theo vết dựa trên cơ sở mô hình (model-
based tracking )_ Việc phân loại này chỉ mang tính tương đối
Theo vết điểm đặc trưng ƒeature-point tracking)
Trong nhóm phương pháp này , một số điểm đặc trưng (theo một tiêu
chuẩn nào đó) của đối tượng được chọn ra và việc theo vết trở thành việc xác định quĩ đạo chuyển động của các điểm này theo thời gian
Theo vết đường biên (boundary tracking)
Nhóm phương pháp này tập trung vào việc xác định chuyển động của đường biên đối tượng Điều này có nghĩa là các chuyển động cục bộ bên
trong đối tượng bị bỏ qua Tiêu biêu cho nhóm này là phương pháp đường
viền động (active contour model hay ngắn gọn là snake) do M Kass, A
Witkin và D Terzopoulos đề ra năm 1988
Theo vết vùng (region tracking)
Xuất phát từ ý tưởng theo vết một nhóm điểm sẽ cho kết quả tốt hơn theo
vết một điểm riêng lẻ , nhóm phương pháp này thực hiện việc phân đối tượng thành các vùng và thực hiện ước lượng chuyên động cho từng vùng Theo vết dựa trên cơ sở mô hình (model-based tracking)
Nhóm phương pháp này thường được sử dụng để theo vết mặt người , thân người, xe cộ .Nhóm phương pháp này đòi hỏi phải được trang bị tr
Trang 12đặc trưng của khuôn mặt, tính đàn hồi v.v Nhóm phương pháp không được sử dụng rộng rãi và thường chỉ dùng trong các trường hợp chuyên biỆt
Những năm gần đây , các phương pháp theo vết sử dụng lưới đang thu hút được nhiều sự chú ý Theo mô hình này , mỗi phan tử của lưới (tức là
các mắt lưới) được giả thiết là vùng có chuyển động đồng nhất và chuyển
động này có thể được biểu diễn chính xác bằng một phép biến đối không gian (affne, bilinear, .) Phép biến đổi này có thể được suy ra từ vectơ
chuyên động tại các đỉnh của mắt lưới đang xét Thực tế đã cho thấy , biểu diễn đối tượng và theo vết đối tượng băng cách sử dụng lưới 2 chiều cho ra
kết quả chính xác hơn và ôn định hơn Việc xác định vectơ chuyển động tại
từng node riêng lẻ thường đem lại kết quả không như ý do các vectơ tìm được có thể đan chéo nhau Đề giải quyết vẫn đề này , Nakaya [22] đề ra một phương pháp so khớp sáu cạnh , theo đó một lưới đồng dạng (các phần
tử tức các mắt lưới có hình dạng và kích thước giống nhau — hình 1.3a) được
áp lên đối tượng , các node bên trong sẽ được di chuyên trong một vùng giới
hạn bởi 6 cạnh (hình 1.2) để dò ra vị trí tương ứng trong fñame tiếp theo Toklu [5] mở rộng phương pháp này bằng cách sử dụng mô hình lưới đồng dạng phân cấp , theo đó việc ước lượng chuyển động sẽ được thực hiện trên lưới có mật độ từ thưa đến dày
Hình 1.2 phương pháp so khớp sáu cạnh
Trang 13`
Hình 1.3 : lưới : a) đồng dạng, b) dựa theo nội dung khung cảnh
Tuy nhiên , cả Toklu và Nakaya đều sử dụng lưới đồng dạng, bản thân
dạng lưới được tạo bằng cách chia ảnh ra thành các phần bằng nhau do đó không phản ánh được nội dung của khung cảnh , mỗi phần tử của lưới có thể chứa nhiều chuyên động cùng một lúc Altunbasak giải quyết vẫn đề này bằng cách sử dụng lưới có thiết kế dựa theo nội dung đối tượng (hình 1.3b)
Trang 14chứ không riêng một đỗi tượng cụ thể nào Từ những nghiên cứu trên, luận văn đề ra một mô hình theo vết đối tượng bán tự động cho phép người dùng chọn ra đối tượng bất kì , đối tượng sẽ được biểu diễn bằng một lưới tam giác hai chiều được thiết kế dựa theo nội dung của đỗi tượng và được theo vết một cách hoàn toàn tự động ở các Írame tiếp theo Quá trình ước lượng chuyển động tại các node được ràng buộc chặt chế dé bảo toàn kết cầu của
lưới
1.3 Bồ cục luận văn
Trong chương 1 này, luận văn đã trình bày những động lực thúc đây
nghiên cứu vấn đề theo vết đối tượng, trình bày một số hướng tiếp cận đã
được đê ra Phân còn lại của luận văn sẽ được tô chức như sau :
— Ở chương 2, luận văn sẽ trình bày những khái niệm và nội dung nền tảng liên quan đên vân đê theo vêt đôi tượng
— Trong chương 3, luận văn sẽ trình bày chi tiết về mô hình theo vết đối tượng sử dụng lưới hai chiều mà luận văn đã nghiên cứu và đề ra
— Ở chương 4, luận văn sẽ trình bày về phần cài đặt thử nghiệm thực tế — Cuối cùng, trong chương 5, luận văn sẽ đưa ra kết luận và hướng phát
triển tương lai
10
Trang 15cũng được ứng dụng trở lại trong nhiều lĩnh vực khác nhau Trong phần này
, luận văn sẽ giới thiệu sơ qua một số lĩnh vực quan trọng có liên quan, bao gồm xử lý ảnh số (digital image processing) , đồ họa máy tính (computer graphics) , thi giac may tinh (computer vision) , da phuong tién (multimedia)
và xử lý video số (digital video processing) Riêng biến dạng ảnh số (digital
image warping) , một nhánh của xử lý ảnh , là một lĩnh vực mới được biết
đến và có những nội dung quan trọng nên sẽ được trình bày trong một phần
riêng
Xử lý ảnh số (digital image processing)
Xử lý ánh số , đúng như tên gọi của nó , bao gồm việc phân tích và xử lý
các ảnh số bằng máy tính Mục đính chính của xử lý ảnh là tăng cường mức độ thu nhận thông tin của con người từ nguồn dữ liệu ảnh và làm cho máy tính có thể tự động xử lý (lưu trữ , biểu diễn, trao đổi .) các hình ảnh thu
Trang 16May tinh
Đồ họa máy tính
Đồ họa máy tính bao gồm tất cả những gì liên quan đến việc sử dụng
máy tính để phát sinh ra hình ảnh So với xử lý ảnh thì đồ họa máy tính
đóng vai trò như một họa sĩ , còn xử lý ảnh đóng vai trò như một thợ chụp
ảnh
Thị giác may tinh (computer vision)
Thị giác máy tính là hướng ngược lại của đồ họa máy tính Trong khi đồ
họa lấy thông tin mô tả cảnh bên ngoài (scene discription) để tạo ra ảnh
trong máy tính thì thị giác máy tính lại từ ảnh bên trong máy tính để suy ra
thông tin mô tả cảnh bên ngoài
12
Trang 17Xư ly ảnh
Bo hoa Thi gc May toh may unh
Thong tn mo ta
canh vat
Hình 2.2 : Tương quan giữa xử lý ảnh , đồ họa máy tính và thị giác máy tính
Da phuong tién (multimedia)
^x~¬^??2
Thuật ngữ “đa phương tiện” diễn đạt ý tưởng các thông tin trong máy tính có thê được biểu diễn bằng các âm thanh , hình ảnh video sinh động chứ không chỉ giới hạn trong những cách biểu diễn truyền thống (văn bản , ảnh tinh.v.v )
Linh vuc multimedia đề cập đến việc sử dụng máy tính để tích hợp các dạng dữ liệu như văn bản, hình ảnh tĩnh, hình ảnh động (video) , âm thanh hay bất kì dạng đữ liệu số nào
Xử lý video số
Xử lý video số tức là xử lý luồng đữ liệu video số (digital video bitstream) , bao gồm các công việc như thu nhận, lưu trữ, phân tích, tổng
Trang 182.2 Biến dang anh sé (digital image warping)
Biến dạng ảnh số , hay rõ hơn là biến đổi (về mặt hình học) ảnh số, là một nhánh của xử lý ảnh Biến đổi về mặt hình học (geometric
transformation) là thao tác xác lập lại mối tương quan về vị trí giữa các điểm
trên ảnh Cốt lõi của biến đồi hình học là ánh xạ một hệ tọa độ này sang một hệ tọa độ khác Điều này được thực hiện thông qua một biến đổi không gian
(spatial transformation) , đây là một hàm ánh xạ thiết lập sự tương ứng giữa các điểm trên ảnh đầu vào và các điểm trên ảnh đầu ra Hàm ánh xạ này có
thê biêu diễn theo hai cách sau :
Ix, y| = |X(u.v), Y(u,v)]
hay :
[u, vị = [U(x y), Vx y)]
Trong đó [u, v] chi vi tri của điểm ảnh trên ảnh input tương ứng với điểm ảnh ở vị trí [x, y] trên ảnh output ; còn X, Y, U, V là các hàm ánh xạ đặc
trưng cho từng phép biến đổi cụ thể Do X và Y thực hiện việc ánh xạ từ
anh input sang anh output nén dugc goi 1a cdc anh xa tién (forward mapping)
, tương tự, U và V được gọi là cac anh xa lui (backward mapping) hay anh
xạ ngược (inverse mapping) Ánh xạ tiến thực hiện việc sao chép từng pixel trên ảnh 1nput sang ảnh output tai các vị trí do ánh xạ xác định Còn ánh xạ ngược thì thực hiện việc đối chiếu từng vi tri trén anh output sang anh input , sau đó sao chép pixel tại vị trí vừa tìm được trên ảnh input sang vi tri trong
tng trén anh output
14
Trang 19Mot van dé phat sinh là các giá trị vị trí lúc ban đầu là số nguyên, sau khi
qua hàm ánh xạ thì trở thành số thực Điều này gây ra hiện tượng lỗ hồng và hiện tượng chồng lên nhau Lỗ hỗng ở đây chỉ những pixel không có đối
tượng nào tương ứng Còn hiện tượng chỗng lên nhau là hiện tượng nhiều pIxel cùng được ánh xạ tương ứng vào một pIxel
Trang 20A tle - Sf A’ Rie <¬ | ` œ
sẽ không thực hiện trên đơn vị điểm ảnh mà thực hiện tại từng vùng Cách
này giúp bảo toàn kêt câu liên lạc của ảnh
Trong phân tiếp theo , luận văn sẽ trình bày các phép biến đổi không gian
được sử dụng trong mô hình theo vết đối tượng Ở đây ta chỉ xét các phép biến đổi 2 chiều Việc biểu diễn phép biến đối được thực hiện trong hệ tọa độ thuần nhat (Homogeneous Coordinates) , đây là hệ tọa độ do tác giả Roberts dé ra nam 1965 trong lĩnh vực đồ họa máy tính nhằm đảm bảo tính
nhất quán trong cách biểu diễn các phép biến đôi
16
Trang 212.2.1 Bién déi affine (Affine transformation)
Phép biến đối affine là phép biến đôi tuyến tính , thuận nghịch , có dạng biêu diễn tông quát như sau :
Những tính chất quan trọng của phép biến đổi affine là :
— Bảo toàn đường thắng : ảnh của một đường thắng qua phép biến đổi affine là một đường thắng
— Bảo toàn tính song song của các đường thắng : ảnh của hai đường
thăng song song là hai đườn song son
— Bảo toàn tỉ lệ về khoảng cách : giả sử C là điểm chia đoạn AB theo tỉ sốt Nếu A”, B”, C7 lần lượt là ảnh của A , B, C qua phép biến đổi
affine thì C? cũng sẽ chia A°B' theo tỉ số t
Trang 22
Hình 2.5 : Phép biến đối affine
Một số trường hợp đặc biệt của phép biến đối affne là : phép tịnh tiến (translation) , phép quay (rotation) , phép bién déi ti 16 (scale) , phép kéo
xiên (shear)
Tinh tién (Translation)
Gọi 7„, 7, là độ dời tương ứng với u, v, dạng biểu diễn của phép tịnh
Trang 23cos@ sind O
|x, y,1]=[u,v,1]]-sin@ cosØ 0
Bién doi ti lé (Scale)
Goi S, , S, la cac hệ sô tỉ lệ tương ứng với u và v, dạng biêu diễn của phép biến đổi tỉ lệ là :
Kéo xién (Shear)
Goi H,, hé s6 kéo xién theo phuong truc hoanh , dang biéu dién cua phép
kéo xién theo phuong truc hoanh co dang :
l [ x, y,Ï| =[u,v,1]| 0
Trang 24l 0 |x y.l| =l|u.v,l|J| H, 1
2.2.2 Biên đôi phôi canh (Perspective transformation)
Dạng biểu diễn tổng quát của phép biến đổi phối cảnh là :
Trang 25
TIAN AEN
Hình 2.6 : Phép biến đổi phối cảnh
2.3 Video, video tương tự, video số
Việc theo vết đôi tượng được thực hiện trên đữ liệu video , chính xác là trên dữ liệu video sô , nên hiệu rõ về dạng dữ liệu này là điêu cần thiệt
2.3.1 Video
Thuật ngữ video dùng để chỉ nguồn thông tin hình ảnh trực quan (pictorial visual information) , bao gồm một chuỗi các ảnh tĩnh (still image) liên tiếp nhau , được sắp xếp theo chiều thời gian Video còn được gọi là
anh thay d6i theo thdi gian (time-varying image) , kí hiệu là s( xị, xz, t),
trong d6 x, , x2 là các biến chỉ vị trí trong không gian, còn t là biến thời gian
Một ảnh tĩnh là một phân bố cường độ theo không gian và phân bố này là
không đổi theo thời gian Trong khi ảnh thay đổi theo thời gian là một phân
21
Trang 26bố cường độ theo cả không gian lẫn thời gian Xét về mặt vật lý , ở cấp thấp
nhat , video tôn tại dưới dạng các tín hiệu
Tín hiệu là một hàm chứa đựng thông tin [3| , hay nói một cách khác, tín hiệu là một mô tả chỉ tiết sự phụ thuộc của một tham số này vào một tham số khác [2] Nếu miễn giá trị của 2 tham số này là liên tục thì tín hiệu được gọi là tương tự , nếu miền gia tri la roi rac thì tín hiệu được gọi là rời rạc hay gọi là được số hóa Cũng có những trường hợp , miễn giá trị của tham số này là rời rạc , của tham số kia lại là liên tục , nhưng những trường hợp này rất hiếm khi xảy ra và tín hiệu lúc đó cũng không có một cách gọi tổng quát nào Hầu hết các tín hiệu tương tự xuất hiện trong thế giới tự nhiên , còn các tín
hiệu rời rạc (số) thì xuất hiện trong thế giới máy tính Cần nhấn mạnh là
máy tính chỉ hiểu được các tín hiệu đã được số hóa
Ban đầu video được thu nhận, lưu trữ và truyền dẫn dưới dạng tương tự Những năm gần đây, sự phát triển mạnh mẽ của công nghệ phân cứng ,
công nghệ xử lý ảnh , cùng với những ưu điểm nổi bật của định dạng số đang hướng người sử dụng đên với video sô
2.3.2 Video tương tự (analog video)
Tín hiệu tương tự là tín hiệu điện tử một chiều biến đổi theo thời gian, ki hiệu là ft) Cho một ảnh biến đỗi theo thời gian ở dang tương tự (tương ứng với hình ảnh trong tự nhiên), kí hiệu là s.( x; , x2, t) Tin hiéu video tương tự thu được bằng cách lay mau s,( x; , x2, t) theo chiéu doc x va chiều thời gian t Tiến trình lấy mẫu được thực hiện theo chu kì và được gọi
là tiến trình quét (scanning) Phương pháp quét thường được sử dụng nhất là
22
Trang 27quét liên tiếp (progressive scanning) va quét luan phién (interlaced
scanning)
Trong phương pháp quét liên tiếp , cứ sau một khoảng thời gian At, việc
quét lại được thực hiện trên toàn ảnh (hình 1.1) Phương pháp này thường được sử dụng đôi với các màn hình có độ phân giải và tân sô quét cao
D
Hình 2.7 : Phương pháp quét liên tục
Trong phương pháp quét luân phiên , cứ sau một khoảng thời gian At/2,
việc quét lại được thực hiện trên các dòng hoặc là chẵn , hoặc là lẻ , nếu ở lần quét trước là dòng chẵn thì ở lần quét này là dòng lẻ và ngược lại (hình
2.2) Phuong pháp này thường được sử dụng đối với các màn hình có độ
phân giải và tần số quét thấp
Hình 2.8 : Phương pháp quét luân phiên
23
Trang 28Các thông số kĩ thuật quan trọng của tín hiệu video tương tự là độ phân giải theo chiều dọc (vertical resolution) , tỉ lệ kích thước (aspect ratio) va tan s6 lam tuoi (refresh rate) Ti lệ kích thước là tỉ lệ giữa chiều ngang và chiều đọc Tân số làm tươi là số lượng ftame chiếu trong l giây
Ở trên là trường hợp tín hiệu video đơn sắc (monochromatic video signal) Ta có thê mở rộng ra cho trường hợp tín hiệu video nhiều màu sắc Theo Lý thuyết ba tác nhân của màu sắc (ri-stimulus theory øƒ color) , mọi màu
sắc đều có thê được tái tạo bằng cách kết hợp 3 màu nguyên tố : đỏ (red — R) , xanh dương (blue — B) và xanh lá cây (green — GŒ) , theo một tỉ lệ thích hợp Hình ảnh nhiều màu sắc sẽ được tạo bằng cách chồng 3 lớp tương ứng với 3 màu nguyên tố lên nhau
Hiện nay , có nhiều chuẩn video tương tự (analog video standards) đang được sử dụng , chúng khác nhau về các tham số hình ảnh (chẳng hạn như độ phân giải theo không gian và thời gian) và cách xử lý màu sắc Các chuẩn này có thê được phân thành 3 nhóm :
e _ Video tương tự đa thành phần (component analog video — CAV)
e_ Video tổng hợp (composite video)
e S-video
Trong trường hợp video tương tự đa thành phần , các đơn vị câu thành tín hiệu video được phân chia thành các tín hiệu video đơn sắc riêng biệt Các đơn vị này có thể đơn giản là 3 màu nguyên tố : đỏ , xanh dương , xanh
lá cây , hoặc được biến đổi thành dạng biểu diễn độ sáng — màu sắc
(luminance — chrominance) Thành phần luminance (kí hiệu là Y) thể hiện các mức xám (gray level) của video , và được tính từ 3 màu nguyên tố như
Sau :
24
Trang 29Y =0.30R + 0.59G + 0.11B
Thanh phan chrominance chứa đựng thông tin về màu sắc Ứng với mỗi
chuẩn , thành phần chrominance lại có cách biểu diễn khác nhau, chắng hạn
như :
Thành phần chrominance được biểu diễn thành I, Q, với :
I=0.60R + 0.28G - 0.32B Q=0.21R—0.52G + 0.31B
Hoac thanh phan chrominance duoc biéu dién thanh Cr , Cb , voi: Cr=R-Y
Cb=B-Y
Trong thực tế , tín hiệu video với cách câu tạo đa thành phân tạo ra chất
lượng màu sắc tốt nhất Tuy nhiên , điều này đòi hỏi quá trình truyền dẫn
các thành phần phải được đồng bộ hóa chính xác , đồng thời băng thông
cũng phải tăng lên gấp ba lần so với tín hiệu đơn sắc
Trong trường hợp video tổng hợp, tín hiệu video được định dạng theo hình thức : các thành phần chrominance được mã hóa vào đầu thành phần luminance , hợp thành một tín hiệu duy nhất Điều này giúp tiết kiệm băng
thông và đơn giản hóa quá trình truyền dẫn tín hiệu Các định dạng video tổng hợp phổ biến hiện nay là NTSC (National Television System Committee hay Never Twice the Same Color) , PAL (Phase Alternating Line) , SECAM (Sequential Couleur Avec Memoire hay Sequential Chrominance Signal with Memory) Chuan NTSC duoc str dung phé bién ở khu vực Bắc Mĩ và Nhật Bản ; chuẩn SECAM được sử dụng ở Pháp , Đông Âu, Liên Xô và vùng Trung Đông ; chuẩn PAL được sử dụng ở khu vực hầu
Trang 30Một khuyết điểm của video tổng hợp là chất lượng màu sắc tạo ra không
t6t S-video 1a một giải pháp trung hòa giữa video tổng hợp và video đa thành phần Tín hiệu trong S-video được phân thành 2 bộ phận , một cho thành phần luminance và một cho các thành phần chrominance đã được tổng hợp lại Nhờ vậy, chất lượng màu sắc trong S—video tốt hơn trong video tổng hợp đồng thời băng thông để truyền tín hiệu S-video cũng tốn ít hơn
băng thông dùng cho video đa thành phần Chuẩn S-video hiện đang được
sử dụng rộng rãi trong các máy ghi videocasette , máy quay phim v.v Việc thu nhận video tương tự chủ yếu dựa trên công nghệ băng từ, trừ trường hợp đĩa laser là sử dụng công nghệ quang học
Với video tương tự , các hình ảnh trong thế giới tự nhiên đã được thu nhận chính xác Tuy nhiên , do bản chất của nó , video tương tự cung cấp cho người dùng rất ít khả năng tương tác và xử lý , chỉ có thể đơn giản như chuyền kênh TV hay quay tới quay lui , chiếu nhanh chiếu chậm một đoạn băng Những năm gần đây, sự phát triển mạnh mẽ của công nghệ phần cứng , những tiến bộ trong công nghệ xử lý ảnh và nhất là những ưu điểm nổi bất của định dạng số đang hướng người sử dụng đến với video số Trong thế gidi số , tận dụng sức mạnh của máy tính, ta có thê dễ dàng thu nhận , lưu trữ , biên tập , xử lý và trao đổi hình ảnh video
2.3.3 Video số
Dé co dugc tin hiéu video , tuong ty (analog) hay s6 (digital) , can phai
thuc hién viéc lay mẫu anh s,( x; , Xz, t) theo ca chiéu không gian và thời gian Đôi với video tương tự , việc lây mẫu được thực hiện theo chiêu dọc
26
Trang 31x¿ (tung độ) và theo chiều thời gian t Đối với video số , việc lẫy mẫu được
thực hiện trên cả 3 chiều : chiều ngang x¡ (hoành độ) , chiều dọc x; (tung độ) và chiều thời gian t Thực chất , để thu được tín hiệu video số , ta cần phải thực hiện việc số hóa (digitization) , gồm 2 bước : lẫy mẫu (sampling) và
lượng tử hóa (quantization) Lấy mẫu là tiến trình chuyển đổi tín hiệu từ
dạng liên tục theo không gian và thời gian sang dạng rời rạc theo không gian và thời gian Sau khi lay mau , các tín hiệu thu được tuy đã ở dạng rời rạc
nhưng chúng vẫn có giá trị ở dạng liên tục Do đó ta cần phải thực hiện việc
lượng tử hóa, tức là chuyền các giá trị từ dạng liên tục (cụ thé la dang số thực) sang dạng rời rạc (số nguyên)
síX,.X.!l— c(Xị.Xa va lương nf hoa) : ——>‹:s(n,.n- Kì ) 2 I1;.1L;,k =7 a
Hình 2.9 : Quá trình số hóa
Các thông số kĩ thuật quan trọng của video số là độ phân giải theo chiều
đọc (số pixel trên một cột) , độ phân giải theo chiều ngang (số pixel trên một
dòng) , tỉ lệ kích thước (chiều ngang / chiều đọc) và tần số làm tươi Băng
thông của video được tính theo công thức :
L(FR)(NL)(AR)
Video BW =
Trang 32FR = Tan s6 frame (tan số lam tuoi) NL = S6 dong trén 1 frame
HR = D6 phan giai theo chiéu ngang
p = thời gian chuyền tín hiệu từ giữa 2 dòng kế tiếp nhau
Hầu hết các hệ thống video số đều biểu điễn màu sắc đưới dạng các thành
phân riêng biệt (tương tự video analog đa thành phan) Ngay cả khi đầu vào là tín hiệu video tương tự tổng hợp (composite video) thì đầu tiên nó cũng phải được chuyển sang dạng video tương tự đa thành phần (CAV) , sau do
từng thành phần sẽ được số hóa đê cuỗi cùng thu được tín hiệu video SỐ Việc trao đôi video số giữa các ứng dụng cũng như giữa các hệ thống đòi
hỏi việc chuẩn hóa Ngành công nghiệp máy tính (computer industry) có các chuân về độ phân giải lúc hiển thị , ngành công nghiệp truyền hình (TV
industry) có các chuẩn về thu phát , ngành công nghiệp truyền thông (communications Industry) có các chuân về giao thức mạng
Do ta chỉ làm việc với video sô nên từ đây về sau , khi đê cập đên video tức là đê cập đên video sô
2.44_ Đối tượng video , chuyên động của đối tượng video , ước lượng chuyển động
Trong phân này , luận văn sẽ trình bày những khái niệm và nội dung cơ
bản của vân đê theo vêt đôi tượng
28
Trang 332.4.1 Déi tuong video (video object — VO)
Xét đoạn video quay một khung canh , d6i tuong trong doan video , hay ngăn gọn là đối tượng video , là những thành phần có ý nghĩa đầy đủ trong khung cảnh đó Thật ra , khái niệm đối tượng video rất linh động, nó có thé là bất kì thành phần trong khung cảnh , miễn sao đó là thành phần mà ta quan tâm Phần còn lại của khung cảnh thường được gọi là nền (background) Tap hop tat ca cdc diém ảnh thuộc đối tượng tạo thành mặt
phang alpha (Alpha plane — AR) cua déi trong do
2.4.2 Chuyén dong của đôi tượng video
Một đoạn video chứa đựng được nhiều thông tin trực quan hơn một ảnh tnh , do video có khả năng thu giữ được chuyển động Một ảnh tĩnh chỉ có thể cung cấp cho người xem những thông tin tĩnh về một khung cảnh trong
khi một đoạn video có thê đem lại cho người xem phan động trong khung cảnh đó
Hình ảnh mà ta nhìn thấy trong video là hình chiếu của những khung cảnh 3 chiều lên mặt phẳng 2 chiều (mặt phắng ảnh) Do đó , chuyên động
của các đối tượng video cũng chính là hình chiếu chuyển động của các đối
tượng trong không gian 3 chiều lên mặt phẳng ảnh Tuy nhiên , khi quan sát
các hình ảnh video , không phải lúc nào ta cũng thấy được những chuyển
động thật sự Nguyên nhân chính là do mắt người nhận ra chuyên động
(trong video) dựa trên sự thay đối về cường độ của điểm ảnh Do đó, có
những trường hợp ta không nhận ra được chuyên động, ví dụ : quan sát hình ảnh một quả bóng đồng màu quay quanh trục qua tâm , mặc đủ có chuyên động xảy ra nhưng do cường độ các điểm ảnh không đổi nên mắt ta không
Trang 34
Hình 2.10 : Quả bóng đồng màu quay quanh trục qua tâm
Lại có những trường hợp ta ngộ nhận chuyển động, ví dụ : ánh sáng môi
trường thay đổi , mặc dù thật sự vật đứng yên nhưng ta vẫn có cảm nhận vật đã di chuyên
Hình 2.11 : Ánh sáng môi trường thay đổi
Để tách biệt rõ ràng giữa chuyển động thật sự và chuyển động do mắt người cảm nhận, người ta đưa ra khái niệm luồng thị giác (optical flow) Theo đó , chuyển động hai chiều (2-D motion), tức chuyển động thật sự, là hình chiếu của chuyển động ba chiều lên mặt phẳng ảnh , còn luồng thị giác là những chuyển động mà mắt người nhận ra được dựa trên những thay đổi về cường độ của các điểm ảnh theo thời gian Do thực tế ta chỉ có thể quan
30
Trang 35sát được luông thị giác nên từ đây về sau , khi đề cập đến chuyên động tức là
ta đề cập đến luông thị giác
Chuyên động của đối tượng video có thể phân thành 2 loại : chuyên động
cục bộ (local motion) và chuyển động toàn cục (global motion) Chuyén
động cục bộ là chuyển động do bản thân đối tượng tạo ra , là những chuyền động giữa các bộ phận của đối tượng so với nhau Còn chuyển động toàn cục là chuyển động của đối tượng , xét trên tông thể, so với camera , hay có thê nói là chuyên động do camera tạo ra
Hình 2.12 : Chuyển động toàn cục và chuyển động cục bộ
2.4.3 Uớc lượng chuyên động (motion estimation)
Ước lượng chuyển động của một điểm ảnh là tìm ra vectơ dịch chuyển
của điểm ảnh đó Khái niệm về vectơ địch chuyển đ, được minh họa trong
hình 2.12 Mở rộng ra , ước lượng chuyền động của một đối tượng là ước
lượng chuyển của tất cả các điểm ảnh thuộc đỗi tượng đó Mục đích của
Trang 36việc ước lượng chuyển động là để trả lời cho câu hỏi “chuyên động diễn ra
như thế nào ?”
Như vậy, việc theo vết đối tượng có thể được xem là việc ước lượng
chuyên động tại các frame lién tiếp nhau , kết quả ước lượng tại frame này là
cơ sở cho việc ước lượng ở frame tiệp theo
Thời điểm t+dt P(x,y)
Thời điểm t .“ „“ 7Tụ ‘ C
Hin 2.12 : Vecto dich chuyén d
2.5 Hiện tượng che phủ (occlusion)
Trong thực tế, tiến trình theo vết đối tượng video thường gặp phải hiện tượng che phủ “Che phủ” đề cập đến hiện tượng các bộ phận của đỗi tượng
(hay của khung cảnh) bị che đi hay hiện ra do những chuyển động của
32
Trang 37camera hay cua chinh đỗi tượng Hiện tượng này được phân làm hai loại : tự
che phủ (self-occlusion) và che phủ lẫn nhau (mutual occlusion) Ty che
phủ chỉ hiện tượng các bộ phận của đôi tượng bị che mất đi hay được hiện ra
do những chuyển động của bản thân đối tượng Che phủ lẫn nhau chỉ hiện
tượng các bộ phận của đối tượng bị che mất đi hay được hiện ra do những chuyền động của đối tượng khác
>
a
~
a ~””
Trang 38Chuong 3
Mô hình theo vết đôi tượng sử dụng lưới hai chiêu
Xét đoạn video quay một khung cảnh, đối tượng video là những thành
phân có ý nghĩa đầy đủ trong khung cảnh d6 Mat phang alpha (alpha plane — AR) của một đối tương video được định nghĩa là tập hợp tất cả các điểm thuộc đối tượng đó
l nếu pixel x thuộc đối tượng
AR(x) =
O néu ngược lai
Theo vét déi trong bao gém viéc theo vét dudng bién (boundary) , theo
vết những chuyển động cục bộ (local motion) và những biến đổi về cường độ (độ sáng tối , độ tương phản) của đối tượng
Theo mô hình mà luận văn đề ra , đối tượng video được biểu diễn bang một lưới tam giác hai chiều Lưới được thiết kế dựa theo nội dung của đối tượng Việc theo vết đường biên (chuyển động toàn cục) , chuyên động cục
34