1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn sử dụng lưỡi hai chiều đê theo vết đối tượng trong video

76 468 2
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 8,51 MB

Nội dung

Luận văn sử dụng lưỡi hai chiều đê theo vết đối tượng trong video

Trang 2

Loi cam on

Sau hon bén tháng nghiên cứu và thực hiện, luận văn đã được hoàn tat và đã đạt được những kết quả nhất định Nhìn lại quãng đường đã qua, tôi cảm thấy vô cùng biết ơn các thầy cô , xin cảm ơn các thầy các cô đã trang bị cho chúng tôi một nên tảng tri thức vững vàng , giúp chúng tôi có thể tự minh thực hiện việc nghiên cứu khoa học

Xin cảm ơn cô Phạm Phạm Tuyết Trinh , người đã hướng dẫn tôi trong suốt quá trình thực hiện luận văn Cô đã chỉ ra cho tôi những định hướng hết sức quan trọng

Xin cảm ơn bạn bè trong nhóm, cảm ơn các bạn Trương Thiên Đỉnh , Nguyễn Thanh Sơn, Trần Hồng Thái đã giúp đỡ tôi rất nhiều trong quá trình thực hiện luận văn cũng như trong suốt bốn năm học

Và cuỗi củng , con xin cảm ơn ông , cảm ơn mẹ và chị , những người

thân yêu đã luôn là chỗ dựa cho tôi trong những năm tháng qua

Trang 3

Tổng Quan

Vấn đề theo vết đối tượng trong video đã và đang thu hút được nhiều sự quan tâm của cộng đồng nghiên cứu bởi nó có nhiều ứng dụng hữu ích trong lĩnh vực giải trí , truyền thông, thị giác máy tính và đa phương tiện , chắng

hạn như ứng dụng trong xử lý và biên tập video số , trong nén video , trong

các thư viện số , trong các hệ thống giám sát giao thông v.v Đối tượng

trong video , hay ngắn gọn là đối tượng video , là những thành phần có ý

nghĩa đầy đủ của một khung cảnh Theo vết đối tượng bao gồm việc theo vết đường biên , theo vết những chuyên động cục bộ và những biến đổi về cường độ (độ sáng tối , độ tương phản) của đối tượng đó

Nội dung chính của luận văn này là nghiên cứu và thực hiện việc theo vết đối tượng theo hướng tiếp cận mới : sử dụng lưới hai chiều Theo đó , van đề theo vết đường biên , theo vết những chuyên động cục bộ và những biến đổi về cường độ sẽ được hợp nhất lại thành vấn đề theo vét lưới 2 chiều Lưới ở đây được thiết kế dựa theo nội dung của đối tượng giúp cho việc theo

vết đối tượng được chính xác hơn Quá trình ước lượng chuyên động tại các

node của lưới được ràng buộc chặt chẽ đê bảo toàn kêt câu của lưới

Trang 4

2.3 Video, video tương tự, video số

2.4 Đối tượng video , chuyển động của đối tượng video , ước lượng chuyển

động

2.5 Hiện tượng che phủ

3 Mô Hình Theo Vết Đối Tượng Video

Trang 5

Chuong |

Gidi Thiéu

Van đề theo vết đối tượng trong video đã và đang thu hút được sự quan tâm của cộng đồng nghiên cứu bởi nó có nhiều ứng dụng hữu ích trong lĩnh vực giải trí , truyền thông, thị giác máy tính và đa phương tiện , chẳng hạn

như ứng dụng trong xử lý và biên tập video số , trong nén video , trong các thư viện số , trong các hệ thống giám sát giao thông v.v Xét một đoạn

video quay một khung cảnh , đối tượng trong đoạn video , hay ngắn gọn là đối tượng video , là những thành phân có ý nghĩa đây đủ trong khung cảnh đó Theo vết đối tượng bao gồm việc theo vết đường biên , theo vết những

chuyển động cục bộ và những biến đổi về cường độ (độ sáng tối , độ tương

phản) của đối tượng

Nội dung chính của luận văn này là nghiên cứu và thực hiện việc theo vết đối tượng theo hướng tiếp cận mới : sử dụng lưới hai chiều Với hướng tiếp cận này , ba vẫn đề : theo vết đường biên , theo vết những chuyển động cục bộ và theo vết những biến đổi về cường độ sẽ được hợp nhất lại thành vẫn đề

theo vết lưới 2 chiêu

Theo thuật ngữ thông dụng , mặt phắng alpha của một đối tượng video là

tập hợp tất cả các điểm ảnh thuộc đối tượng đó Luận văn này đề ra một phương pháp theo vết đối tượng bán tự động , theo đó mặt phẳng alpha của đôi tượng video sẽ được xác định bằng tay tại một s6 frame quan trong , sau

Trang 6

cách sử dụng mô hình theo vết lưới 2 chiều Lưới ở đây được thiết kế dựa theo nội dung của đối tượng giúp cho việc theo vết đối tượng được chính xác

hon

Phân tiếp theo của chương này sẽ trình bày những động lực thúc đây việc

nghiên cứu vẫn đề theo vết đối tượng , những hướng tiếp cận đã được đề ra,

và cuôi cùng là giới thiệu bô cục của luận văn

1.1 Động lực thúc đây

Có thể dễ dàng nhận ra rằng phần lớn thông tin mà con người thu nhận từ

bên ngoài là thông qua thị giác Bằng cách quan sát , con người thu nhận những hình ảnh từ môi trường xung quanh , nhận dạng và đưa ra những phản

hỗi thích hợp Một cách tự nhiên, hình ảnh trở thành một trong những dạng

thông tin giữ vai trò quan trọng trong đời sống con người Câu châm ngôn

từ xa xưa “một hình ảnh có giá tri hon van lời nói” hay “trăm nghe không bằng một thấy” đã phân nào nói lên ý nghĩa to lớn của hình ảnh trong việc truyền tải thông tin Vẫn đề nảy sinh là làm sao có thể biểu diễn , lưu trữ và trao đôi được dạng thông tin này Bằng lao động và sáng tạo , con người đã tìm ra những giải pháp cho vấn đề trên , từ giản đơn như những hình thù khắc trên đá , những kí hiệu trên tắm da thú v.v cho đến những bức tranh , tâm ảnh đầy màu sắc , những hình ảnh video sinh động ngày nay

Ra đời vào những năm 30 của thế kỉ 20 , video , hiểu một cách đơn giản, là một chuỗi các anh tinh (con được gọi là khung hình - ame) liên tiếp , sắp xếp theo trật tự thời gian Một đoạn video chứa đựng được nhiều thông tin

trực quan hơn một ảnh tĩnh , do video có khả năng thu giữ được chuyển

động Một ảnh tĩnh chỉ có thể cung cấp cho người xem những thông tin tĩnh

Trang 7

về một khung cảnh trong khi một đoạn video có thể đem lại cho người xem

phần động trong khung cảnh đó Ban đầu video ở dạng tương tự , và do bản chất tương tự nên nó có rất ít khả năng xử lý cũng như tương tác , chỉ có thể đơn giản như chuyển kênh truyền hình hay quay tới quay lui một đoạn băng Sự phát triển mạnh mẽ của công nghệ phần cứng đã góp phần hướng người sử dụng đến với video số , vốn găn liền với một khả năng xử lý tương tác tốt hơn Ta có thể dễ dàng thu nhận, lưu trữ, xử lý tín hiệu video đưới định dạng số , cũng như trao đổi và chia sẻ nó giữa các nền tảng và lĩnh vực

ứng dụng khác nhau

Theo nguyên thủy , video số được biểu diễn dựa trên cơ sở khung hình , tức là mỗi đoạn video bao gồm nhiều khung hình , mỗi khung hình là một tập hợp các điểm ảnh Cách biểu diễn như vậy chỉ mới thể hiện được chiều

thời gian của video , trong khi lại làm ân đi phần rất quan trọng , đó là nội dung , là những thông tin mà video chứa đựng, là các đối tượng video

Những nhu cầu mới xuất hiện gần đây đã làm bộc lộ những hạn chế của cách biểu diễn này Những thư viện số , nơi chứa số lượng không lồ dữ liệu

video số , đòi hỏi phải được trang bị tính năng truy xuất, rút trích và phân

tích đữ liệu ở mức đối tượng , việc thực hiện theo từng frame tốn chỉ phí quá

lớn và không khả thi Công việc xử lý hậu kì, biên tập video đòi hỏi khả năng kết hợp các đối tượng , các khung cảnh tự nhiên và nhân tạo để tạo ra

hiệu ứng Việc tương tác với các đối tượng trong môi trường trực quan hiện chỉ mới giới hạn trong đồ họa máy tính và mong muốn đưa khả năng này

vào các ứng dụng multimedia , truyền thông, giải trí ngày càng lớn Rõ

ràng , kiến trúc frame và pixel không đủ để thỏa mãn các nhu cầu trên , cần có một cách biểu diễn video số cấp cao hơn Và biểu diễn video dựa trên cơ

Trang 8

môi frame của video sẽ bao gôm nhiêu lớp chông lên nhau , môi lớp tương

ứng với một đối tượng video khác nhau

Hình 1.1 : Biểu diễn video dựa trên cơ sở đối tượng

Đề có thể chuyên video từ fame-based sang object-based can phai thuc hiện việc phân vùng video , tức là phân mỗi fame của video thành nhiều

vùng , mỗi vùng sẽ tương ứng với một đối tượng video khác nhau

Cách lý tưởng để thực hiện việc phân vùng là sử dụng phông nền xanh

Theo đó , từng đối tượng video riêng lẻ sẽ được ghi nhận trên phông nên

Trang 9

xanh , việc tách đối tượng ra khỏi phông nền xanh là dễ dàng , và cuối cùng

ta chỉ việc chồng các đối tượng này lên nhau để tạo ra hình ảnh video mong muốn Cách này đòi hỏi phải có những trang thiết bị kĩ thuật , những phần cứng chuyên dụng và nhất là phải thực hiện ngay trong giai đoạn thu nhận

hình ảnh Với những điều kiện phức tạp như vậy , kĩ thuật phông nên xanh thường chỉ được sử dụng trong việc tạo các kĩ xảo điện ảnh hay trong các

chương trình truyền hình

Phân vùng bằng tay là một công việc rất tốn thời gian và công sức Với tốc độ chiếu 24 hình / giây , để phân vùng một đoạn video dài 5 phút ta phải thực hiện thủ công trên 24x60x5 = 7200 frame Hơn nữa , kết quả phân vùng lại không ổn định và thường thay đổi theo chủ quan của mỗi người

Đã có những phương pháp phân vùng video hoàn toàn tự động được đề ra

, tuy nhiên các phương pháp này chỉ có thể sử dụng trong những điều kiện nhất định và mới chỉ dừng ở mức phân vùng các đối tượng video đơn giản, rất khó có thể áp dụng cách này cho những đoạn video thông thường hàng ngày

Giải pháp thích hợp được lựa chọn hiện nay là thực hiện phân vùng ban tự động Với sự trợ giúp của máy tính , việc phân vùng sẽ được thực hiện bằng tay ở một số ame quan trọng , kết quả thu được , tức là các đỗi tượng video , sẽ được theo vết ở các ame còn lại Ở đây, có thê hiểu “theo vết”

là xác định xem trong các #ame tiếp theo thì đối tượng xuất hiện ở đâu và

xuất hiện như thế nào Cuối cùng ta sẽ thu được bản đồ phân vùng cũng như các lớp đối tượng tại từng frame và quï đạo chuyển động của từng đối tượng theo thời gian

Theo vết đối tượng trở thành vấn đề cốt lõi trong việc biểu diễn video dựa trên cơ sở đối tượng Nó giữ một vai trò hết sức quan trọng trong việc

Trang 10

giúp cho máy tính “hiểu” các cảnh động , giúp thiết lập mối dây liên kết giữa

các đôi tượng video trong quá trình chuyền động theo thời gian

Không chỉ giữ vai trò trên , trong thực tế , việc theo vết đối tượng còn

được ứng dụng theo kiểu thời gian thực trong các hệ thống giám sát giao thông , giám sát an ninh , điều khiên robot v.v

Hầu hết các phương pháp theo vết đối tượng trước đây đều thu được kết quả không cao , do chỉ sử dụng những mô hình đơn giản để mô tả chuyển động của đối tượng video , chăng hạn như mô hình so khớp khối , mô hình

so khớp vùng v.v Để cải thiện được kết quả , cần tìm ra những mô hình

chuyển động thích hợp hơn , mạnh mẽ hơn Sử dụng mô hình lưới 2 chiều được xem như một hướng tiếp cận mới đầy hứa hẹn Theo mô hình này , mỗi phần tử của lưới (tức là các mắt lưới) được giả thiết là vùng có chuyển động đồng nhất và chuyển động này có thể được biểu diễn chính xác bằng một phép biến đổi khéng gian (affine , bilinear , .) Phép bién déi này có thé được suy ra từ vectơ chuyển động tại các đỉnh của mắt lưới đang xét

Thực tế đã cho thấy , biêu diễn đối tượng và theo vết đối tượng bằng cách sử

dụng lưới 2 chiều cho ra kết quả chính xác hơn và ổn định hơn Xét về mặt

lý thuyết , đáp án tốt nhất cho bài toán theo vết đối tượng là sử dụng các mô

hình theo vết 3 chiều Tuy nhiên , việc sử dụng các mô hình 3 chiều đòi hỏi chi phí tính toán quá cao , đồng thời phải biết rõ cấu trúc 3 chiều của đối

tượng được quan tâm Sử dụng lưới 2 chiều là một giải pháp cân bằng giữa

chỉ phí tính toán và kết quả thu được Giải pháp này không đòi hỏi phải biết

trước về cầu trúc của đối tượng , không đòi hỏi chỉ phí tính toán cao , đồng

thời cho ra kết quả đầy hứa hẹn

Trang 11

1.2 Một số hướng tiếp cận

Đã có nhiều phương pháp theo vết được đề ra , theo Toklu [5], các

phương pháp này có thể được phân thành bốn nhóm : Theo vết điểm đặc trưng (feature-point tracking) , Theo vết đường biên (boundary tracking),

Theo vết vùng (region tracking) và Theo vết dựa trên cơ sở mô hình (model-

based tracking )_ Việc phân loại này chỉ mang tính tương đối

Theo vết điểm đặc trưng ƒeature-point tracking)

Trong nhóm phương pháp này , một số điểm đặc trưng (theo một tiêu

chuẩn nào đó) của đối tượng được chọn ra và việc theo vết trở thành việc xác định quĩ đạo chuyển động của các điểm này theo thời gian

Theo vết đường biên (boundary tracking)

Nhóm phương pháp này tập trung vào việc xác định chuyển động của đường biên đối tượng Điều này có nghĩa là các chuyển động cục bộ bên

trong đối tượng bị bỏ qua Tiêu biêu cho nhóm này là phương pháp đường

viền động (active contour model hay ngắn gọn là snake) do M Kass, A

Witkin và D Terzopoulos đề ra năm 1988

Theo vết vùng (region tracking)

Xuất phát từ ý tưởng theo vết một nhóm điểm sẽ cho kết quả tốt hơn theo

vết một điểm riêng lẻ , nhóm phương pháp này thực hiện việc phân đối tượng thành các vùng và thực hiện ước lượng chuyên động cho từng vùng Theo vết dựa trên cơ sở mô hình (model-based tracking)

Nhóm phương pháp này thường được sử dụng để theo vết mặt người , thân người, xe cộ .Nhóm phương pháp này đòi hỏi phải được trang bị tr

Trang 12

đặc trưng của khuôn mặt, tính đàn hồi v.v Nhóm phương pháp không được sử dụng rộng rãi và thường chỉ dùng trong các trường hợp chuyên biỆt

Những năm gần đây , các phương pháp theo vết sử dụng lưới đang thu hút được nhiều sự chú ý Theo mô hình này , mỗi phan tử của lưới (tức là

các mắt lưới) được giả thiết là vùng có chuyển động đồng nhất và chuyển

động này có thể được biểu diễn chính xác bằng một phép biến đối không gian (affne, bilinear, .) Phép biến đổi này có thể được suy ra từ vectơ

chuyên động tại các đỉnh của mắt lưới đang xét Thực tế đã cho thấy , biểu diễn đối tượng và theo vết đối tượng băng cách sử dụng lưới 2 chiều cho ra

kết quả chính xác hơn và ôn định hơn Việc xác định vectơ chuyển động tại

từng node riêng lẻ thường đem lại kết quả không như ý do các vectơ tìm được có thể đan chéo nhau Đề giải quyết vẫn đề này , Nakaya [22] đề ra một phương pháp so khớp sáu cạnh , theo đó một lưới đồng dạng (các phần

tử tức các mắt lưới có hình dạng và kích thước giống nhau — hình 1.3a) được

áp lên đối tượng , các node bên trong sẽ được di chuyên trong một vùng giới

hạn bởi 6 cạnh (hình 1.2) để dò ra vị trí tương ứng trong fñame tiếp theo Toklu [5] mở rộng phương pháp này bằng cách sử dụng mô hình lưới đồng dạng phân cấp , theo đó việc ước lượng chuyển động sẽ được thực hiện trên lưới có mật độ từ thưa đến dày

Hình 1.2 phương pháp so khớp sáu cạnh

Trang 13

`

Hình 1.3 : lưới : a) đồng dạng, b) dựa theo nội dung khung cảnh

Tuy nhiên , cả Toklu và Nakaya đều sử dụng lưới đồng dạng, bản thân

dạng lưới được tạo bằng cách chia ảnh ra thành các phần bằng nhau do đó không phản ánh được nội dung của khung cảnh , mỗi phần tử của lưới có thể chứa nhiều chuyên động cùng một lúc Altunbasak giải quyết vẫn đề này bằng cách sử dụng lưới có thiết kế dựa theo nội dung đối tượng (hình 1.3b)

Trang 14

chứ không riêng một đỗi tượng cụ thể nào Từ những nghiên cứu trên, luận văn đề ra một mô hình theo vết đối tượng bán tự động cho phép người dùng chọn ra đối tượng bất kì , đối tượng sẽ được biểu diễn bằng một lưới tam giác hai chiều được thiết kế dựa theo nội dung của đỗi tượng và được theo vết một cách hoàn toàn tự động ở các Írame tiếp theo Quá trình ước lượng chuyển động tại các node được ràng buộc chặt chế dé bảo toàn kết cầu của

lưới

1.3 Bồ cục luận văn

Trong chương 1 này, luận văn đã trình bày những động lực thúc đây

nghiên cứu vấn đề theo vết đối tượng, trình bày một số hướng tiếp cận đã

được đê ra Phân còn lại của luận văn sẽ được tô chức như sau :

— Ở chương 2, luận văn sẽ trình bày những khái niệm và nội dung nền tảng liên quan đên vân đê theo vêt đôi tượng

— Trong chương 3, luận văn sẽ trình bày chi tiết về mô hình theo vết đối tượng sử dụng lưới hai chiều mà luận văn đã nghiên cứu và đề ra

— Ở chương 4, luận văn sẽ trình bày về phần cài đặt thử nghiệm thực tế — Cuối cùng, trong chương 5, luận văn sẽ đưa ra kết luận và hướng phát

triển tương lai

10

Trang 15

cũng được ứng dụng trở lại trong nhiều lĩnh vực khác nhau Trong phần này

, luận văn sẽ giới thiệu sơ qua một số lĩnh vực quan trọng có liên quan, bao gồm xử lý ảnh số (digital image processing) , đồ họa máy tính (computer graphics) , thi giac may tinh (computer vision) , da phuong tién (multimedia)

và xử lý video số (digital video processing) Riêng biến dạng ảnh số (digital

image warping) , một nhánh của xử lý ảnh , là một lĩnh vực mới được biết

đến và có những nội dung quan trọng nên sẽ được trình bày trong một phần

riêng

Xử lý ảnh số (digital image processing)

Xử lý ánh số , đúng như tên gọi của nó , bao gồm việc phân tích và xử lý

các ảnh số bằng máy tính Mục đính chính của xử lý ảnh là tăng cường mức độ thu nhận thông tin của con người từ nguồn dữ liệu ảnh và làm cho máy tính có thể tự động xử lý (lưu trữ , biểu diễn, trao đổi .) các hình ảnh thu

Trang 16

May tinh

Đồ họa máy tính

Đồ họa máy tính bao gồm tất cả những gì liên quan đến việc sử dụng

máy tính để phát sinh ra hình ảnh So với xử lý ảnh thì đồ họa máy tính

đóng vai trò như một họa sĩ , còn xử lý ảnh đóng vai trò như một thợ chụp

ảnh

Thị giác may tinh (computer vision)

Thị giác máy tính là hướng ngược lại của đồ họa máy tính Trong khi đồ

họa lấy thông tin mô tả cảnh bên ngoài (scene discription) để tạo ra ảnh

trong máy tính thì thị giác máy tính lại từ ảnh bên trong máy tính để suy ra

thông tin mô tả cảnh bên ngoài

12

Trang 17

Xư ly ảnh

Bo hoa Thi gc May toh may unh

Thong tn mo ta

canh vat

Hình 2.2 : Tương quan giữa xử lý ảnh , đồ họa máy tính và thị giác máy tính

Da phuong tién (multimedia)

^x~¬^??2

Thuật ngữ “đa phương tiện” diễn đạt ý tưởng các thông tin trong máy tính có thê được biểu diễn bằng các âm thanh , hình ảnh video sinh động chứ không chỉ giới hạn trong những cách biểu diễn truyền thống (văn bản , ảnh tinh.v.v )

Linh vuc multimedia đề cập đến việc sử dụng máy tính để tích hợp các dạng dữ liệu như văn bản, hình ảnh tĩnh, hình ảnh động (video) , âm thanh hay bất kì dạng đữ liệu số nào

Xử lý video số

Xử lý video số tức là xử lý luồng đữ liệu video số (digital video bitstream) , bao gồm các công việc như thu nhận, lưu trữ, phân tích, tổng

Trang 18

2.2 Biến dang anh sé (digital image warping)

Biến dạng ảnh số , hay rõ hơn là biến đổi (về mặt hình học) ảnh số, là một nhánh của xử lý ảnh Biến đổi về mặt hình học (geometric

transformation) là thao tác xác lập lại mối tương quan về vị trí giữa các điểm

trên ảnh Cốt lõi của biến đồi hình học là ánh xạ một hệ tọa độ này sang một hệ tọa độ khác Điều này được thực hiện thông qua một biến đổi không gian

(spatial transformation) , đây là một hàm ánh xạ thiết lập sự tương ứng giữa các điểm trên ảnh đầu vào và các điểm trên ảnh đầu ra Hàm ánh xạ này có

thê biêu diễn theo hai cách sau :

Ix, y| = |X(u.v), Y(u,v)]

hay :

[u, vị = [U(x y), Vx y)]

Trong đó [u, v] chi vi tri của điểm ảnh trên ảnh input tương ứng với điểm ảnh ở vị trí [x, y] trên ảnh output ; còn X, Y, U, V là các hàm ánh xạ đặc

trưng cho từng phép biến đổi cụ thể Do X và Y thực hiện việc ánh xạ từ

anh input sang anh output nén dugc goi 1a cdc anh xa tién (forward mapping)

, tương tự, U và V được gọi là cac anh xa lui (backward mapping) hay anh

xạ ngược (inverse mapping) Ánh xạ tiến thực hiện việc sao chép từng pixel trên ảnh 1nput sang ảnh output tai các vị trí do ánh xạ xác định Còn ánh xạ ngược thì thực hiện việc đối chiếu từng vi tri trén anh output sang anh input , sau đó sao chép pixel tại vị trí vừa tìm được trên ảnh input sang vi tri trong

tng trén anh output

14

Trang 19

Mot van dé phat sinh là các giá trị vị trí lúc ban đầu là số nguyên, sau khi

qua hàm ánh xạ thì trở thành số thực Điều này gây ra hiện tượng lỗ hồng và hiện tượng chồng lên nhau Lỗ hỗng ở đây chỉ những pixel không có đối

tượng nào tương ứng Còn hiện tượng chỗng lên nhau là hiện tượng nhiều pIxel cùng được ánh xạ tương ứng vào một pIxel

Trang 20

A tle - Sf A’ Rie <¬ | ` œ

sẽ không thực hiện trên đơn vị điểm ảnh mà thực hiện tại từng vùng Cách

này giúp bảo toàn kêt câu liên lạc của ảnh

Trong phân tiếp theo , luận văn sẽ trình bày các phép biến đổi không gian

được sử dụng trong mô hình theo vết đối tượng Ở đây ta chỉ xét các phép biến đổi 2 chiều Việc biểu diễn phép biến đối được thực hiện trong hệ tọa độ thuần nhat (Homogeneous Coordinates) , đây là hệ tọa độ do tác giả Roberts dé ra nam 1965 trong lĩnh vực đồ họa máy tính nhằm đảm bảo tính

nhất quán trong cách biểu diễn các phép biến đôi

16

Trang 21

2.2.1 Bién déi affine (Affine transformation)

Phép biến đối affine là phép biến đôi tuyến tính , thuận nghịch , có dạng biêu diễn tông quát như sau :

Những tính chất quan trọng của phép biến đổi affine là :

— Bảo toàn đường thắng : ảnh của một đường thắng qua phép biến đổi affine là một đường thắng

— Bảo toàn tính song song của các đường thắng : ảnh của hai đường

thăng song song là hai đườn song son

— Bảo toàn tỉ lệ về khoảng cách : giả sử C là điểm chia đoạn AB theo tỉ sốt Nếu A”, B”, C7 lần lượt là ảnh của A , B, C qua phép biến đổi

affine thì C? cũng sẽ chia A°B' theo tỉ số t

Trang 22

Hình 2.5 : Phép biến đối affine

Một số trường hợp đặc biệt của phép biến đối affne là : phép tịnh tiến (translation) , phép quay (rotation) , phép bién déi ti 16 (scale) , phép kéo

xiên (shear)

Tinh tién (Translation)

Gọi 7„, 7, là độ dời tương ứng với u, v, dạng biểu diễn của phép tịnh

Trang 23

cos@ sind O

|x, y,1]=[u,v,1]]-sin@ cosØ 0

Bién doi ti lé (Scale)

Goi S, , S, la cac hệ sô tỉ lệ tương ứng với u và v, dạng biêu diễn của phép biến đổi tỉ lệ là :

Kéo xién (Shear)

Goi H,, hé s6 kéo xién theo phuong truc hoanh , dang biéu dién cua phép

kéo xién theo phuong truc hoanh co dang :

l [ x, y,Ï| =[u,v,1]| 0

Trang 24

l 0 |x y.l| =l|u.v,l|J| H, 1

2.2.2 Biên đôi phôi canh (Perspective transformation)

Dạng biểu diễn tổng quát của phép biến đổi phối cảnh là :

Trang 25

TIAN AEN

Hình 2.6 : Phép biến đổi phối cảnh

2.3 Video, video tương tự, video số

Việc theo vết đôi tượng được thực hiện trên đữ liệu video , chính xác là trên dữ liệu video sô , nên hiệu rõ về dạng dữ liệu này là điêu cần thiệt

2.3.1 Video

Thuật ngữ video dùng để chỉ nguồn thông tin hình ảnh trực quan (pictorial visual information) , bao gồm một chuỗi các ảnh tĩnh (still image) liên tiếp nhau , được sắp xếp theo chiều thời gian Video còn được gọi là

anh thay d6i theo thdi gian (time-varying image) , kí hiệu là s( xị, xz, t),

trong d6 x, , x2 là các biến chỉ vị trí trong không gian, còn t là biến thời gian

Một ảnh tĩnh là một phân bố cường độ theo không gian và phân bố này là

không đổi theo thời gian Trong khi ảnh thay đổi theo thời gian là một phân

21

Trang 26

bố cường độ theo cả không gian lẫn thời gian Xét về mặt vật lý , ở cấp thấp

nhat , video tôn tại dưới dạng các tín hiệu

Tín hiệu là một hàm chứa đựng thông tin [3| , hay nói một cách khác, tín hiệu là một mô tả chỉ tiết sự phụ thuộc của một tham số này vào một tham số khác [2] Nếu miễn giá trị của 2 tham số này là liên tục thì tín hiệu được gọi là tương tự , nếu miền gia tri la roi rac thì tín hiệu được gọi là rời rạc hay gọi là được số hóa Cũng có những trường hợp , miễn giá trị của tham số này là rời rạc , của tham số kia lại là liên tục , nhưng những trường hợp này rất hiếm khi xảy ra và tín hiệu lúc đó cũng không có một cách gọi tổng quát nào Hầu hết các tín hiệu tương tự xuất hiện trong thế giới tự nhiên , còn các tín

hiệu rời rạc (số) thì xuất hiện trong thế giới máy tính Cần nhấn mạnh là

máy tính chỉ hiểu được các tín hiệu đã được số hóa

Ban đầu video được thu nhận, lưu trữ và truyền dẫn dưới dạng tương tự Những năm gần đây, sự phát triển mạnh mẽ của công nghệ phân cứng ,

công nghệ xử lý ảnh , cùng với những ưu điểm nổi bật của định dạng số đang hướng người sử dụng đên với video sô

2.3.2 Video tương tự (analog video)

Tín hiệu tương tự là tín hiệu điện tử một chiều biến đổi theo thời gian, ki hiệu là ft) Cho một ảnh biến đỗi theo thời gian ở dang tương tự (tương ứng với hình ảnh trong tự nhiên), kí hiệu là s.( x; , x2, t) Tin hiéu video tương tự thu được bằng cách lay mau s,( x; , x2, t) theo chiéu doc x va chiều thời gian t Tiến trình lấy mẫu được thực hiện theo chu kì và được gọi

là tiến trình quét (scanning) Phương pháp quét thường được sử dụng nhất là

22

Trang 27

quét liên tiếp (progressive scanning) va quét luan phién (interlaced

scanning)

Trong phương pháp quét liên tiếp , cứ sau một khoảng thời gian At, việc

quét lại được thực hiện trên toàn ảnh (hình 1.1) Phương pháp này thường được sử dụng đôi với các màn hình có độ phân giải và tân sô quét cao

D

Hình 2.7 : Phương pháp quét liên tục

Trong phương pháp quét luân phiên , cứ sau một khoảng thời gian At/2,

việc quét lại được thực hiện trên các dòng hoặc là chẵn , hoặc là lẻ , nếu ở lần quét trước là dòng chẵn thì ở lần quét này là dòng lẻ và ngược lại (hình

2.2) Phuong pháp này thường được sử dụng đối với các màn hình có độ

phân giải và tần số quét thấp

Hình 2.8 : Phương pháp quét luân phiên

23

Trang 28

Các thông số kĩ thuật quan trọng của tín hiệu video tương tự là độ phân giải theo chiều dọc (vertical resolution) , tỉ lệ kích thước (aspect ratio) va tan s6 lam tuoi (refresh rate) Ti lệ kích thước là tỉ lệ giữa chiều ngang và chiều đọc Tân số làm tươi là số lượng ftame chiếu trong l giây

Ở trên là trường hợp tín hiệu video đơn sắc (monochromatic video signal) Ta có thê mở rộng ra cho trường hợp tín hiệu video nhiều màu sắc Theo Lý thuyết ba tác nhân của màu sắc (ri-stimulus theory øƒ color) , mọi màu

sắc đều có thê được tái tạo bằng cách kết hợp 3 màu nguyên tố : đỏ (red — R) , xanh dương (blue — B) và xanh lá cây (green — GŒ) , theo một tỉ lệ thích hợp Hình ảnh nhiều màu sắc sẽ được tạo bằng cách chồng 3 lớp tương ứng với 3 màu nguyên tố lên nhau

Hiện nay , có nhiều chuẩn video tương tự (analog video standards) đang được sử dụng , chúng khác nhau về các tham số hình ảnh (chẳng hạn như độ phân giải theo không gian và thời gian) và cách xử lý màu sắc Các chuẩn này có thê được phân thành 3 nhóm :

e _ Video tương tự đa thành phần (component analog video — CAV)

e_ Video tổng hợp (composite video)

e S-video

Trong trường hợp video tương tự đa thành phần , các đơn vị câu thành tín hiệu video được phân chia thành các tín hiệu video đơn sắc riêng biệt Các đơn vị này có thể đơn giản là 3 màu nguyên tố : đỏ , xanh dương , xanh

lá cây , hoặc được biến đổi thành dạng biểu diễn độ sáng — màu sắc

(luminance — chrominance) Thành phần luminance (kí hiệu là Y) thể hiện các mức xám (gray level) của video , và được tính từ 3 màu nguyên tố như

Sau :

24

Trang 29

Y =0.30R + 0.59G + 0.11B

Thanh phan chrominance chứa đựng thông tin về màu sắc Ứng với mỗi

chuẩn , thành phần chrominance lại có cách biểu diễn khác nhau, chắng hạn

như :

Thành phần chrominance được biểu diễn thành I, Q, với :

I=0.60R + 0.28G - 0.32B Q=0.21R—0.52G + 0.31B

Hoac thanh phan chrominance duoc biéu dién thanh Cr , Cb , voi: Cr=R-Y

Cb=B-Y

Trong thực tế , tín hiệu video với cách câu tạo đa thành phân tạo ra chất

lượng màu sắc tốt nhất Tuy nhiên , điều này đòi hỏi quá trình truyền dẫn

các thành phần phải được đồng bộ hóa chính xác , đồng thời băng thông

cũng phải tăng lên gấp ba lần so với tín hiệu đơn sắc

Trong trường hợp video tổng hợp, tín hiệu video được định dạng theo hình thức : các thành phần chrominance được mã hóa vào đầu thành phần luminance , hợp thành một tín hiệu duy nhất Điều này giúp tiết kiệm băng

thông và đơn giản hóa quá trình truyền dẫn tín hiệu Các định dạng video tổng hợp phổ biến hiện nay là NTSC (National Television System Committee hay Never Twice the Same Color) , PAL (Phase Alternating Line) , SECAM (Sequential Couleur Avec Memoire hay Sequential Chrominance Signal with Memory) Chuan NTSC duoc str dung phé bién ở khu vực Bắc Mĩ và Nhật Bản ; chuẩn SECAM được sử dụng ở Pháp , Đông Âu, Liên Xô và vùng Trung Đông ; chuẩn PAL được sử dụng ở khu vực hầu

Trang 30

Một khuyết điểm của video tổng hợp là chất lượng màu sắc tạo ra không

t6t S-video 1a một giải pháp trung hòa giữa video tổng hợp và video đa thành phần Tín hiệu trong S-video được phân thành 2 bộ phận , một cho thành phần luminance và một cho các thành phần chrominance đã được tổng hợp lại Nhờ vậy, chất lượng màu sắc trong S—video tốt hơn trong video tổng hợp đồng thời băng thông để truyền tín hiệu S-video cũng tốn ít hơn

băng thông dùng cho video đa thành phần Chuẩn S-video hiện đang được

sử dụng rộng rãi trong các máy ghi videocasette , máy quay phim v.v Việc thu nhận video tương tự chủ yếu dựa trên công nghệ băng từ, trừ trường hợp đĩa laser là sử dụng công nghệ quang học

Với video tương tự , các hình ảnh trong thế giới tự nhiên đã được thu nhận chính xác Tuy nhiên , do bản chất của nó , video tương tự cung cấp cho người dùng rất ít khả năng tương tác và xử lý , chỉ có thể đơn giản như chuyền kênh TV hay quay tới quay lui , chiếu nhanh chiếu chậm một đoạn băng Những năm gần đây, sự phát triển mạnh mẽ của công nghệ phần cứng , những tiến bộ trong công nghệ xử lý ảnh và nhất là những ưu điểm nổi bất của định dạng số đang hướng người sử dụng đến với video số Trong thế gidi số , tận dụng sức mạnh của máy tính, ta có thê dễ dàng thu nhận , lưu trữ , biên tập , xử lý và trao đổi hình ảnh video

2.3.3 Video số

Dé co dugc tin hiéu video , tuong ty (analog) hay s6 (digital) , can phai

thuc hién viéc lay mẫu anh s,( x; , Xz, t) theo ca chiéu không gian và thời gian Đôi với video tương tự , việc lây mẫu được thực hiện theo chiêu dọc

26

Trang 31

x¿ (tung độ) và theo chiều thời gian t Đối với video số , việc lẫy mẫu được

thực hiện trên cả 3 chiều : chiều ngang x¡ (hoành độ) , chiều dọc x; (tung độ) và chiều thời gian t Thực chất , để thu được tín hiệu video số , ta cần phải thực hiện việc số hóa (digitization) , gồm 2 bước : lẫy mẫu (sampling) và

lượng tử hóa (quantization) Lấy mẫu là tiến trình chuyển đổi tín hiệu từ

dạng liên tục theo không gian và thời gian sang dạng rời rạc theo không gian và thời gian Sau khi lay mau , các tín hiệu thu được tuy đã ở dạng rời rạc

nhưng chúng vẫn có giá trị ở dạng liên tục Do đó ta cần phải thực hiện việc

lượng tử hóa, tức là chuyền các giá trị từ dạng liên tục (cụ thé la dang số thực) sang dạng rời rạc (số nguyên)

síX,.X.!l— c(Xị.Xa va lương nf hoa) : ——>‹:s(n,.n- Kì ) 2 I1;.1L;,k =7 a

Hình 2.9 : Quá trình số hóa

Các thông số kĩ thuật quan trọng của video số là độ phân giải theo chiều

đọc (số pixel trên một cột) , độ phân giải theo chiều ngang (số pixel trên một

dòng) , tỉ lệ kích thước (chiều ngang / chiều đọc) và tần số làm tươi Băng

thông của video được tính theo công thức :

L(FR)(NL)(AR)

Video BW =

Trang 32

FR = Tan s6 frame (tan số lam tuoi) NL = S6 dong trén 1 frame

HR = D6 phan giai theo chiéu ngang

p = thời gian chuyền tín hiệu từ giữa 2 dòng kế tiếp nhau

Hầu hết các hệ thống video số đều biểu điễn màu sắc đưới dạng các thành

phân riêng biệt (tương tự video analog đa thành phan) Ngay cả khi đầu vào là tín hiệu video tương tự tổng hợp (composite video) thì đầu tiên nó cũng phải được chuyển sang dạng video tương tự đa thành phần (CAV) , sau do

từng thành phần sẽ được số hóa đê cuỗi cùng thu được tín hiệu video SỐ Việc trao đôi video số giữa các ứng dụng cũng như giữa các hệ thống đòi

hỏi việc chuẩn hóa Ngành công nghiệp máy tính (computer industry) có các chuân về độ phân giải lúc hiển thị , ngành công nghiệp truyền hình (TV

industry) có các chuẩn về thu phát , ngành công nghiệp truyền thông (communications Industry) có các chuân về giao thức mạng

Do ta chỉ làm việc với video sô nên từ đây về sau , khi đê cập đên video tức là đê cập đên video sô

2.44_ Đối tượng video , chuyên động của đối tượng video , ước lượng chuyển động

Trong phân này , luận văn sẽ trình bày những khái niệm và nội dung cơ

bản của vân đê theo vêt đôi tượng

28

Trang 33

2.4.1 Déi tuong video (video object — VO)

Xét đoạn video quay một khung canh , d6i tuong trong doan video , hay ngăn gọn là đối tượng video , là những thành phần có ý nghĩa đầy đủ trong khung cảnh đó Thật ra , khái niệm đối tượng video rất linh động, nó có thé là bất kì thành phần trong khung cảnh , miễn sao đó là thành phần mà ta quan tâm Phần còn lại của khung cảnh thường được gọi là nền (background) Tap hop tat ca cdc diém ảnh thuộc đối tượng tạo thành mặt

phang alpha (Alpha plane — AR) cua déi trong do

2.4.2 Chuyén dong của đôi tượng video

Một đoạn video chứa đựng được nhiều thông tin trực quan hơn một ảnh tnh , do video có khả năng thu giữ được chuyển động Một ảnh tĩnh chỉ có thể cung cấp cho người xem những thông tin tĩnh về một khung cảnh trong

khi một đoạn video có thê đem lại cho người xem phan động trong khung cảnh đó

Hình ảnh mà ta nhìn thấy trong video là hình chiếu của những khung cảnh 3 chiều lên mặt phẳng 2 chiều (mặt phắng ảnh) Do đó , chuyên động

của các đối tượng video cũng chính là hình chiếu chuyển động của các đối

tượng trong không gian 3 chiều lên mặt phẳng ảnh Tuy nhiên , khi quan sát

các hình ảnh video , không phải lúc nào ta cũng thấy được những chuyển

động thật sự Nguyên nhân chính là do mắt người nhận ra chuyên động

(trong video) dựa trên sự thay đối về cường độ của điểm ảnh Do đó, có

những trường hợp ta không nhận ra được chuyên động, ví dụ : quan sát hình ảnh một quả bóng đồng màu quay quanh trục qua tâm , mặc đủ có chuyên động xảy ra nhưng do cường độ các điểm ảnh không đổi nên mắt ta không

Trang 34

Hình 2.10 : Quả bóng đồng màu quay quanh trục qua tâm

Lại có những trường hợp ta ngộ nhận chuyển động, ví dụ : ánh sáng môi

trường thay đổi , mặc dù thật sự vật đứng yên nhưng ta vẫn có cảm nhận vật đã di chuyên

Hình 2.11 : Ánh sáng môi trường thay đổi

Để tách biệt rõ ràng giữa chuyển động thật sự và chuyển động do mắt người cảm nhận, người ta đưa ra khái niệm luồng thị giác (optical flow) Theo đó , chuyển động hai chiều (2-D motion), tức chuyển động thật sự, là hình chiếu của chuyển động ba chiều lên mặt phẳng ảnh , còn luồng thị giác là những chuyển động mà mắt người nhận ra được dựa trên những thay đổi về cường độ của các điểm ảnh theo thời gian Do thực tế ta chỉ có thể quan

30

Trang 35

sát được luông thị giác nên từ đây về sau , khi đề cập đến chuyên động tức là

ta đề cập đến luông thị giác

Chuyên động của đối tượng video có thể phân thành 2 loại : chuyên động

cục bộ (local motion) và chuyển động toàn cục (global motion) Chuyén

động cục bộ là chuyển động do bản thân đối tượng tạo ra , là những chuyền động giữa các bộ phận của đối tượng so với nhau Còn chuyển động toàn cục là chuyển động của đối tượng , xét trên tông thể, so với camera , hay có thê nói là chuyên động do camera tạo ra

Hình 2.12 : Chuyển động toàn cục và chuyển động cục bộ

2.4.3 Uớc lượng chuyên động (motion estimation)

Ước lượng chuyển động của một điểm ảnh là tìm ra vectơ dịch chuyển

của điểm ảnh đó Khái niệm về vectơ địch chuyển đ, được minh họa trong

hình 2.12 Mở rộng ra , ước lượng chuyền động của một đối tượng là ước

lượng chuyển của tất cả các điểm ảnh thuộc đỗi tượng đó Mục đích của

Trang 36

việc ước lượng chuyển động là để trả lời cho câu hỏi “chuyên động diễn ra

như thế nào ?”

Như vậy, việc theo vết đối tượng có thể được xem là việc ước lượng

chuyên động tại các frame lién tiếp nhau , kết quả ước lượng tại frame này là

cơ sở cho việc ước lượng ở frame tiệp theo

Thời điểm t+dt P(x,y)

Thời điểm t .“ „“ 7Tụ ‘ C

Hin 2.12 : Vecto dich chuyén d

2.5 Hiện tượng che phủ (occlusion)

Trong thực tế, tiến trình theo vết đối tượng video thường gặp phải hiện tượng che phủ “Che phủ” đề cập đến hiện tượng các bộ phận của đỗi tượng

(hay của khung cảnh) bị che đi hay hiện ra do những chuyển động của

32

Trang 37

camera hay cua chinh đỗi tượng Hiện tượng này được phân làm hai loại : tự

che phủ (self-occlusion) và che phủ lẫn nhau (mutual occlusion) Ty che

phủ chỉ hiện tượng các bộ phận của đôi tượng bị che mất đi hay được hiện ra

do những chuyển động của bản thân đối tượng Che phủ lẫn nhau chỉ hiện

tượng các bộ phận của đối tượng bị che mất đi hay được hiện ra do những chuyền động của đối tượng khác

>

a

~

a ~””

Trang 38

Chuong 3

Mô hình theo vết đôi tượng sử dụng lưới hai chiêu

Xét đoạn video quay một khung cảnh, đối tượng video là những thành

phân có ý nghĩa đầy đủ trong khung cảnh d6 Mat phang alpha (alpha plane — AR) của một đối tương video được định nghĩa là tập hợp tất cả các điểm thuộc đối tượng đó

l nếu pixel x thuộc đối tượng

AR(x) =

O néu ngược lai

Theo vét déi trong bao gém viéc theo vét dudng bién (boundary) , theo

vết những chuyển động cục bộ (local motion) và những biến đổi về cường độ (độ sáng tối , độ tương phản) của đối tượng

Theo mô hình mà luận văn đề ra , đối tượng video được biểu diễn bang một lưới tam giác hai chiều Lưới được thiết kế dựa theo nội dung của đối tượng Việc theo vết đường biên (chuyển động toàn cục) , chuyên động cục

34

Ngày đăng: 29/10/2012, 16:52

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w