Luận văn, khóa luận, chuyên đề, tiểu luận, quản trị, khoa học, tự nhiên, kinh tế
Trang 1KHOA CNTT –
ĐH KHTN
KHOA CÔNG NGH THÔNG TIN
B MÔN CÔNG NGH TRI TH C
Trang 2KHOA CNTT –
ĐH KHTN
KHOA CÔNG NGH THÔNG TIN
B MÔN CÔNG NGH TRI TH C
Trang 3KHOA CNTT –
ĐH KHTN
Trang 1
L I C M N
h c Khoa h c T nhiên TP HCM ã t o i u ki n t t cho chúng em th c hi n tài lu n v n t t nghi p này
Chúng em xin chân thành cám n quý Th y Cô trong khoa ã t n tình gi ng
d y, trang b cho chúng em nh ng ki n th c quý báu trong nh ng n m h c v a qua
Chúng em xin chân thành cám n Th y Nguy n ình Thúc và Cô Ph m
Ph m Tuy t Trinh ã t n tình h ng d n, ch b o và óng góp ý ki n cho chúng
em trong su t th i gian th c hi n tài
Chúng con xin nói lên lòng bi t n sâu s c i v i Ông Bà, Cha M ã
Tháng 07/ 2004
Trang 4KHOA CNTT –
ĐH KHTN
Trang 2
M C L C
CH NG 1 GI I THI U VÀ NG C TH C HI N TÀI 5
1.2 T ng quan v các nghiên c u tr c ây 6
1.3 Các v n c n gi i quy!t 9
1.3.1 Phân o n c nh theo tr#c th i gian 10
1.3.2 Phân o n i t !ng Video 11
1.3.3 T o ch m#c và tìm ki m Video 12
1.4 Phác th o lu"n v#n 12
CH NG 2 PHÁT HI N CHUY N C NH B$NG T%NG H P &C TR NG 14
2.1 Gi i thi'u 14
2.2 M(t s) * t ng h+p nhi u ,c tr ng tr-c quan 17
2.3 Rút trích ,c tr ng trong mi n nén MPEG 19
2.4 Phát hi'n ch p sáng 20
2.5 Phát hi'n chuy.n c nh 22
2.5.1 T$ng h!p các c tr ng dùng cây quy t nh 23
2.5.2 Phát hi n chuy"n c nh tr c ti p 24
2.5.3 Phát hi n chuy"n c nh chuy"n ti p d n 28
CH NG 3 PHÂN O N NH VIDEO .31
3.1 Gi i thi'u 31
3.1.1 Các k% thu t phân o n nh 32
3.1.2 Phân o n và theo v t các vùng Video 34
3.2 Phân vùng và theo v!t b/ng t ng h+p ,c tr ng 36
3.2.1 Khái quát chung 36
3.2.2 C&u trúc d li u theo không gian và th i gian 38
3.2.3 Gán các i"m m#c tiêu 39
3.2.3.1 Phân b 'ng u các m#c tiêu 39
3.2.3.2 Các i"m có l !ng Gradient nh nh&t 39
3.2.4 Quá trình n( volume 41
3.2.4.1 N( volume d a vào liên k t h ng tâm 41
3.2.4.2 Các cách th c n( volume 44
3.2.4.3 Tinh l c l i các volume 46
3.2.5 S phân tích volume 49
Trang 5KHOA CNTT –
ĐH KHTN
Trang 3
3.2.5.1 S rút trích qu% o 49
3.2.5.2 Các mô t nh l !ng 51
3.2.6 ) c l !ng chuy"n ng trên c s( c tr ng 53
3.2.6.1 Các i"m c tr ng 54
3.2.6.2 ) c l !ng chuy"n ng dùng t ng quan pha 54
3.2.6.4 Áp mô hình lên các vector chuy"n ng 55
3.3 Xây d-ng th vi'n ,c tr ng 56
3.3.1 Quan sát m t s k t qu phân o n 56
3.3.2 Trích ch n c tr ng tr c quan 58
3.3.3 Tìm ki m n i dung Video theo không gian và th i gian 58
3.3.4 Mô hình truy v&n 59
CH NG 4 PHÂN TÁCH VÀ TÌM KI M I T NG VIDEO 60
4.1 Gi i thi'u 60
4.2 Các mô t quan h' 62
4.3 H' th0ng t- (ng tách 0i t +ng có ngh1a 64
4.3.1 M t s khái ni m 65
4.3.2 Phân c&p fine-to-coarse 65
4.3.3 Phân c&p Coarse-to-fine 69
CH NG 5 XÂY D NG NG D NG 2NH V2 M&T NG I 72
5.1 Gi i thi'u: 72
5.2 Các khái ni'm: 73
5.2.1 *nh d ng tính: 73
5.3.2 *nh âm tính : 73
5.2.3 C+a s$ con: 73
5.2.4 c tr ng: 73
5.2.5 *nh tích h!p: 74
5.3 Gi i thu"t h3c phân l p: 76
5.4 Mô hình Phân t ng: 78
5.5 Hu n luy'n b( phân t ng: 79
5.6 K!t qu 4nh v4 m,t 82
Trang 6KHOA CNTT –
ĐH KHTN
Trang 4
CH NG 6 K T LU N VÀ H NG PHÁT TRI N 83
6.1 K!t lu"n .83
6.2 H ng phát tri.n 84
THAM KH O 85
Trang 7KHOA CNTT –
ĐH KHTN
Trang 5
Ch )ng 1
Gi i thi'u và (ng c) th-c hi'n tài
1.1 V n t5o ch6 m7c và tìm ki!m Video
Ngày nay, v i s phát tri"n c a các k% thu t nén nh Video và truy n thông, ta hoàn toàn
có th" g+i tr c tuy n m t l !ng l n nh Video s R&t nhi u các nhà cung c&p n i dung truy n thông ang phân ph i Video theo yêu c u qua m ng Internet Ng i dùng t i nhà ang có các ng truy n b ng thông r ng ho c k t n i DSL " xem các hình nh Video ch&t l !ng cao Trong khi l !ng d li u Video ang t ng lên nhanh chóng, các ng d#ng
a truy n thông v n còn b gi i h n trong nh ng kh n ng qu n lý n i dung Do v y ngày càng òi h i các k% thu t m i có th" x+ lý hi u qu , mô hình hoá và qu n lý n i dung Video
M t k ch b n i"n hình trong t o ch m#c và tìm ki m n i dung Video !c bi"u
di n trong hình 1.1 Tr c tiên, các Video và nh u vào !c phân o n thành các n
v theo không gian và th i gian thích h!p Các c tr ng tr c quan sau ó !c rút ra t các n v này " t o ch m#c và tóm l !c Và cu i cùng, nh ng Video và nh này !c
a ra và tìm ki m d a trên các c&u trúc và c tr ng ( trên
Trong k ch b n v a nêu, k% thu t trên c s( n i dung là m t thành ph n quan tr ng cung c&p các cách tìm ki m d a vào tính t ng t c tr ng G n ây, nhi u nghiên c u
ã h ng t i l,nh v c này M t s ví d# bao g'm QBIC, PhotoBook, VisualSeek, MARS
Trang 8KHOA CNTT –
ĐH KHTN
Trang 6
và VideoQ [79,85,99,81,21] M#c tiêu là nh-m cung c&p kh n ng tìm ki m tr c quan
h n và t ng hoá quá trình chú gi i nh Video theo l i truy n th ng
Thêm vào ch m#c c tr ng, m t lo i k% thu t khác nh m t i phân tích và khai phá các c&u trúc cú pháp [129,116,104] và các tình hu ng ng ngh,a (semantic even) [83,59]
trong x+ lý Video s+ d#ng tri th c c thù và các mô hình Nh ng k t qu c a các phân tích này có th" !c dùng " sinh ra các tóm l !c ( m c ng ngh,a ho c có c&u trúc
Hình 1.1: Quá trình phân o5n và tìm ki!m nh Video
Lu n v n này ch y u trình bày nghiên c u c a chúng tôi v t ng rút ra và t o ch m#c các c tr ng tr c quan và n i dung ng ngh,a trên d li u Video C# th" là chúng tôi phát tri"n các công c# và ph ng pháp " gi i quy t các v&n sau
• Phát hi n chuy"n c nh nhanh và chính xác
• T ng phân vùng và t o ch m#c cho vi c tìm nh Video
• T ng phát hi n i t !ng chuy"n ng trên nh Video
1.2 T ng quan v các nghiên c u tr c ây
Hình nh và Video là nh ng bi"u di n tr c quan c a thông tin Trong nh ng n m
g n ây, nhi u ph ng pháp ã !c phát tri"n nh-m tìm ki m nh và Video trên c s(
c tr ng tr c quan c a chúng Màu s c, vân nh, chuy"n ng và c&u t o không
Trang 9hi n chuy"n c nh (scene cut), trích khoá frame, gom nhóm và duy t qua (browsing) [69,122] Khi mà các k% thu t tìm nh có th" !c áp d#ng cho tìm ki m Video, các c
tr ng duy nh&t c a d li u Video òi h i nh ng gi i pháp cho nhi u v&n m i y thách th c
So v i nh t,nh, Video là d li u ng v i tr#c th i gian *nh Video !c bi"u di n
m t cách liên t#c trên m t t c nh&t nh M t nh Video có ch&t l !ng t t bao g'm 25
n 30 frame trên m t giây Bên c nh ó, nh Video c n l !ng l u tr l n và b ng thông
r ng Kích th c c a m t gi Video MPEG-1 là h n 500 MB
Chính c tính liên t#c và l !ng d li u l n làm cho Video tr( nên thách th c h n khi x+ lý và qu n lý Nói cách khác, khi nhi u thông tin h n, c bi t là theo th i gian và chuy"n ng, ta l i có thêm nhi u c h i " phân tích các n i dung tr c quan trong nh Video H n n a, m c dù Video là ph ng ti n truy n thông liên t#c, n i dung ch a trong
nó có d ng phân c&p theo t nhiên M t o n phim Video !c chia thành các câu chuy n, shot, frame và ngay c các i t !ng và hành ng Nh ng h th ng tìm ki m Video hi u qu òi h i toàn b ch m#c c a t&t c các n v này S trích ch n các i
t !ng h!p thành và khám phá c&u trúc bên d i là m t ch c n thi t nh ng ch a gi i quy t !c Tóm t t các h ng ti p c n !c trình bày d i ây
Là m t khâu c b n c a t o ch m#c Video, các thu t toán c t c nh ã !c nghiên
c u r ng rãi nh-m chia nh Video ban u ra thành các n v c b n (vd shot ) Các c
tr ng ( m c th&p nh màu s c, c nh, chuy"n ng ã ch ng t !c là úng n cho phát hi n các thay $i theo th i gian [70,123] D a trên các phân o n theo th i gian, d
li u Video có th" !c bi"u di n m t cách hi u qu theo các d ng tóm t t Nhi u k% thu t
ã !c phát tri"n " làm ch m#c cho các shot ã !c phân o n
M t h ng ti p c n ph$ bi n khác !c dùng trong nhi u h th ng là tr c h t ch n
m t hay nhi u khoá frame cho m.i shot, và sau ó dùng các c tr ng nh nh màu s c, hình d ng hay vân nh " t o ch m#c các khoá frame này Làm sao " ch n và t$ ch c
Trang 10KHOA CNTT –
ĐH KHTN
Trang 8
khoá frame là v&n l n ( ây Ngoài các ph ng pháp l&y m u n gi n, các thu t toán
ti n b c/ng !c phát tri"n " dùng các thay $i v màu s c, chuy"n ng c a camera,
v n b n !c nhúng và các m t ng i [111] " ch n l a các frame có th" truy n t nhi u thông tin nh&t c a m t shot
Vi c ch dùng khoá frame " t o ch m#c b qua thông tin chuy"n ng trong Video
Tuy nhiên, khi Video !c phân chia thành các shot riêng l0, m i quan h th i gian và các tình hu ng gi a các shot liên t#c không !c khai thác Nh-m có th" tìm ki m tình
hu ng và hành ng, m t s ph ng pháp ã !c xu&t " bao hàm c thông tin v chuy"n ng và th i gian vào các mô hình n i dung Video Trong [14,23], nhi u mô t hình th c " bi"u di n m i quan h th i gian (vd tr c, sau,…) và có th" so kh p và truy v&n nh ng c&u trúc theo th i gian nh v y ) c l !ng chuy"n ng, các lô gíc theo không gian-th i gian, phân o n i t !ng và theo v t là m t s k% thu t chính ã !c
áp d#ng trong nhi u mô hình x+ lý
Các c tr ng tr c quan ch a ít thông tin ng ngh,a, và trong nhi u tr ng h!p, không thu n l!i và hi u qu cho ng i dùng khi tìm ki m Video mong mu n Các tóm t t
( m c cao h n nh câu chuy n, c nh, ho c hành ng cho phép ng i dùng tìm ki m và duy t qua nhi u Video t i m c hi u qu và có tính tr c giác h n Xem hình 1.2 ta th&y,
m t câu chuy n tin t c t CNN !c chia phân c&p thành các o n, câu chuy n và các shot riêng l0 [129] C&u trúc phân c&p này cung c&p m t tóm l !c nhi u t ng giúp ng i dùng duy t qua h t chi u dài o n Video Thêm vào các c&u trúc th i gian ã phát hi n, nhi u s n l c ã !c th c hi n nh-m rút ra nhi u o n có ngh,a t các shot
Trong [122], m t c&u trúc không gian !c dùng " phát hi n các c nh có nhân v t quan tr ng M t ch ng trình dài !c chia thành các câu chuy n d a trên nh ng c nh
có nhân v t quan tr ng Trong [117], m t ' th chuy"n ti p c nh !c dùng " ch n b t
c n i dung và lu'ng th i gian c a Video Nó ã !c báo cáo là có th" phát hi n các
cu c i tho i, hành ng và các n v câu chuy n
Nói chung, không gi ng nh ng shot có th" !c nh ngh,a theo các c tr ng (
m c th&p, các th c th" ( m c cao nh c nh hay câu chuy n khó có !c n u ch d a vào các c tr ng ( m c th&p Nh quan sát trong [117], " gom chính xác ho c phân lo i các shot, nhi u mô hình ph c t p c n !c xây d ng d a vào các bi"u di n trung gian ho c
Trang 11Tóm l i, khi s phát tri"n !c th c hi n trên nhi u l,nh v c t o ch m#c và tóm t t
nh Video, nhi u thách th c v n còn là v&n c n gi i quy t Do ó, nhi u k% thu t h n
!c yêu c u khi xây d ng h th ng tìm ki m Video hi u qu
Hình 1.2: C u trúc phân c p c8a m(t ch )ng trình tin t c
1.3 Các v n c n gi i quy!t
Nh ã th o lu n ( trên, vi c t o ch m#c Video liên quan n các x+ lý phân o n, phân tích và tóm t t n i dung Video Phân o n theo th i gian chia lu'ng Video dài thành các n v nh nh shot (thay vì dùng các frame riêng l0) Phân o n theo không gian rút
ra các i t !ng ch a trong Video shot Nh ng phân o n này làm ta có th" phân tích và
mô hình hoá n i dung Video, xây d ng các c&u trúc nhi u m c mà ng i dùng có th" tìm
ki m và duy t qua m t cách hi u qu nh&t, nh trình bày trong hình 1.3
Nhi u v&n thách th c t'n t i khi phân o n các i t !ng và xây d ng bi"u di n
d a trên i t !ng này K ti p, ta s khái quát các ch chính s !c c p trong
Trang 12Hình 1.3: Bi.u di9n Video d-a trên 0i t +ng
1.3.1 Phân o5n c nh theo tr7c th:i gian
M c dù nhi u x+ lý ã !c th c hi n nh-m phát hi n c nh, các h th ng v n còn thi u nh ng kh n ng sau: 1) phát hi n s chuy"n ti p d n m t cách tin c y; 2) x+ lý c n
th i gian th c; 3) gi i quy t các tình hu ng c bi t nh ch p sáng ho c thay $i ánh sáng t ng t
" xây d ng m t h th ng phân tích và tóm t t Video ( th i gian th c, chúng tôi phát tri"n m t s ' sao cho t$ng h!p các c tr ng màu s c, c nh, chuy"n ng dùng các k% thu t máy h c Trong s ' này, chúng tôi thông qua m t mô hình phát hi n s chuy"n ti p d n b-ng cách xem xét các c i"m c a nh ng giai o n kh(i u và k t
th c Chúng tôi c/ng gi i quy t !c v&n ch p sáng và thay $i m( (aperture)
Trang 13KHOA CNTT –
ĐH KHTN
Trang 11
1.3.2 Phân o5n 0i t +ng Video
Các i t !ng Video là các thông tin rõ ràng nh&t trong d li u Video, và là tiêu chu2n cho các nh n th c tr c quan c a con ng i Nó thu c v tr c giác " ng i dùng
mô t ho c ghi chú m t c nh quay ho c i t !ng Các nghiên c u g n ây trên MPEG-4
ã nh&n m nh v&n nén nh trên c s( i t !ng Có th" hình dung là ta !c phép truy
c p và tác ng t i các i t !ng m t cách tr c ti p t chu.i Video ã !c mã hoá
i u này ã cung c&p m t ti m n ng r&t l n cho các ng d#ng t ng tác a truy n thông
Chu2n MPEG-7, m t giao di n mô t n i dung a truy n thông, c/ng nh ngh,a m t s
' có th" t ng tác v i các c nh và i t !ng
C hai chu2n MPEG-4 và MPEG-7 không tiêu chu2n hoá các ph ng pháp và công c# rút trích i t !ng hay c tr ng [66] Khi Video !c bi"u di n d i d ng pixel thô nh ng i t !ng và thông tin ch a trong nó ph i !c rút trích tr c khi xây d ng b&t c mô hình n i dung nào trên c s( i t !ng Trong khi MPEG-4 và MPEG-7 ang tr( thành nh ng chu2n qu c t , các công c# phân o n i t !ng Video và c tr ng v n còn thi u
Ngày nay, các thu t toán phân o n t$ng quát và linh ho t !c nghiên c u trong công trình T ó cho th&y h th ng th giác con ng i không tính các biên trên b&t c t p thu c tính nào [63] M t v&n i"n hình v i các h th ng hi n nay là ch m t t p c
nh c tr ng !c dùng M t ph n t nh ng c tr ng ph$ bi n nh màu s c, c nh và chuy"n ng, các c&u trúc không gian-th i gian c/ng nh nh ng quy lu t bên d i mà con ng i dùng " nh n d ng i t !ng c/ng r&t quan tr ng M t v&n khác là n u không có m t mô hình i t !ng th t t t, s khó khi k t h!p nhi u c tr ng khác nhau vào quá trình phân o n i t !ng Nhi u c tr ng khác nhau có th" cho ra các phép n i suy i t !ng khác nhau " tho mãn nh ng yêu c u này, chúng tôi ã phát tri"n m t
mô hình phân c&p nh-m bi"u di n i t !ng và m t s ' phân o n và theo v t k t h!p nhi u c tr ng tr c quan
S ' này bao g'm hai ph n có quan h v i nhau Tr c h t, chúng tôi phát tri"n
m t thu t toán t ng phân o n và theo v t vùng nh d a vào s k t h!p c a màu s c,
c nh và chuy"n ng K t h!p v i quá trình bù tr chuy"n ng toàn c#c, chúng tôi nh n th&y là s t ng rút ra các vùng Video có th" !c dùng " ph#c h'i các i t !ng Video D a trên ph n u tiên, chúng tôi phát tri"n m t h th ng t ng phân o n i
Trang 14KHOA CNTT –
ĐH KHTN
Trang 12
t !ng Video có ngh,a M t i t !ng có ngh,a th ng t ng ng v i m t i t !ng ( th
gi i th c Nhi u nh ngh,a i t !ng có ngh,a !c a ra b(i ng i dùng ho c d a trên
m t s tri th c c thù Các i t !ng này !c mô hình hoá nh m t c&u trúc nhi u m c
và bao g'm t p các vùng v i các c tr ng k t h!p M t ph ng pháp gom nhóm và ánh
x m i !c phát tri"n " thu !c các i t !ng có ngh,a t các vùng nh ã !c t
ng theo v t S ph#c h'i i t !ng t i các m c vùng và ng ngh,a cho ta nhi u c
tr ng d'i dào và m m d0o nh&t " mô t n i dung Video trong nhi u ng d#ng liên quan
1.3.3 T5o ch6 m7c và tìm ki!m Video
Bi"u di n Video d a trên shot và i t !ng cung c&p m t n n t ng linh ho t cho
vi c t o ch m#c và tìm ki m Video (video indexing and retrieval) Các k% thu t t o ch m#c hi n t i ch y u d a vào các c tr ng tr c quan t các khoá frame Nh ng i
t !ng Video cho phép ta mô t n i dung hi u qu h n Ta d dàng k t h!p chuy"n ng
và hành ng vào i t !ng B-ng cách nh n d ng m i quan h gi a các i t !ng trong các shot khác nhau, ta c/ng có th" nh ngh,a nhi u tình hu ng ngang qua các shot ó S phát hi n các c nh có ngh,a, i t !ng và c i"m c a nó giúp ta có th" tóm t t o n Video dài t i m c cao h n, ng n g n h n
Trong lu n v n này, chúng tôi nghiên c u các k% thu t t o ch m#c hi u qu và
nh ng ph ng pháp tìm ki m dùng t p nhi u c tr ng t i c hai m c i t !ng và vùng
nh M t mô hình truy v&n i t !ng Video d a trên vùng !c xu&t nh-m k t h!p các c tr ng toàn c#c và t ng ph n l i, c/ng nh so sánh các c&u trúc không gian-th i gian khác nhau
1.4 Phác th o lu"n v#n
Trong ph n còn l i c a lu n v n, ta nghiên c u các k% thu t phân o n Video t$ng quát (bao g'm c không gian và th i gian), c/ng nh so kh p c tr ng t ng ng và s
' tìm ki m Các ch ng k ti p !c t$ ch c nh sau ây
Trong Ch )ng 2, chúng tôi trình bày các thu t toán c t c nh quay Các công trình
tr c ây và các v&n m( r ng !c xem xét tr c Sau ó chúng tôi trình bày m t s
' t$ng h!p các c tr ng màu s c, c nh, chuy"n ng cho vi c phát hi n chuy"n c nh (
Trang 15Trong Ch )ng 3, chúng tôi trình bày m t h th ng tìm ki m Video dùng các vùng
Video ã !c t ng theo v t Tr c h t chúng tôi gi i thi u m t h th ng t ng phân o n và theo v t có k t h!p nhi u c tr ng " có các k t qu theo v t chính xác và áng tin c y Sau ó, chúng tôi th o lu n c&u trúc c a th vi n c tr ng tr c quan và trình bày các k% thu t truy v&n hi u qu trên các vùng nh ã !c t ng phân o n
Cu i cùng, m t s k t qu truy v&n !c trình bày
Trong Ch )ng 4, chúng tôi trình bày m t s ' k t h!p cho phân o n i t !ng
ng ngh,a và tìm ki m i t !ng trên c s( t ng t d a trên mô hình i t !ng nhi u
m c 3 ay, chúng tôi dùng c#m t “ i t !ng ng ngh,a” " ch các i t !ng trong th
gi i th c Tr c h t, chúng tôi trình bày các k% thu t phát hi n i t !ng chuy"n ng dùng các thông tin v chuy"n ng và vùng nh Nh ng vùng nh này ã !c rút ra t
ng t Ch )ng 3 Sau ó chúng tôi trình bày m t công c# tìm ki m Video d a trên i
t !ng Cu i cùng, m t s k t qu th c hi n !c trình bày
Trong Ch )ng 5, chúng tôi s trình bày m t k% thu t nh v m t ng i và ng
d#ng c a nó vào h th ng ch m#c i t !ng chuy"n ng M t s gi i thu t m i s !c trình bày nh gi i thu t ADABoost…M t s k t qu cung s !c trình bày
Ch )ng 6 k t lu n v công vi c ã th c hi n và c/ng bàn v các ng d#ng và các
h ng phát tri"n trong t ng lai
Trang 16
Các k% thu t t o ch m#c d a trên shot ã !c s+ d#ng r ng rãi " t$ ch c d
li u Video Phát hi n chuy"n c nh là m t trong các ph ng pháp ph$ bi n nh&t " chia
o n Video thành các n v nh nh&t nh-m t o ch m#c M t shot bao g'm chu.i các frame liên t#c !c ghi t Camera Thông th ng, m t hành ng liên t#c di n ra bên trong m t shot v i i u ki n là c nh không thay $i quá l n Tuy nhiên, v n có nhi u thay $i trong m t nh Video (vd chuy"n ng c a i t !ng, thay $i ánh sáng, và chuy"n ng c a camera), vi c phát hi n chính xác s chuy"n c nh quay không ph i d dàng H n n a, các k% thu t i n nh !c dùng trong c nh nh tan bi n, m d n và co
l i, ã sinh ra các thay $i khó mà phát hi n !c
Các thu t toán c t c nh ã !c nghiên c u t nh ng n m 90 Ph ng pháp c
b n là o s khác bi t i"m nh gi a các frame d i d ng giá tr màu [126] Trong [126],
s l !ng các i"m nh khác nhau !c m và n u nó v !t qua m t giá tr ph n tr m nh&t nh m t c nh !c xu&t ra Ph ng pháp này không m nh do chuy"n ng c a camera và c a i t !ng có th" gây ra khác bi t giá tr i"m nh qúa l n
Trang 17j H j H
j H j H
i i
1
)) ( ), ( max(
)) ( ) ( (
0
2 1
χ
Histogram màu ã !c dùng " gi i quy t !c v&n này, nh phân b màu
gi a các frame liên t#c không b nh h (ng nhi u b(i chuy"n ng c a camera và c a i
t !ng [121] Gi s+ H i là m t histogram N-màu !c rút ra t frame th i, khác bi t
frame !c nh ngh,a nh sau:
(
|
n u D i l n h n m t ng ng cho tr c, m t c nh !c phát hi n t i frame i+1 M t o
hi u qu h n, χ2-test, !c gi i thi u trong [78], và !c trình bày là t t h n khi thí nghi m so v i các o khác Trong χ2-test, kho ng cách gi a hai Histogram !c cho b(i công th c sau:
n u H i(j)≠0hayH i+1(j)≠0
n u ng !c l i
M c dù so sánh tr c ti p màu s c gi a các frame th c hi n r&t t t khi phát hi n
c nh, các chuy"n ti p nh nh fade-in và fade-out, tan d n và co l i không !c phát
hi n chính xác
Nh trình bày trong hình 2.1, s khác bi t màu s c qua các frame trong m t c nh
thay $i d n nh h n so v i c nh quay tr c ti p Trong lúc ó, chuy"n ti p d n tr h n so
v i chuy"n c nh tr c ti p (h n 1 giây)
Trang 18KHOA CNTT –
ĐH KHTN
Trang 16
Hình 2.1: So sánh c nh tr-c ti!p và c nh chuy.n ti!p
Do s khác bi t giá tr màu nh c a c nh thay $i ít, m t ng ng n không th"
phân bi t gi a chuy"n ng c a camera hay chuy"n ng c a i t !ng " gi i quy t
v&n này, m t thu t toán so sánh kép !c xu&t trong [121] Ph ng pháp này òi
h i hai ng ng ng t, m t l n h n cho chuy"n tr c ti p và m t ng ng nh h n cho chuy"n d n Ng ng l n h n !c áp d#ng tr c N u không có c nh quay tr c ti p thì
ng ng bé h n !c dùng " phát hi n c nh chuy"n ti p d n Khi m t c nh chuy"n ti p
ng viên !c phát hi n, khác bi t qua các frame !c tích tr cho các frame liên t#c
Trong [119], m t h ng ti p c n d a trên c nh !c xu&t " phát hi n các c nh tr c
ti p và các c nh chuy"n ti p 'ng th i Ph n tr m c nh i vào và thoát ra gi a hai frame
!c tính Biên c a c nh !c phát hi n b-ng cách so sánh hai ph n tr m này
S phát hi n chuy"n c nh th ng bao g'm trích ch n c tr ng và so sánh cho các c p frame liên t#c ây là m t quá trình c n nhi u th i gian, và không th" th c hi n (
th i gian th c trên máy PC H u h t nh Video u !c nén v i chu2n MPEG, phát hi n chuy"n c nh tr c ti p t các vùng nén ã !c nghiên c u trong nhi u công trình ã t
t i m c thi hành ( th i gian th c Trong [69], các th ng kê vector chuy"n ng !c dùng " phát hi n chuy"n c nh Cho m t P-frame, t l gi a các kh i intra-code và s
kh i inter-code !c tính V i B-frame, t l s vector chuy"n ng ng !c l i và s
Trang 19P-Trong ch ng này, chúng tôi s trình bày m t s ' phát hi n chuy"n c nh m i v i
s t$ng h!p c a nhi u c tr ng tr c quan trong c mi n nén và không nén Công vi c
th c hi n !c bao g'm các v&n sau ây
• M t s ' hi u qu t$ng h!p chuy"n ng và các c tr ng màu trong c mi n nén
tr m chính xác !c báo cáo cho phát hi n chuy"n c nh V i các chuy"n ti p d n, chính xác v n trong kho ng t 70-80 ph n tr m Trong khi xây d ng m t mô hình phân tích Video ( th i gian th c mà có th" áp d#ng cho các Video s ng ng, ta có th" c/ng s
g p ph i các thách th c khác Tr c h t, yêu c u c n th i gian th c th ng xung t v i chính xác cao Thêm vào ó, nhi u c tr ng ph c t p !c dùng " rút ra các c nh quay chính xác l i khó có th" tính ( th i gian th c H n th n a, thay $i sáng, vd ,
èn ch p th ng xu&t hi n nhi u trong các Video gia ình, a n m t v&n khác có
th" gây ra k t qu phát hi n sai
Trang 20KHOA CNTT –
ĐH KHTN
Trang 18
Hình 2.2 Mô hình c;t c nh quay t ng h+p nhi u ,c tr ng
" nh&n m nh n nh ng v&n này và xa h n là t ng chính xác phát hi n chuy"n c nh, chúng tôi phát tri"n m t mô hình phát hi n c nh có t$ng h!p chuy"n ng, màu s c, và thông tin v c nh Làm sao " t$ng h!p các c tr ng " th c hi n c t c nh
t t v n là m t v&n m( Chúng tôi dùng máy h c (cây quy t nh) " tìm ki m các
o và ng ng Các c tr ng thu c mi n nén !c áp d#ng tr c mi n không nén " t
t i th i gian th c Chúng tôi c/ng thi t k các module c bi t " phát hi n èn ch p và thay $i ánh sáng Bi"u ' cho toàn b mô hình !c trình bày trong hình 2.2 Khái quát qua mô hình !c trình bày d i ây Chi ti t v các thu t toán s !c trình bày trong các ph n ti p theo
Tr c h t, các c tr ng thu c mi n nén !c rút ra Th ng kê chuy"n ng !c tính t các lo i chuy"n ng khác nhau trong B-frame ho c P-frame khác bi t màu
s c !c tính t nh DC c a I ho c P-frame M t yêu c u là gi i mã t ng ph n mà không
Trang 21KHOA CNTT –
ĐH KHTN
Trang 19
tra li u có c nh chuy"n ti p d n hay không b-ng cách phát hi n các c nh t u n cu i
c a chuy"n ti p Khi các c nh chuy"n ti p d n !c ch n nh m do chuy"n ng c a camera, tr c h t ta ki"m tra chuy"n ng c a camera d a trên các vector chuy"n ng trong vùng nén MPEG N u không có chuy"n ng camere, ta rút ra c tr ng c nh và xám t các frame gi i nén và tính khác bi t " xem có ph i do các thay $i m(
(aperture) Trong tr ng gh!p có thay $i m(, c&u trúc c nh và xám không b nh
h (ng nhi u nh sáng M t chuy"n ti p d n !c công nh n n u c nh và xám u thay $i áng k"
Trong các ph n ti o theo, ta s a ra chi ti t v nh ng module ( trên và các thu t toán mà chúng áp d#ng
2.3 Rút trích ,c tr ng trong mi n nén MPEG
Khi Video s th ng !c nén cho m#c ích l u tr và truy n i, nhi u công trình ã !c xu&t nh-m phát hi n chuy"n c nh tr c ti p t các vùng nén mà không có quá trình gi i nén 3 ây, chúng tôi nh&n m nh n hai chu2n nén n$i ti ng MPEG-1 và MPEG-2 Chúng tôi d a theo các c tr ng chuy"n ng !c ngh trong [69], và
nh ngh,a thêm hai c tr ng màu c/ng !c sinh ra t các vùng nén d a trên bi n $i DCT Khi có ba lo i frame nén [65], nhi u ph ng pháp rút trích c tr ng ã !c dùng
MPEG Video !c t$ng h!p t ba lo i frame I, P và B M t I-frame hoàn toàn là intra-coded mà không có c l !ng chuy"n ng M t P-frame là d ng inter-coded d a trên l.i d oán chuy"n ng qua các frame I ho c B M t B-frame !c mã hoá d a trên
d oán chuy"n ng theo hai h ng t frame tr c và sau nó I ho c P-frame I và frame c/ng !c g i là các frame neo (anchor)
B-V i I-frame, khác bi t màu qua frame và theo th i gian dài !c tính Màu s c
khác bi t gi a hai frame I và j !c tính trong không gian màu YUV nh sau
Trang 22KHOA CNTT –
ĐH KHTN
Trang 20
Trong ó Y , _ U_ , V_ là các giá tr màu trung bình trên các kênh Y, U, V !c tính t nh
DC c a frame i và j; σY,σU,σV t ng ng v i l ch chu2n c a các kênh Y, U, V w là
l !ng c a các kênh U và V l ch màu gi a các frame !c tính gi a I-frame và frame tr c ó Chú ý là nh DC c a m t P-frame !c n i suy t frame I ho c P-frame
P-tr c ó d a P-trên các vector chuy"n ng t i
D frame-to-frame (i) = D(i,i-M-1)
trong ó M là s B-frame gi a c p frame neo
khác bi t màu s c long term !c tính nh sau:
D long-term (i) = D(i,i-(M+1)*k)
trong ó, k>1 và th ng !c t trong kho ng 5-10, t ng ng v i m t kho ng th i gian 0.2 n 0.4 giây cho các video chu2n MPEG
V i m t P-frame, khác bi t màu gi a các frame và long term !c tính cùng lúc nh I-frame Các th ng kê màu !c tính t nh DC Thêm vào ó, o chuy"n
ng R p !c tính R p là t l các kh i intra-coded t i các vector chuy"n ng t i trong frame 3 ây, các vector chuy"n ng t i trong m t P-frame thu c v chuy"n ng !c
P-c l !ng t các frame I ho c P c/
V i B-frame, ta ch tính hai o d a trên chuy"n ng, R f và R b R f là t l gi a các vector chuy"n ng t i và lui trong B-frame [69] Chú ý là các vector chuy"n ng lui trong m t B-frame thu c v chuy"n ng !c c l !ng t frame k ti p, trong khi chuy"n ng t i thu c v chuy"n ng c l !ng t frame neo tr c ó
2.4 Phát hi'n ch p sáng
Ch p sáng (flashlight) xu&t hi n th ng xuyên trong các Video gia ình và trong các ch ng trình tin t c Chúng gây ra s thay $i t ng v sáng và s b phát hi n chuy"n c nh sai n u không !c gi i quy t m t cách úng n Ta áp d#ng module phát
hi n flashlight tr c quá trình phát hi n c nh N u m t flashlight !c phát hi n, s c t
c nh s b qua kh i th i i"m x y ra flash và ti p t#c x+ lý Nh ã gi i thi u, khi s c t
c nh xu&t hi n 'ng th i v i flashlight, thu t toán s không phát hi n flash mà ti p t#c phát hi n c nh m t cách chính xác
Trang 23KHOA CNTT –
ĐH KHTN
Trang 21
Flashlight th ng di n ra trong kho ng 0,02 giây Do ó các Video th ng v i 25
n 30 frame m t giây, m t flashlight ch nh h (ng nhi u nh&t là m t frame M t ví d#
v flashlight !c trình bày trong hình 2.3
Hình 2.3: nh h <ng c8a flashlight
Nh trong hình 2.4, giá tr xám nh y lên m c cao khi flashlight xu&t hi n i u này
s tr( l i bình th ng sau m t s frame (4 ho c 8) do các thay $i m( c a camera Trái
l i, v i m t c nh th t, phân b màu s không tr( l i m c ban u D a trên c i"m này, chúng tôi dùng t l khác bi t màu qua frame và khác bi t long term " phát hi n flash
T l này !c nh ngh,a nh sau ây
Fr(i) = D(i,i-1)/D(i+ ,i-1)
trong ó i là frame ang xét, và là chi u dài trung bình c a thay $i m( c a m t
camera N u t l Fr(i) nh h n m t ng ng cho tr c, m t flashlight !c phát hi n t i frame i và ng !c l i
Trang 24V i các o màu s c và chuy"n ng gi a các frame, vi c c t c nh có th" !c
th c hi n b-ng cách nh n ra các giá tr nh c a các o này Khi chuy"n c nh trong Video n t nhi u ngu'n khác nhau v i các c i"m khác nhau, vi c t m t ng ng
c#c b " có th" tìm ra các giá tr nh là r&t khó Ngay c trong cùng Video, các ph n khác nhau c/ng có các m c giá tr nh khác nhau " gi i quy t v&n này, chúng tôi dùng m t c+a s c#c b " tìm ra các gá tr nh Kích th c c a c+a s$ th ng t 30 n
60 frame, và tâm t t i frame b t u ki"m tra
Gi s+ kích th c c a c+a s$ là 2*4+1, giá tr c tr ng cho m.i frame !c chia
b(i giá tr trung bình t ng ng qua c a s$ [i- ,i+ ] T l m i này (PA) !c nh ngh,a
nh sau
)1
*2/(
)(
i i
k T
i T
trong ó, T∈(D frame−to−frame,R p,R b,R f)
V i I-frame, PA c a D frame−to−frame !c tính V i P-frame, PA c a D frame−to−frame và R p
!c tính V i B-frame, PA c a R b và R b !c tính Cho t&t c các t l PA trong m t c a
Trang 25h!p khác nhau, quá trình ch n l a này rõ ràng là c n nhi u th i gian Chúng tôi xây d ng
m t quá trình h c d a trên cây quy t nh " tìm các mô hình quy t nh úng nh&t và các ng ng !c x&p x
2.5.1 T ng h+p các ,c tr ng dùng cây quy!t 4nh
Cây qu y t nh là m t k% thu t máy h c ph$ bi n và n gi n Nó liên quan n
m t cây mà các nút không ph i lá !c gán m t c tr ng Các cành t ng ng v i các giá tr có th" M t ví d# trong hình 2.5, c tr ng t i m c nh là khác bi t màu gi a các frame, cành d i nút là kho ng giá tr có th" c a c tr ng, ví d# h n 100 ho c bé
h n 100 Nút lá !c gán nhãn là m t l p, là c t c nh ho c không là c t c nh Cây quy t
do các mô hình phát hi n c/ng khác nhau Chuy"n ti p d n t n th i gian lâu h n tr c ti p
và ch !c phát hi n nh vào khác bi t v màu s c Do ó, chúng tôi xây d ng và hu&n luy n b n lo i cây quy t nh: ba cho phát hi n c nh tr c ti p và m t cho phát hi n c nh chuy"n ti p d n
Trang 26KHOA CNTT –
ĐH KHTN
Trang 24
Hình 2.5: M(t ví d7 v cây quy!t 4nh
2.5.2 Phát hi'n chuy.n c nh tr-c ti!p
Chuy"n c nh tr c ti p !c phát hi n t i c ba lo i frame Nh ã c p ( trên, s phát
hi n c a các chuy"n c nh tr c ti p thì khá d dàng Khi ta phát hi n m t nh khác bi t trong m t c+a s$ c#c b t c là có m t chuy"n c nh 3 ây, ta ki"m tra t l PA " tìm các giá tr nh Cây quy t nh !c hu&n luy n " h c các c tr ng màu s c và chuy"n
ng nh-m so sánh trong quá trình phát hi n
V i frame th k, n u nó là m t I-frame, ta dùng t l PA D frame−to−frame (k),
)1
−
I-frame và P-frame k ti p Chú ý là ( ây s frame ( trong th t truy n M t ví d# v i
M=2 !c trình bày trong hình 2.6 L u ý là frame k+1 và k+2 là các B-frame bi"u di n
tr c I-frame(k), nh ng !c truy n sau do th t#c d oán frame !c dùng trong MPEG
Trang 27KHOA CNTT –
ĐH KHTN
Trang 25
Hình 2.6: T6 l' PA +c dùng trong phát hi'n chuy.n c nh tr-c ti!p
Thêm vào ó, PA D frame−to−frame (k) !c ki"m tra " xem có hay không m t nh t i frame k,
)1
−
k+M+1 ( gi s+ là không có chuy"n c nh v i m t s frame) i u này gi i quy t r&t nhanh v&n chuy"n ng camera gây nh h (ng l n n s khác bi t frame gi a các frame liên t#c PA Rb(k+ j) !c ki"m tra xem có chuy"n c nh xu&t hi n t i frame k+j
hay không [69], frame này !c bi"u di n tr c frame k i u này do frame k !c so
sánh v i frame neo P-frame " thu !c khác bi t màu s c và c/ng có th" có nh khi
m t chuy"n c nh xu&t hi n t i các B-frame tr c nó Cây quy t nh thu !c xem trong
hình 2.7
Ng ng TH " phát hi n nh gi a các t l PA c a khác bi t màu ( trong kho ng 5 n
6, có !c trong quá trình hu&n luy n Ng ng TH _ Rbdùng " phát hi n nh c a các
khác bi t R b( trong kho ng 2 n 3 Nh ã th o lu n trong [69], giá tr R b l n ch ng t
có m t chuy"n c nh t i B-frame Ng ng t i u thì khác bi t r&t l n so v i các lo i Video khác nhau (ví d# Video th" thao và Video gia ình) Nh ã bàn lu n trong ph n
2.5.4, trong th c t , m t mô hình t$ng quát nhi u m c có th" !c dùng cho phép ng i
s+ d#ng d dàng s+a các l.i báo sai và thi u
Trang 28KHOA CNTT –
ĐH KHTN
Trang 26
Hình 2.7: Phát hi'n chuy.n c nh t5i I-frame
N u frame th k là P-frame, PA Rp (k) !c ki"m tra thêm vào v i các c tr ng ã !c
ki"m tra cho m t I-frame, bao g'm PA D frame−to−frame (k), PA D frame−to−frame(k+M +1)và
)(k j
PA Rb + v i j =1 M Các lu t quy t nh !c trình bày trong hình 2.8
bi t th c s M t quá trình ti p theo " ch c ch n là không có nh nào t i frame
K+M+1, và không có chuy"n c nh t i các B-frame sau ó 3 ây, TH _Rp( trong kho ng 15 và 25
Trang 29KHOA CNTT –
ĐH KHTN
Trang 27
Hình 2.8: Phát hi'n chuy.n c nh t5i P-frame
V i B-frame, ta ki"m tra các giá tr t l PA và Rb PA Rf t i frame k và B-frame k
ti p Nh trong hình hình 2.9, gi s+ L là s B-frame cu i cùng tr c frame neo k ti p, frame th k là chuy"n c nh n u giá tr PA c a frame k và B-frame k t ti p l n h n Rb
ng ng cho tr c TH_Rb N u giá tr PA Rf c a frame k và t&t c các B-frame theo sau
l n h n ng ng TH_Rf , frame tr c nó I ho c P-frame !c phát hi n là chuy"n c nh
H ng ti p c n này là m t phiên b n cao h n nh ng gì gi i thi u trong [69] Thay vì ch
Trang 30Hình 2.9: Phát hi'n chuy.n c nh t5i B-frame
2.5.3 Phát hi'n chuy.n c nh chuy.n ti!p d n
N u không phát hi n !c chuy"n c nh tr c ti p, thu t toán s ki"m tra các chuy"n ti p d n không có các giá tr nh cao nh các module ( trên Thu t toán !c s+
d#ng r ng rãi so sánh kép !c thi t k " theo v m t chuy"n ti p v i gi thi t là khác bi t gi a các frame không th&p h n m t ng ng trong toàn b th i gian Tuy nhiên
v i chuy"n ti p dài trong m t s Video (th" thao ho c hài k ch), khác bi t có th" r i vào m t m c r&t th&p v i m t vài frame chuy"n ti p i u này s gây ra sai ho c thi u trong ph ng pháp so sánh Các nghiên c u khác ã phát tri"n các thu t toán tính khác
bi t giá tr màu và sau ó tìm ra các ng parabol " phát hi n s chuy"n ti p m d n
và m&t d n Do nhi u và chuy"n ng, vi c tìm các ng parabol r&t khó th c hi n
Dùng cây quy t nh, ta th&y là s n gi n và m nh h n n u phát hi n th i i"m
b t u và k t thúc c a chuy"n ti p, có hình d ng là các b c lên xu ng riêng bi t M t
Trang 31Hình 2.20: Các c5nh b;t u và k!t thúc c8a m(t chuy.n c nh chuy.n ti!p
D a trên các k t qu t cây quy t nh, ta dùng khác bi t màu t i sáu frame neo liên ti p " phát hi n các b c b t u và k t thúc Các quy t nh cu i cùng !c tóm
v i th i gian n+a giây " phát hi n chính xác các b c Trong thí nghi m c a chúng tôi,
ng ng TH _ G1 trong kho ng 1.1 n 1.3; ng ng TH _ G2 trong kho ng 0.7 n 0.8
Khi khác bi t gi a các frame luôn t'n t i ( biên c a m.i chuy"n ti p, và th ng d
nh n th&y, ph ng pháp phát hi n c a chúng tôi có th" b t các c nh b&t u và k t thúc
Trang 32KHOA CNTT –
ĐH KHTN
Trang 30
3 ây, L1 là kho ng cách ng n nh&t c a các chuy"n ti p (th ng là 10 frame hay 0.3
giây) L2 là chi u dài l n nh&t c a m t chuy"n ti p (60 frame hay 2 giây)
M t tình hu ng gây ra phát hi n sai là khi có m t chuy"n ng camera t ng t và chuy"n ng c/ng ng ng t ng t trong kho ng th i gian ng n Chuy"n ng camera
ch m th ng không gây ra các thây $i d ng b c nh trên i u này có th" ch&p nh n
!c trong nhi u ng d#ng vì s chuy"n ng camera t ng t làm thay $i khung nhìn
và có th" !c xem xét nh m t chuy"n c nh úng
Trang 33Vi c phân o n video theo th i gian s+ d#ng các thu t toán c t c nh ã !c áp
d#ng r ng rãi trong các h th ng Video indexing và Retrieval [6,126] Khi mà các chu.i Video !c phân thành các n v c b n (vd… shot), các frame liên t#c, ng i dùng v n
có th" rút ra !c các thông tin n i dung mong mu n Tuy nhiên, v i h u h t các n i dung Video, vi c phân o n theo th i gian b(i các thu t toán c t c nh v n ( m c th&p
Thông th ng, có r&t nhi u c nh trong 1 gi Video (x&p x 1000) H n n a, ng i dùng
th ng mu n l t qua và tìm ki m thông tin có tính ng ngh,a t i m c cao h n V i m t
ch ng trình tin t c ch5ng h n, s có ích h n n u chia Video thành các câu chuy n thay
vì các c nh quay
M t s nghiên c u ã th c hi n nh-m gom các c nh quay thành các câu chuy n
ho c các c nh phim h!p lý [118,129] Trong [129], ph ng pháp gom c#m phân c&p
!c s+ d#ng " t$ ch c các shot d a theo các c tr ng tr c quan và chuy"n ng c a chúng M t ' th chuy"n ti p !c gi i thi u trong [118] " t o ra các lu'ng n i dung
c a m t chu.i Video, và m t thu t toán ràng bu c v th i gian !c dùng " t$ng h!p các shot thành “scene”
Trong khi các mô hình khác nhau có th" !c dùng " qu n lý các phân o n theo
th i gian ( m c ng ngh,a cho các l,nh v c c# th", vi c rút trích ra các c tr ng trung gian có ngh,a ho c ( m c cao nh vùng nh và i t !ng t d li u Video là m t v&n
c n b n c n !c chú ý trong h u h t các h th ng Index và Retrieval Khi các o n Video ch !c bi"u di n d i d ng i"m nh thô v i thông tin màu s c và sáng, vi c phân o n theo không gian là m t b c c n thi t nh-m h tr! quá trình rút trích và phân
Trang 34c u [47] Làm th nào " t !c các k t qu ch c ch n và làm th nào " xây d ng
!c ánh x chính xác các phân vùng nh t i các frame riêng l0 là hai v&n c n ph i bàn t i
Trong ch ng này, chúng tôi nghiên c u m t ph ng pháp t ng phân vùng
nh Video và bi"u di n cách áp d#ng nó vào m t h th ng tìm ki m d a trên n i dung
3.1.1 Các k> thu"t phân o5n nh
Phân o n nh là m t trong nh ng b c quan tr ng nh&t trong phân tích nh K t
qu là phân chia nh thành các ph n v i các tính ch&t 'ng nh&t theo không gian và th i gian, nh màu s c, vân nh, chuy"n ng và các c&u trúc theo không gian và th i gian
i u này !c nh ngh,a m t cách hình th c nh sau: n u F là m t t p các i"m nh
trong m t nh, và M(.) là o tính 'ng nh&t c a m t vùng các i"m nh có liên k t
nhau, thì phân o n là m t quá trình phân chia nh F thành các t p con c a các i"m nh
có liên k t F 1, F 2 , … ,F n sao cho:
,)
(F true
Trang 35KHOA CNTT –
ĐH KHTN
Trang 33
,)
F F
th c hi n b-ng các thu t toán t$ng quát, thì s phân o n tr n v n òi h i các tri th c thu c l,nh v c c# th"
Các k% thu t phân o n c( s( l i có th" !c chia thành ba lo i là ng ng, phát
hi n c nh và n( vùng Phân o n d a trên ng ng s bi n $i m t nh u vào f thành
m t nh nh phân u ra g d a trên m t ng ng T cho tr c nh sau:
v i i và j là các to X và Y, g(i,j)=1 ch ra r-ng i"m nh (i,j) thu c v i t !ng và
ng !c l i g(i,j)=0 ch ra r-ng i"m nh thu c v n n T là giá tr ng ng trong không gian
c tr ng V i m t s ng ng cho tr c, ta có th" phân chia m t nh thành các i
t !ng
Hình 3.2: Các k!t qu phát hi'n c5nh c8a m(t nh
K% thu t phân o n d a trên phát hi n c nh dùng các i"m nh " tìm biên i
t !ng C nh là d li u có t n s cao ch s không liên t#c c a màu s c trong m t nh
Trang 36KHOA CNTT –
ĐH KHTN
Trang 34
Làm th nào " phân bi t gi a các c nh và nhi u là m t v&n khó c a các thu t toán tìm
c nh M t s l n các ph ng pháp ã !c gi i thi u " theo v t các biên i t !ng [82]
Hình 3.3 M(t ví d7 phân o5n nh b/ng ph )ng pháp n< vùng
Các k% thu t phân o n tiên ti n !c phát tri"n trong c ba lo i trên nh-m cho
k t qu phân o n t t h n M t s ví d# ã bi t nh các thu t toán watershed dùng các
d ng hình thái toán h c " n( vùng [94], active contour (snake) dùng các ng spline
c c ti"u hoá n ng l !ng [57], m ng neural h c các thông tin ng c nh t d li u hu&n luy n, và gom nhóm d li u d a trên lý thuy t m [75]
3.1.2 Phân o5n và theo v!t các vùng Video
M c dù nhi u công trình ã th c hi n phân tích nh thành các vùng v i các c
tr ng gi ng nhau, ta v n thi u các k% thu t phân o n d li u Video v i các ngu'n Video
t$ng quát, c bi t các biên vùng c n chính xác Phân o n i t !ng chuy"n ng dùng
tr ng chuy"n ng ho c lu'ng quang h c (optical flow) ã tr( thành các tr ng tâm chính trong nhi u nghiên c u Khi các tr ng chuy"n ng th ng b nhi u trong các
Trang 37KHOA CNTT –
ĐH KHTN
Trang 35
c nh ( th gi i th c, vi c phân o n tr c ti p t chúng s không úng và không $n nh
S c l !ng chuy"n ng và phân o n d a trên mô hình s t t h n G n ây, Wang và Anderson [112] ã a ra m t ph ng pháp gom nhóm d a trên bi n $i affine Các t ng chuy"n ng !c sinh ra t tr ng chuy"n ng ban u b-ng các mô hình c l !ng
và l c liên t#c Trong [8], thay vì dùng lu'ng quang h c, Ayer và Sawhney a ra m t
ph ng pháp c l !ng mô hình chuy"n ng và h tr! phân t ng 'ng th i Trong [73], Mayer và Bouthemy ã phát tri"n m t thu t toán “ u$i b t” " theo v t m t i t !ng
d a trên c l !ng nhi u phân gi i mô hình affine t tr ng chuy"n ng trong i
t !ng ó M t cách t$ng quát, Các ph ng pháp ( trên t p trung vào các i t !ng chuy"n ng và không theo v t !c các i t !ng t,nh ho c các i t !ng có chuy"n
ng gián o n (nh ng i b ng qua ng) H n th , do gi i h n v chính xác c a
vi c c l !ng chuy"n ng, phân o n chuy"n ng có th" a ra các biên i t !ng không chính xác
M t s ph ng pháp c/ng ã !c gi i thi u nh-m theo v t các i"m c tr ng hay các o n ng vi n [31,52] Các ph ng pháp này cho ra các k t qu t t trong
tr ng h!p các i t !ng chuy"n ng có chuy"n ng v i các c tr ng m nh và $n
nh (theo th i gian) nh góc và c nh Tuy nhiên, chúng l i r&t nh y c m v i các i
t !ng b méo mó hay khi nh b nhi u Active contour (snake) [57] là m t trong các mô hình co dãn ng vi n c b n b-ng cách c c ti"u hoá n ng l !ng Do ph ng pháp snake òi h i kh(i t o chính xác và và nh y c m v i các vùng nh có ph vân nh, nhi u
c i ti n nh các mô hình m i, ví d# mô hình MRF [58,109], ã !c nghiên c u
M c dù v i nh ng s phát tri"n này, phân o n vùng nh v n còn là m t bài toán
l n trong phân tích nh Video M t v&n t'n t i trong r&t nhi u các ph ng pháp là k t
qu phân o n b nh y c m v i nh nhi u và nh ng thay $i không áng k", c bi t t i khu v c xung quanh biên d ng Khi theo v t vùng nh, v&n này có th" gây ra các phân
o n khác nhau t i các frame liên t#c Khi chu.i Video ng n, l.i biên th ng không làm
nh h (ng nghiêm tr ng n toàn b thi hành theo v t Tuy nhiên, khi các vùng nh c n
!c theo v t trong m t th i gian dài, l.i biên tích tr có th" phá h ng hoàn toàn ti n trình Nh-m t ng tính $n nh c a quá trình phân o n, s k t h!p c a nhi u c tr ng
tr c quan là m t h ng ti p c n h!p lý
Trang 38Trong ch ng này, chúng tôi s gi i thi u m t ph ng pháp t ng phân vùng Video và theo v t d a trên s t$ng h!p các c tr ng nh màu s c, chuy"n ng,…Vì
ph ng pháp này 'ng th i phân vùng và theo v t nên tho mãn yêu c u theo v t qua
m t th i gian dài
3.2 Phân vùng và theo v!t b/ng t ng h+p ,c tr ng
Ta xem m t vùng nh là m t vùng liên t#c các i"m nh v i các c tr ng phù
h!p trong m t frame nh Nó có th" t ng ng v i m t ph n c a i t !ng v t lý nh nhà c+a, con ng i, xe c … M t vùng Video là m t chu.i th" hi n c a các vùng nh
!c theo v t trong chu.i các frame liên t#c " thu n ti n, chúng tôi s g i các vùng Video là các volume Quá trình phân o n và theo v t !c áp d#ng trong m t shot Video " thu !c các volume
3.2.1 Khái quát chung
Quá trình phân o n và theo v t các vùng nh d a trên s k t h!p c a màu s c,
nó d i các i u ki n khác nhau, nh thay $i h ng, thay $i khung nhìn ho c thay $i hình d ng… So v i các c tr ng khác, nh c nh và chuy"n ng, màu s c có tính $n
nh cao h n Nh-m làm t ng tính chính xác c a các vùng nh trong volume, các frame thu c m t shot s !c x+ lý 'ng th i
Các công o n c n b n và ch y u c a quá trình phân o n và theo v t !c bi"u di n trong hình 3.4
Tr c khi x+ lý, chu.i nh Video !c c t thành các c nh quay, !c nh ngh,a
nh là nhóm các frame liên t#c có các c tính t ng t nhau D li u là các chu2n nén
nh ngh,a các khoá frame " mô t các c nh, do v y thông tin v các c nh luôn có s6n
Trang 39M t b l c trung v !c dùng cho toàn b d li u u vào Sau khi l c xong,
m t c&u trúc d li u ba chi u (không gian&th i gian) !c hình thành b-ng cách ch ra các c tr ng c a các frame Các c tr ng này bao g'm: giá tr màu, khác bi t qua
t ng frame, o màu da,… Sau các quá trình l c và xây d ng c&u trúc d li u, các i"m m#c tiêu s !c xác nh Ta thu !c các ph n 'ng nh&t c a kh i d li u b-ng
ph ng pháp làm n( volume xung quanh các i"m m#c tiêu, ôi khi c/ng !c g i là i"m g c Các i"m m#c tiêu !c s+ d#ng " m( r ng volume thông qua các chu2n v
t ng t gi a màu s c, vân nh Các volume sau ó !c l c l i " lo i b các volume kích th c nh Sau ó ta xác nh qu% o chuy"n ng Nh ng qu% o này !c dùng
nh s c l !ng các chuy"n ng t nh ti n N u không có quá trình c l !ng chuy"n
ng, m t hàm x&p x chuy"n ng s !c th c hi n Các mô t riêng cho m.i volume
và các mô t chung cho m.i c p volume !c xác nh t các qu% o và t các th ng kê trên volume Nh ng mô t này !c thi t k " thu !c chuy"n ng, màu s c, và các
c tính riêng c a m.i volume T i b c này, ta có !c các ph n 'ng nh&t nh nh&t
c a m t chu.i video và quan h gi a chúng d i d ng các mô t
volume
Trang 40KHOA CNTT –
ĐH KHTN
Trang 38
3.2.2 C u trúc d? li'u theo không gian và th:i gian
Sau khi o n Video !c rút ra, chúng s !c a vào m t c&u trúc d li u ba chi u theo không gian và th i gian g i là S C&u trúc d li u này !c xây d ng không
ch nh-m m#c ích ph#c v# cho v&n phân vùng trong ch ng này mà còn " ph#c v#
cho v&n phân o n i t !ng có ngh,a ( ch ng k t ti p Các thành ph n chính c a
c&u trúc d li u này !c tóm t t trong b ng 3.1
S C&u trúc d li u theo không gian và th i gian
∇Y, ∇U, ∇V Gradient màu
mi i"m m#c tiêu c a volume V i
M.i ph n t+ trong c&u trúc d li u S(x,y,t) là m t vector c tr ng w(p) =
gian và t là th t frame Chúng tôi s ghi chú t ng thu c tính riêng c a vector c tr ng
w, ví d# giá tr màu Y t i i"m p !c ky hi u là Y(p) ôi khi chúng tôi dùng w(p,k) "
bi"u di n thu c tính k t i i"m p v i k = Y,U,V Ngoài giá tr màu, các thu c tính khác
có th" !c thêm vào vector c tr ng o s khác bi t gi a các frame là , các o
v vân nh k , e và là l n và h ng c a c nh Chúng tôi quy t nh dùng không
gian màu YUV vì c n b n nó có các thành ph n màu c l p, phù h!p v i nh n th c c a