Bài 7: Chỉ mục và tìm kiếm video Các phương pháp chỉ mục video Tính chất cơ bản của dữ liệu video Video giàu thông tin Một video đầy đủ bao gồm: Phụ đề subtitle, Rãnh âm tiếng
Trang 1Hà Nội - 2005/14
Bài 7
PGS.TS Đặng Văn Đức dvduc@ioit.ac.vn
Trang 2Bài 7: Chỉ mục và tìm kiếm video
Nội dung
Giới thiệu chỉ mục và tìm kiếm video
Phân đoạn video
Chỉ mục và tìm kiếm video
Đại diện và trừu tượng video
Kết luận
2/35
Trang 3Multimedia Query Engine
Document Index Image Index Audio Index Video Index
3/35
Trang 5Bài 7: Chỉ mục và tìm kiếm video
Tiến trình tìm kiếm thông tin
Đại diện query
Đại diện video
Đối sánh (tính toán độ tương đồng)
Video truy vấn
Đánh giá mức độ thích hợp và phản hồi
Off-line On-line
5/35
Trang 6Bài 7: Chỉ mục và tìm kiếm video
Các phương pháp chỉ mục video
Tính chất cơ bản của dữ liệu video
Video giàu thông tin
Một video đầy đủ bao gồm:
Phụ đề (subtitle),
Rãnh âm (tiếng nói và phi tiếng nối),
Tập các ảnh
Các phương pháp chỉ mục và tìm kiếm video cơ bản
Tìm kiếm video trên cơ sở meta-data
Ví dụ: Tên video, tác giả/đạo diễn/nhà sản xuất, ngày sản xuất và loại video.
Trên cơ sở văn bản
Ví dụ: Phụ đề video
Trên cơ sở âm thanh
Ví dụ: Tiếng nói và âm thanh phi tiếng nói trên rãnh tiếng
Trên cơ sở nội dung mức thấp
Tiệm cận tích hợp
6/35
Trang 7 Video được xem như tập hợp các frames (ảnh) độc lập
Sử dụng kỹ thuật tìm kiếm ảnh để tìm kiếm video
Nhược điểm: Bỏ qua quan hệ thời gian giữa các ảnh Không
quan tâm đến khối lượng ảnh khổng lồ
Tiệm cận 2:
Chia trình tự video thành nhóm các frames tương tự nhau (gọi là
shot – lia)
Chỉ mục và tìm kiếm trên cơ sở các frames đại diện cho nhóm.
Tiệm cận này được gọi là tìm kiếm tự động video trên cơ sở
shots.
Bài này tập trung vào nghiên cứu các kỹ thuật chỉ mục và
tìm kiếm video trên cơ sở shots.
7/35
Trang 8Bài 7: Chỉ mục và tìm kiếm video
2 Phân đoạn video
Khái niệm phân đoạn video là tiến trình chia video thành
các shots
Biên của video shots là nơi nội dung có sự thay đổi đáng
kể về số lượng
Ví dụ các frames giữa hai lần bấm máy quay
Cần có độ đo phù hợp để nhận biết sự khác biệt giữa
các frames
Nếu sự khác biệt vượt qua ngưỡng cho trước thì được xem là
biên cửa shots
Việc xây dựng độ đo và kỹ thuật phù hợp là vấn đề mấu
chốt của tự động tách video shots
Việc tách shots có thể là dễ dàng (giữa hai lần bấm máy
quay) hay rất phức tạp (video có hiệu ứng).
8/35
Trang 9Bài 7: Chỉ mục và tìm kiếm video
2.1 Mô hình tổng quát của dữ liệu video
Nhắc lại mô hình dữ liệu video tổng quát
Shot (lia) : trình tự các frames liên tục, ngắn và nó có một
hay nhiều các đặc trưng sau:
Mô tả cùng một cảnh (scene)
Báo hiệu bắt đầu một thao tác máy quay (bấm máy quay)
Chứa sự kiện mô tả hay một hành động của một đối tượng
Được người sử dụng lựa chọn như thực thể để chỉ mục
Cut : Quá độ từ shot này sang shot khác
Hard cut
Quá độ từ từ (gradual)
Episode
9/35
Trang 10Bài 7: Chỉ mục và tìm kiếm video
2.2 Các bước tìm kiếm video
Bước thứ nhất: Tách shot
Phân đoạn video thành các shot (còn gọi là phân đoạn video
theo thời gian, phân hoạch hay tách shot).
Bước thứ hai: Chỉ mục từng shot
Xác định frame chính (frame đại diện - representative frame)
cho mỗi shot
Sử dụng phương pháp chỉ mục ảnh đã biết để chỉ mục frame
đại diện r
Bước thứ ba: Đo tương tự
Đo mức độ tương tự giữa frame trong câu truy vấn và frame đại
diện của video shot.
Áp dụng kỹ thuật tìm kiếm ảnh đã biết trên cơ sở mục lục hay
véctơ đặc trưng có được từ bước 2
10/35
Trang 11Bài 7: Chỉ mục và tìm kiếm video
Các loại chuyển shot cơ bản
Hard cut: Dễ tách shot
Mờ chồng (dissolve): Khó tách shot
Tắt dần (wipe): Khó tách shot11/35
Trang 12Bài 7: Chỉ mục và tìm kiếm video
2.3 Phân đoạn video trên cơ sở điểm ảnh
Sử dụng thước đo tổng chênh lệch pixel-to-pixel giữa
các frames lân cận.
Nhận xét
Hiệu quả đối với hard cut
Ít hiệu quả khi có đối tượng chuyển động giữa các Frames.
Kỹ thuật hiệu quả: So sánh các bloc tương ứng giữa các
frames lân cận thay cho việc so sánh từng pixel.
k P l
k P
if i i
0
|,,
|
[ ]
b
N M
l k
i
T MN
l k
Trang 13Bài 7: Chỉ mục và tìm kiếm video
2.4 Phân đoạn video trên cơ sở Histogram
frames láng giềng.
Chuyển động của đối tượng ít ảnh hưởng đến biểu đồ màu
Hi(j) là biểu đồ màu frame thứ i, và j là một trong G mức xám
Nếu SDi > θ thì phát hiện ra biên shot.
Xác định giá trị ngưỡng phù hợp sẽ quyết định hiệu năng phân đoạn video
Trên cơ sở mô hình thống kê độ chênh lệch giữa các frames
i
j H
j H
j H SD
)(
)()
(
1
2 1
Trang 14Bài 7: Chỉ mục và tìm kiếm video
Ví dụ phân đoạn video trên cơ sở histogram
14/35
Trang 15Bài 7: Chỉ mục và tìm kiếm video
2.5 Kỹ thuật tách shot thay đổi dần dần
Các loại biên shot thay đổi dần dần
Fade-in xảy ra khi cảnh xuất hiện dần dần
Fade-out xảy ra khi cảnh mất đi dần dần
Dissolve xảy ra khi cảnh mất đi từ từ trong khi cảnh khác xuất
Frame 15/35
Trang 16Bài 7: Chỉ mục và tìm kiếm video
Kỹ thuật tách shot thay đổi dần dần
Nhận xét về các kỹ thuật trên cơ sở màu và trên cơ sở
Không quan tâm đến phân bổ không gian màu
Vậy, không thể tìm ra biên của hai cảnh có biểu đồ màu tương tự.
Cần có kỹ thuật khác để vượt qua các hạn chế trên
Sự khác biệt giữa các frames khi có hiệu ứng (fade-in, fade-out,
dissolve, và wipe) thường lớn hơn sự khác biệt bên trong shot
nhưng lại nhỏ hơn ngưỡng tách shot
Vậy, sử dụng một ngưỡng là không phù hợp Zhang et al đã đề
xuất 2 ngưỡng để tách shots
16/35
Trang 17Bài 7: Chỉ mục và tìm kiếm video
Kỹ thuật tách shot thay đổi dần dần
Kỹ thuật khoảng cách tích lũy (Zhang et al - 1993)
Sử dụng hai ngưỡng
Tb - để tách ngừng máy quay
Ts - thấp hơn để tách các frames nơi có thể xuất hiện quá độ dần dần.
Tích lũy độ lệch frame-to-frame lớn hơn Ts và nhỏ hơn Tb
Nếu độ chênh lệch của tích lũy lớn hơn Tb thì có thể là biên
shot
Camera break
Special effect Tb
Trang 18Bài 7: Chỉ mục và tìm kiếm video
Kỹ thuật cửa sổ trượt (Sliding window)
Phát triển bởi RMIT
Sử dụng cửa sổ cho một số ảnh liên tiếp
Chọn 11 frames liên tiếp làm cửa sổ
So sánh ảnh trung tâm với các ảnh trước và sau nó
Tính toán tỷ lệ giá trị các pixel của ảnh hiện thời với giá trị trung
bình của các ảnh trước và sau
Trượt cửa sổ để phát hiện chuyển cảnh từ từ nếu có giá
Trang 19Tránh tách nhầm shot
Hai nguyên nhân dẫn tới tách nhầm shots
Nguyên nhân 1: Chuyển động của camera
Các thao tác như panning và zooming của máy quay dẫn đến
các frames thay đổi dần dần
Kỹ thuật véctơ chuyển động được sử dụng để tránh tách nhầm
các shots
Véctơ chuyển động biểu diễn “luồng quang học” được tính toán
bằng kỹ thuật đối sánh blốc ảnh giữa các frames
Nguyên nhân 2: Chiếu sáng thay đổi
Chiếu sáng thay đổi làm cho khoảng cách frame-to-frame lớn
hơn giá trị ngưỡng
Chuẩn hóa ảnh màu trước khi tách shots để tránh lỗi này
dvduc-2005/14
Bài 7: Chỉ mục và tìm kiếm video
19/35
Trang 20Bài 7: Chỉ mục và tìm kiếm video
Chuyển động của máy quay
Ví dụ dịch chuyển và thu/phóng của camera
Ước lượng Pan có thể thực hiện trên cơ sở trường
véctơ chuyển động của video, sau đó so sánh với mô hình lý thuyết.
Zoom Rotation Pan
20/35
Trang 21dvduc-2005/14 Bài 7: Chỉ mục và tìm kiếm video
Ước lượng chuyển động của camera
Ta có: p=p’+v, trong đó v là véctơ chuyển động.
của camera
3 2
a
a y
y
x
x a
a
a
a v
u
i
i i
i
Trang 22Bài 7: Chỉ mục và tìm kiếm video
Độ chói thay đổi
Nguyên nhân:
Diễn viên đi vào vùng sáng, mây trôi phủ bầu trời, các hiệu ứng
ánh sáng
Phương pháp tách shot của Wei, Drew and Li:
Chuẩn hóa từng kênh màu trước khi tách shot để làm giảm tác
i i
N
i
i
i i
N
i i
i i
B
B B
G
G G
R
R R
1 2 '
1 2 '
1 2
' '
'
' '
' '
'
,
i i
i
i i
i i
i
i i
B G
R
G g
B G
R
R r
++
=+
+
=
Trang 23Bài 7: Chỉ mục và tìm kiếm video
Độ chói thay đổi
Phương pháp tách shot của Wei, Drew and Li (tt):
Xây dựng lược đồ r và g cho mỗi ảnh
Hình thành ảnh lược đồ đơn sắc (chromaticity histogram image
- CHI).
Giảm thiểu mật độ của mỗi CHI (16x16) nhờ kỹ thuật nén trên
cơ sở Wavelet.
Áp dụng biến đổi DCT hai chiều trên CHI để có được 256 hệ số
Lựa chọn 36 hệ số DCT quan trọng hơn để xử lý tiếp tục
Tính toán khoảng cách các ảnh trên cơ sở 36 hệ số để xác định
Shot và biên ảnh biến đổi dần dần.
23/35
Trang 24Bài 7: Chỉ mục và tìm kiếm video
2.6 Phân đoạn video nén (MPEG)
Nhắc lại mã hóa MPEG1-2: Các khung hình I, B và P
I-Frame: Mã hóa độc lập trên cơ sở DCT, không phụ thuộc vào
các frames khác
P-Frame: Mã hóa phụ thuộc vào frame B hay I cuối cùng (cái
nào gần hơn)
B-Frame: Phụ thuộc vào hai frame P hoặc I trước đó gần nhất
hoặc P hoặc I sau đó gần nhất
24/35
Trang 25Bài 7: Chỉ mục và tìm kiếm video
Phân đoạn video nén (MPEG)
Cơ sở phân đoạn video nén
Các hệ số DCT trong các ảnh MPEG1 và MPEG2
Thông tin chuyển động các đối tượng
Tách shot trên cơ sở hệ số DCT
Có DCT từ các ảnh I và ảnh vi sai (differential)
Trong các blốc vi sai: Hệ số DCT = Hệ số DCT vi sai của blốc hiện hành +
hệ số DCT của blốc tham chiếu.
Hình thành ảnh của hệ số DC
Hệ số thứ nhất (DC – hệ số một chiều) là cường độ trung bình của blốc
Ảnh DC = 1/64 ảnh gốc, chứa các đặc trưng chính của ảnh gốc.
Tính toán khoảng cách giữa các khung hình (từ ảnh DC)
Phát hiện shot khi khoảng cách lớn hơn giá trị ngưỡng
25/35
Trang 26Bài 7: Chỉ mục và tìm kiếm video
3 Chỉ mục và tìm kiếm video
Nhiều phương pháp chỉ mục và tìm kiếm video
Trên cơ sở thông tin chuyển động, đối tượng, metadata, mô tả
Tích hợp
Bài này tập trung vào kỹ thuật chỉ mục và tìm kiếm trên
cơ sở frame đại diện cho các shots.
Đã thực hiện tiền xử lý dữ liệu video: Phân đoạn video
Trang 27Bài 7: Chỉ mục và tìm kiếm video
3.1 Chỉ mục video trên cơ sở frame đại diện
Chọn frame đại diện r (representative):
Shot tương đối tĩnh: chọn 1 frame bất kỳ
Shot động (có Pan hay đối tượng chuyển động):
Xác định tổng số frames đại diện
Xác định các frames đại diện
Tổng số r sử dụng cho một shot:
Phụ thuộc độ dài shot
Độ dài shot ≤ 1s: cần 1 frame đại diện
Độ dài shot ≥ 1s: cần 1 frame đại diện cho mỗi giây video.
Phụ thuộc nội dung shot
Chia shot thành các shot con trên cơ sở thay đổi nội dung
Xác định nội dung thay đổi: véctơ chuyển động, so sánh frame-to-frame
27/35
Trang 28Bài 7: Chỉ mục và tìm kiếm video
3.2 Chọn frame đại diện r cho shot động
Khái niệm đoạn (segment):
shot: Khi chọn một r cho shot
giây video: Khi chọn một r cho mỗi giây shot
subshot: Khi chọn một r cho một shot con
Các phương pháp chọn r/segment
Phương pháp 1: Frame thứ nhất của mỗi đoạn làm frame r.
Phương pháp 2: Xác định frame trung bình các giá trị pixel, chọn
frame gần frame trung bình làm frame r
Phương pháp 3: Tính trung bình biểu đồ màu của các đoạn,
frame có biểu đồ màu gần nhất là frame đại điện
Phương pháp 4: Chia ảnh trong đoạn thành nền và đối tượng
cận cảnh Dành cho chuyển động camera (Pan)
Việc áp dụng phương pháp nào phụ thuộc vào ứng dụng
cụ thể.
28/35
Trang 29Bài 7: Chỉ mục và tìm kiếm video
Các phương pháp chỉ mục video khác
Trên cơ sở thông tin chuyển động
Phương pháp này quan tâm đến chiều thời gian của video
Các tham số sử dụng vào chỉ mục
Nội dung chuyển động
Tính nhất quán chuyển động
Chuyển động ngang (motion panning) của máy quay
Chuyển động dọc (motion tilting) của máy quay.
Trên cơ sở đối tượng
Phân đoạn và nhận biết đối tượng
Trong video, đối tượng chuyển động do vậy có thể nhận biết nó thông qua các véctơ chuyển động
Sử dụng kết quả phân đoạn đối tượng để chỉ mục video.
Công việc thuận lợi với khuôn dạng MPEG4
29/35
Trang 30Bài 7: Chỉ mục và tìm kiếm video
Các phương pháp chỉ mục video khác
Trên cơ sở meta-data
Metadata có sẵn trong một vài khuôn dạng chuẩn (MPEG-2)
Các thông tin dịch vụ khác được bổ sung vào metadata
Có thể chỉ mục và tìm kiếm thông tin banừg DBMS truyền thống
Trên cơ sở mô tả (annotation)
Kỹ thuật mô tả
Diễn dải và mô tả video một cách thủ công
Video kết hợp với bản dịch (transcript) và phụ đề (subtitle)
Nhận dạng tiếng nói cho rãnh tiếng để tách các từ nó
Chỉ mục và truy tìm trên cơ sở mô tả được thực hiện bằng kỹ
thuật IR 30/35
Trang 31Bài 7: Chỉ mục và tìm kiếm video
4 Đại diện và trừu tượng video
Băng video có nhiều thông tin
Kích thước lớn
Có chiều thời gian
Cần có giải pháp trình diễn và công cụ trừu tượng hiệu
quả để có thể biểu diễn đầy đủ nội dung video
Công cụ cần có các khả năng chủ yếu:
theo trình tự
sử dụng xác định nhanh video hay shot nào quan tâm mà không
cần đi qua toàn bộ danh sách kết quả
đọng video cho phép duyệt nhanh trước khi download hay trình chiếu video lưu trữ trên server(s) từ xa Làm giảm băng thông
và độ trễ mạng
31/35
Trang 32Bài 7: Chỉ mục và tìm kiếm video
4.1 Phân lớp video theo chủ đề
Giải pháp hiệu quả khác là phân lớp theo chủ đề
Mức 1: Chia video thành các lớp chủ đề khác nhau
Mức 2: Chia các shot vào các lớp nhỏ hơn
Thí dụ ứng dụng:
Motơ tìm kiếm WWW
Chương trình tin tức, phim ảnh, giới thiệu du lịch
Lions Tigers
Europe 32/35
Trang 33Bài 7: Chỉ mục và tìm kiếm video
4.2 Biểu tượng chuyển động
Thumbnail biểu diễn ảnh tĩnh khi duyệt và trình diễn
Micon (motion icon): sử dụng biểu tượng chuyển động
thay cho Thumbnail vì Video còn có chiều thời gian.
Mặt trước của micon là frame thứ nhất hay ảnh đại diện
Độ sâu chỉ ra độ dài và một vài thông tin chuyển động của
video.
Thao tác duyệt (xem nhanh video): Khi chuyển con chạy theo
cạnh micon, frame mà nó trỏ tới được hiển thị lên phía trước
Với video dài, chỉ sử dụng các r-frame cho micon
1
20 0
37 0
33/35
Trang 34 Phân đoạn video thành các shots
Nhận biết các frame r cho mỗi shot
Chỉ mục và tìm kiếm trên cơ sở frame r
Các đặc trưng mức cao
Còn khó khăn để nhận dạng và tách các sự kiện thời gian,
tương tác giữa các đối tượng trong video
Giải pháp hiện hành: mô tả thủ công
Đòi hỏi nhiều nghiên cứu tiếp theo
34/35
Trang 35Câu hỏi ôn tập
Tính chất chủ yếu của video và các loại thông tin kết
hợp với video là gì? Hãy mô tả tiệm cận thường sử dụng trong chỉ mục và tìm kiếm video trên cơ sở các tính chất và thông tin kết hợp này.
Video shot là gì? Trình bày nguyên lý chung để tách
shot
Mô tả các bước chính của chỉ mục và tìm kiếm video
trên cơ sở shot.
Mô tả ba phương pháp chọn r frame Hãy so sánh ưu
điểm và nhược điểm của chúng.
dvduc-2005/14
Bài 7: Chỉ mục và tìm kiếm video
35/35
Trang 36Câu hỏi?