1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài giảng cơ sở dữ liệu chỉ mục và tìm kiếm video

36 965 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 36
Dung lượng 1,41 MB

Nội dung

Bài 7: Chỉ mục và tìm kiếm video Các phương pháp chỉ mục video  Tính chất cơ bản của dữ liệu video  Video giàu thông tin  Một video đầy đủ bao gồm:  Phụ đề subtitle,  Rãnh âm tiếng

Trang 1

Hà Nội - 2005/14

Bài 7

PGS.TS Đặng Văn Đức dvduc@ioit.ac.vn

Trang 2

Bài 7: Chỉ mục và tìm kiếm video

Nội dung

 Giới thiệu chỉ mục và tìm kiếm video

 Phân đoạn video

 Chỉ mục và tìm kiếm video

 Đại diện và trừu tượng video

 Kết luận

2/35

Trang 3

Multimedia Query Engine

Document Index Image Index Audio Index Video Index

3/35

Trang 5

Bài 7: Chỉ mục và tìm kiếm video

Tiến trình tìm kiếm thông tin

Đại diện query

Đại diện video

Đối sánh (tính toán độ tương đồng)

Video truy vấn

Đánh giá mức độ thích hợp và phản hồi

Off-line On-line

5/35

Trang 6

Bài 7: Chỉ mục và tìm kiếm video

Các phương pháp chỉ mục video

 Tính chất cơ bản của dữ liệu video

 Video giàu thông tin

 Một video đầy đủ bao gồm:

 Phụ đề (subtitle),

 Rãnh âm (tiếng nói và phi tiếng nối),

 Tập các ảnh

 Các phương pháp chỉ mục và tìm kiếm video cơ bản

 Tìm kiếm video trên cơ sở meta-data

Ví dụ: Tên video, tác giả/đạo diễn/nhà sản xuất, ngày sản xuất và loại video.

 Trên cơ sở văn bản

 Ví dụ: Phụ đề video

 Trên cơ sở âm thanh

 Ví dụ: Tiếng nói và âm thanh phi tiếng nói trên rãnh tiếng

 Trên cơ sở nội dung mức thấp

 Tiệm cận tích hợp

6/35

Trang 7

Video được xem như tập hợp các frames (ảnh) độc lập

 Sử dụng kỹ thuật tìm kiếm ảnh để tìm kiếm video

 Nhược điểm: Bỏ qua quan hệ thời gian giữa các ảnh Không

quan tâm đến khối lượng ảnh khổng lồ

 Tiệm cận 2:

Chia trình tự video thành nhóm các frames tương tự nhau (gọi là

shot – lia)

Chỉ mục và tìm kiếm trên cơ sở các frames đại diện cho nhóm.

 Tiệm cận này được gọi là tìm kiếm tự động video trên cơ sở

shots.

 Bài này tập trung vào nghiên cứu các kỹ thuật chỉ mục và

tìm kiếm video trên cơ sở shots.

7/35

Trang 8

Bài 7: Chỉ mục và tìm kiếm video

2 Phân đoạn video

 Khái niệm phân đoạn video là tiến trình chia video thành

các shots

 Biên của video shots là nơi nội dung có sự thay đổi đáng

kể về số lượng

Ví dụ các frames giữa hai lần bấm máy quay

 Cần có độ đo phù hợp để nhận biết sự khác biệt giữa

các frames

 Nếu sự khác biệt vượt qua ngưỡng cho trước thì được xem là

biên cửa shots

 Việc xây dựng độ đo và kỹ thuật phù hợp là vấn đề mấu

chốt của tự động tách video shots

 Việc tách shots có thể là dễ dàng (giữa hai lần bấm máy

quay) hay rất phức tạp (video có hiệu ứng).

8/35

Trang 9

Bài 7: Chỉ mục và tìm kiếm video

2.1 Mô hình tổng quát của dữ liệu video

 Nhắc lại mô hình dữ liệu video tổng quát

 Shot (lia) : trình tự các frames liên tục, ngắn và nó có một

hay nhiều các đặc trưng sau:

Mô tả cùng một cảnh (scene)

 Báo hiệu bắt đầu một thao tác máy quay (bấm máy quay)

 Chứa sự kiện mô tả hay một hành động của một đối tượng

 Được người sử dụng lựa chọn như thực thể để chỉ mục

 Cut : Quá độ từ shot này sang shot khác

 Hard cut

Quá độ từ từ (gradual)

Episode

9/35

Trang 10

Bài 7: Chỉ mục và tìm kiếm video

2.2 Các bước tìm kiếm video

Bước thứ nhất: Tách shot

Phân đoạn video thành các shot (còn gọi là phân đoạn video

theo thời gian, phân hoạch hay tách shot).

Bước thứ hai: Chỉ mục từng shot

Xác định frame chính (frame đại diện - representative frame)

cho mỗi shot

Sử dụng phương pháp chỉ mục ảnh đã biết để chỉ mục frame

đại diện r

Bước thứ ba: Đo tương tự

Đo mức độ tương tự giữa frame trong câu truy vấn và frame đại

diện của video shot.

 Áp dụng kỹ thuật tìm kiếm ảnh đã biết trên cơ sở mục lục hay

véctơ đặc trưng có được từ bước 2

10/35

Trang 11

Bài 7: Chỉ mục và tìm kiếm video

Các loại chuyển shot cơ bản

 Hard cut: Dễ tách shot

Mờ chồng (dissolve): Khó tách shot

Tắt dần (wipe): Khó tách shot11/35

Trang 12

Bài 7: Chỉ mục và tìm kiếm video

2.3 Phân đoạn video trên cơ sở điểm ảnh

Sử dụng thước đo tổng chênh lệch pixel-to-pixel giữa

các frames lân cận.

 Nhận xét

 Hiệu quả đối với hard cut

Ít hiệu quả khi có đối tượng chuyển động giữa các Frames.

 Kỹ thuật hiệu quả: So sánh các bloc tương ứng giữa các

frames lân cận thay cho việc so sánh từng pixel.

k P l

k P

if i i

0

|,,

|

[ ]

b

N M

l k

i

T MN

l k

Trang 13

Bài 7: Chỉ mục và tìm kiếm video

2.4 Phân đoạn video trên cơ sở Histogram

frames láng giềng.

 Chuyển động của đối tượng ít ảnh hưởng đến biểu đồ màu

Hi(j) là biểu đồ màu frame thứ i, và j là một trong G mức xám

Nếu SDi > θ thì phát hiện ra biên shot.

 Xác định giá trị ngưỡng phù hợp sẽ quyết định hiệu năng phân đoạn video

Trên cơ sở mô hình thống kê độ chênh lệch giữa các frames

i

j H

j H

j H SD

)(

)()

(

1

2 1

Trang 14

Bài 7: Chỉ mục và tìm kiếm video

Ví dụ phân đoạn video trên cơ sở histogram

14/35

Trang 15

Bài 7: Chỉ mục và tìm kiếm video

2.5 Kỹ thuật tách shot thay đổi dần dần

 Các loại biên shot thay đổi dần dần

Fade-in xảy ra khi cảnh xuất hiện dần dần

Fade-out xảy ra khi cảnh mất đi dần dần

Dissolve xảy ra khi cảnh mất đi từ từ trong khi cảnh khác xuất

Frame 15/35

Trang 16

Bài 7: Chỉ mục và tìm kiếm video

Kỹ thuật tách shot thay đổi dần dần

 Nhận xét về các kỹ thuật trên cơ sở màu và trên cơ sở

 Không quan tâm đến phân bổ không gian màu

 Vậy, không thể tìm ra biên của hai cảnh có biểu đồ màu tương tự.

 Cần có kỹ thuật khác để vượt qua các hạn chế trên

Sự khác biệt giữa các frames khi có hiệu ứng (fade-in, fade-out,

dissolve, và wipe) thường lớn hơn sự khác biệt bên trong shot

nhưng lại nhỏ hơn ngưỡng tách shot

Vậy, sử dụng một ngưỡng là không phù hợp Zhang et al đã đề

xuất 2 ngưỡng để tách shots

16/35

Trang 17

Bài 7: Chỉ mục và tìm kiếm video

Kỹ thuật tách shot thay đổi dần dần

Kỹ thuật khoảng cách tích lũy (Zhang et al - 1993)

 Sử dụng hai ngưỡng

 Tb - để tách ngừng máy quay

Ts - thấp hơn để tách các frames nơi có thể xuất hiện quá độ dần dần.

Tích lũy độ lệch frame-to-frame lớn hơn Ts và nhỏ hơn Tb

 Nếu độ chênh lệch của tích lũy lớn hơn Tb thì có thể là biên

shot

Camera break

Special effect Tb

Trang 18

Bài 7: Chỉ mục và tìm kiếm video

Kỹ thuật cửa sổ trượt (Sliding window)

 Phát triển bởi RMIT

 Sử dụng cửa sổ cho một số ảnh liên tiếp

 Chọn 11 frames liên tiếp làm cửa sổ

 So sánh ảnh trung tâm với các ảnh trước và sau nó

 Tính toán tỷ lệ giá trị các pixel của ảnh hiện thời với giá trị trung

bình của các ảnh trước và sau

 Trượt cửa sổ để phát hiện chuyển cảnh từ từ nếu có giá

Trang 19

Tránh tách nhầm shot

 Hai nguyên nhân dẫn tới tách nhầm shots

 Nguyên nhân 1: Chuyển động của camera

Các thao tác như panning và zooming của máy quay dẫn đến

các frames thay đổi dần dần

 Kỹ thuật véctơ chuyển động được sử dụng để tránh tách nhầm

các shots

 Véctơ chuyển động biểu diễn “luồng quang học” được tính toán

bằng kỹ thuật đối sánh blốc ảnh giữa các frames

 Nguyên nhân 2: Chiếu sáng thay đổi

Chiếu sáng thay đổi làm cho khoảng cách frame-to-frame lớn

hơn giá trị ngưỡng

 Chuẩn hóa ảnh màu trước khi tách shots để tránh lỗi này

dvduc-2005/14

Bài 7: Chỉ mục và tìm kiếm video

19/35

Trang 20

Bài 7: Chỉ mục và tìm kiếm video

Chuyển động của máy quay

 Ví dụ dịch chuyển và thu/phóng của camera

 Ước lượng Pan có thể thực hiện trên cơ sở trường

véctơ chuyển động của video, sau đó so sánh với mô hình lý thuyết.

Zoom Rotation Pan

20/35

Trang 21

dvduc-2005/14 Bài 7: Chỉ mục và tìm kiếm video

Ước lượng chuyển động của camera

Ta có: p=p’+v, trong đó v là véctơ chuyển động.

của camera

3 2

a

a y

y

x

x a

a

a

a v

u

i

i i

i

Trang 22

Bài 7: Chỉ mục và tìm kiếm video

Độ chói thay đổi

 Nguyên nhân:

 Diễn viên đi vào vùng sáng, mây trôi phủ bầu trời, các hiệu ứng

ánh sáng

Phương pháp tách shot của Wei, Drew and Li:

 Chuẩn hóa từng kênh màu trước khi tách shot để làm giảm tác

i i

N

i

i

i i

N

i i

i i

B

B B

G

G G

R

R R

1 2 '

1 2 '

1 2

' '

'

' '

' '

'

,

i i

i

i i

i i

i

i i

B G

R

G g

B G

R

R r

++

=+

+

=

Trang 23

Bài 7: Chỉ mục và tìm kiếm video

Độ chói thay đổi

Phương pháp tách shot của Wei, Drew and Li (tt):

 Xây dựng lược đồ r và g cho mỗi ảnh

Hình thành ảnh lược đồ đơn sắc (chromaticity histogram image

- CHI).

 Giảm thiểu mật độ của mỗi CHI (16x16) nhờ kỹ thuật nén trên

cơ sở Wavelet.

 Áp dụng biến đổi DCT hai chiều trên CHI để có được 256 hệ số

 Lựa chọn 36 hệ số DCT quan trọng hơn để xử lý tiếp tục

Tính toán khoảng cách các ảnh trên cơ sở 36 hệ số để xác định

Shot và biên ảnh biến đổi dần dần.

23/35

Trang 24

Bài 7: Chỉ mục và tìm kiếm video

2.6 Phân đoạn video nén (MPEG)

 Nhắc lại mã hóa MPEG1-2: Các khung hình I, B và P

 I-Frame: Mã hóa độc lập trên cơ sở DCT, không phụ thuộc vào

các frames khác

 P-Frame: Mã hóa phụ thuộc vào frame B hay I cuối cùng (cái

nào gần hơn)

 B-Frame: Phụ thuộc vào hai frame P hoặc I trước đó gần nhất

hoặc P hoặc I sau đó gần nhất

24/35

Trang 25

Bài 7: Chỉ mục và tìm kiếm video

Phân đoạn video nén (MPEG)

 Cơ sở phân đoạn video nén

 Các hệ số DCT trong các ảnh MPEG1 và MPEG2

 Thông tin chuyển động các đối tượng

 Tách shot trên cơ sở hệ số DCT

Có DCT từ các ảnh I và ảnh vi sai (differential)

 Trong các blốc vi sai: Hệ số DCT = Hệ số DCT vi sai của blốc hiện hành +

hệ số DCT của blốc tham chiếu.

 Hình thành ảnh của hệ số DC

 Hệ số thứ nhất (DC – hệ số một chiều) là cường độ trung bình của blốc

 Ảnh DC = 1/64 ảnh gốc, chứa các đặc trưng chính của ảnh gốc.

 Tính toán khoảng cách giữa các khung hình (từ ảnh DC)

 Phát hiện shot khi khoảng cách lớn hơn giá trị ngưỡng

25/35

Trang 26

Bài 7: Chỉ mục và tìm kiếm video

3 Chỉ mục và tìm kiếm video

 Nhiều phương pháp chỉ mục và tìm kiếm video

 Trên cơ sở thông tin chuyển động, đối tượng, metadata, mô tả

 Tích hợp

 Bài này tập trung vào kỹ thuật chỉ mục và tìm kiếm trên

cơ sở frame đại diện cho các shots.

 Đã thực hiện tiền xử lý dữ liệu video: Phân đoạn video

Trang 27

Bài 7: Chỉ mục và tìm kiếm video

3.1 Chỉ mục video trên cơ sở frame đại diện

Chọn frame đại diện r (representative):

 Shot tương đối tĩnh: chọn 1 frame bất kỳ

 Shot động (có Pan hay đối tượng chuyển động):

 Xác định tổng số frames đại diện

 Xác định các frames đại diện

 Tổng số r sử dụng cho một shot:

 Phụ thuộc độ dài shot

 Độ dài shot ≤ 1s: cần 1 frame đại diện

 Độ dài shot ≥ 1s: cần 1 frame đại diện cho mỗi giây video.

 Phụ thuộc nội dung shot

 Chia shot thành các shot con trên cơ sở thay đổi nội dung

 Xác định nội dung thay đổi: véctơ chuyển động, so sánh frame-to-frame

27/35

Trang 28

Bài 7: Chỉ mục và tìm kiếm video

3.2 Chọn frame đại diện r cho shot động

Khái niệm đoạn (segment):

 shot: Khi chọn một r cho shot

 giây video: Khi chọn một r cho mỗi giây shot

 subshot: Khi chọn một r cho một shot con

 Các phương pháp chọn r/segment

Phương pháp 1: Frame thứ nhất của mỗi đoạn làm frame r.

Phương pháp 2: Xác định frame trung bình các giá trị pixel, chọn

frame gần frame trung bình làm frame r

Phương pháp 3: Tính trung bình biểu đồ màu của các đoạn,

frame có biểu đồ màu gần nhất là frame đại điện

Phương pháp 4: Chia ảnh trong đoạn thành nền và đối tượng

cận cảnh Dành cho chuyển động camera (Pan)

 Việc áp dụng phương pháp nào phụ thuộc vào ứng dụng

cụ thể.

28/35

Trang 29

Bài 7: Chỉ mục và tìm kiếm video

Các phương pháp chỉ mục video khác

 Trên cơ sở thông tin chuyển động

 Phương pháp này quan tâm đến chiều thời gian của video

 Các tham số sử dụng vào chỉ mục

 Nội dung chuyển động

 Tính nhất quán chuyển động

Chuyển động ngang (motion panning) của máy quay

Chuyển động dọc (motion tilting) của máy quay.

 Trên cơ sở đối tượng

 Phân đoạn và nhận biết đối tượng

 Trong video, đối tượng chuyển động do vậy có thể nhận biết nó thông qua các véctơ chuyển động

 Sử dụng kết quả phân đoạn đối tượng để chỉ mục video.

 Công việc thuận lợi với khuôn dạng MPEG4

29/35

Trang 30

Bài 7: Chỉ mục và tìm kiếm video

Các phương pháp chỉ mục video khác

 Trên cơ sở meta-data

Metadata có sẵn trong một vài khuôn dạng chuẩn (MPEG-2)

 Các thông tin dịch vụ khác được bổ sung vào metadata

 Có thể chỉ mục và tìm kiếm thông tin banừg DBMS truyền thống

Trên cơ sở mô tả (annotation)

 Kỹ thuật mô tả

Diễn dải và mô tả video một cách thủ công

Video kết hợp với bản dịch (transcript) và phụ đề (subtitle)

 Nhận dạng tiếng nói cho rãnh tiếng để tách các từ nó

 Chỉ mục và truy tìm trên cơ sở mô tả được thực hiện bằng kỹ

thuật IR 30/35

Trang 31

Bài 7: Chỉ mục và tìm kiếm video

4 Đại diện và trừu tượng video

 Băng video có nhiều thông tin

 Kích thước lớn

 Có chiều thời gian

 Cần có giải pháp trình diễn và công cụ trừu tượng hiệu

quả để có thể biểu diễn đầy đủ nội dung video

 Công cụ cần có các khả năng chủ yếu:

theo trình tự

sử dụng xác định nhanh video hay shot nào quan tâm mà không

cần đi qua toàn bộ danh sách kết quả

đọng video cho phép duyệt nhanh trước khi download hay trình chiếu video lưu trữ trên server(s) từ xa Làm giảm băng thông

và độ trễ mạng

31/35

Trang 32

Bài 7: Chỉ mục và tìm kiếm video

4.1 Phân lớp video theo chủ đề

 Giải pháp hiệu quả khác là phân lớp theo chủ đề

 Mức 1: Chia video thành các lớp chủ đề khác nhau

 Mức 2: Chia các shot vào các lớp nhỏ hơn

 Thí dụ ứng dụng:

 Motơ tìm kiếm WWW

 Chương trình tin tức, phim ảnh, giới thiệu du lịch

Lions Tigers

Europe 32/35

Trang 33

Bài 7: Chỉ mục và tìm kiếm video

4.2 Biểu tượng chuyển động

Thumbnail biểu diễn ảnh tĩnh khi duyệt và trình diễn

Micon (motion icon): sử dụng biểu tượng chuyển động

thay cho Thumbnail vì Video còn có chiều thời gian.

Mặt trước của micon là frame thứ nhất hay ảnh đại diện

 Độ sâu chỉ ra độ dài và một vài thông tin chuyển động của

video.

 Thao tác duyệt (xem nhanh video): Khi chuyển con chạy theo

cạnh micon, frame mà nó trỏ tới được hiển thị lên phía trước

 Với video dài, chỉ sử dụng các r-frame cho micon

1

20 0

37 0

33/35

Trang 34

 Phân đoạn video thành các shots

 Nhận biết các frame r cho mỗi shot

 Chỉ mục và tìm kiếm trên cơ sở frame r

 Các đặc trưng mức cao

 Còn khó khăn để nhận dạng và tách các sự kiện thời gian,

tương tác giữa các đối tượng trong video

 Giải pháp hiện hành: mô tả thủ công

 Đòi hỏi nhiều nghiên cứu tiếp theo

34/35

Trang 35

Câu hỏi ôn tập

 Tính chất chủ yếu của video và các loại thông tin kết

hợp với video là gì? Hãy mô tả tiệm cận thường sử dụng trong chỉ mục và tìm kiếm video trên cơ sở các tính chất và thông tin kết hợp này.

 Video shot là gì? Trình bày nguyên lý chung để tách

shot

 Mô tả các bước chính của chỉ mục và tìm kiếm video

trên cơ sở shot.

 Mô tả ba phương pháp chọn r frame Hãy so sánh ưu

điểm và nhược điểm của chúng.

dvduc-2005/14

Bài 7: Chỉ mục và tìm kiếm video

35/35

Trang 36

Câu hỏi?

Ngày đăng: 27/09/2015, 08:14

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w