Đại diện và trừu tƣợng video hiệu quả

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số kỹ thuật chỉ mục và tìm kiếm đối tượng trong video số (Trang 63 - 69)

2.2 CHỈ MỤC VÀ TRUY TÌM VIDEO [1], [2], [4], [5], [8]

2.2.5 Đại diện và trừu tƣợng video hiệu quả

Video rất giàu thông tin và đòi hỏi lƣu trữ lớn và có chiều thời gian. Do vậy cần có công cụ hữu hiệu để đại diện và trừu tƣợng hiệu quả sao cho nội dung video đƣợc biểu diễn đầy đủ. Thách thức là làm thế nào để hiển thị nội dung chính video trong không gian giới hạn. Các công cụ nhƣ vậy có ba ứng dụng chính sau đây:

- Ứng dụng vào duyệt video: Một trong các phƣơng pháp hiệu quả nhất khi xác định video có liên quan hay không và định vị đoạn video liên quan là duyệt. Các thao tác video truyền thống (trình chiếu, tiến, lùi) đƣợc sử dụng để duyệt thƣờng tốn kém thời gian. Đại diện video cho phép ngƣời sử dụng xem nhanh nội dung chính video mà không cần đi theo trình tự.

- Ứng dụng vào trình diễn kết quả truy tìm video: Hệ thống truy tìm video cho lại nhiều video hay shot video phù hợp với câu truy vấn. Biểu diễn cô đọng video cho phép các kết quả hiển thị trong cửa sổ giới hạn và cho phép ngƣời sử dụng xác định nhanh video hay shot nào quan tâm mà không cần đi qua toàn bộ danh sách cho lại.

- Ứng dụng vào làm giảm thiểu yêu cầu băng thông và độ trễ: CSDL video (hay server) đƣợc nhiều ngƣời sử dụng xâm nhập từ xa thông qua kết nối mạng. Trƣớc khi download hay trình chiếu video, họ thƣờng xác định video nào cần trình chiếu hay download nhờ duyệt. Trình diễn cô đọng video không chỉ cho phép duyệt nhanh mà còn làm giảm băng thông và độ trễ mạng bởi vì trình diễn cô đọng thƣờng nhỏ hơn nhiều lần so với chính video, thậm chí so sánh ngay với cả video nén.

Sau đây là mô tả một số cách tổ chức trình diễn cô đọng video.

2.2.5.1 Phân lớp theo chủ đề

Khi đề cập đến lƣợng thông tin lớn, một trong các cách tổ chức hiệu quả nhất là trên cơ sở phân lớp theo chủ đề. Chiến lƣợc này đã đƣợc chứng minh trong hệ thống thƣ viện truyền thống, và rất nhiều các mô tơ tìm kiếm

lớn nhƣ Yahoo và Infoseek. Phân lớp chủ đề làm cho việc duyệt dễ dàng. Một khi lựa chọn chủ đề quan tâm, công cụ tìm kiếm đƣợc sử dụng để tìm các mục liên quan. Phân lớp theo chủ đề cho phép tổ hợp hai tiệm cận truy tìm thông tin mạnh: Duyệt và tìm kiếm. Duyệt đi sâu vào không gian tìm kiếm và nhƣ vậy cho khả năng tìm kiếm tiếp theo để sinh ra độ chính xác tìm kiếm cao.

Có hai mức phân lớp theo chủ đề đƣợc áp dụng vào tổ chức video. Phân lớp mức một chia video khác nhau thành các lớp chủ đề khác nhau, trong khi phân lớp mức hai chia các shot của từng video thành các lớp con khác nhau.

Phần lớn môtơ tìm kiếm WWW sử dụng phân lớp theo chủ đề mức thứ nhất. Hình 2.7 chỉ ra một phần phân lớp theo chủ đề áp dụng trong Infoseek. Nếu có text kết hợp với video thì phân lớp chủ đề đƣợc thực hiện tự động trên cơ sở từ điển khái niệm khóa. Phân lớp theo cách này có tỷ lệ đúng khá cao (90%).

Rất nhiều video đƣợc xây dựng trên cơ sở chủ đề. Thí dụ, chƣơng trình tin tức thƣờng đƣợc cấu trúc thành tin trong nƣớc, tin quốc tế, tài chính, thể thao và thời tiết. Phim đƣợc cấu trúc theo thời gian, sự kiện, địa điểm... Do vậy rất có ích khi nhóm các shot video theo chủ đề hay phạm vi của chúng. Thí dụ, video quảng bá du lịch của một nƣớc có thể phân chia thành đoạn theo địa điểm quan tâm. Video giới thiệu trƣờng đại học có thể đƣợc tổ chức theo khoa, bộ môn.

Với phân đoạn video, ngƣời sử dụng hoặc quan sát trực tiếp các đoạn video liên quan hay tìm kiếm các đoạn video với chủ đề xác định trƣớc. Phân

Animal Art Food Sport Travel

Dogs Cats Vegetables Fruit Drinks ... ... Painting s

Sculpure Baseball Soccer Asia

Lions Tigers

Renoir Van Gogh

Apples Bananas France UK

Hình 2.12: Minh họa về phân lớp video theo chủ đề

Europe

lớp video không chỉ cung cấp cái nhìn khái quát thông tin có sẵn mà còn hỗ trợ tìm đƣờng, duyệt và tìm kiếm.

2.2.5.2 Biểu tƣợng chuyển động hay biểu tƣợng video

Chúng ta sử dụng thumbnail để biểu diễn ảnh tĩnh khi duyệt và trình diễn kết quả. Vì video còn có chiều thời gian, cho nên thumbnail không thích hợp để biểu diễn nó. Do vậy, biểu tƣợng chuyển động (motion icon – micon) đƣợc đề xuất. Micon có ba chiều nhƣ trên hình 2.8.

Mặt trƣớc của micon là frame thứ nhất hay ảnh đại diện video, độ sâu chỉ ra độ dài và một vài thông tin chuyển động của video. Micon có thể đƣợc xem nhƣ khối pixel. Thay vì hiển thị từng frame video, các frame đƣợc xếp chồng, cùng hai mặt biểu tƣợng hiển thị các pixel theo cạnh ngang và cạnh dọc của frame. Một vài thông tin thời gian và không gian đƣợc cảm nhận từ hai cạnh này. Thí dụ, có thể dễ dàng nói rằng các biên shot xảy ra ở frame 200 và 370 trên hình 2.8. Chú ý rằng không đòi hỏi sử dụng toàn bộ frame của

video trong micon.

Một số thao tác phải đƣợc cài đặt cho micon. Thao tác thứ nhất là duyệt. Khi ngƣời sử dụng chuyển con chạy theo cạnh micon, frame mà nó trỏ tới đƣợc hiển thị lên phía trƣớc. Thao tác này cho khả năng xem nhanh video. Thao tác thứ hai là cắt lát dọc và lát ngang. Micon đƣợc cắt theo chiều dọc hay chiều ngang theo thông tin thời gian và không gian. Thao tác thứ ba là trích chọn subicon. Ngƣời sử dụng chỉ ra dãy frame từ micon, và subicon tƣơng ứng với dãy frame đƣợc tách khỏi micon.

Hình 2.13: Minh họa biểu tượng chuyển động 1

200 370

Micon có thể đƣợc sử dụng để biểu diễn dãy video đầy đủ hay một vài shot video. Với dãy video dài, chỉ các frame r đƣợc sử dụng trong micon. Với video ngắn hay shot video thì tất cả frame đƣợc sử dụng vào micon.

2.2.5.3 Biểu ngữ (streamer) video

Biểu ngữ video tƣơng tự nhƣ xuất hiện trong micon. Sự khác nhau chính là biểu diễn thời gian. Trong micon, sự kiện sớm nhất là ở phía trƣớc khối, thời gian tăng càng đi sâu vào màn hình. Trong biểu ngữ video, bề mặt luôn là frame mới nhất. Biểu ngữ video thƣờng đƣợc sử dụng để hiển thị video. Lợi ích của chúng là thông tin không gian-thời gian đƣợc chỉ ra trên panel bên cạnh dùng để nhắc nhở các frame quá khứ và cung cấp viễn cảnh tiến triển video. Biểu ngữ video đƣợc sử dụng làm nhẹ công việc tách shot thủ công khi tách shot tự động không đạt đến 100% chính xác.

2.2.5.4 Clipmap

Clipmap là cửa sổ chứa tập hợp micon hai chiều, mỗi chúng biểu diễn một shot hay nhóm các shot tƣơng tự. Frame r thứ nhất của shot đƣợc hiển thị trên mặt trƣớc micon. Thêm nữa clipmap đƣợc sử dụng nhƣ công cụ tƣơng tác để xây dựng chỉ mục.

2.2.5.5 Bộ duyệt video phân cấp

Điều quan trọng là phải có khả năng duyệt video hiệu quả. Bộ duyệt video phân cấp là công cụ duyệt và quản lý video (hình 2.9).

Bộ duyệt video phân cấp bao gồm nhiều mức, từ tiêu đề video đến nhóm các shot, đến shot và đến từng frame. Các frame đại diện đƣợc hiển thị tại mỗi mức. Các mức tiếp theo đƣợc hiển thị khi lựa chọn. Sử dụng bộ duyệt video phân cấp, ngƣời sử dụng có thể tìm nhanh ra các shot hay frame liên quan. Thí dụ trên hình 2.9, ngƣời sử dụng trƣớc hết chọn video 3, tập hợp các nhóm shot video đƣợc hiển thị trên cơ sở tiêu đề. Trên cơ sở các thông tin trực quan hiển thị trong mỗi nhóm shot video, ngƣời sử dụng tìm ra nhóm 1 quan tâm và chọn chúng. Mọi shot trong nhóm 1 đƣợc hiển thị bởi frame r của chúng. Ngƣời sử dụng sau đó chọn shot 2 và mọi frame trong shot 2 đƣợc hiển thị. Thông thƣờng sau vài tƣơng tác ngƣời sử dụng có thể định vị đoạn video quan tâm.

Sequence level Video title 3 Group of shorts level Group 1 r frame Group 2 r frame Group 3 r frame Group 4 r frame Group 5 r frame

Short level Shot 1 r frame Shot 2 r frame Shot 3 r frame Shot 4 r frame Shot 5 r frame Shot 6 r frame

Frame level Frame 21 Frame 21 Frame 21 Frame 21 Frame 21 Frame 21 Frame 21 Hình 2.14: Minh họa duyệt video theo phân cấp

2.2.5.6 Storyboard

Storyboard là tập hợp các frame đại diện mà nó biểu diễn sự kiện và hành động chính trong video. Tƣơng tự clipmap khi đƣợc sử dụng để cung cấp khả năng quan sát khái quát video. Sự khác biệt chính là clipmap thể hiện micon 3 chiều còn storyboard hiển thị frame đại diện. Storyboard đòi hỏi ít bộ nhớ lƣu trữ hơn, làm giảm đáng kể băng thông và độ trễ khi phân tán thông tin trên mạng để xem nhanh và duyệt video.

Khi xây dựng storyboard, các frame r trƣớc hết đƣợc tìm ra cho mỗi shot nhƣ mô tả trên. Trong khi hiển thị, ngƣời sử dụng chọn hạt nhân (granularities) quan sát khác nhau. Thí dụ, ta có thể chỉ hiển thị một frame r/shot hay toàn bộ frame r của một shot.

2.2.5.7 Mosaicking

Các frame của shot thông thƣờng hiển thị các phần khác nhau của cảnh phim. Mosaicking sử dụng vài thuật toán để tổ hợp thông tin từ nhiều frame để hiển thị đầy đủ cảnh video. Thí dụ, khảo sát video của ngôi nhà lớn, mỗi frame chỉ bao phủ một phần ngôi nhà. Ta phải dịch chuyển máy quay lên/xuống, sang trái/phải để có toàn bộ ngôi nhà. Do mỗi frame chỉ bao phủ một phần ngôi nhà cho nên không frame nào có thể biểu diễn hiệu quả video shot. Mosaicking giải quyết vấn đề này bằng cách xây dựng ngôi nhà đầy đủ trong ảnh mosaic từ các frame của video shot. Ảnh mosaic đƣợc sử dụng để biểu diễn shot.

Biểu diễn shot bằng ảnh mosaic rất hiệu quả, tuy nhiên việc sinh ảnh mosaic là việc làm khó khăn.

2.2.5.8 Đồ thị quá độ cảnh video

Đồ thị quá độ cảnh (STG - Scene Transition Graph) là cấu trúc đồ thị có hƣớng nó thu thập đầy đủ nội dung và luồng thời gian của video. Nó tƣơng tự khái niệm hypertext trong biểu diễn tài liệu văn bản. STG bao gồm các nút nối bằng các cạnh có hƣớng. Mỗi nút đƣợc biểu diễn bởi ảnh điển hình và đại diện một hay vài video shot. Cạnh có hƣớng chỉ ra nội dung và luồng thời gian của video.

Một STG cung cấp khung nhìn thu gọn của nội dung, dùng để tóm tắt clip đại diện và cho phép xâm nhập ngẫu nhiên đến nội dung video. Thí dụ, cho trƣớc STG của clip phim, ngƣời sử dụng trƣớc hết xem qua phim bằng cách quan sát các nút khác nhau. Họ chọn nút bất kỳ để xem kỹ hơn nội dung (ảnh và âm thanh) mà nó đại diện.

STG là công cụ đáng giá cho việc phân tích cấu trúc video và biểu diễn tổng quát trực quan mức cao của các ứng dụng duyệt video. Thách thức là tự động sinh STG hiệu quả nhƣ thế nào.

2.2.5.9 Lƣớt qua (skimming) video

Mô tả tính chất, trừu tƣợng, cô đọng video mức cao sao cho nội dung video đƣợc biểu diễn phù hợp và chính xác đƣợc gọi là video skimming. Một vài kỹ thuật trình diễn trên đây nhƣ storyboard và STG đƣợc xem nhƣ video skimming. Để có video skimming hiệu quả, nội dung của text, âm thanh và video phải đƣợc sử dụng để hiểu rõ nội dung video.

CHƢƠNG 3 - XÂY DỰNG ỨNG DỤNG TÌM KIẾM VIDEO

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số kỹ thuật chỉ mục và tìm kiếm đối tượng trong video số (Trang 63 - 69)

Tải bản đầy đủ (PDF)

(94 trang)