2.2 CHỈ MỤC VÀ TRUY TÌM VIDEO [1], [2], [4], [5], [8]
2.2.2 Khái quát về chỉ mục và truy tìm video trên cơ sở shot
Băng video bao gồm dãy các ảnh chụp theo tốc độ nhất định. Mỗi đoạn video chứa nhiều frame. Nếu các frame này đƣợc xử lý riêng biệt, chỉ mục và truy tìm sẽ không hiệu quả. May thay, thông thƣờng video đƣợc hình thành từ nhiều đơn vị logíc hay đoạn. Chúng ta gọi các đoạn này là video shot. Một shot là trình tự các frame liên tục, ngắn có một hay nhiều các đặc trƣng sau:
- Các frame mô tả cùng cảnh (scene)
- Các frame báo hiệu một thao tác máy quay.
- Các frame chứa sự kiện mô tả hay hành động nhƣ hiện diện có ý nghĩa hay đối tƣợng
- Các frame đƣợc ngƣời sử dụng lựa chọn nhƣ thực thể có thể chỉ mục đƣợc.
Thí dụ trong đoạn video bản tin thì mỗi mục tin tƣơng ứng một shot. Trong một phim, các ảnh đƣợc chụp trong cùng một cảnh và mô tả nét đặc biệt cùng nhóm ngƣời tƣơng ứng với một shot.
Trong nhiều ứng dụng, đòi hỏi không chỉ nhận biết video nào chứa thông tin cần tìm, mà còn cần nhận biết phần nào của video chứa thông tin cần tìm. Duyệt video để tìm kiếm một vài thông tin cụ thể là rất tốn kém thời gian, do vậy cần thiết phải có các phƣơng pháp tự động định vị các shot chứa thông tin cần tìm. Chỉ mục và truy tìm video trên cơ sở shot bao gồm các bƣớc chủ yếu sau đây:
- Bƣớc thứ nhất: phân đoạn video thành các shot. Bƣớc này thƣờng đƣợc gọi là phân đoạn video theo thời gian, phân hoạch hay tách shot.
- Bƣớc thứ hai: chỉ mục từng shot. Trƣớc hết nhận ra các frame chính hay frame đại diện (frame r) cho mỗi shot, sau đó sử dụng phƣơng pháp chỉ mục ảnh nhƣ đã mô tả trong các chƣơng trƣớc để chỉ mục các frame r.
- Bƣớc thứ ba: áp dụng thƣớc đo tƣơng tự giữa câu truy vấn và video shot và truy tìm các shot có tính tƣơng tự cao. Việc này thực hiện bằng các phƣơng pháp truy tìm ảnh, trên cơ sở các chỉ mục hay các véctơ đặc trƣng có đƣợc từ bƣớc hai.