Chỉ mục và truy tìm video

2.2 CHỈ MỤC VÀ TRUY TÌM VIDEO [1], [2], [4], [5], [8]

2.2.4 Chỉ mục và truy tìm video

Trên đây tập trung vào tiền xử lý cho chỉ mục video: phân đoạn dãy video thành các shot. Bƣớc tiếp theo biểu diễn và chỉ mục từng shot sao cho các shot đƣợc định vị và truy tìm nhanh, đáp ứng câu truy vấn. Cách chung nhất là biểu diễn từng shot với một hoặc nhiều frame chính hay frame đại diện (r – representative frames). Truy tìm trên cơ sở tƣơng tự giữa câu truy vấn và các frames r.

Chỉ mục và truy tìm video có thể thực hiện trên cơ sở thông tin và đặc trƣng khác. Sau đây là mô tả ngắn gọn các phƣơng pháp trên cơ sở thông tin chuyển động, các đối tƣợng, metadata và mô tả (annotation). Sau đó là mô tả tiệm cận tích hợp nhằm tổ hợp các phƣơng pháp trên để truy tìm video hiệu quả hơn.

2.2.4.1 Chỉ mục và truy tìm trên cơ sở các frame r của shot video

Cách chung nhất tạo ra chỉ mục shot là sử dụng các frame đại diện để biểu diễn shot. Frame r nắm bắt nội dung chính của shot. Các đặc trƣng của frame này đƣợc trích chọn và chỉ mục trên cơ sở màu, hình dạng hoặc/và kết

cấu nhƣ truy tìm ảnh. Khi truy tìm, các câu truy vấn đƣợc so sánh với chỉ mục và vectơ đặc trƣng của frame này. Nếu frame này tƣơng tự hay liên quan đến câu truy vấn, nó sẽ đƣợc hiển thị cho ngƣời sử dụng. Nếu ngƣời sử dụng thấy frame này có liên quan thì có thể trình chiếu shot mà nó đại diện. Vậy, việc lựa chọn frame đại diện là rất quan trọng vì nó đƣợc sử dụng làm chỉ mục hay chỉ thị cho toàn bộ shot.

Có nhiều cách chọn frame đại diện. Nếu các shot là khá tĩnh thì bất kỳ frame nào trong shot cũng có thể sử dụng làm frame đại diện. Nhƣng khi máy quay phải hay trái (panning) hoặc đối tƣợng chuyển động trong shot, thì phải sử dụng phƣơng pháp khác. Chúng ta tập trung vào hai nhiệm vụ chính liên quan đến chọn lựa frame r. Nhiệm vụ thứ nhất là sử dụng bao nhiêu frame r trong shot và nhiệm vụ thứ hai là chọn lựa các frame r trong shot nhƣ thế nào.

Nhiều phƣơng pháp đã đƣợc đề xuất cho nhiệm vụ thứ nhất – xác định tổng số frame r sử dụng cho mỗi shot. Một số phƣơng pháp hay đƣợc sử dụng nhƣ sau đây:

- Phƣơng pháp thứ nhất sử dụng một frame r/shot. Hạn chế của phƣơng pháp này là nó không xem xét độ dài và thay đổi nội dung của các shot.

- Để một phần vƣợt qua hạn chế trên, phƣơng pháp thứ hai gán nhiều frame r cho shot tùy theo độ dài của chúng. Nếu độ dài của shot bằng hay nhỏ hơn 1 giây (sec) thì chỉ một frame r đƣợc gán cho shot. Nếu độ dài của shot dài hơn 1 giây thì chỉ một frame r đƣợc gán cho mỗi giây của video. Phƣơng pháp này quan tâm đến độ dài shot nhƣng bỏ qua nội dung shot.

- Phƣơng pháp thứ ba chia shot thành shot con (subshot) hay cảnh (scene) và gán một frame r cho mỗi shot con. Các shot con đƣợc tách trên cơ sở nội dung video thay đổi. Nội dung đƣợc xác định trên cơ sở các vectơ chuyển động, dòng quang học (optical flow) và độ lệch giữa frame-to-frame.

Sau khi xác định tổng số frame r sử dụng cho mỗi shot, ta quyết định lựa chọn các frames r nhƣ thế nào. Theo ba phƣơng pháp xác định tổng frame trên đây cho mỗi shot, chúng ta có ba khả năng: một frame r/shot, một frame r/sec và một frame r/shot con. Sau đây ta sử dụng khái niệm đoạn (segment) để đề cập đến shot, giây video hay subshot phụ thuộc vào phƣơng pháp nào đƣợc sử dụng để xác định tổng số frame r cho mỗi shot. Trong trƣờng hợp này, một frame r/segment cần đƣợc lựa chọn. Các phƣơng pháp chung nhất lựa chọn frame r cho mỗi segment nhƣ sau:

- Phƣơng pháp 1: Frame thứ nhất của mỗi đoạn đƣợc sử dụng làm frame r. Lựa chọn này trên cơ sở quan sát thấy rằng nhà quay phim lựa chọn đoạn tiêu biểu với vài frame sau đó di chuyển theo (track) hay phóng/thu (zoom). Do vậy, frame đầu tiên của đoạn thƣờng “nắm bắt” toàn bộ nội dung của đoạn.

- Phƣơng pháp 2: Frame trung bình đƣợc xác định sao cho mỗi pixel trong frame này là trung bình của các giá trị pixel tại cùng điểm lƣới trong toàn bộ frame của đoạn. Sau đó frame trong đoạn mà nó gần (tƣơng tự) nhất với frame trung bình sẽ đƣợc chọn làm frame đại diện của đoạn.

- Phƣơng pháp 3: Tính trung bình các biểu đồ màu của mọi frames trong đoạn. Frame nào mà biểu đồ màu của nó gần nhất biểu đồ giá trị trung bình sẽ đƣợc chọn làm frame đại diện.

- Phƣơng pháp 4: Đƣợc sử dụng chủ yếu dành cho các đoạn có đƣợc do di chuyển (panning) máy quay. Mỗi ảnh hay frame trong đoạn đƣợc phân thành nền và đối tƣợng tiền cảnh. Một nền lớn đƣợc hình thành từ nền của tất cả frame, và các đối tƣợng cận cảnh chính của mọi frame đƣợc đặt lên trên nền vừa tạo ra.

Tiệm cận khác để chọn frame r tập trung vào hai nhiệm vụ, xác định số lƣợng frame r cho mỗi shot và lựa chọn các frame r này. Frame đầu tiên của mỗi shot đƣợc tự động sử dụng làm r frame. Sau đó, mỗi frame tiếp theo trong shot sẽ so sánh với frame r trƣớc đó. Nếu khoảng cách lớn hơn ngƣỡng cho trƣớc thì frame đƣợc đánh dấu là frame r mới. Vấn đề của tiệm cận này là số lƣợng cuối cùng frame r là không dự đoán đƣợc. Kết quả có thể dẫn tới số lƣợng lớn frame r hay đơn giản chỉ vài frame r. Để giải quyết vấn đề này, giới hạn trên của các frame r đƣợc đặt và tổng số frame r đƣợc gán cho shot cân đối với khối lƣợng (amount) nội dung của nó. Khối lƣợng nội dung đƣợc đo trên cơ sở tổng độ chênh lệch frame-to-frame trong mỗi shot.

Rất khó phát biểu rằng phƣơng pháp nào là tốt hơn, việc chọn phƣơng pháp lựa chọn frame r phụ thuộc vào từng ứng dụng.

2.2.4.2 Chỉ mục và truy tìm video trên cơ sở thông tin chuyển động

Phƣơng pháp chỉ mục và truy tìm trên cơ sở frame r coi video nhƣ tập hợp các ảnh tĩnh và bỏ qua thời gian hay thông tin chuyển động chứa trong video. Để bổ sung vào tiệm cận trên cơ sở frame, phƣơng pháp chỉ mục và truy tìm video trên cơ sở thông tin chuyển động đƣợc đề xuất.

Thông tin chuyển động thông thƣờng có đƣợc từ luồng quang học (optical flow) hay véctơ chuyển động. Các tham số sau đây đƣợc sử dụng trong chỉ mục chuyển động:

- Nội dung chuyển động: Là thƣớc đo tổng số chuyển động trong video cho trƣớc. Nó đo nội dung hành động của video. Thí dụ, nói rằng head video có thƣớc đo nội dung chuyển động rất nhỏ, trong khi tiếng nổ khủng bố hay ôtô đâm nhau có nội dung chuyển động rất cao.

- Tính chất nhất quán chuyển động: Là thƣớc đo tính uyển chuyển của chuyển động trong video nhƣ hàm thời gian. Thí dụ, phim quay (panning shot) uyển chuyển có giá trị tính trơn tru chuyển động cao trong khi đó quay video “loạng choạng” (staggered pan) nó có giá trị thấp.

- Quay chuyển động (motion panning): Chuyển động từ trái sang phải hay từ phải sang trái của máy quay. Một pan shot uyển chuyển có giá trị cao hơn shot thu phóng.

- Motion tilting: Là thƣớc đo các phần tử chuyển động theo chiều dọc trong đoạn video. Phim quay (panning shots) có giá trị thấp hơn video có khối lƣợng lớn các chuyển động theo chiều dọc.

Các tham số chuyển động trên đây kết hợp với toàn bộ video stream hay shot video.

Các thông tin chuyển động đƣợc xác định cho mỗi frame r. Do vậy, các frame r đƣợc chỉ mục trên cơ sở nội dung ảnh và thông tin chuyển động. Thông tin chuyển động đƣợc suy diễn nhƣ sau: một số cặp cố định các đoạn ảnh hay cửa sổ đƣợc quyết định cho mọi frame. Hai bit đƣợc sử dụng để lƣu trữ chuyển động cho mỗi cặp cửa sổ. Hai bit này đƣợc gán nhƣ sau:

- Gán 00 cho hai bit nếu không có chuyển động trong cả hai cửa sổ (độ lớn của véctơ chuyển động nhỏ hơn ngƣỡng nhất định).

- Gán 01 cho các bit nếu không có chuyển động trong cửa sổ thứ nhất, nhƣng có chuyển động trong cửa sổ thứ hai.

- Gán 10 cho các bit nếu có chuyển động trong cửa sổ thứ nhất, nhƣng không chuyển động trong cửa sổ thứ hai.

- Gán 11 cho các bit nếu có chuyển động trong cả hai cửa sổ.

2.2.4.3 Chỉ mục và truy vấn video trên cơ sở đối tƣợng

Nhƣợc điểm chính của chỉ mục và truy tìm video trên cơ sở shot là trong khi shot là đơn vị nhỏ nhất trong cảnh phim, nó không thích hợp với

việc trực tiếp trình diễn trên cơ sở nội dung. Nội dung có thể thay đổi nhanh trong một shot hay nó có thể không thay đổi qua một số shot liên tục. Xác định “thay đổi nội dung” nổi lên nhƣ câu hỏi mấu chốt hƣớng tới việc đƣa ra lƣợc đồ chỉ mục trên cơ sở nội dung.

Một cảnh (scene) cho trƣớc bất kỳ là tập hợp phức tạp của các bộ phận hay đối tƣợng; vị trí và đặc trƣng vật lý của mỗi đối tƣợng, cũng nhƣ tƣơng tác giữa chúng để xác định nội dung của cảnh. Nếu có thể tìm ra cách phân biệt từng đối tƣợng trong toàn bộ đoạn phim và thực hiện tiến trình chỉ mục trên cơ sở thông tin về từng đối tƣợng, thì chiến lƣợc chỉ mục có khả năng nắm bắt các thay đổi trong nội dung của toàn bộ phim. Lƣợc đồ chỉ mục trên cơ sở đối tƣợng đƣợc đề xuất để giải quyết vấn đề này.

Trong ảnh tĩnh, phân đoạn và nhận biết đối tƣợng thƣờng là khó khăn. Nhƣng trong video, đối tƣợng dịch chuyển trọn vẹn, do đó ta có thể nhóm các pixel mà nó cùng chuyển động vào một đối tƣợng. Phân đoạn đối tƣợng có thể khá chính xác nhờ ý tƣởng này. Các đối tƣợng phân đoạn này có thể đƣợc sử dụng để chỉ mục video. Nếu ta theo dõi (track) chuyển động đối tƣợng, thì có thể xây dựng mô tả chuyển động này để sử dụng vào truy tìm shot video. Nó cũng có giá trị giúp nhận biết đối tƣợng một khi nó đƣợc trích chọn. Ngay cả khi không có các kỹ thuật cao để nhận biết, ta có thể xây dựng biểu tƣợng từ đối tƣợng đƣợc trích chọn để làm tín hiệu (cue) chỉ mục trực quan có ý nghĩa.

Chỉ mục và truy tìm video trên cơ sở đối tƣợng có thể thực hiện dễ dàng khi video đƣợc nén bằng chuẩn mã hóa trên cơ sở đối tƣợng MPEG-4. Một phiên ghi video (VS-video session) MPEG-4 là tập hợp của một hay nhiều VO (video object). Một VO bao gồm một hay nhiều lớp (layer) đối tƣợng video (VOL). Mỗi VOL chứa dãy ảnh chụp có thứ tự theo thời gian, gọi chúng là video object plane (VOP). Mỗi VOP là đối tƣợng trong cảnh quay chứa hình dạng và thông tin chuyển động. Kèm theo VOP còn có thông tin chỉ ra VOP đƣợc hiển thị khi nào và ở đâu. Ferman et al. đề xuất chỉ mục video nén MPEG-4 bằng các tham số sau: frame đầu và frame cuối của đối tƣợng, tính chất chuyển động toàn cục trong cảnh quay và frame mấu chốt đại diện của các biến đổi chính. Chú ý rằng MPEG-4 chỉ ra các đối tƣợng đƣợc biểu diễn trong bitstream nén nhƣ thế nào, nhƣng nó không cho biết phân đoạn và trích chọn đối tƣợng ra sao. Việc này phụ thuộc vào ngƣời phát triển bộ giải mã MPEG-4 để thiết kế và cài đặt các kỹ thuật theo dõi và phân đoạn đối tƣợng.

2.2.4.4 Chỉ mục và truy tìm video trên cơ sở metadata

Metadata có sẵn trong một vài khuôn dạng video chuẩn. Chỉ mục và truy tìm video có thể thực hiện trên metadata này bằng DBMS. Thí dụ PSI (program specific information) của hệ thống MPEG-2 định nghĩa 4 bảng chứa các thông tin cần thiết để phân kênh và trình diễn chƣơng trình qua transport stream. Các thông tin khác bao gồm bản quyền, ngôn ngữ có thể tìm thấy trong bảng ánh xạ chƣơng trình.

Chuẩn châu Âu về truyền thông dịch vụ số có tên Phát chƣơng trình video số (DVD – Digital Video Broadcasting) hiện đƣợc sử dụng trong nhiều nƣớc. Nó sử dụng MPEG-2 để nén và truyền tải video. Chuẩn DVD còn đƣợc bổ sung metadata trong bảng thông tin dịch vụ (DVD-SI) để nhận biết các dịch vụ và sự kiện. DVD-SI đƣợc tổ chức thành 6 bảng. Bảng mô tả dịch vụ và bảng thông tin sự kiện có hữu ích nhất với chỉ mục video. Các bảng này chứa tiêu đề, loại video và đạo diễn phim.

2.2.4.5 Chỉ mục và truy tìm video trên cơ sở mô tả (annotation)

Video có thể chỉ mục và truy tìm trên cơ sở mô tả nhờ kỹ thuật IR nhƣ đã nói trong các chƣơng trƣớc. Mô tả rất quan trọng vì nó thu thập nội dung video ở mức cao. Mô tả có đƣợc nhờ thực hiện theo một trong ba cách sau:

- Diễn giải và mô tả video một cách thủ công. Là công việc mất nhiều thời gian, nhƣng vẫn còn sử dụng nhiều vì hiện nay chƣa có thể tự động hiểu nội dung video ở mức cao. Do vậy ngƣời ta đang cố gắng đơn giản hóa tiến trình mô tả thủ công. Hai khía cạnh công việc đƣợc thực hiện: Cung cấp khung công việc cho nhập thủ công và sử dụng tri thức lĩnh vực để bán tự động mô tả video.

- Nhiều video kết hợp với bản dịch (transcript) và phụ đề (subtitle) mà nó có thể sử dụng trực tiếp cho chỉ mục và truy tìm video.

- Nếu không có phụ đề, áp dụng nhận dạng tiếng nói cho rãnh tiếng để tách các từ nói, nó có thể đƣợc sử dụng làm chỉ mục và truy tìm. Tiệm cận này còn nhiều thách thức bởi vì vì tiếng nói và không tiếng nói còn trộn trong rãnh tiếng, nhạc nền và nhiễu trong tín hiệu tiếng nói làm giảm chất lƣợng nhận dạng.

2.2.4.6 Tiệm cận tích hợp chỉ mục và tìm kiếm video

Video là loại media rất giàu thông tin. Một đặc trƣng hay kỹ thuật không thể thu thập đầy đủ toàn bộ nội dung video. Tiệm cận tích hợp tổ hợp

các kỹ thuật nói trên cần đƣợc sử dụng cho hệ thống trong thực tế. Hơn nữa, các hệ thống chỉ mục và truy tìm gần nhƣ phụ thuộc vào ứng dụng, nhấn mạnh vào một vài khía cạnh trên cơ sở yêu cầu ứng dụng.

Kỹ thuật truy tìm video hay đƣợc ứng dụng là duyệt (browsing). Để dễ dàng duyệt và trình diễn kết quả truy tìm, video phải đƣợc đại diện bởi cấu trúc và trừu tƣợng nào đó.

Tách video shot hay phân đoạn

Quản lý nội dung đa phƣơng tiện