2.1 Phân loại
Vì video được xem như tổ hợp text, audio và các ảnh có chiều thời gian. Thêm nữa, video còn kết hợp với metadata như tên video, tác giả/nhà sản xuất. Do vậy, các phương pháp sau đây có thể được sử dụng để chỉ mục và truy tìm video:
Phương pháp trên cơ sở metadata: Video được chỉ mục và truy
tìm trên cơ sở metadata có cấu trúc nhờ DBMS truyền thống. Metadata thường thấy là tên video, tác giả/đạo diễn/nhà sản xuất, ngày sản xuất và loại video.
Phương pháp trên cơ sở văn bản: Video được chỉ mục và truy tìm trên cơ sở các phụ đề kết hợp nhờ các kỹ thuật IR được nghiên cứu trong chương trước. Bản sao (transcript) và phụ đề thông thường có sẵn trong nhiều loại video như chương trình tin tức hay phim ảnh, hạn chế nhu cầu mô tả bằng tay. Các thông tin thời gian cần gộp vào văn bản với các frame liên quan.
Phương pháp trên cơ sở âm thanh: Video được chỉ mục và truy
tìm trên cơ sở các rãnh tiếng kết hợp nhờ các phương pháp mô tả về âm thanh. Audio được phân đoạn thành nhóm tiếng nói và phi tiếng nói. Nhận dạng tiếng nói được áp dụng cho tín hiệu tiếng nói để có từ. Sau đó ta chỉ mục và truy tìm video trên cơ sở các từ nói này bằng kỹ thuật IR. Nếu nhận ra ý nghĩa của các tín hiệu phi tiếng nói, chúng ta có được thông tin về video từ hiệu ứng âm thanh. Thông tin thời gian cần được gộp để kết hợp tiếng nói với các khung.
Các phương pháp trên cơ sở nội dung: Có hai tiệm cận tổng quát
đến chỉ mục và truy tìm video trên cơ sở nội dung:
Thứ nhất: ta coi video như tập hợp các frame hay ảnh độc lập, và
sử dụng các phương pháp chỉ mục và truy tìm ảnh để chỉ mục và truy tìm video. Vấn đề của tiệm cận này là nó bỏ qua quan hệ thời gian giữa các frame video và phải xử lý lượng ảnh khổng lồ.
Thứ hai: chia trình tự video thành nhóm các frame tương tự, sau
đó chỉ mục và truy tìm trên cơ sở các frame đại diện của các nhóm này (gọi là shot). Tiệm cận này được gọi là chỉ mục và truy tìm video trên cơ sở shot.
Tiệm cận tích hợp: Tổ hợp hai hay nhiều phương pháp trên đây
để có được chỉ mục và truy tìm video hiệu quả hơn.
Trong khuôn khổ của luận văn này chỉ trình bày về chỉ mục và truy tìm trên cơ sở shot.
2.2 Khái quát về chỉ mục và truy tìm video trên cơ sở shot
Băng video bao gồm dãy các ảnh chụp theo tốc độ nhất định. Đoạn video dài (thí dụ 30 phút), chứa nhiều frame. Nếu các khung này được xử lý riêng biệt, chỉ mục và truy tìm sẽ không hiệu quả. May thay, thông thường video được hình thành từ nhiều đơn vị logíc hay đoạn. Chúng ta gọi các đoạn này là video shot. Một shot là trình tự các frame liên tục, ngắn có một hay nhiều các đặc trưng sau:
Các frame mô tả cùng cảnh (scene)
Các frame báo hiệu một thao tác máy quay.
Các frame chứa sự kiện mô tả hay hành động như hiện diện có ý
nghĩa hay đối tượng
Các frame được người sử dụng lựa chọn như thực thể có thể chỉ
mục được.
Thí dụ trong đoạn video bản tin thì mỗi mục tin tương ứng một shot. Trong một phim, các ảnh được chụp trong cùng một cảnh (scene) và mô tả nét đặc biệt (featuring) cùng nhóm người tương ứng với một shot.
Trong nhiều ứng dụng, đòi hỏi không chỉ nhận biết video nào chứa thông tin cần tìm, mà còn cần nhận biết phần nào của video chứa thông tin cần tìm. Duyệt video để tìm kiếm một vài thông tin cụ thể là rất tốn kém thời gian, do vậy cần thiết phải có các phương pháp tự động định vị các shot chứa thông tin cần tìm. Chỉ mục và truy tìm video trên cơ sở shot bao gồm các bước chủ yếu sau đây:
Bước thứ nhất: phân đoạn video thành các shot. Bước này
thường được gọi là phân đoạn video theo thời gian, phân hoạch hay tách shot.
Bước thứ hai: chỉ mục từng shot. Tiệm cận chung sử dụng trong
bước này là trước hết nhận ra các frame chính hay frame đại diện(frame r) cho mỗi shot, sau đó sử dụng phương pháp chỉ mục ảnh để chỉ mục các frame r.
Bước thứ ba: áp dụng thước đo tương tự giữa câu truy vấn và video shot và truy tìm các shot có tính tương tự cao. Việc này thực hiện bằng các phương pháp truy tìm ảnh, trên cơ sở các chỉ mục hay các véctơ đặc trưng có được từ bước hai.
2.3 Tách video shot hay phân đoạn
Phân đoạn là tiến trình phân chia dãy video thành các shot. Nội dung các frame liên tục thay đổi đáng kể khi dừng máy quay. Do vậy, cần có một vài đo đạc định lượng phù hợp để thu thập sự khác nhau giữa các cặp frames. Sau đó, nếu sự khác biệt này vượt quá ngưỡng cho trước thì được coi như tìm thấy biên đoạn video. Do vậy, việc hình thành thước đo và kỹ thuật đo độ chênh lệch sao cho phù hợp và có thể áp dụng chúng là nhiệm vụ chủ chốt trong tự động hóa phân đoạn video.
Dừng máy quay (camera break) là chuyển tiếp đơn giản nhất giữa hai shot. Các thao tác máy quay phức tạp hơn bao gồm mờ chồng (dissolve), làm tắt (wipe), đưa cảnh vào dần (fade-in), làm mờ dần cảnh (fade-out). Các hiệu ứng đặc biệt này làm thay đổi từ từ giữa hai frame gần nhau được sử dụng nhiều hơn so với dừng máy quay. Vì sự thay đổi định lượng này là quá nhỏ để tách chúng bằng một ngưỡng, cho nên đòi hỏi có tiệm cận mạnh hơn.
Sau đây là mô tả các kỹ thuật hay thuật toán cơ sở tách các shot. Sau đó là các kỹ thuật liên quan đến các trường hợp đặc biệt như chuyển tiếp từ từ và video nén.
2.3.1 Kỹ thuật phân đoạn video cơ sở
Nhiệm vụ chủ yếu của tách shot là hiểu biết cách đo đạc độ chênh lệch frame - frame như thế nào. Có nhiều thước đo khác nhau giữa các frame đã được đề xuất. Đó là:
Phương pháp đơn giản nhất là sử dụng thước đo được tính bằng tổng chênh lệch pixel-to-pixel giữa các frame lân cận. Nếu tổng lớn hơn ngưỡng định trước thì tồn tại biên shot giữa hai frame. Phương pháp này không hiệu quả và có thể cho kết quả không đúng. Lý do là hai frame giữa một shot có thể có chênh lệch pixel-to-pixel rất lớn vì có đối tượng chuyển động từ frame này đến frame khác.
Để vượt qua hạn chế của phương pháp thứ nhất, phương pháp
thứ hai thực hiện đo khoảng cách biểu đồ màu giữa hai frames láng giềng. Nguyên lý của phương pháp này là chuyển động đối tượng ít gây ra chênh lệch biểu đồ màu. Nếu tìm ra chênh lệch lớn, thì đó rất có thể là điểm dừng máy quay.
Hãy gọi Hi(j) là biểu đồ màu cho frame thứ i, trong đó j là một trong G
mức xám có thể. Sau đó, chênh lệch giữa frame thứ i và frame trước đó được tính bởi công thức sau:
j i i i H j H j SD ( ) 1( )
Nếu SDi lớn hơn ngưỡng cho trước thì đó là biên shot.
Với video màu, kỹ thuật trên được điều chỉnh để phù hợp với các thành phần màu. Một tiệm cận đơn giản nhưng hiệu quả là so sánh các biểu đồ màu trên cơ sở mã màu có được từ các thành phần R, G và B. Trong trường hợp này, j trong công thức trên là mã màu thay cho mức xám. Để làm giảm tính toán, ta chỉ cần chọn hai hay ba bit màu có ý nghĩa nhất của thành phần màu để tổ hợp mã màu. Thí dụ, nếu ba bit của mỗi thành phần màu được sử dụng thì biểu đồ màu sẽ có tổng số là 512 bins.
Phương pháp thứ ba sau đây là cải tiến phương pháp thứ hai.
Khoảng cách frame được tính toán như sau:
j i i i i j H j H j H SD ) ( ) ( ) ( 1 2 1
Việc đo đạc này gọi là phép thử2.
Trong kỹ thuật tách shot trên đây, việc lựa chọn các giá trị ngưỡng phù hợp là nhiệm vụ chính để xác định hiệu năng phân đoạn. Ngưỡng được gán sao cho nó “tha thứ” các biến đổi trong từng frame nhưng vẫn tách được biên thực sự. Thông thường, ngưỡng được lựa chọn bằng giá trị trung bình của chênh lệch frame-to-frame và thêm một sai số nhỏ. Ngưỡng còn có thể xác định trên cơ sở mô hình thống kê chênh lệch giữa frame-to-frame.
2.3.2 Tách biên shot thay đổi dần dần
Mỗi kỹ thuật tách shot trên đây phụ thuộc vào ngưỡng chênh lệch frame-to-frame đơn. Lý tưởng, ngưỡng chênh lệch được lựa chọn sao cho mọi biên shot được tìm ra. Trong thực tế, kỹ thuật cơ sở nói trên không thể tách biên shot khi thay đổi giữa các frame một cách dần dần. Mặt khác, vì kỹ thuật cơ sở trên đây không xem xét phân bổ màu không gian, nó không thể nhận ra biên giữa hai frame của hai cảnh (scene) khác nhau lại có cùng biểu đồ màu. Do vậy cần có các kỹ thuật khác để vượt qua các khó khăn này.
Video được sản xuất với kỹ thuật fade-in, fade-out, dissolve và wipe có hiện tượng biến đổi từ từ giữa biên các shot thường xuyên hơn so với dừng máy quay:
- Fade-in xảy ra khi cảnh xuất hiện từ từ. - Fade-out xảy ra khi cảnh mất đi từ từ.
- Dissolve xảy ra khi cảnh mất đi từ từ trong khi cảnh khác xuất hiện từ từ.
-Wipe xảy ra khi một cảnh vào từ từ qua frame trong khi cái khác rời bỏ từ từ.
Các giá trị chênh lệch trong fade-in, fade-out, dissolve và wipe có khuynh hướng cao hơn các giá trị chênh lệch trong shot nhưng thấp hơn đáng
kể so với ngưỡng shot. Trong tình huống này, ngưỡng đơn không phù hợp vì để thu được các biên này thì ngưỡng phải thấp hơn đáng kể, dẫn tới nhiều sai sót. Để giải quyết vấn đề này, Zhang et al. phát triển kỹ thuật so sánh kép mà nó có thể tách dừng máy quay và quá độ dần dần. Kỹ thuật so sánh kép đòi
hỏi sử dụng hai ngưỡng khác nhau: ngưỡng Tb được sử dụng để tách ngừng
máy quay và ngưỡng thấp hơn Ts để tách các frame nơi có thể xuất hiện quá
độ dần dần. Trong tiến trình tách shot, các frame liên tục được so sánh bằng cách sử dụng một trong các phép đo độ chênh lệch như đã trình bày trong
chương trước. Nếu độ chênh lệch lớn hơn Tb thì biên shot được tìm ra. Nếu độ
chênh lệch nhỏ hơn Tb nhưng lớn hơn Ts thì đánh dấu frame như frame có xu
thế quá độ. Sau đó ta bổ sung độ chênh lệch frame-to-frame của các frame tiếp theo có xu thế quá độ. Nếu tích lũy độ chênh lệch frame-to-frame của các
frame liên tiếp có xu thế quá độ lớn hơn Tb thì quá độ được phát hiện và các
frame liên tiếp có xu thế quá độ được coi như đoạn video đặc biệt. Chú ý rằng
độ lệch tích lũy chỉ được tính toán khi độ lệch frame-to-frame lớn hơn Ts.
Trong quá độ, các độ lệch frame-to-frame (giữa các frame hiện hành và trước
đó) cần phải lớn hơn Ts và nhỏ hơn Tb.
Tổng thể thì, rất khó xác định chính xác quá độ từ từ. Tỷ lệ tách đúng các quá độ từ từ dưới 16% qua thực nghiệm với nhiều phương pháp khác nhau đã trình bày trên. Một giải pháp nâng cao tỷ lệ thành công là sử dụng kỹ thuật trên cơ sở biến đổi wavelet. Kỹ thuật này dựa trên giả thiết rằng trong fade-in, fade-out, dissolve, thành phần tần số cao của ảnh sẽ giảm. Tuy nhiên chưa có đánh giá hiệu năng của phương pháp này.
2.3.3 Tránh sai sót khi tách shot
Trong khi quá độ từ từ nảy sinh vấn đề tách biên mà nó không thể tách bằng đo đạc đơn, các thao tác như dịch chuyển và phóng/thu của máy quay có
thể dẫn tới thay đổi từ từ, nó là nguyên nhân gây ra sự sai sót khi tách biên. Kỹ thuật phân tích chuyển động được sử dụng để tránh vấn đề “false segmenting”. Đặc trưng được sử dụng trong khi tách chuyển động máy quay là dòng quang học (optical flow). Các véctơ chuyển động biểu diễn dòng quang học được tính toán bằng phương pháp đối sánh blốc được phát triển để mã hóa bù chuyển động. Việc phân bổ véctơ chuyển động do dịch chuyển máy quay có thể biểu diễn bằng một giá trị tương ứng với chuyển động của máy quay. Mặt khác, trường các véctơ chuyển động do phóng/thu sẽ hội tụ hay phân kỳ tại tâm tiêu cự.
Lý do khác thường xảy ra dẫn tới tách shot sai là độ chói thay đổi. Độ chói thay đổi do nhiều lý do khác nhau: diễn viên đi vào điểm sáng, mây bao phủ bầu trời hay sử dụng hiệu ứng ánh sáng. Mọi sự thay đổi này có thể gây ra khoảng cách frame-to-frame lớn hơn ngưỡng shot, dẫn tới sai sót khi tách shot. Để vượt qua vấn đề này, chuẩn hóa ảnh màu đã được đề xuất trước khi thực hiện tách shot. Biểu diễn khoảng cách frame-to-frame cũng khác so với đã trình bày trên đây. Lược đồ tách shot làm việc như sau đây:
Để làm giảm hiệu ứng thay đổi ánh sáng, chuẩn hóa riêng biệt
các kênh R, G, B bằng công thức sau:
N i i i i N i i i i N i i i i B B B G G G R R R 1 2 ' 1 2 ' 1 2 ' , ,
trong đó, Ri, Gi, Bi là các thành phần màu gốc của các pixel ảnh;
Ri‟, Gi‟ và Bi‟ là các thành phần màu chuẩn hóa của các pixel ảnh; N là
tổng số pixel trong ảnh.
Các giá trị pixel chuẩn hóa được chuyển đổi thành đơn sắc
(chromiticity) nhờ các công thức sau đây:
' ' ' ' ' ' ' ' , i i i i i i i i i i B G R G g B G R R r
Xây dựng lược đồ tổ hợp cho r và g cho mỗi ảnh.
Vì lược đồ tổ hợp được chỉ mục bằng hai tham số r và g, nó có
thể được xem như một kiểu ảnh, hay còn gọi là ảnh lược đồ đơn sắc (chromaticity histogram image - CHI).
Kích thước của mỗi CHI giảm xuống còn 16x16 nhờ kỹ thuật
nén trên cơ sở Wavelet.
Áp dụng biến đổi DCT hai chiều để giảm CHI, để có được 256
hệ số DCT.
Chỉ có 36 hệ số DCT quan trọng hơn được lựa chọn từ 256 hệ số
nói trên.
Shot và biên ảnh biến đổi dần dần được xác định trên cơ sở
khoảng cách giữa các frame tính toán từ 36 hệ số tương ứng của chúng. Phương pháp này cho hiệu năng cao hơn các phương pháp đã mô tả trước đó.
2.3.4 Thuật toán phát hiện các chuyển đổi về shot dựa trên việc ƣớc lƣợng độ sáng và chuyển động tuyệt đối
Kỹ thuật ước lượng chuyển động đã được sử dụng rộng rãi trong rất nhiều các ứng dụng xử lý video vì nó cung cấp hầu hết các thông tin cần thiết cho một chuỗi ảnh. Trong phần này ta sẽ xem xét khả năng tận dụng các ước lượng chuyển động tuyệt đối và độ sáng trong đoạn video cho việc phát hiện các kiểu thay đổi về shot khác nhau. Ý tưởng chính xuất phát từ giả thiết về chuyển động liên tục của camera trong suốt một shot. Giả thiết này tương đối gần với giả thiết về độ sáng không đổi để thực hiện đạo hàm các ràng buộc luồng quang trong một chuỗi ảnh. Do đó, ứng dụng trực tiếp kết quả này để xác định các thay đổi về shot dựa trên các lỗi liên kết với các ràng buộc luồng