Tách video shot hay phân đoạn

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số kỹ thuật chỉ mục và tìm kiếm đối tượng trong video số (Trang 48 - 57)

2.2 CHỈ MỤC VÀ TRUY TÌM VIDEO [1], [2], [4], [5], [8]

2.2.3 Tách video shot hay phân đoạn

Phân đoạn là tiến trình phân chia dãy video thành các shot. Nội dung các frame liên tục thay đổi đáng kể khi dừng máy quay. Do vậy, cần có một

vài đo đạc định lƣợng phù hợp để thu thập sự khác nhau giữa các cặp frame. Sau đó, nếu sự khác biệt này vƣợt quá ngƣỡng cho trƣớc thì đƣợc coi nhƣ tìm thấy biên đoạn video. Do vậy, việc hình thành thƣớc đo và kỹ thuật đo độ chênh lệch sao cho phù hợp và có thể áp dụng chúng là nhiệm vụ chủ chốt trong tự động hóa phân đoạn video.

Dừng máy quay (camera break) là chuyển tiếp đơn giản nhất giữa hai shot. Các thao tác máy quay phức tạp hơn bao gồm mờ chồng (dissolve), làm tắt (wipe), đƣa cảnh vào dần (fade-in), làm mờ dần cảnh (fade-out). Các hiệu ứng đặc biệt này làm thay đổi từ từ giữa hai frame gần nhau đƣợc sử dụng nhiều hơn so với dừng máy quay. Vì sự thay đổi định lƣợng này là quá nhỏ để tách chúng bằng một ngƣỡng, cho nên đòi hỏi có tiệm cận mạnh hơn.

Sau đây là mô tả các kỹ thuật hay thuật toán cơ sở tách các shot. Sau đó là các kỹ thuật liên quan đến các trƣờng hợp đặc biệt nhƣ chuyển tiếp từ từ và video nén.

2.2.3.1 Kỹ thuật phân đoạn video cơ sở

Nhiệm vụ chủ yếu của tách shot là hiểu biết cách đo đạc độ chênh lệch frame - frame nhƣ thế nào. Có nhiều thƣớc đo khác nhau giữa các frame đã đƣợc đề xuất. Đó là:

- Phƣơng pháp đơn giản nhất là sử dụng thƣớc đo đƣợc tính bằng tổng chênh lệch pixel-to-pixel giữa các frame lân cận. Nếu tổng lớn hơn ngƣỡng định trƣớc thì tồn tại biên shot giữa hai frame. Phƣơng pháp này không hiệu quả và có thể cho kết quả không đúng. Lý do là hai frame giữa một shot có thể có chênh lệch pixel-to-pixel rất lớn vì có đối tƣợng chuyển động từ frame này đến frame khác.

- Để vƣợt qua hạn chế của phƣơng pháp thứ nhất, phƣơng pháp thứ hai thực hiện đo khoảng cách biểu đồ màu giữa hai frames láng giềng. Nguyên lý của phƣơng pháp này là chuyển động đối tƣợng ít gây ra chênh lệch biểu đồ màu. Nếu tìm ra chênh lệch lớn, thì đó rất có thể là điểm dừng máy quay.

Gọi Hi(j) là biểu đồ màu cho frame thứ i, trong đó j là một trong G mức xám có thể. Sau đó, chênh lệch giữa frame thứ i và frame trƣớc đó đƣợc tính bởi công thức sau:

    j i i i H j H j SD ( ) 1( )

Với video màu, kỹ thuật trên đƣợc điều chỉnh để phù hợp với các thành phần màu. Một tiệm cận đơn giản nhƣng hiệu quả là so sánh các biểu đồ màu trên cơ sở mã màu có đƣợc từ các thành phần R, G và B. Trong trƣờng hợp này, j trong công thức trên là mã màu thay cho mức xám. Để làm giảm tính toán, ta chỉ cần chọn hai hay ba bit màu có ý nghĩa nhất của thành phần màu để tổ hợp mã màu. Thí dụ, nếu ba bit của mỗi thành phần màu đƣợc sử dụng thì biểu đồ màu sẽ có tổng số là 512 bins.

- Phƣơng pháp thứ ba sau đây là cải tiến phƣơng pháp thứ hai. Khoảng cách frame đƣợc tính toán nhƣ sau:

       j i i i i j H j H j H SD ) ( ) ( ) ( 1 2 1

Việc đo đạc này gọi là phép thử: 2

Trong kỹ thuật tách shot trên đây, việc lựa chọn các giá trị ngƣỡng phù hợp là nhiệm vụ chính để xác định hiệu năng phân đoạn. Ngƣỡng đƣợc gán sao cho nó “tha thứ” các biến đổi trong từng frame nhƣng vẫn tách đƣợc biên thực sự. Thông thƣờng, ngƣỡng đƣợc lựa chọn bằng giá trị trung bình của chênh lệch frame-to-frame và thêm một sai số nhỏ. Ngƣỡng còn có thể xác định trên cơ sở mô hình thống kê chênh lệch giữa frame-to-frame.

2.2.3.2 Tách biên shot thay đổi dần dần

Mỗi kỹ thuật tách shot trên đây phụ thuộc vào ngƣỡng chênh lệch frame-to-frame đơn. Lý tƣởng, ngƣỡng chênh lệch đƣợc lựa chọn sao cho mọi biên shot đƣợc tìm ra. Trong thực tế, kỹ thuật cơ sở nói trên không thể tách biên shot khi thay đổi giữa các frame một cách dần dần. Mặt khác, vì kỹ thuật

cơ sở trên đây không xem xét phân bổ màu không gian, nó không thể nhận ra biên giữa hai frame của hai cảnh (scene) khác nhau lại có cùng biểu đồ màu. Do vậy cần có các kỹ thuật khác để vƣợt qua các khó khăn này.

Video đƣợc sản xuất với kỹ thuật fade-in, fade-out, dissolve và wipe có hiện tƣợng biến đổi từ từ giữa biên các shot thƣờng xuyên hơn so với dừng máy quay:

- Fade-in: xảy ra khi cảnh xuất hiện từ từ. - Fade-out: xảy ra khi cảnh mất đi từ từ.

- Dissolve: xảy ra khi cảnh mất đi từ từ trong khi cảnh khác xuất hiện từ từ.

- Wipe: xảy ra khi một cảnh vào từ từ qua frame trong khi cái khác rời bỏ từ từ.

Có nhiều hiệu ứng đặc biệt cho phép các chuyển cảnh rất phức tạp. Điều này phụ thuộc vào kiểu của video. Các bản tin trên tivi sử dụng các chuyển cảnh rất đơn giản và thƣờng là các chuyển cảnh đột ngột. Các clips quảng cáo sử dụng nhiều hiệu ứng hơn.

Các giá trị chênh lệch trong fade-in, fade-out, dissolve và wipe có khuynh hƣớng cao hơn các giá trị chênh lệch trong shot nhƣng thấp hơn đáng kể so với ngƣỡng shot. Trong tình huống này, ngƣỡng đơn không phù hợp vì để thu đƣợc các biên này thì ngƣỡng phải thấp hơn đáng kể, dẫn tới nhiều sai sót. Để giải quyết vấn đề này, Zhang et al. phát triển kỹ thuật so sánh kép mà nó có thể tách dừng máy quay và quá độ dần dần. Kỹ thuật so sánh kép đòi hỏi sử dụng hai ngƣỡng khác nhau: ngƣỡng Tb đƣợc sử dụng để tách ngừng máy quay và ngƣỡng thấp hơn Ts để tách các frame nơi có thể xuất hiện quá độ dần dần. Trong tiến trình tách shot, các frame liên tục đƣợc so sánh bằng cách sử dụng một trong các phép đo độ chênh lệch. Nếu độ chênh lệch lớn hơn Tb thì biên shot đƣợc tìm ra. Nếu độ chênh lệch nhỏ hơn Tb nhƣng lớn

hơn Ts thì đánh dấu frame nhƣ frame có xu thế quá độ. Sau đó ta bổ sung độ chênh lệch frame-to-frame của các frame tiếp theo có xu thế quá độ. Nếu tích lũy độ chênh lệch frame-to-frame của các frame liên tiếp có xu thế quá độ lớn hơn Tb thì quá độ đƣợc phát hiện và các frame liên tiếp có xu thế quá độ đƣợc coi nhƣ đoạn video đặc biệt. Chú ý rằng độ lệch tích lũy chỉ đƣợc tính toán khi độ lệch frame-to-frame lớn hơn Ts. Trong quá độ, các độ lệch frame-to- frame (giữa các frame hiện hành và trƣớc đó) cần phải lớn hơn Ts và nhỏ hơn Tb.

Đối với các chuyển cảnh từ từ, ta có thể cộng dồn các khoảng cách của nhiều ảnh liên tiếp và phát hiện các chuyển cảnh khi khoảng cách cộng dồn đó vƣợt quá ngƣỡng.

Một phƣơng pháp mới là dùng các cửa sổ cho một số ảnh liên tiếp (ví dụ trên là 11 ảnh liên tiếp) và so sánh ảnh ở trung tâm với các ảnh ở bên trái hoặc bên phải và tính tỉ số trung bình. Một chuyển cảnh đƣợc phát hiện khi tỉ lệ này đạt giá trị cực đại. Phƣơng pháp này hoạt động hiệu quả đối với các chuyển cảnh từ từ.

Tổng thể thì, rất khó xác định chính xác quá độ từ từ. Tỷ lệ tách đúng các quá độ từ từ dƣới 16% qua thực nghiệm với nhiều phƣơng pháp khác nhau đã trình bày trên. Một giải pháp nâng cao tỷ lệ thành công là sử dụng kỹ thuật trên cơ sở biến đổi wavelet. Kỹ thuật này dựa trên giả thiết rằng trong

Hình 2.8: Cộng dồn khoảng cách

fade-in, fade-out, dissolve, thành phần tần số cao của ảnh sẽ giảm. Tuy nhiên chƣa có đánh giá hiệu năng của phƣơng pháp này.

2.2.3.3 Tránh sai sót khi tách shot

Trong khi quá độ từ từ nảy sinh vấn đề tách biên mà nó không thể tách bằng đo đạc đơn, các thao tác nhƣ dịch chuyển và phóng/thu của máy quay có thể dẫn tới thay đổi từ từ, nó là nguyên nhân gây ra sự sai sót khi tách biên.

Trong một cảnh, camera có thể chuyển động: ngƣời ta có thể phân loại rất nhiều chuyển động.

- Quay toàn cảnh (thƣờng trộn lẫn với một chuyển cảnh do đó rất khó phân biệt).

- Quay theo các trục khác nhau.

- Zoom bằng cách thay đổi các tiêu cự hoặc khoảng cách với các đối tƣợng

Để đánh giá các chuyển động, một phƣơng pháp cổ điển đó là sử dụng các trƣờng vectơ chuyển động của video và so sánh nó với mô hình lý thuyết. Ví dụ đối với quay toàn cảnh thì ngƣời ta hy vọng rằng các vectơ chuyển động đều theo một hƣớng ngang và bằng nhau.

Hình 2.10: Các chuyển động của camera

Một mô hình cổ điển khác nữa đó là mô hình affine (gồm 6 thành phần hoặc ít hơn). Trên đoạn video, ngƣời ta xem xét vectơ chuyển động của từng ảnh và ƣớc lƣợng các tham số. Sau đó ngƣời ta sử dụng các giá trị hệ số để nhận dạng các chuyển động của camera.

- Tính toán trƣờng vectơ chuyển động (ui, vi) - Sử dụng mô hình affine:

Trong đó (x0, y0) là tâm. Đánh giá với bình phƣơng tối thiểu.

Các dịch chuyển: toàn cảnh (pan): a1; nghiêng (tilt): a4; zoom: a3 = a5 = 0 Ngoài ra, ngƣời ta cũng có thể nhận dạng các chuyển động của camera bằng cách thực hiện các ảnh ghép, ảnh này đƣợc tạo thành bằng cách xếp chồng các ảnh dịch chuyển theo chuyển động. Ta cũng có thể chỉ tạo một ảnh cho toàn bộ một đoạn video. Phƣơng pháp này chỉ tốt trong trƣờng hợp nền là tĩnh nhƣng không tốt trong trƣờng hợp các đối tƣợng chuyển động trong đoạn video (các đối tƣợng này xuất hiện hoặc biến mất không rõ ràng).

Kỹ thuật phân tích chuyển động đƣợc sử dụng để tránh vấn đề sai sót khi tách shot. Đặc trƣng đƣợc sử dụng trong khi tách chuyển động máy quay là dòng quang học (optical flow). Các véctơ chuyển động biểu diễn dòng quang học đƣợc tính toán bằng phƣơng pháp đối sánh block đƣợc phát triển để mã hóa bù chuyển động. Việc phân bổ véctơ chuyển động do dịch chuyển máy quay có thể biểu diễn bằng một giá trị tƣơng ứng với chuyển động của máy quay. Mặt khác, trƣờng các véctơ chuyển động do phóng/thu sẽ hội tụ hay phân kỳ tại tâm tiêu cự.

Lý do khác thƣờng xảy ra dẫn tới tách shot sai là độ chói thay đổi. Độ chói thay đổi do nhiều lý do khác nhau: diễn viên đi vào điểm sáng, mây bao phủ bầu trời hay sử dụng hiệu ứng ánh sáng. Mọi sự thay đổi này có thể gây ra khoảng cách frame-to-frame lớn hơn ngƣỡng shot, dẫn tới sai sót khi tách shot. Để vƣợt qua vấn đề này, chuẩn hóa ảnh màu đã đƣợc đề xuất trƣớc khi thực hiện tách shot. Biểu diễn khoảng cách frame-to-frame cũng khác so với đã trình bày trên đây. Lƣợc đồ tách shot làm việc nhƣ sau đây:

Để làm giảm hiệu ứng thay đổi ánh sáng, chuẩn hóa riêng biệt các kênh R, G, B bằng công thức sau:

         N i i i i N i i i i N i i i i B B B G G G R R R 1 2 ' 1 2 ' 1 2 ' , ,

Trong đó, Ri, Gi, Bi là các thành phần màu gốc của các pixel ảnh; Ri’, Gi’ và Bi’ là các thành phần màu chuẩn hóa của các pixel ảnh; N là tổng số pixel trong ảnh.

Các giá trị pixel chuẩn hóa đƣợc chuyển đổi thành đơn sắc (chromiticity) nhờ các công thức sau đây:

' ' ' ' ' ' ' ' , i i i i i i i i i i B G R G g B G R R r      

Xây dựng lƣợc đồ tổ hợp cho r và g cho mỗi ảnh.

Vì lƣợc đồ tổ hợp đƣợc chỉ mục bằng hai tham số r và g, nó có thể đƣợc xem nhƣ một kiểu ảnh, hay còn gọi là ảnh lƣợc đồ đơn sắc (chromaticity histogram image - CHI). Kích thƣớc của mỗi CHI giảm xuống còn 16x16 nhờ kỹ thuật nén trên cơ sở Wavelet. Áp dụng biến đổi DCT hai chiều để giảm CHI, để có đƣợc 256 hệ số DCT. Chỉ có 36 hệ số DCT quan trọng hơn đƣợc lựa chọn từ 256 hệ số nói trên.

Shot và biên ảnh biến đổi dần dần đƣợc xác định trên cơ sở khoảng cách giữa các frame tính toán từ 36 hệ số tƣơng ứng của chúng.

Phƣơng pháp này cho hiệu năng cao hơn các phƣơng pháp đã mô tả trƣớc đó.

2.2.3.4 Các kỹ thuật tách shot khác

Lý tƣởng thì, khoảng cách frame-to-frame đƣợc sử dụng để tách shot cần phải có phân bổ nhƣ sau. Chúng phải gần bằng 0, với biến đổi rất nhỏ trong shot và phải lớn đáng kể giữa các shot. Với phân bổ này, sẽ không có nhầm lẫn tách shot. Tuy nhiên, khoảng cách frame-to-frame của video thƣờng không có kiểu phân bổ này vì các chuyển động của đối tƣợng và máy quay và các thay đổi khác giữa các frame. Để tăng hiệu năng tách shot, bộ lọc đƣợc đề suất sử dụng để loại bỏ hiệu ứng chuyển động đối tƣợng và máy quay sao cho phân bổ khoảng cách frame-to-frame gần với phân bổ lý tƣởng.

Trong khi phần lớn kỹ thuật tách shot là trực tiếp trên cơ sở màu và lƣợc đồ cƣờng độ, một phƣơng pháp tách shot trên cơ sở tách cạnh đƣợc đề xuất. Trong phƣơng pháp này, tách cạnh đƣợc thực hiện trên từng frame ảnh.

Sau khi chuẩn hóa, số phần trăm các cạnh vào và ra giữa hai frame đƣợc tính toán. Các biên shot đƣợc tìm ra khi số phần trăm vƣợt qua ngƣỡng cho trƣớc. Dissolve và fade đƣợc nhận biết bằng quan sát các giá trị tƣơng đối của phần trăm cạnh vào và ra. Phƣơng pháp này chính xác hơn các phƣơng pháp trên cơ sở biểu đồ màu và độ chói.

Các máy quay hiện đại có khả năng ghi nhận vị trí, thời gian hay hƣớng vào tín hiệu video. Các thông tin bổ sung này cũng đƣợc sử dụng vào việc phân đoạn và hiểu video.

2.2.3.5 Phân đoạn video nén

Phần lớn video đƣợc lƣu trữ dƣới dạng nén. Do vậy, cần phải phân đoạn và chỉ mục trực tiếp trên cơ sở dữ liệu nén. Tình hình tƣơng tự nhƣ chỉ mục và tìm kiếm ảnh.

Phân đoạn video trên cơ sở nén MPEG

Vì MPEG là chuẩn nén hay đƣợc sử dụng cho nên có nhiều nghiên cứu về phân đoạn video nén MPEG. Hai loại thông tin đƣợc sử dụng để phân đoạn video là các hệ số DCT và thông tin chuyển động.

Trong MPEG (bao gồm MPEG1 và MPEG2), DCT đƣợc áp dụng cho từng khối I và khối chênh lệch (differential). Do vậy, các hệ số DCT của mỗi khối dễ dàng có đƣợc từ video MPEG (với khối chênh lệch, các hệ số DCT có đƣợc bằng cách cộng các hệ số DCT chênh lệch và các hệ số DCT của frame tham chiếu/s). Trong 64 hệ số DCT của từng khối, hệ số thứ nhất gọi là hệ số một chiều (DC) biểu diễn cƣờng độ trung bình của khối đó. Ảnh DC đƣợc hình thành từ tổ hợp các hệ số DC của mỗi khối. Ảnh DC sẽ 64 lần nhỏ hơn ảnh gốc, nhƣng nó chứa đặc trƣng chủ yếu của ảnh gốc. Do vậy, nhiều nghiên cứu đề xuất phân đoạn video trên cơ sở ảnh DC. Các thƣớc đo khoảng cách frame-to-frame nói trên tiếp tục đƣợc sử dụng. Nhƣng tính toán khoảng cách trên cơ sở ảnh DC sẽ nhanh hơn nhiều vì nó nhỏ hơn nhiều so với các frame gốc.

Loại thông tin khác sử dụng để phân đoạn video là thông tin chuyển động, nó đƣợc sử dụng theo hai cách sau đây. Trƣớc hết, xác định các thao tác

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số kỹ thuật chỉ mục và tìm kiếm đối tượng trong video số (Trang 48 - 57)

Tải bản đầy đủ (PDF)

(94 trang)