2.3.1 Phân loại biên lia thay đổi dần dần trong băng video
Mỗi kỹ thuật tách shot trên đây phụ thuộc vào ngưỡng chênh lệch frame- to-frame đơn. Lý tưởng, ngưỡng chênh lệch được lựa chọn sao cho mọi biên shot được tìm ra. Trong thực tế, kỹ thuật cơ sở nói trên không thể tách biên shot khi thay đổi giữa các frame một cách dần dần. Mặt khác, vì kỹ thuật cơ sở trên đây không xem xét phân bổ màu không gian, nó không thể nhận ra biên giữa hai frame của hai cảnh (scene) khác nhau lại có cùng biểu đồ màu. Do vậy cần có các kỹ thuật khác để vượt qua các khó khăn này.
Video được sản xuất với kỹ thuật fade-in, fade-out, dissolve và wipe có hiện tượng biến đổi từ từ giữa biên các shot thường xuyên hơn so với dừng máy quay. Fade-in xảy ra khi cảnh xuất hiện từ từ. Fade-out xảy ra khi cảnh mất đi từ từ. Dissolve xảy ra khi cảnh mất đi từ từ trong khi cảnh khác xuất hiện từ từ. Wipe xảy ra khi một cảnh vào từ từ qua frame trong khi cái khác rời bỏ từ từ.
Các giá trị chênh lệch trong fade-in, fade-out, dissolve và wipe có khuynh hướng cao hơn các giá trị chênh lệch trong shot nhưng thấp hơn đáng kể so với ngưỡng shot. Trong tình huống này, ngưỡng đơn không phù hợp vì để thu được các biên này thì ngưỡng phải thấp hơn đáng kể, dẫn tới nhiều sai sót. Để giải quyết vấn đề này, Zhang et al. phát triển kỹ thuật so sánh kép mà nó có thể tách dừng máy quay và quá độ dần dần. Kỹ thuật so sánh kép đòi hỏi sử dụng hai ngưỡng khác nhau: ngưỡng Tb được sử dụng để tách ngừng máy quay và ngưỡng thấp hơn Ts để tách các frame nơi có thể xuất hiện quá độ dần dần.
Trong tiến trình tách shot, các frame liên tục được so sánh bằng cách sử dụng một trong các phép đo độ chênh lệch như đã trình bày trong chương trước. Nếu độ chênh lệch lớn hơn Tb thì biên shot được tìm ra. Nếu độ chênh lệch nhỏ hơn Tb nhưng lớn hơn Ts thì đánh dấu frame như frame có xu thế quá độ. Sau đó ta bổ sung độ chênh lệch frame-to-frame của các frame tiếp theo có xu thế quá độ. Nếu tích lũy độ chênh lệch frame-to-frame của các frame liên tiếp có xu thế quá độ lớn hơn Tb thì quá độ được phát hiện và các frame liên tiếp có xu thế quá độ được coi như đoạn video đặc biệt. Chú ý rằng độ lệch tích lũy chỉ được tính toán khi độ lệch frame-to-frame lớn hơn Ts. Trong quá độ, các độ lệch frame-to-frame (giữa các frame hiện hành và trước đó) cần phải lớn hơn Ts và nhỏ hơn Tb.
Tổng thể thì, rất khó xác định chính xác quá độ từ từ. Tỷ lệ tách đúng các quá độ từ từ dưới 16% qua thực nghiệm với nhiều phương pháp khác nhau đã trình bày trên. Một giải pháp nâng cao tỷ lệ thành công là sử dụng kỹ thuật trên cơ sở biến đổi wavelet. Kỹ thuật này dựa trên giả thiết rằng trong fade-in, fade-out, dissolve, thành phần tần số cao của ảnh sẽ giảm. Tuy nhiên chưa có đánh giá hiệu năng của phương pháp này.
2.3.2 Kỹ thuật tách lia trên cơ sở lƣợc đồ tích lũy
Tích lũy độ lệch frame-to-frame lớn hơn Ts và nhỏ hơn Tb Nếu độ chênh lệch của tích lũy lớn hơn Tb thì có thể là biên shot.
Ý tưởng của hướng tiếp cận này là các ảnh có nền không đổi và đối tượng không đổi sẽ có chênh lệch ít trong biểu đồ. Hơn nữa biểu đồ bất biến với việc quay ảnh và thay đổi ít khi thay đổi góc nhìn.
Có thể dùng biểu đồ màu hoặc biểu đồ mức xám để tính toán sự sai khác giữa hai khung hình. Biểu đồ màu (mức xám) của khung hình i là một vectơ G chiều Hi = (Hi(1), Hi(2), … , Hi(G)). Trong đó G là số màu (mức xám), Hi(j) là số điểm ảnh của khung hình i có màu (mức xám) j. Phương pháp trừ ảnh dựa trên biểu đồ có thể sử dụng biểu đồ toàn cục hoặc biểu đồ cục bộ. Biểu đồ toàn
cục là biểu đồ biểu diễn sự phân bố giá trị màu (mức xám) của toàn bộ khung hình. Còn biểu đồ cục bộ chỉ mô tả sự phân bố của một phần nào đó của khung hình thôi.
2.3.2.1. Biểu đồ toàn cục
Phương pháp đơn giản nhất là tính tổng sự sai khác các cột của biểu đồ.
Hình 2.2 Chênh lệch biểu đồ, * cắt cảnh, ---- chồng mờ
Có thể sử dụng thêm trọng số nếu có một số màu (mức xám) quan trọng hơn với mục tiêu so sánh.
Trong đó w(k) là trọng số ứng với giá trị màu (mức xám) k.
Hình 2.3 So sánh biểu đồ của hai ảnh
(2.8)
Cách thứ ba là sử dụng phần giao nhau của hai biểu đồ. Vùng biểu đồ chung nhau, phần gạch chéo trong hình 2.4 cho biết độ tương tự về nội dung hai ảnh có thể được định nghĩa như sau:
Độ tương tự còn có thể được định nghĩa như sau:
Như vậy, dựa vào phần giao nhau của hai biểu đồ, có thể tính độ chênh lệch biểu đồ hai khung hình theo công thức:
Một hướng tiếp cận sử dụng biểu đồ khác, xem xét biểu đồ là vectơ và sử dụng tích vô hướng của chúng:
Để biểu diễn sự phân bố của màu với ảnh 24 bit, phải tạo biểu đồ với 2563 cột, mỗi cột ứng với một bộ ba RGB có thể có. Có thể dùng thuật toán nhanh tính toán với biểu đồ nhưng thường áp dụng giải pháp thô: dùng biểu đồ với số cột ít hơn. Yihong dùng giải pháp biểu đồ 8 mức RGB, kết quả là
(2.10)
(2.11)
(2.12)
Trong đó, DR, DG, DB là chênh lệch biểu đồ màu thành phần red, green, blue. Jyrki [7] sử dụng các trọng số như sau:
Nói chung, người ta thường chỉ dùng 20 cột có số điểm ảnh nhiều nhất để so sánh. Còn có một cách khác làm giảm số cột của biểu đồ là chỉ dùng 2 bít cao nhất cho cường độ mỗi màu thành phần để mã hóa màu điểm ảnh. Như vậy việc so sánh biểu đồ chỉ cần thực hiện với 64 cột. Sawhney đề xuất rằng 256 màu là đủ để biểu diễn sự phân bố màu của các cảnh. Novak và Shafer thì chỉ chia các cột biểu đồ thành hai loại “full” và “empty” để ước lượng thuộc tính bề mặt và điều kiện ánh sáng cho các đối tượng đơn.
(a)
(b)
a.Ví dụ một ảnh màu, b.Biểu đồ màu của ảnh a
Chênh lệch biểu đồ có thể được tính bằng công thức Kolmogorov- Sminov (K-S) như sau:
(2.14)
2 2 2 1 2 0 2
Nói cách khác, chênh lệch tích lũy lớn nhất giữa hai biểu đồ phân bố cho đến j được tính toán. Giá trị DK-S lớn xác định ranh giới chuyển cảnh.
Để nhấn mạnh độ sai khác giữa hai khung hình khi chuyển cảnh qua cắt cứng, một số tác giả đề xuất sử dụng thuật toán để so sánh biểu đồ màu:
Thuật toán không những nhấn mạnh độ sai khác giữa hai khung hình qua cắt cứng, nó còn nhấn mạnh độ sai khác giữa hai khung hình khi di chuyển camera hay đối tượng.
Yakimovsky đưa ra công thức
D(ƒ1,ƒ2) = Trong đó:
+ là phần chung của hai biểu đồ
+ là phần khác nhau của hai biểu đồ + m, n là số cột tương ứng của hai biểu đồ.
Công thức này có thể áp dụng cho cả trường hợp hai biểu đồ có số cột khác nhau.
Trong phạm vi kỹ thuật trừ ảnh dựa vào biểu đồ, chúng ta đã đề cập các kỹ thuật phát hiện cắt cảnh. Cơ sở của các kỹ thuật này là: có sự sai khác lớn giữa các khung hình khi qua một cắt cảnh. Chính cắt cảnh đã làm cho việc so sánh biểu đồ trở nên có ưu thế và chuyển cảnh dễ dàng được phát hiện chỉ
(2.16)
(2.17)
dùng một giá trị ngưỡng. Tuy nhiên, hướng tiếp cận một ngưỡng không phù hợp với bài toán phát hiện biến đổi chuyển cảnh dần dần. Dù rằng chênh lệch giữa hai khung hình khi qua chuyển cảnh dần dần thường lớn hơn chênh lệch giữa hai khung hình trong cùng một shot, nhưng nó lại nhỏ hơn nhiều so với chênh lệch trong trường hợp cắt cảnh. Do đó, không thể phát hiện chuyển cảnh dần dần với cùng một ngưỡng. Mặt khác, sự di chuyển camera hay đối tượng gây ra sự chênh lệch giữa hai khung hình lớn hơn chuyển cảnh dần dần. Vì thế giảm giá trị ngưỡng sẽ làm tăng số lượng vị trí chuyển cảnh phát hiện sai. Sau đây chúng ta sẽ xem xét kỹ thuật hai ngưỡng vừa đơn giản vừa hiệu quả với việc phát hiện chuyển cảnh dần dần.
Hình 2.4 So sánh cặp a. chênh lệch biểu đồ liên tiếp, b. chênh lệch biểu đồ tích lũy
Phương pháp so sánh cặp tính toán chênh lệch tích lũy giữa các khung hình trong chuyển cảnh dần dần. Trong lần đầu tiên, một ngưỡng Th lớn hơn sẽ được dùng để phát hiện chuyển cảnh do cắt. Sau đó một ngưỡng Tl nhỏ hơn được dùng để phát hiện vị trí khung hình FS có thể là khung hình đầu tiên của chuyển cảnh dần dần. FS được so sánh với các khung hình tiếp theo. Việc này gọi là so sánh tích lũy vì trong suốt quá trình biến đổi dần dần, độ chênh lệch này sẽ tăng lên. Khung hình cuối cùng của biến đổi Fe sẽ được phát hiện khi chênh lệch giảm xuống nhỏ hơn ngưỡng Tl, trong khi so sánh tích lũy đã tăng vượt Th. Nếu độ chênh lệch giữa các khung hình liên tiếp giảm xuống dưới ngưỡng Tl mà so sánh tích lũy chưa vượt Th thì bỏ qua vị trí FS và việc tìm kiếm bắt đầu với một biến đổi dần dần khác. Tuy nhiên, có nhiều biến đổi dần dần mà chêch lệch giữa các khung hình liên tiếp đều nhỏ hơn ngưỡng bé Tl. Thực ra vấn đề này có thể giải quyết dễ dàng bằng cách đặt giá trị chấp
nhận được cho phép chỉ một số lượng nhất định các khung hình liên tiếp có chêch lệch thấp trước khi loại trường hợp biến đổi đang xét. Như đã thấy, phương pháp so sánh cặp có thể phát hiện chuyển cảnh đột ngột và chuyển cảnh dần dần cùng một lúc. Việc cài đặt và so sánh các kỹ thuật phân đoạn khác nhau và thấy rằng so sánh cặp là phương pháp đơn giản và phân đoạn rất tốt. Ví dụ về so sánh cặp phát hiện chuyển cảnh dần dần.
Hình 2.5 Phát hiện chuyển cảnh dần dần bằng kỹ thuật so sánh cặp
2.3.2.2. Biểu đồ cục bộ
Như đã đề cập, phương pháp trừ ảnh dựa vào biểu đồ là phương pháp ít chịu ảnh hưởng của nhiễu và sự di chuyển đối tượng. Tuy vậy, cũng có một số trở ngại. Đầu tiên, biểu đồ chỉ mô tả sự phân bổ các giá trị màu hay mức xám mà không bao hàm bất cứ thông tin nào về không gian. Hai ảnh có cùng biểu đồ màu nhưng lại có thể có nội dung rất khác nhau. Trở ngại khác là, rất có thể các vùng ảnh nhỏ khi thay đổi sẽ gây chú ý nhưng lại không có vai trò gì trong biểu đồ và do đó có thể bị bỏ qua khi thực hiện trừ ảnh.
Để giải quyết vấn đề đó, chúng ta sẽ kết hợp trừ ảnh dựa vào biểu đồ với kỹ thuật trừ ảnh phân khối. Trừ ảnh phân khối quan tâm đến thông tin về không gian. Về cơ bản phương pháp này tốt hơn việc so sánh từng cặp điểm ảnh, nhưng nó vẫn chịu tác động của sự di chuyển của camera và đối tượng và cũng tốn kém. Bằng cách kết hợp hai ý tưởng, chúng ta vừa có thể giảm được tác động của sự di chuyển camera và đối tượng,
2
vừa sử dụng thông tin về không gian ảnh, và cho kết quả phân đoạn tốt hơn. Ý tưởng là, ta sẽ chia khung hình thành b khối, đánh số từ 1 đến b. So sánh biểu đồ của các khối tương ứng rồi tính tổng chênh lệch để có kết quả trừ ảnh cuối cùng.
Trong đó H(j,k) là giá trị biểu đồ tại màu (mức xám) j ứng với khối thứ k. Nagasaka và Tanaka đã cài đặt thử nghiệm phương pháp thống kê mức xám, so sánh cặp điểm ảnh và phương pháp biểu đồ. Kết quả tốt nhất thu được khi thực hiện chia khung hình thành 16 khối cùng kích thước sử dụng thuật toán với biểu đồ màu cho các khối này và loại bỏ sai lệch lớn nhất để giảm tác động của nhiễu và di chuyển camera và đối tượng.
Hướng tiếp cận khác trong kỹ thuật trừ ảnh dựa vào biểu đồ cục bộ được Swanberg đưa ra. Sự chênh lệch DP(f1, f2, k) giữa các khối được tính bằng cách so sánh biểu đồ màu RGB sử dụng công thức sau:
2.3.3 Kỹ thuật tách lia trên cơ sở cửa sổ trƣợt
Kỹ thuật tách lia trên cơ sở cửa sổ trượt được phát triển tại trường đại học RMIT. Trong phần này, chúng ta mô tả chi tiết chương trình phát hiện biên. Chúng ta bắt đầu bằng cách xác định các thông số thuật toán, và tiếp tục mô tả các bước phát hiện cho quá trình chuyển đổi.
(2.19)
Chúng ta đề cập đến bốn thông số chính:
Một nửa kích thước cửa sổ (HWS): Số lượng các khung hình từ hai bên
của khung hiện được chứa bên trong cửa sổ di chuyển. Kể từ khi chúng ta kiểm tra N khung hình hàng đầu, chúng ta sử dụng số này như là các tham số chính, chứ không phải là kích thước cửa sổ đầy đủ (N) của chính nó. Điều này được thể hiện trong hình dưới [8].
Độ sâu của khung hình (DMZ): Đây là kích thước của khoảng cách
giữa các khung hình hiện tại và khung gần nhất mà là một phần của cửa sổ di chuyển. Xem hình hình bên trên.
Cận dưới (LB): Đây là ngưỡng thấp.
Khi số lượng của frame trước giảm xuống dưới mức này, một quá trình chuyển đổi có thể được phát hiện như thể hiện trong hình dưới.
Cận trên (UB): Đây là trên ngưỡng cũ. Khi số lượng của khung trước tăng lên trên mức này, một quá trình chuyển đổi có thể được phát hiện như thể hiện trong hình bên trên [8].
Chúng ta tiếp tục tiếp tục xem về quá trình chuyển đổi đột ngột được phát hiện bằng cách sử dụng cửa sổ di chuyển và các thông số này.
Để phát hiện quá trình chuyển đổi đột ngột, chúng ta giám sát số lượng khung hình trước trong các kết quả đầu, N là mỗi khung hình được kiểm tra. Chúng ta đề cập đến con số này là NumPreFrames. Chúng ta cũng đo độ dốc của đường cong NumPreFrames. Điều này là bình thường nhỏ, có nghĩa là, theo thứ tự là ± 2.
Như chúng ta biết khi gần một chuyển đổi đột ngột, NumPreFrames tăng lên nhanh chóng và vượt qua các giới hạn trên (UB). Một khi chúng ta vượt qua quá trình chuyển đổi, NumPreFrames giảm mạnh dưới ràng buộc thấp hơn (LB). Độ dốc lại flects này bằng cách tham gia vào một giá trị tích cực lớn, fol lowed nhanh chóng bằng một giá trị âm lớn. Cách ứng xử được- này có thể được quan sát thấy trong hình 3. Chúng ta thống kê được một khả năng cắt giảm nếu NumPreFrames vượt UB, sau đó giảm xuống dưới LB trong không gian của hai khung.
Trong một số trường hợp, điều kiện độ dốc có thể được xem xét bên trong một shot, nơi không có quá trình chuyển đổi tồn tại. Điều này có thể xảy ra ở đâu đó, ví dụ, một ánh sáng thay đổi lưu lượng truy cập từ màu đỏ sang màu xanh lá cây; tất cả các khung "đỏ" sẽ được xếp lại với nhau và riêng rẽ từ "xanh" tất cả các khung, gây ra độ dốc trưng bày ra. Để tránh sai sót khi cắt giảm trong các trường hợp như vậy, chúng ta áp đặt điều kiện là phải có một sự khác biệt lớn giữa các khung hình trước và sau. Điều này đạt được bằng cách yêu cầu khoảng cách trung bình của khung N hàng đầu để hình ảnh truy vấn được ít hơn một nửa khoảng cách trung bình của đáy 2 khung hình từ hình ảnh cùng một truy vấn.
Tóm lại, thông tin tách lia được hiện thị khi có các điều kiện sau đây được thỏa mãn:
- Biến NumPreFrames mang giá trị đủ lớn
- Số dượng đầu N/2 các khung hình khác nhau đáng kể từ đáy N