Bài toỏn phõn đoạn Video

Một phần của tài liệu nghiên cứu một số kỹ thuật phân đoạn video (Trang 39)

IV. Phƣơng phỏp nghiờn cứu

1.2. Bài toỏn phõn đoạn Video

1.2.1. Bài toỏn

Phõn đoạn là quỏ trỡnh phõn tớch và chia nội dung hỡnh ảnh video thành cỏc đơn vị cơ sở gọi là cỏc cảnh (shot) theo trục thời gian, cũn gọi là phỏt hiện chuyển cảnh. Việc lấy mẫu chớnh là chọn gần đỳng một khung video đại diện cho mỗi cảnh (hoặc nhiều hơn tựy theo mức độ phức tạp của nội dung hỡnh ảnh của cảnh) và đƣợc gọi là cỏc khung-khúa[1]. Khung – khúa là khung hỡnh đại diện mụ tả nội dung chớnh của cảnh.

Phõn đoạn video đƣợc sử dụng trong việc phõn tớch, hiểu video, gồm cỏc lĩnh vực sau:

Túm lƣợc video, chỉ mục video và thu hồi thụng tin. Biờn soạn và biờn tập video.

Phỏt hiện và ƣớc lƣợng chuyển động. Video giỏm sỏt…

1.2.2. Phõn loại cỏc phƣơng phỏp phõn đoạn

Cú nhiều cỏch phõn loại cỏc phƣơng phỏp phõn đoạn, thụng thƣờng để phõn loại cỏc phƣơng phỏp phõn đoạn đƣợc theo nguồn gốc của cỏc thuộc tớnh mà việc phõn đoạn này là dựa trờn, vớ dụ, dựa trờn điểm ảnh, theo vựng, miền, dựa vào nội dung, dựa vào cạnh, dựa vào đối tƣợng, dựa vào ngữ nghĩa...

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

Phƣơng phỏp phõn đoạn dựa trờn điểm ảnh sử dụng đặc trƣng mức thấp của hỡnh ảnh nhƣ màu sắc, cƣờng độ, chất liệu, chuyển động, lƣu lƣợng quang học, chiều sõu và sự khỏc biệt từ mỗi điểm ảnh.

Phƣơng phỏp phõn đoạn dựa trờn vựng sử dụng nhiều tỷ lệ hỡnh dạng, đƣờng biờn cạnh, đa giỏc và thống kờ chất liệu cho cỏc vựng chiết xuất quan tõm.

Phƣơng phỏp phõn đoạn dựa trờn đối tƣợng, sử dụng cỏc đặc trƣng của từng đối tƣợng.

1.2.3. Cỏc yếu tố chớnh để xỏc định phƣơng phỏp phõn đoạn

Việc xỏc định phƣơng phỏp phõn đoạn thƣờng phụ thuộc vào phạm vi yờu cầu của ứng dụng, cỏc yếu tố chớnh ảnh hƣởng đến việc xỏc định phƣơng phỏp phõn đoạn là:

Thời gian thực hiện: Nếu phõn đoạn phải đƣợc thực hiện trong thời gian thực. Vớ dụ, để kiểm soỏt tốc độ trong điện thoại truyền hỡnh, thỡ cần cỏc thuật toỏn đơn giản và hoàn toàn tự động. Mặt khỏc, ngƣời ta cú thể sử dụng hỡnh thức bỏn tự động, cỏc thuật toỏn tƣơng tỏc cho cỏc ứng dụng độc lập nhƣ lập chỉ mục video hoặc mó húa video độc lập để cú đƣợc cỏc phõn đoạn cú nhiều ý ngữ nghĩa.

Sự chớnh xỏc của phõn đoạn: Nếu phõn đoạn đƣợc sử dụng để nõng cao hiệu quả nộn hoặc điều khiển tỷ suất nộn, hoặc nếu phõn đoạn là cần thiết cho việc biờn tập và biờn soạn video dựa trờn đối tƣợng hoặc so sỏnh, tỡm kiếm cỏc hỡnh tƣơng tự thỡ việc ƣớc lƣợng đƣờng biờn và kết quả thực tế cần phải rất chớnh xỏc.

Tớnh phức tạp của cảnh quay: độ phức tạp của nội dung video cú thể đƣợc mụ hỡnh về số lƣợng mỏy ảnh chuyển động, màu sắc và tớnh đồng nhất của chất liệu của cỏc đối tƣợng, sự tƣơng phản giữa cỏc đối tƣợng, tớnh trơn mịnh của chuyển động của cỏc đối tƣợng, sự xuất hiện vào/ra của cỏc đối tƣợng... Rừ ràng, video càng phức tạp càng đũi hỏi cỏc thuật toỏn phõn đoạn

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

tinh vi hơn. Vớ dụ, ta cú thể dễ dàng phỏt hiện cắt cảnh hơn là phỏt hiện chuyển cảnh theo kiểu wipe hoặc fade.

Cú thể thấy rằng, để phỏt hiện chuyển cảnh, phần lớn cỏc kỹ thuật đều đi tớnh toỏn sự sai ở cỏc khung hỡnh, trong nội dung tiếp theo đề tài tập trung nghiờn cứu về kỹ thuật trừ ảnh và việc ỏp dụng kỹ thuật trừ ảnh vào phỏt hiện chuyển cảnh trong video.

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

Chƣơng 2

MỘT SỐ KỸ THUẬT PHÂN ĐOẠN VIDEO

2.1. Phõn đoạn video bằng kỹ thuật phỏt hiện đối tƣợng từ trờn xuống

Đõy là một phƣơng phỏp học ảnh khụng giỏm sỏt (hay cũng đƣợc gọi là "phỏt hiện") phỏt hiện cỏc đối tƣợng đũi hỏi phải trực quan xảy ra với một số đều đặn trong một bộ sƣu tập khụng cú nhón. Vớ dụ Phƣơng phỏp phỏt hiện đỏng tin cậy cú thể hữu ớch cho một số sự kiện bổ xung cho hệ thống nhận dạng đối tƣợng giỏm sỏt truyền thống, thực tế ứng dụng chẳng hạn nhƣ tạo ra bản túm tắt rỳt gọn của bộ sƣu tập ảnh lớn, tổ chức cỏc hỡnh ảnh hoặc video dữ liệu để tỡm kiếm dựa trờn nội dung tƣơng tự. Xỏc định cỏc trƣờng hợp hiếm hơn, hoặc sự kiện. Những nghiờn cứu gần đõy về vấn đề nhận dạng đó đem lại những phƣơng phỏp cú thể gom hỡnh ảnh thành cụm theo loại đối tƣợng chớnh, để sắp xếp theo cỏc "chủ đề" nội dung với mỗi loại hỡnh ảnh, để khai thỏc nguồn thụng tin về nội dung của của đối tƣợng, và túm tắt, đỏnh dấu những dấu hiệu nhận biết cho một loạt ảnh.

Hỡnh 2.1. Khỏm phỏ và khai thỏc cấu trỳc cỏc đối tượng ảnh.

Phƣơng phỏp phỏt hiện ra và khai thỏc cỏc cấu trỳc chung trong một tập hợp cỏc hỡnh ảnh khụng gỏn nhón để phõn vựng cỏc đối tƣợng chớnh

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

bằng phƣơng phỏp từ trờn xuống.

Phƣơng phỏp xỏc định cỏc nhúm đối tƣợng tự nhiờn biến đổi, Với nhúm đối tƣợng thứ hai khụng khỏc nhiều so với nhúm đối tƣợng hiện tại đang xột trong một khung hỡnh ảnh, một phƣơng phỏp phải xỏc định những phõn đoạn trong tất cả cỏc phõn tỏch hỡnh ảnh cú thể sẽ phỏt hiện đối tƣợng phổ biến, cũng nhƣ cỏc loại đối tƣợng chung mà cả hai phõn vựng đều khụng ảnh hƣởng tới đối tƣợng khỏc.

Hầu hết cỏc phƣơng phỏp tiếp cận cú thể trỏnh đƣợc vấn đề thứ hai bằng cỏch ỏp đặt (thƣờng là khụng thực tế) hạn chế đú mỗi hỡnh ảnh chỉ chứa một đối tƣợng duy nhất quan tõm hoặc bằng việc bỏ qua vựng trung tõm đƣợc phỏt hiện. Một ngoại lệ là phƣơng phỏp, trong đú với hỡnh ảnh nhiều đối tƣợng bằng cỏch đầu tiờn phõn thành nhiều đoạn và sau đú tỡm kiếm cỏc đối tƣợng phổ biến trong cỏc vựng của cỏc phõn đoạn (tiểu hỡnh ảnh), chứ khụng phải là vựng của hỡnh ảnh. Giả định là mỗi đối tƣợng ngữ nghĩa sẽ cú một hỡnh ảnh con tƣơng ứng với một số nơi trong vựng ảnh.

Với phƣơng phỏp này, loại bỏ đƣợc việc xử lý những cảnh xung quanh đối tƣợng, hỡnh ảnh xung quanh mỗi vựng. Hơn nữa, sử dụng nhiều phõn vựng nhận dạng giỳp tỡm kiếm đối tƣợng trỏnh đƣợc việc bỏ qua những vựng rừ nột mà cú thể bỏ qua khụng sột đến những vựng cú ý nghĩa mà khụng đƣợc xột đến cho đối tƣợng. Phõn đoạn từ dƣới lờn đƣợc phõn chia theo định nghĩa và khụng cú mẫu về loại đối tƣợng do đú khụng thể tin cậy vựng đồng nhất.

2.2. Phõn đoạn và theo vết cỏc vựng Video

Mặc dự nhiều cụng trỡnh đó thực hiện phõn tớch ảnh thành cỏc vựng với cỏc đặc trƣng giống nhau, ta vẫn thiếu cỏc kỹ thuật phõn đoạn dữ liệu Video với cỏc nguồn Video tổng quỏt, đặc biệt cỏc biờn vựng cần chớnh

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

xỏc. Phõn đoạn đối tƣợng chuyển động dựng trƣờng chuyển động hoặc luồng quang học (optical flow) đó trở thành cỏc trọng tõm chớnh trong nhiều nghiờn cứu. Khi cỏc trƣờng chuyển động thƣờng bị nhiễu trong cỏc cảnh ở thế giới thực, việc phõn đoạn trực tiếp từ chỳng sẽ khụng đỳng và khụng ổn định. Sự ƣớc lƣợng chuyển động và phõn đoạn dựa trờn mụ hỡnh sẽ tốt hơn. Gần đõy, Wang và Anderson đó đƣa ra một phƣơng phỏp gom nhúm dựa trờn biến đổi affine. Cỏc tầng chuyển động đƣợc sinh ra từ trƣờng chuyển động ban đầu bằng cỏc mụ hỡnh ƣớc lƣợng và lọc liờn tục. Thay vỡ dựng luồng quang học, Ayer và Sawhney đƣa ra một phƣơng phỏp ƣớc lƣợng mụ hỡnh chuyển động và hỗ trợ phõn tầng đồng thời. Trong khi, Mayer và Bouthemy đó phỏt triển một thuật toỏn “đuổi bắt” để theo vết một đối tƣợng dựa trờn ƣớc lƣợng nhiều phõn giải mụ hỡnh affine từ trƣờng chuyển động trong đối tƣợng đú. Một cỏch tổng quỏt, Cỏc phƣơng phỏp ở trờn tập trung vào cỏc đối tƣợng chuyển động và khụng theo vết đƣợc cỏc đối tƣợng tĩnh hoặc cỏc đối tƣợng cú chuyển động giỏn đoạn (nhƣ ngƣời băng qua đƣờng). Hơn thế, do giới hạn về độ chớnh xỏc của việc ƣớc lƣợng chuyển động, phõn đoạn chuyển động cú thể đƣa ra cỏc biờn đối tƣợng khụng chớnh xỏc.

Một số phƣơng phỏp cũng đó đƣợc giới thiệu nhằm theo vết cỏc điểm đặc trƣng hay cỏc đoạn đƣờng viền. Cỏc phƣơng phỏp này cho ra cỏc kết quả tốt trong trƣờng hợp cỏc đối tƣợng chuyển động cú chuyển động với cỏc đặc trƣng mạnh và ổn định (theo thời gian) nhƣ gúc và cạnh. Tuy nhiờn, chỳng lại rất nhạy cảm với cỏc đối tƣợng bị mộo mú hay khi ảnh bị nhiễu. Active contour (snake) là một trong cỏc mụ hỡnh co dón đƣờng viền cơ bản bằng cỏch cực tiểu hoỏ năng lƣợng. Do phƣơng phỏp snake đũi hỏi khởi tạo chớnh xỏc và nhạy cảm với cỏc vựng ảnh cú phủ võn ảnh, nhiều cải tiến nhƣ cỏc mụ hỡnh mới, vớ dụ mụ hỡnh MRF, đó đƣợc nghiờn cứu.

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

Mặc dự với những sự phỏt triển này, phõn đoạn vựng ảnh vẫn cũn là một bài toỏn lớn trong phõn tớch ảnh Video. Một vấn đề tồn tại trong rất nhiều cỏc phƣơng phỏp là kết quả phõn đoạn bị nhạy cảm với ảnh nhiễu và những thay đổi khụng đỏng kể, đặc biệt tại khu vực xung quanh biờn dạng. Khi theo vết vựng ảnh, vấn đề này cú thể gõy ra cỏc phõn đoạn khỏc nhau tại cỏc frame liờn tục. Khi chuỗi Video ngắn, lỗi biờn thƣờng khụng làm ảnh hƣởng nghiờm trọng đến toàn bộ thi hành theo vết. Tuy nhiờn, khi cỏc vựng ảnh cần đƣợc theo vết trong một thời gian dài, lỗi biờn tớch trữ cú thể phỏ hỏng hoàn toàn tiến trỡnh. Nhằm tăng tớnh ổn định của quỏ trỡnh phõn đoạn, sự kết hợp của nhiều đặc trƣng trực quan là một hƣớng tiếp cận hợp lý.

Một vấn đề khỏc là việc ỏnh xạ cỏc vựng giữa cỏc frame liờn tục khi cỏc vựng này đƣợc phõn đoạn độc lập. Vỡ cỏc vựng tƣơng tự thƣờng tồn tại trong cỏc cửa sổ cục bộ nhỏ, cỏc sai số ƣớc lƣợng chuyển động cú thể gõy ra cỏc ỏnh xạ sai. Để giải quyết vấn đề này, một xử lý liờn frame để phõn đoạn một frame một cỏch phự hợp với cỏc kết quả phõn đoạn trƣớc đú là một giải phỏp.

Trong chƣơng này, chỳng tụi sẽ giới thiệu một phƣơng phỏp tự động phõn vựng Video và theo vết dựa trờn sự tổng hợp cỏc đặc trƣng nhƣ màu sắc, chuyển động, ...Vỡ phƣơng phỏp này đồng thời phõn vựng và theo vết nờn thoả món yờu cầu theo vết qua một thời gian dài.

2.3. Phõn đoạn Video bằng kỹ thuật trừ ảnh và phỏt hiện chuyển cảnh trong Video trong Video

Video gồm dóy N khung hỡnh (f1, f2, …, fN), mỗi khung hỡnh là một ảnh. Cỏc khung hỡnh này đƣợc hiển thị lần lƣợt, độ sỏng của một điểm ảnh đó cho cú thể coi là một hàm của thời gian f(x,y,t). Mục đớch của việc phõn đoạn video là phỏt hiện ranh giới của cỏc shot (cảnh phim) và chia phim

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

thành cỏc shot (cảnh phim). Để phỏt hiện chuyển cảnh, ngoại trừ rất ớt cỏc phƣơng phỏp dựa vào độ tƣơng đƣơng giữa hai khung hỡnh, hầu hết cỏc phƣơng phỏp đó cú đều sử dụng cỏc đại lƣợng thể hiện sự khỏc nhau giữa khung hỡnh với khung hỡnh. Để tớnh sự khỏc nhau giữa hai khung hỡnh, ta thực hiện trừ ảnh. Ký hiệu D(f1, f2) là sự sai khỏc giữa hai khung hỡnh f1 và f2. Sự sai khỏc lớn hơn giỏ trị ngƣỡng sẽ xỏc định ranh giới giữa hai cảnh phim.

Quỏ trỡnh phõn đoạn đƣợc thể hiện trong hỡnh 2.1.

Hỡnh 2.1. Sơ đồ ứng dụng kỹ thuật trừ ảnh vào phõn đoạn video

Sự thay đổi trờn khung hỡnh đƣợc tớnh toỏn trờn một đặc trƣng nhất định. Ngƣời ta thƣờng dựng đặc trƣng là nội dung màu sắc, là biểu đồ (biểu đồ màu hoặc biểu đồ mức xỏm), hoặc đụi khi là cạnh, vectơ chuyển động, gúc hay texture.

Nhƣ vậy, khi thực hiện phỏt hiện cảnh phim, trƣớc hết phải xỏc định đặc trƣng đem ra so sỏnh, thứ hai là xỏc định cụng thức trừ ảnh D và cuối cựng là quyết định ngƣỡng chuyển cảnh Tb. Giỏ trị ngƣỡng này thƣờng đƣợc xỏc định trƣớc. Đụi khi ngƣời ta cũng dựng ngƣỡng thớch ứng. Chuyển cảnh xảy ra khi mà sự sai khỏc lớn hơn ngƣỡng Tb. Tất cả cỏc sai khỏc nhỏ hơn ngƣỡng đều do sự biến đổi trong cảnh gõy ra. Sự biến đổi trong cảnh cú thể do nhiều yếu tố gõy ra nhƣ sự di chuyển đối tƣợng hoặc camera, hoặc cỏc hiệu ứng nhƣ chữ chạy qua màn hỡnh, fade-in, fade-out, chồng mờ.

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

2.3.1. Cỏc kỹ thuật trừ ảnh

Cú nhiều kỹ thuật trừ ảnh khỏc nhau.

Xột hai ảnh I1 và I2 cú cựng kớch thƣớc. Trừ hai ảnh I1 và I2 là việc tớnh toỏn sự sai khỏc giữa hai ảnh đú. Cỏc kỹ thuật trừ ảnh cú thể chia làm 5 loại: dựa vào điểm ảnh, dựa vào khối, dựa vào biểu đồ, dựa vào thống kờ, dựa vào đặc trƣng. Ta sẽ lần lƣợt xột từng kỹ thuật.

2.3.1.1. Trừ ảnh dựa vào điểm ảnh

Phƣơng phỏp đơn giản nhất để trừ hai khung hỡnh là tớnh giỏ trị biểu diễn sự chờnh lệch tổng cộng về cƣờng độ của tất cả cỏc điểm ảnh tƣơng ứng trờn hai khung hỡnh.

So sỏnh giỏ trị đú với ngƣỡng chuyển cảnh T để xỏc định cú chuyển cảnh hay khụng.

Kỹ thuật trừ ảnh dựa vào điểm ảnh rất đơn giản. Nhƣợc điểm lớn nhất là kỹ thuật này khụng thể phõn biệt đƣợc thay đổi lớn trong một vựng ảnh nhỏ và thay đổi nhỏ trong một vựng ảnh lớn. Vớ dụ, cỏc cắt cảnh rất dễ bị bỏ sút khi một phần nhỏ của khung hỡnh cú thay đổi lớn và nhanh. Núi chung tất cả cỏc kỹ thuật trừ giỏ trị điểm ảnh rất nhạy với nhiễu và cỏc di chuyển camera. Một bƣớc phỏt triển hơn là đi đếm tổng số điểm ảnh cú thay đổi lớn hơn một ngƣỡng và so sỏnh tổng đú với một ngƣỡng khỏc để phỏt hiện chuyển cảnh:

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/ 1 0 1 0 2 1, ) 1 ( , ) ( Y y X x y x DP Y X f f D

Nếu tỷ lệ số điểm ảnh thay đổi D(f1, f2) lớn hơn ngƣỡng T2 thỡ đó cú chuyển cảnh do cắt. Tuy cỏc thay đổi khụng liờn quan trong khung hỡnh đó đƣợc loại bớt nhƣng hƣớng tiếp cận này vẫn nhạy với những di chuyển camera và đối tƣợng. Chẳng hạn, khi camera quay hƣớng theo đối tƣợng, rất nhiều điểm ảnh đƣợc coi là thay đổi, dự cho chỉ cú ớt điểm ảnh dịch chuyển. Cú thể giảm tỏc động này bằng cỏch ỏp dụng một bộ lọc trơn: trƣớc khi so sỏnh, mỗi điểm ảnh đƣợc thay thế bằng giỏ trị trung bỡnh của cỏc điểm ảnh lõn cận. Để giải quyết tốt hơn vấn đề này, ngƣời ta ỏp dụng kỹ thuật trừ ảnh phõn khối, sẽ đƣợc trỡnh bày bờn dƣới.

Một nhƣợc điểm khỏc của kỹ thuật trừ ảnh dựa vào giỏ trị điểm ảnh là độ nhạy của điểm ảnh với việc chiếu sỏng, một vớ dụ là chiếu đốn flash. Khi đú ngƣời ta điều chỉnh độ sai khỏc giỏ trị điểm ảnh bằng cỏch chia nú cho cƣờng độ của điểm ảnh trờn khung hỡnh thứ hai. Hampapur [3] gọi ảnh thu đƣợc từ độ chờnh lệch hiệu chỉnh là ảnh chromatic. 1 0 2 2 1 1 0 2 1 ) , ( | ) , ( ) , ( | 1 ) , ( Y y X x f x y y x f y x f Y X f f D

Phƣơng phỏp trừ giỏ trị điểm ảnh cơ bản là tớnh toỏn từ cỏc giỏ trị cƣờng độ, nhƣng cú thể mở rộng với cỏc ảnh màu. Vớ dụ với ảnh màu RGB, ta tớnh tổng cú trọng số cỏc sai khỏc của ba giỏ trị Red, Green và Blue của cỏc điểm ảnh. X x i RGB i i i Y y y x f y x f w f f D 0 { , , } 2 1 0 2 1, ) | ( , ) ( , )| (

Một phần của tài liệu nghiên cứu một số kỹ thuật phân đoạn video (Trang 39)

Tải bản đầy đủ (PDF)

(79 trang)