Đây là mục giới thiệu về hệ thống Content Based Video Retrieval(CBVR) , khả năng trích các video với các truy vấn được phác thảo, phác thảo truy vấn của chúng tôi mô tả cả nội dung và chuyển động trong clip. Chúng tôi đề cập đầu vào ở mức trung bình giống như một phác thảo kịch bản.Khi mọi người gợi nhớ lại sự kiện, chẳng hạn người trong video. Họ vẽ phác thảo sự kiện theo trí nhớ của họ. Chúng tôi cho rằng các bản phác thảo là tốt cho tập đầu vào của hệ thống CBVR. Sự khác biệt về ngữ nghĩa là khá mơ hồ vì thế đặt ra một thách thức về mặt tính toán.
Phác thảo kịch cho nội dung dựa truy vấn video Tác giả: J P Collomosse, G McNeill and Y Qian Centre for Vision, Speech and Signal Processing, University of Surrey Guildford, UK {J.Collomosse, Y.Qiang}@ surrey.ac.uk Tìm hiểu dịch : Nguyễn Trường Sơn 20112078 Vũ Công Hào 20111473 Mục lục Kế thừa Chúng trình bày nội dung “Content Based Video Retrieval(CBVR)” Đóng góp xây dựng mô hình xác suất video Dẫn đến thuật toán phù hợp với mô tả phác thảo đối tượng trọng video Chúng chứng minh mô hình phù hợp với clip điều kiện máy quay tĩnh động, chuyển động vật thẳng va dao động Chúng đánh giá hai video thực tập video mô tả chuyển động hình dáng mà màu sắc Các thuật ngữ : Sketch based retrieval SBR : Phác thảo dựa phục hồi Querying by visual example QVE : Truy vấn ví dụ trực quan Content Based Video Retrieval(CBVR) : Hệ thống trích xuất video dựa nội dung Giới thiệu Đây mục giới thiệu hệ thống Content Based Video Retrieval(CBVR) , khả trích video với truy vấn phác thảo, phác thảo truy vấn mô tả nội dung chuyển động clip Chúng đề cập đầu vào mức trung bình giống phác thảo kịch Khi người gợi nhớ lại kiện, chẳng hạn người video Họ vẽ phác thảo kiện theo trí nhớ họ Chúng cho phác thảo tốt cho tập đầu vào hệ thống CBVR Sự khác biệt ngữ nghĩa mơ hồ đặt thách thức mặt tính toán Đóng góp thuật toán phù hợp với mô tả đối tượng để phác thảo video Kết hợp không gian chuyển động yếu để xếp phù hợp video Chúng đề xuất mô hình xác suất , mô hình tự hồi quy, dựa hệ thống Linear Dynamical Systems (LDSs), mã hóa hình đạng màu sắc thông qua thông số đối tượng phác thảo Chúng đánh giá thuật toán dựa thực tế tổng hợp video chương 1.1 Các công việc lên quan tới hệ thống Gắn từ khóa để dễ dàng thực tránh mâu thuẫn trình xử lý Truy vấn ví dụ trực quan QVE cung cấp lựa chọn thay thế, thành công gần với “bag of world” nhanh chóng xác định đối tượng clip dài từ truy vấn ảnh Phần lớn sketch based retrieval (SBR) thường tập chung vào việc thu hồi hình ảnh Các câu hỏi thường bao gồm màu sắc kết cấu xác định trước, thông tin tăng cường cách mô tả hình dạng màu sắc giới thiệu trước Nhưng kĩ thuật mở rộng cho video thông qua key-frame, nhiên thành phần tạm thời để phục vụ truy vấn tính thực cao Mặc dù hệ thống tìm video dựa chuyển động đề suất, nhiên số hệ thống thể rõ truy vấn dựa phác thảo chuyển động Tuy nhiên phương pháp tiếp cận mô hình máy quay chuyển động, cấu trúc không gian cảnh Ngược lại Chang et al.’s VideoQ thông qua cách tiếp cận chặt chẽ, phân đoạn video frame thành vùng phù hợp không gian thuộc tính chuyển động cấp khu vực Tuy nhiên, hệ thống khác với hệ thống videoQ, hệ thống SBR khác, số cách thức khác Tồn hệ thống SBR yêu cầu phác thảo để xác đối tượng VideoQ đòi hỏi người dùng xác định xác tốc độ đối tượng Tuy nhiên nghiên cứu cho thấy phác thảo CBVR thường không xác với xuất hình dáng chuyển động đối tượng Không có dấu hiệu tốc độ vài đối tượng phác thảo Hơn đối tượng xuất phác thảo thường xuất thời điểm khác clip Chúng đề xuất mô hình không gian chuyển động mà hai tương thích với mô hồ phác thảo Ngoài chung cho phép nhiều khu vực tổng hợp dãn nhãn cho nhiều đối tượng phác thảo đơn Chúng cho video hoàn toàn tách thành khu vực có ý nghĩa videoQ Thật muốn phân đoạn video dựa khu vực sau tổng hợp theo mô hình xác suất Tổng quan phân tích cú pháp phác thảo Trong phác thảo yêu cầu người dùng cho biết nét trước, chuyển động vẽ họ Cho truy vấn sử dụng thuật toán để phân tích nhóm phác thảo thành đối tượng Sau khai thác để có đối tượng miêu tả phác thảo Những đối tượng đầu vào cho thuật toán CBVR 2.1 Mô tả đối tượng phác thảo Thuật toán phân tích cú pháp phác thảo dựa nghiên cứu trước Chúng thấy người dùng phác thảo dựa phép xấp sỉ hình dạng đồng Các chữ tượng hình để mô tả đồ vật chuyển động Các đối tượng mô tả chuyển động tương đối tĩnh không phụ thuộc vào chuyển động máy ảnh Điều quan trọng phác thảo thông số tốc độ hay thông số chuyển động Phác thảo mô tả đối tượng không gian vài đối tượng bật truy vấn Hai bước trình phân tích phác thảo: Nhận dạng đối tượng phác thảo Chia nhóm đối tượng phổ biến người, mũi tên, nhóm đối tượng lại Chúng trích số tính nhận dạng đối tượng GMM phân phối màu sắc đối tượng phác thảo Mô tả đối tượng chung độ lệch, hướng, khu vực Tỉ lệ đối tượng Xác suất để đối tượng người Hướng đối tượng Dấu hiệu chuyển động liên kết với đối tượng phù hợp Bằng cách đối tượng phác thảo mang nhiều ý nghĩa Sau tìm video phù hợp Tiền xử lý video Trước video đưa vào sở liệu phải qua bước tiền xử lý Cắt video thành đoạn với công cụ phát chuyển cảnh Để bù đắp việc chuyển động camera người dùng có xu hướng phác thảo theo chuyển động camera phác thảo họ Chúng làm để thực so sánh Chúng phân tích frame hình ảnh thành khu vực theo giả thiết đồng màu sắc khu vực Máy dò thể sử dụng, nhiều khả khu vực phần thể Phân vùng tốt phân vùng cấp đối tượng thô phác thảo truy vấn, Nhiều vùng sau tổng hợp lại để đối tượng Cuối tính toán xác suất để vùng ảnh Đối với khung hình áp dụng với khung hình trước để xây dựng danh sách cách khung hình liền kề So sánh khu hình với khung hình trước để tạo đồ khung Tính điểm cho vùng với đối tượng phác thảo So sánh trích rút video Phần giải thích trình clip trích rút phù hợp với phác thảo Chúng kết hợp phác thảo vào clip cách mở rộng chuyện động đối tượng thành quy đạo khung hình Sau sử dụng công cụ tìm kiếm đối tượng dựa chuyển động với quy đạo Gọi trùng khớp đối tượng khung hình gần với phác thảo Một đối tượng rỗng đối tượng chưa thể khu vực, điều cho phép chon khu vực xấp xỉ phác thảo, tức phác thảo không cần phải mô tả tất các vùng khung Chúng ta so sánh dựa đối tượng chuyện động với quỹ đạo, thể nên số đối tượng xuất clip không xuất phác thảo Do tính chất gần đầy đủ phác thảo phân vùng mong muốn không quan sát Đó điều hiển nhiên phù hợp với thuật toán xác suất Bây thức sử dụng phương pháp để sinh video 4.1 Mô hình xác suất Đầu tiên giới thiệu kí hiệu sử dụng mô hình Thời gian thực t, clip bao gồm T khung, đối tượng mục u, U tập đối tượng xác định phác thảo Mỗi đối tượng u liên kết với Linear Dynamical System (LDS) nơi mà chúng chuyển động với quy đạo tương ứng Một đối tượng đại diện LDS Tất trạng thái LDSs thời điểm t lưu vector Z t = (Zt1, Zt2 ZtU) Vì u=1 thời điểm t=9 có 1.74 đơn vị độ dài quy đạo z91=1.74 Khung t kí hiệu Xt Với khung hình mô tả quan sát vector ct=(ct,1;ct,2; ;ct,Nt ) Và ct,n thuộc U+1 đối tượng từ 1,2 U, null Ví dụ thời điểm t=6 khu vực n=4 có đối tượng u=2 nghĩa c6,4 =2 Giải thích: N số khu vực frame Chúng thường sử dụng kí hiệu X C Z để thay khu vực không khung hình, trạng thái , nhãn tương ứng Ở : Xt frame thời điểm t Zt tập trạng thái LDSs tất đối tượng thời điểm t (U đối tượng ) Ct tập đối tượng quan sát frame Xt Ví dụ Theo ví dụ hình thấy phân bố chung thể theo: Giải thích công thức: Phân phối toàn video p(X,Z,C) tích : tổng phân phối c, tổng phân phối z tất đối tượng nhân với tổng phân phối z t với điều kiện zt-1 toàn video, phân phối X1 điều kiên z 1, c1 , phôi phối X2 điều kiện c1, X1, z2, c2, tổng phân phối tất frame Xt toàn khung hình với điều kiện ct-2, Xt-2, ct-1, Xt-1, zt, ct Với ct=(ct,1;ct,2; ;ct,Nt ), nhãn giả định độc lập với Chúng sử dụng xác xuất phân bố p(ct;n = u) = 1/(U + 1) 4.1.1 Phân phối phản xạ Các đối tượng phác thảo xuất bước thời gian trước điều có nghĩa có thành phần hồi quy Sự xuất đối tượng làm thay đổi clip, không xác phác thảo vẽ xác cho toàn thời gian clip Cấu trúc tự hồi quy mô hình ưu tiên kết hợp biến tạp thời việc ghi nhãn đối tượng cung cấp giải pháp mạnh mẽ cho vấn đề Chúng kết hợp chúng thông qua lát cắt xiên (frame to frame) qA lát cắt bên (sketch-to frame) qW Các biểu thức qw qa kết hợp so sánh đối tượng đơn phụ thuộc vào thời gian trước Nhớ lại chương mô tả đối tượng tập thuộc tính, coi trọng trọng tâm đối tượng việc xem xét LDS Để so sánh đối tượng phác thảo với video Chúng nhóm tất khu vực giao tính toán dựa khu vực tổng hợp Những tính tính toán theo : khu vực, trọng tâm, mô tả hình dáng dựa mặt nạ sau đánh giá điểm số trung bình cho khu vực đối tượng Số điểm định nghĩa cho người tối đa Chúng đề cập đến vecto đặc trưng cho đối tượng u khung hình t nhận giá trị nhãn ct Tương tự vector đặc trưng cho đối tượng phác thảo/ mô hình đối tượng cung cấp trạng thái Lưu ý trọng tâm thay đổi theo thời gian Khi qW qA đượng tính toán theo công thức sau: Trong : Au khu vực đối tượng u, N phân phối Gaussian, ∑ ma trận phương hiệp đối tượng Nói cách khác so sánh đối tượng phác thảo đối tượng video cánh sử dụng phương pháp Gaus p trọng số so sánh Phân bố màu sắc đối tượng mô tả bới GMM, sử dụng khoảng cách euclide so sánh đánh giá Gaussian Chúng sử dụng phương pháp so sánh Kullback-Leibler dựa phép biến đổi nhanh chóng, GMMs mô tả tần suất màu sách trung bình thành phần Cho hai phân phối màu sách GMMs G1 G2 với hàm mật độ g1(x) g2(x) Chúng xác định khoảng cách tương đối chúng theo công thức : Chúng sử dụng hệ số để làm cân tỉ trọng chúng 4.1.2 Phân phối chuyển đổi Đối với đối tượng u, phân phối ban đầu p(z1u) phân phối chuyển đổi p(ztu| zt-1u) mô tả cách mà đối tượng chuyển động Các tín hiệu chuyển động thường chỉ hướng chuyển động buộc phải giả thiết tốc độ phạm vi chuyển động đối tượng Sự phân bố chuyển đổi thực bởi: Trong vu vector hướng chuyển động Mặc dù điều làm cho mô hình phụ thuộc vào clip Lưu ý phân phối chuyển đổi liên quan tới chuyển động đối tượng theo mô hình quỹ đạo 4.2 Suy luận giá trị biến ẩn Khi xác định rõ mô hình Điều quan tâm tính toán giá trị p(clip|sketch) = p(X|modelparameters) Chúng quan tâm tới giá trị ẩn trạng thái zt nhãn ct điều cho phép đánh giá video với phác thảo cho Giả định cho với giá trị c t Mô hình có U+1 đối tượng với trạng thái LDSs tương ứng, Với biểu thức qa không phụ thuộc vào zt, thành phần hồi quy bỏ qua z t Ở sử dụng tất khung T cho phép sử dụng phương trình backwardKalman cập nhập trạng thái ẩn zt ← argmaxztp(zt|X,C) hay tìm zt để cực đại hóa p(zt|X,C) Với giá trị ẩn trạng thái Z tất giá trị ẩn nhãn C(kí hiệu C\) cập nhật theo : ← argmax p(|X,C, C\) Giải thích: Chúng ta cập nhật giá trị theo giá trị ẩn Z giá trị trước theo vòng hồi quy.Mỗi vòng hồi quy đòi hỏi phải có (u+1)r đánh giá , với r biến số thúc đẩy cân tốc độ xác, thử nghiệm tìm r =8 phù hợp Các giá trị p(X; Z; C) thường nhỏ cần tới 10-20 vòng lặp ICM để giá trị hội tụ cực đại Đánh giá thảo luận Chúng đánh giá hệ thống CBVR sử dụng ba liệu (i) Đoạn video tổng hợp chứa trường hợp điều khiển phòng thí nghiệm (ii) Một tập hợp nhóm video nhỏ liệu mở KTH (iii) Một tập hợp liệu video thực tổng hợp từ phim truyền hình cảnh quay thể thao (TSF) Chúng chọn TSF để thiết lập giống với VideoQ[2] liệu thử nghiệm, không công bố 5.1 Tổng hợp (Lab-based) đánh giá video Các tập liệu chứa 72 clips cảnh quay 2D di chuyển mặt phẳng (Hình 6) Clip bao gồm tất kết hợp hình, màu hướng chuyển động, có lộn xộn Hình 6a chứa phác thảo truy vấn mẫu miêu tả hình di chuyển nền, clip đầu lấy, độ xác clip xếp hạng Một clip tích lũy có độ xác 0,25 cho biến phù hợp; điểm số phân phối: Average Precision (AP) (độ xác tích lũy clip/độ xác tích lũy tối đa đạt được) nơi Trung bình AP dải cho Mean Average Precision (MAP) of 0.91 Thuật toán giải phác thảo không rõ ràng cách tìm kiếm chứng cho đối tượng phác thảo; không LDS tạo cho đối tượng không phác thảo (Các đối tượng NULL) and đó, họ bỏ qua Vì vậy, truy vấn hình 6b hỗ, sửa đổi xác tỉ số để xem xét màu sắc, hình chuyển động; phân bố tỉ số là: Các clip phù hợp (Điểm 1) xếp hạng cac MAP 0.85 Hình khu vực Precision-Recall trung bình 30 câu truy vấn(Miêu tả 15 hình di chuyển với nền, 15 không có) Ở đây, sử dụng SYN nhị phân so sánh với KTH TSF; kết hợp xác với độ xác để làm cho tất thuộc tính có liên quan (chuyển động, hình, ect ) cần thiết cho độ xác Chúng nhận MAP tổng thể (0.88) cho SYN, đại diện lý tưởng để so sánh video thực đối lập 5.2 Đánh giá Real Video Chúng đánh giá hệ thống việc sử dụng 200 đoạn clip liệu hoạt động độc lập KTP [17] Chúng chọn 25 clip hoạt động chạy tới nhiều hướng khác Thiết lập truy vấn bao gồm phác thảo với tín hiệu chuyển động Hình khu Precision-Recall tính trung bình tất truy vấn(MAP=0.74) Hiệu so sánh với SYN cho thấy khả mở rộng tốt, xác tập hợp phân đoạn Hình 8: Bộ liệu TSF; ví dụ truy vấn trích lấy clip tốt nhất, thảo luận SEC 5.2 Độ xác trung bình (AP) truy vấn Q1=0.63; Q2=0.48; Q3=0.67; Q4=0.62; Q5=0.60 Vùng để “theo dõi” người, nhận dạng hướng chuyển đông Tuy nhiên, KTH chứa tông màu xám không hoàn toàn thực biến đổi tất tính Do đánh giá liệu thứ TSF gồm 298 màu TV drama/sports clips ( frames/clip) Đối tượng người, xe oto, ngựa, chủ yếu đối tượng đơn với máy ảnh chuyển động theo hình di chuyển Các tập liệu so sánh với VideoQ người đánh giá 200 clip tương tự qua câu truy vấn Đối với truy vấn, tự định vật mặt đất, clip có liên quan nếu, trực quan, đối tượng đơn hình gần (khía cạnh), màu sắc, hướng với truy vấn (và màu phác thảo) Để kiểm tra khả mở rộng, chạy truy vấn liệu kết hợp TSF+KTH Hình khu đường cong trung bình Precision-Recal qua thiết lập truy vấn Hình minh họa truy vấn mẫu với clip tương ứng tốt and tỷ lệ AP Nhìn chung cho thiết lập TSF có MAP = 0.65 cho thiết lâp TSF+KTH ta có MAP =0.59 Giải thích hình cho TSF (298 clip), kỳ vọng kết tốt có liên quan trung bình., mà coi chấp nhận cho ứng dụng của việc thu hồi lại tập phim từ sở liệu video Đối với tập hợp 500 clip thuộc top kết có liên quan, cho thấy khả mở rộng tốt CSDL lớn Mặc dù TSF không thực phù hợp VideoQ[2], kết so sánh với AP truy vấn họ (0.40, 0.36, 0.55, 0.36 MAP=0.42) Hình cho thấy xử lý xác chuyển động tuyến tinh đơn (Q1,3-5) nhiều đối tượng(Q2) Trong (Q2,3,5) việc phát người không thành công quy mô; nhiên chuyển động đặc biệt màu sắc trường hợp khuyến khích thu hồi Trong trường hợp (Q1-5), chuyển động camera bù trừ cách xác 3Obtained thu từ đường cong PR hình 10 Cheng et at [2] Tổng kết Chúng trình bày mô hình xác xuất cho video dựa Linear Dynamical Systems (LDS), áp dụng mô hình để phù hợp với mô tả phác thảo đối tượng di chuyển đến video cho CBVR Chúng dã cho thấy mô hình cách xác để tổng hợp phân đoạn video để tạo thành vùng đối tượng xấp xỉ phác thảo Như vậy, hệ thống không thừa nhận tính bền vững tam thời ngữ nghĩa video trước phân đoạn (như Chang et at [2]) Chúng phát triển xa cách kết hợp loại chuyển động kiểu dao động Mặc dù phác thảo phương diện truy vấn biểu cảm trực giác, họ mơ hồ Ví dụ, tín hiệu chuyển động có hương không đáng tin cậy phản ánh tầm quan trọng chuyển động [5] (Thông tin cần thiết bởi[2]) Sự nhập nhằng buộc phải đưa giả định vào mô hình chúng tôi, giả định vanvas sketch để gần tranh bao trùm tất khung, chuyển động phác thảo kéo dài qua Nhưng xuất đoạn clip khoảnh khắc khác nhau.Mô hình chúng tôi, không giả định mối liên hệ thời gian đối tượng.(Sec 4) Hơn nữa, tất đối tượng có mặt video phải phác thảo Phác thảo tầm quan trọng đối tương đối tính Trong hình 6b, ba hình bầu dục trở left-right rank Hình chuyển động quan trọng màu sắc, tùy thuộc vào ngữ cảnh sử dung chúng tôi, điều không thích hợp Công việc tới cải thiện việc thực với tốc để tốc độ tương tác khám phá thong tin phản hồi liên quan đến cách tương tác điều chỉnh phương sai tính (eq.3) Nhiều tính phức tạp (ví dụ hình or phát người) thay vào khuôn khổ Chúng lựa chọn nghiên cứu thực nghiệm [5], mà quan sát phác thảo đợt để chứa phân bố màu sắc hình gần Tương tự vậy, LDS chứa đường dẫn tham số, chuyển động phức tạp phác thảo[5] Thay tính toán sau phù hợp với vector từ truy vấn clip, đánh giá hỗ trợ clip mô hình xác xuất nội dung (Khung LDS chúng tôi) Lợi ích thành phần video hiểu bối cảnh cảu phác thảo; mô ký họa giải ánh sang chứng video (nhiều người ta nhận vẽ đứa trẻ voi nói với vậy) Cho nhóm giám sát điểm ảnh vào đối tượng vượt tầm hiểu ngữ nghĩa Vision, điều cách tiếp cận đầy hứa hẹn để thu hẹp khoảng cách ngữ nghĩa cho SBR Thích nghi mô hình sử dụng để theo dõi 7 Tài liệu liên quan [1] J Besag On the statistical analysis of dirty pictures Jrnl Royal Statistical Society B, 48:259–302, 1986 [2] S Chang, W Chen, H Meng, H Sundaram, and D Zhong VideoQ: an automated content based video search systemusing visual cues In Proc ACM Multimedia, pp 311–324, Nov 1997 [3] C Christoudias, B Georgescu, and P Meer Synergism in low-level vision In Proc ICPR, pp 4:150–155, 2002 [4] O Chum, J Philbin, J Sivic, M Isard, and A Zisserman Total recall: Automatic query expansion with generative feature model for retrieval In Proc ICCV, pp 1–8, 2007 [5] J Collomosse, G McNeill, and L Watts Free-hand sketch grouping for video retrieval In Proc ICPR, 2008 [6] R D Dony, J W Mateer, J A Robinson, and M G Day Iconic versus naturalistic motion cues in automated reverse storyboarding In Proc CVMP, pp 17–25, 2005 [7] V Ferrari, M Jimenez, A Zisserman Progressive search reduction for human pose estimation Proc CVPR, 2008 [8] B Furht and O Marques Content-based Image and Video Retrieval Kluwer Acad., 2002 ISBN: 1-402-0700047 [9] J Goldberger and H Aronowitz A distance measure between GMMs based on the unscented transform and its application to speaker recognition In Proc Eurospeech, 2005 [10] D Goldman, B Curless, D Salesin, and S Seitz Schematic storyboards for video editing and visualization In Proc ACM SIGGRAPH, volume 25, pp 862–871, 2006 [11] J Hafner, H S Sawhney, W Equitz, M Flickner, and W Niblack Effcient color histogram indexing for quadratic distance IEEE Trans PAMI, 17(7):729–736, 1995 [12] C E Jacobs, A Finkelstein, and D H Salesin Fast multi-resolution image querying In Proc ACM SIGGRAPH, pp 277–286, Aug 1995 [13] I Laptev and P Perez Retrieving actions in movies Proc ICCV, pp 432–439, 2007 [14] I Laptev, M Marszalek, C Schmid, and B Rozenfeld Learning realistic human actions from movies In Proc CVPR, 2008 [15] Z Li, O R Zaane, and Z Tauber Illumination invariance and object model in image and video retrieval Jrnl Vis Comm and Image Rep., 10(3):219–244, Sept 1999 [16] X Ren and J Malik Learning a classification model for segmentation In Proc ICCV, pp 1:10–17, 2003 [17] C Schuldt, I Laptev, and B Caputo Recognizing human actions: A local svm approach In Proc CVPR, 2004 [18] E D Sciascio, G Mingolla, and M Mongiello CBIR over the web using query by sketch and relevance feedback In Proc Intl.Conf VISUAL, pp 123–130, June 1999 [19] C Shim, J Chang Efficient similar trajectory retrieval for moving objects in video Proc CIVR, pp 163–173, 2003 [20] J Sivic and A Zisserman A text retrieval approach to object matching in videos In Proc ICCV, pp 1470–1477, 2003 [21] C Su, H Liao, H Tyan, C Lin, D Chen, and K Fan Mo-tion flow-based video retrieval IEEE Trans Multimedia, 9(6):1193–1201, Oct 2007 [22] E Tulving Elements of episodic memory Oxford Claren-don, 1983 ISBN: 0-198-521251 [23] H Zhang, Z Kankanhalli, and S W Smoliar Automatic partitioning of full-motion video In Proc ACM Multimedia, volume 1, pp 10–28, June 1993 [...]... tối đa đạt được) nơi Trung bình AP trên dải cho ra một Mean Average Precision (MAP) of 0.91 Thuật toán của chúng tôi giải quyết các phác thảo không rõ ràng bằng cách tìm kiếm bằng chứng cho các đối tượng chỉ phác thảo; không LDS được tạo ra cho các đối tượng không được phác thảo (Các đối tượng NULL) and do đó, họ đã bỏ qua Vì vậy, các truy vấn của hình 6b đều hỗ, chúng tôi đã sửa đổi chính xác các tỉ... Chúng tôi đã trình bày một mô hình xác xuất cho các video dựa trên Linear Dynamical Systems (LDS), và áp dụng mô hình của chúng tôi để phù hợp với mô tả đã phác thảo đối tượng di chuyển đến video cho CBVR Chúng tôi dã cho thấy mô hình của chúng tôi một cách chính xác để tổng hợp trên các phân đoạn video để tạo thành vùng đối tượng xấp xỉ bằng các bản phác thảo Như vậy, hệ thống của chúng tôi không thừa... ẩn của trạng thái zt và nhãn ct điều đó cho phép chúng tôi đánh giá video với bản phác thảo đã cho Giả định được cho với giá trị c t Mô hình có U+1 đối tượng với các trạng thái LDSs tương ứng, Với biểu thức qa không phụ thuộc vào zt, vì thế các thành phần hồi quy có thể bỏ qua z t Ở đây chúng tôi sử dụng tất cả các khung T cho phép chúng tôi sử dụng phương trình backwardKalman khi cập nhập trạng thái... để gần một bức tranh bao trùm tất cả các khung, và các chuyển động đã phác thảo sẽ kéo dài qua Nhưng xuất hiện trong các đoạn clip là các khoảnh khắc khác nhau.Mô hình của chúng tôi, không giả định về mối liên hệ thời gian giữa các đối tượng.(Sec 4) Hơn nữa, không phải tất cả các đối tượng có mặt trong video phải được phác thảo Phác thảo không thể hiện tầm quan trọng đối tương đối của các tính năng Trong... nghiên cứu thực nghiệm [5], mà quan sát phác thảo từng đợt để chỉ chứa phân bố màu sắc và hình gần đúng Tương tự như vậy, mặc dù LDS của chúng tôi chứa đường dẫn tham số, các chuyển động phức tạp hiếm khi được phác thảo[ 5] Thay vì tính toán và sau đó phù hợp với các vector từ truy vấn và clip, chúng tôi đánh giá hỗ trợ trong clip dưới một mô hình xác xuất của nội dung (Khung LDS của chúng tôi) Lợi ích... cảnh cảu một bản phác thảo; sự mô trong các ký họa được giải quyết trong ánh sang của chứng cứ trong video (nhiều như người ta có thể nhận ra rằng bản vẽ của một đứa trẻ là của một con voi đã từng nói với như vậy) Cho rằng nhóm không có giám sát của các điểm ảnh vào đối tượng vượt quá tầm hiểu ngữ nghĩa Vision, điều này có vẻ như một cách tiếp cận đầy hứa hẹn để thu hẹp khoảng cách ngữ nghĩa cho SBR Thích... khác nhau Thiết lập các truy vấn bao gồm các bản phác thảo với các tín hiệu chuyển động Hình 7 khu Precision-Recall được tính trung bình trên tất cả các truy vấn(MAP=0.74) Hiệu năng so sánh với SYN cho thấy khả năng mở rộng tốt, và chính xác các tập hợp của phân đoạn trên Hình 8: Bộ dữ liệu TSF; ví dụ truy vấn trích và lấy ra các clip tốt nhất, đã được thảo luận trong SEC 5.2 Độ chính xác trung bình... nếu đã phác thảo) Để kiểm tra khả năng mở rộng, chúng tôi cũng chạy các truy vấn này trên các bộ dữ liệu kết hợp TSF+KTH Hình 7 khu đường cong trung bình Precision-Recal qua các thiết lập truy vấn Hình 8 minh họa các truy vấn mẫu với mỗi clip tương ứng tốt nhất and tỷ lệ AP Nhìn chung cho các thiết lập TSF chúng ta có được MAP = 0.65 và cho thiết lâp TSF+KTH ta có MAP =0.59 Giải thích hình 7 cho TSF... nền Hình 6a chứa một bản phác thảo truy vấn mẫu miêu tả một hình di chuyển trên một nền, 3 clip đầu sẽ được lấy, và độ chính xác của một clip sẽ được xếp hạng Một clip được tích lũy có độ chính xác là 0,25 cho mỗi biến phù hợp; do đó điểm số được phân phối: Average Precision (AP) là (độ chính xác tích lũy của các clip/độ chính xác tích lũy tối đa đạt được) nơi Trung bình AP trên dải cho ra một Mean Average... coi là chấp nhận được cho các ứng dụng của chúng tôi của việc thu hồi lại các tập phim từ cơ sở dữ liệu video Đối với tập hợp của 500 clip thuộc top 6 các kết quả có liên quan, cho thấy khả năng mở rộng tốt để cho CSDL lớn hơn Mặc dù TSF không thực sự phù hợp VideoQ[2], kết quả của chúng tôi được so sánh với các AP trong 4 truy vấn của họ (0.40, 0.36, 0.55, 0.36 MAP=0.42) Hình 8 cho thấy xử lý chính ... truy vấn phác thảo, phác thảo truy vấn mô tả nội dung chuyển động clip Chúng đề cập đầu vào mức trung bình giống phác thảo kịch Khi người gợi nhớ lại kiện, chẳng hạn người video Họ vẽ phác thảo kiện... tượng miêu tả phác thảo Những đối tượng đầu vào cho thuật toán CBVR 2.1 Mô tả đối tượng phác thảo Thuật toán phân tích cú pháp phác thảo dựa nghiên cứu trước Chúng thấy người dùng phác thảo dựa phép... Trung bình AP dải cho Mean Average Precision (MAP) of 0.91 Thuật toán giải phác thảo không rõ ràng cách tìm kiếm chứng cho đối tượng phác thảo; không LDS tạo cho đối tượng không phác thảo (Các đối