Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
1,41 MB
Nội dung
Bài CHỈ MỤC VÀ TÌM KIẾM VIDEO PGS.TS. Đặng Văn Đức dvduc@ioit.ac.vn Hà Nội - 2005/14 Nội dung Giới thiệu mục tìm kiếm video Phân đoạn video Chỉ mục tìm kiếm video Đại diện trừu tượng video Kết luận 1. Giới thiệu Nhắc lại kiến trúc CSDL đa phương tiện User Query Answer Multimedia Query Engine Document Index Image Index Audio Index Video Index Giới thiệu Nhắc lại loại liệu đa phương tiện image io d au text Once upon a time, there was a little . video Tiến trình tìm kiếm thông tin Off-line On-line Query Video Xử lý Xử lý Đại diện query Đại diện video Đối sánh (tính toán độ tương đồng) Video truy vấn Đánh giá mức độ thích hợp phản hồi Các phương pháp mục video Tính chất liệu video Video giàu thông tin Một video đầy đủ bao gồm: Phụ đề (subtitle), Rãnh âm (tiếng nói phi tiếng nối), Tập ảnh Các phương pháp mục tìm kiếm video Tìm kiếm video sở meta-data Trên sở văn Ví dụ: Phụ đề video Trên sở âm Ví dụ: Tên video, tác giả/đạo diễn/nhà sản xuất, ngày sản xuất loại video. Ví dụ: Tiếng nói âm phi tiếng nói rãnh tiếng Trên sở nội dung mức thấp Tiệm cận tích hợp. Các phương pháp mục video Hai tiệm cận tìm kiếm video sở nội dung mức thấp Tiệm cận 1: Video xem tập hợp frames (ảnh) độc lập. Sử dụng kỹ thuật tìm kiếm ảnh để tìm kiếm video Nhược điểm: Bỏ qua quan hệ thời gian ảnh. Không quan tâm đến khối lượng ảnh khổng lồ. Tiệm cận 2: Chia trình tự video thành nhóm frames tương tự (gọi shot – lia). Chỉ mục tìm kiếm sở frames đại diện cho nhóm. Tiệm cận gọi tìm kiếm tự động video sở shots. Bài tập trung vào nghiên cứu kỹ thuật mục tìm kiếm video sở shots. 2. Phân đoạn video Khái niệm phân đoạn video tiến trình chia video thành shots Biên video shots nơi nội dung có thay đổi đáng kể số lượng Ví dụ frames hai lần bấm máy quay Cần có độ đo phù hợp để nhận biết khác biệt frames Nếu khác biệt vượt qua ngưỡng cho trước xem biên cửa shots. Việc xây dựng độ đo kỹ thuật phù hợp vấn đề mấu chốt tự động tách video shots Việc tách shots dễ dàng (giữa hai lần bấm máy quay) hay phức tạp (video có hiệu ứng). 2.1 Mô hình tổng quát liệu video Nhắc lại mô hình liệu video tổng quát Episode Shot (lia): trình tự frames liên tục, ngắn có hay nhiều đặc trưng sau: Mô tả cảnh (scene) Báo hiệu bắt đầu thao tác máy quay (bấm máy quay). Chứa kiện mô tả hay hành động đối tượng. Được người sử dụng lựa chọn thực thể để mục. Cut: Quá độ từ shot sang shot khác Hard cut Quá độ từ từ (gradual) 2.2 Các bước tìm kiếm video Bước thứ nhất: Tách shot Phân đoạn video thành shot (còn gọi phân đoạn video theo thời gian, phân hoạch hay tách shot). Bước thứ hai: Chỉ mục shot Xác định frame (frame đại diện - representative frame) cho shot Sử dụng phương pháp mục ảnh biết để mục frame đại diện r. Bước thứ ba: Đo tương tự Đo mức độ tương tự frame câu truy vấn frame đại diện video shot. Áp dụng kỹ thuật tìm kiếm ảnh biết sở mục lục hay véctơ đặc trưng có từ bước 2. Ước lượng chuyển động camera Mô hình hóa chuyển động camera 2D Ánh xạ điểm ảnh p từ frame tham chiếu vào frame hành p’. Ta có: p=p’+v, v véctơ chuyển động. Mô hình affine tham số mô tả đầy đủ chuyển động camera. Tính toán trường véctơ chuyển động (ui, vi) ui a2 v = a i a3 xi − x0 a1 + a6 yi − y0 a4 x0, y0 – tâm ảnh Tham số ước lượng phương pháp bình phương tối thiểu. Chuyển động camera diễn giải qua tham số vừa tính a1 – Pan, a4 - Tilt (nghiêng), Zoom: a3=a5 =0 dvduc-2005/14 Bài 7: Chỉ mục tìm kiếm video 21/27 Độ chói thay đổi Nguyên nhân: Diễn viên vào vùng sáng, mây trôi phủ bầu trời, hiệu ứng ánh sáng . Phương pháp tách shot Wei, Drew and Li: Chuẩn hóa kênh màu trước tách shot để làm giảm tác động độ chói R = ' i Ri N , G = ∑R i =1 i N – Tổng số pixel ảnh ' i Gi N ∑G i =1 , B = ' i i Ri' Gi' , đơn g i =sắc' i = sang Chuyểnrđổi lược đồ ' ' ' Ri + Gi + Bi Ri + Gi' + Bi' Bi N ∑B i =1 i Độ chói thay đổi Phương pháp tách shot Wei, Drew and Li (tt): Xây dựng lược đồ r g cho ảnh. Hình thành ảnh lược đồ đơn sắc (chromaticity histogram image - CHI). Giảm thiểu mật độ CHI (16x16) nhờ kỹ thuật nén sở Wavelet. Áp dụng biến đổi DCT hai chiều CHI để có 256 hệ số. Lựa chọn 36 hệ số DCT quan trọng để xử lý tiếp tục. Tính toán khoảng cách ảnh sở 36 hệ số để xác định Shot biên ảnh biến đổi dần dần. 2.6 Phân đoạn video nén (MPEG) Nhắc lại mã hóa MPEG1-2: Các khung hình I, B P I-Frame: Mã hóa độc lập sở DCT, không phụ thuộc vào frames khác P-Frame: Mã hóa phụ thuộc vào frame B hay I cuối (cái gần hơn) B-Frame: Phụ thuộc vào hai frame P I trước gần P I sau gần nhất. I B B P B B B P Phân đoạn video nén (MPEG) Cơ sở phân đoạn video nén Các hệ số DCT ảnh MPEG1 MPEG2 Thông tin chuyển động đối tượng. Tách shot sở hệ số DCT Có DCT từ ảnh I ảnh vi sai (differential) Hình thành ảnh hệ số DC Trong blốc vi sai: Hệ số DCT = Hệ số DCT vi sai blốc hành + hệ số DCT blốc tham chiếu. Hệ số thứ (DC – hệ số chiều) cường độ trung bình blốc Ảnh DC = 1/64 ảnh gốc, chứa đặc trưng ảnh gốc. Tính toán khoảng cách khung hình (từ ảnh DC) Phát shot khoảng cách lớn giá trị ngưỡng. 3. Chỉ mục tìm kiếm video Nhiều phương pháp mục tìm kiếm video Trên sở thông tin chuyển động, đối tượng, metadata, mô tả Tích hợp Bài tập trung vào kỹ thuật mục tìm kiếm sở frame đại diện cho shots. Đã thực tiền xử lý liệu video: Phân đoạn video thành shots Nhiệm vụ tiếp theo: Biểu diễn mục shots Phương pháp chung: Sử dụng frames chủ chốt để làm frame đại diện r (representative) Sự truy nhập sở đo độ tương tự ảnh câu truy vấn r-frame 3.1 Chỉ mục video sở frame đại diện Chọn frame đại diện r (representative): Shot tương đối tĩnh: chọn frame Shot động (có Pan hay đối tượng chuyển động): Xác định tổng số frames đại diện Xác định frames đại diện Tổng số r sử dụng cho shot: Phụ thuộc độ dài shot Độ dài shot ≤ 1s: cần frame đại diện Độ dài shot ≥ 1s: cần frame đại diện cho giây video. Phụ thuộc nội dung shot Chia shot thành shot sở thay đổi nội dung Xác định nội dung thay đổi: véctơ chuyển động, so sánh frame-to-frame 3.2 Chọn frame đại diện r cho shot động Khái niệm đoạn (segment): shot: Khi chọn r cho shot giây video: Khi chọn r cho giây shot subshot: Khi chọn r cho shot con. Các phương pháp chọn r/segment Phương pháp 1: Frame thứ đoạn làm frame r. Phương pháp 2: Xác định frame trung bình giá trị pixel, chọn frame gần frame trung bình làm frame r. Phương pháp 3: Tính trung bình biểu đồ màu đoạn, frame có biểu đồ màu gần frame đại điện Phương pháp 4: Chia ảnh đoạn thành đối tượng cận cảnh. Dành cho chuyển động camera (Pan). Việc áp dụng phương pháp phụ thuộc vào ứng dụng cụ thể. Các phương pháp mục video khác Trên sở thông tin chuyển động Phương pháp quan tâm đến chiều thời gian video Các tham số sử dụng vào mục Nội dung chuyển động Tính quán chuyển động Chuyển động ngang (motion panning) máy quay Chuyển động dọc (motion tilting) máy quay. Trên sở đối tượng Phân đoạn nhận biết đối tượng Trong video, đối tượng chuyển động nhận biết thông qua véctơ chuyển động Sử dụng kết phân đoạn đối tượng để mục video. Công việc thuận lợi với khuôn dạng MPEG4. Các phương pháp mục video khác Trên sở meta-data Metadata có sẵn vài khuôn dạng chuẩn (MPEG-2). Các thông tin dịch vụ khác bổ sung vào metadata Có thể mục tìm kiếm thông tin banừg DBMS truyền thống Trên sở mô tả (annotation) Kỹ thuật mô tả Diễn dải mô tả video cách thủ công Video kết hợp với dịch (transcript) phụ đề (subtitle) Nhận dạng tiếng nói cho rãnh tiếng để tách từ Chỉ mục truy tìm sở mô tả thực kỹ thuật IR 4. Đại diện trừu tượng video Băng video có nhiều thông tin Kích thước lớn Có chiều thời gian Cần có giải pháp trình diễn công cụ trừu tượng hiệu để biểu diễn đầy đủ nội dung video. Công cụ cần có khả chủ yếu: Duyệt video: Xem nhanh nội dung video mà không cần theo trình tự. Trình diễn kết tìm kiếm: Biểu diễn cô đọng video để người sử dụng xác định nhanh video hay shot quan tâm mà không cần qua toàn danh sách kết quả. Giảm thiểu yêu cầu băng thông độ trễ: Công cụ trình diễn cô đọng video cho phép duyệt nhanh trước download hay trình chiếu video lưu trữ server(s) từ xa. Làm giảm băng thông độ trễ mạng. 4.1 Phân lớp video theo chủ đề Giải pháp hiệu khác phân lớp theo chủ đề Mức 1: Chia video thành lớp chủ đề khác Mức 2: Chia shot vào lớp nhỏ Thí dụ ứng dụng: Motơ tìm kiếm WWW Chương trình tin tức, phim ảnh, giới thiệu du lịch . Animal Art Food Sport Travel Vegetables Dogs Cats Painting Sculpure s Lions Tigers Fruit Apples Renoir Van Gogh Drinks Bananas Baseball Soccer France Asia Europe UK Germany 4.2 Biểu tượng chuyển động Thumbnail biểu diễn ảnh tĩnh duyệt trình diễn Micon (motion icon): sử dụng biểu tượng chuyển động thay cho Thumbnail Video có chiều thời gian. Mặt trước micon frame thứ hay ảnh đại diện Độ sâu độ dài vài thông tin chuyển động video. Thao tác duyệt (xem nhanh video): Khi chuyển chạy theo cạnh micon, frame mà trỏ tới hiển thị lên phía trước. Với video dài, sử dụng r-frame cho micon. 20 37 5. Kết luận Tập trung vào vấn đề mục, tìm kiếm trình diễn video Với đặc trưng mức thấp Phân đoạn video thành shots Nhận biết frame r cho shot Chỉ mục tìm kiếm sở frame r Các đặc trưng mức cao Còn khó khăn để nhận dạng tách kiện thời gian, tương tác đối tượng video. Giải pháp hành: mô tả thủ công. Đòi hỏi nhiều nghiên cứu tiếp theo. Câu hỏi ôn tập Tính chất chủ yếu video loại thông tin kết hợp với video gì? Hãy mô tả tiệm cận thường sử dụng mục tìm kiếm video sở tính chất thông tin kết hợp này. Video shot gì? Trình bày nguyên lý chung để tách shot Mô tả bước mục tìm kiếm video sở shot. Mô tả ba phương pháp chọn r frame. Hãy so sánh ưu điểm nhược điểm chúng. Câu hỏi? [...]... lớn hơn giá trị ngưỡng 3 Chỉ mục và tìm kiếm video Nhiều phương pháp chỉ mục và tìm kiếm video Trên cơ sở thông tin chuyển động, đối tượng, metadata, mô tả Tích hợp Bài này tập trung vào kỹ thuật chỉ mục và tìm kiếm trên cơ sở frame đại diện cho các shots Đã thực hiện tiền xử lý dữ liệu video: Phân đoạn video thành các shots Nhiệm vụ tiếp theo: Biểu diễn và chỉ mục các shots Phương pháp... Tính chất chủ yếu của video và các loại thông tin kết hợp với video là gì? Hãy mô tả tiệm cận thường sử dụng trong chỉ mục và tìm kiếm video trên cơ sở các tính chất và thông tin kết hợp này Video shot là gì? Trình bày nguyên lý chung để tách shot Mô tả các bước chính của chỉ mục và tìm kiếm video trên cơ sở shot Mô tả ba phương pháp chọn r frame Hãy so sánh ưu điểm và nhược điểm của chúng... sung vào metadata Có thể chỉ mục và tìm kiếm thông tin banừg DBMS truyền thống Trên cơ sở mô tả (annotation) Kỹ thuật mô tả Diễn dải và mô tả video một cách thủ công Video kết hợp với bản dịch (transcript) và phụ đề (subtitle) Nhận dạng tiếng nói cho rãnh tiếng để tách các từ nó Chỉ mục và truy tìm trên cơ sở mô tả được thực hiện bằng kỹ thuật IR 4 Đại diện và trừu tượng video Băng video. .. cho micon 1 20 0 37 0 5 Kết luận Tập trung vào vấn đề chỉ mục, tìm kiếm và trình diễn video Với các đặc trưng mức thấp Phân đoạn video thành các shots Nhận biết các frame r cho mỗi shot Chỉ mục và tìm kiếm trên cơ sở frame r Các đặc trưng mức cao Còn khó khăn để nhận dạng và tách các sự kiện thời gian, tương tác giữa các đối tượng trong video Giải pháp hiện hành: mô tả thủ công Đòi... (motion tilting) của máy quay Trên cơ sở đối tượng Phân đoạn và nhận biết đối tượng Trong video, đối tượng chuyển động do vậy có thể nhận biết nó thông qua các véctơ chuyển động Sử dụng kết quả phân đoạn đối tượng để chỉ mục video Công việc thuận lợi với khuôn dạng MPEG4 Các phương pháp chỉ mục video khác Trên cơ sở meta-data Metadata có sẵn trong một vài khuôn dạng chuẩn (MPEG-2) Các... MPEG1-2: Các khung hình I, B và P I-Frame: Mã hóa độc lập trên cơ sở DCT, không phụ thuộc vào các frames khác P-Frame: Mã hóa phụ thuộc vào frame B hay I cuối cùng (cái nào gần hơn) B-Frame: Phụ thuộc vào hai frame P hoặc I trước đó gần nhất hoặc P hoặc I sau đó gần nhất I B B P B B B P Phân đoạn video nén (MPEG) Cơ sở phân đoạn video nén Các hệ số DCT trong các ảnh MPEG1 và MPEG2 Thông tin chuyển... là frame đại điện Phương pháp 4: Chia ảnh trong đoạn thành nền và đối tượng cận cảnh Dành cho chuyển động camera (Pan) Việc áp dụng phương pháp nào phụ thuộc vào ứng dụng cụ thể Các phương pháp chỉ mục video khác Trên cơ sở thông tin chuyển động Phương pháp này quan tâm đến chiều thời gian của video Các tham số sử dụng vào chỉ mục Nội dung chuyển động Tính nhất quán chuyển động Chuyển... khi duyệt và trình diễn Micon (motion icon): sử dụng biểu tượng chuyển động thay cho Thumbnail vì Video còn có chiều thời gian Mặt trước của micon là frame thứ nhất hay ảnh đại diện Độ sâu chỉ ra độ dài và một vài thông tin chuyển động của video Thao tác duyệt (xem nhanh video) : Khi chuyển con chạy theo cạnh micon, frame mà nó trỏ tới được hiển thị lên phía trước Với video dài, chỉ sử dụng... cut Dissolve Wipe Video Propbability of a cut Threshold Frame Kỹ thuật tách shot thay đổi dần dần Nhận xét về các kỹ thuật trên cơ sở màu và trên cơ sở biểu đồ màu Phụ thuộc vào một giá trị ngưỡng của sự khác biệt frame-toframe Vậy, không áp dụng được vào việc tách shots khi giữa các frames có sự thay đổi dần dần Không quan tâm đến phân bổ không gian màu Vậy, không thể tìm ra biên của hai... trình diễn và công cụ trừu tượng hiệu quả để có thể biểu diễn đầy đủ nội dung video Công cụ cần có các khả năng chủ yếu: Duyệt video: Xem nhanh nội dung chính video mà không cần đi theo trình tự Trình diễn kết quả tìm kiếm: Biểu diễn cô đọng video để người sử dụng xác định nhanh video hay shot nào quan tâm mà không cần đi qua toàn bộ danh sách kết quả Giảm thiểu yêu cầu băng thông và độ trễ: . 2005/14 CHỈ MỤC VÀ TÌM KIẾM VIDEO Bài 7 PGS.TS. Đặng Văn Đức dvduc@ioit.ac.vn dvduc-2005/1 4Bài 7: Chỉ mục và tìm kiếm video Nội dung Giới thiệu chỉ mục và tìm kiếm video Phân đoạn video Chỉ mục. Chỉ mục và tìm kiếm trên cơ sở các frames đại diện cho nhóm. Tiệm cận này được gọi là tìm kiếm tự động video trên cơ sở shots. Bài này tập trung vào nghiên cứu các kỹ thuật chỉ mục và tìm. thích hợp và phản hồi Off-line On-line 5/35 dvduc-2005/1 4Bài 7: Chỉ mục và tìm kiếm video Các phương pháp chỉ mục video Tính chất cơ bản của dữ liệu video Video giàu thông tin Một video đầy