ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Đề tài: NGHIÊN CỨU LẤY KEY-FRAME TỰ ĐỘNG DỰA VÀO SỰ SO SÁNH KẾT QUẢ TÁCH BIÊN CỦA ẢNH Mã số: S2017-07-06 BÁO CÁO CHUYÊNĐỀGIỚITHIỆUPHÂNTÍCHVIDEOVÀPHÂNĐOẠNVIDEO Chủ nhiệm đề tài: Đinh Thị Huyền Mai Người thực chuyên đề: Đinh Thị Huyền Mai Lớp: CNTT – K12E Người phối hợp thực hiện: Hoàng Văn Hải Thái Nguyên, tháng năm 2017 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT Giớithiệuphântíchvideo Việc gia tăng sử dụng video kỹ thuật số trực tuyến ngày phổ biến tạo nhu cầu phântích nội dung video tự động Hầu hết nghiên cứu phântích nội dung video liên quan đến tự động phát ranh giới ảnh chụp từ camera Video gì? Video cấu thành từ tập liên tiếp khung hình (frame), gọi ảnh, ghi nhận lại hình ảnh quan sát kiện xảy khoảng thời gian Đểđoạnvideo tạo cảm giác chuyển động, khung hình phải quay với tốc độ phù hợp Vì mắt người nhận 24 hình/giây, nên giây, 24 hình nhiều phát mắt không nhận rời rạc khung hình, mà thấy cảnh liên tục Theo chuẩn hệ NTSC giây có 30 khung hình, phút có 1800 khung hình, có 60x1800 = 108000 khung hình Có thể thấy số lượng khung hình cho đoạnvideo thường lớn, cần phải có đơn vị cấp cao cho video số Có hai dạng tín hiệu video thơng dụng là: tín hiệu (analog) tín hiệu video số (digital) Chúng ta xem xét đến video biểu diễn dạng số bỏ qua phần tín hiệu âm video Mơ hình cấu trúc chuỗi video bao gồm thành phần sau: Frame (khung hình): thành phần chuỗi video Mỗi khung hình tương ứng với ảnh giới thực thời điểm xác định Shot dãy khung hình liên tiếp camera ghi nhận khơng có ngắt qng xảy Shot đơn vị để xây dựng phântích nội dung video Các shot liên tiếp kết hợp lại thành cảnh (scene) dựa nội dung Tất scene tạo thành chuỗi video 2 Hình 1.1 Mơ hình cấu trúc video Các dạng videoVideo tương tự NTSC Video: Đây dạng Video tương tự với 525 dòng khung hình, 30 khung hình giây, qt cách dòng, chia làm hai trường (mỗi trường 262.5 dòng), có 20 dòng dự trữ cho thông tin điều khiển thời điểm bắt đầu trường PAL Video: Dạng Video có 625 dòng khung hình, 25 khung hình giây, quét cách dòng Khung gồm hai trường chẵn lẻ, trường bao gồm 312.5 dòng Video số Một số tiêu chuẩn Video số lấy theo tiêu chuẩn CCIR (Consultative Committee for International Radio) Bảng 1.1 Các tiêu chuẩn video số CCIR CCIR CIF 601525/60 601625/50 NTSC PAL/SECAM Độ phân giải độ chói Độ phân giải màu sắc Lấy mẫu màu Số trường /s Cách quét 3 QCIF 720x480 360x576 352x288 176x144 360x480 360x576 176x144 88x72 4:2:2 60 Cách dòng 4:2:2 50 Cách dòng 4:2:0 30,15,10,7.5 Liên tục 4:2:0 30,15,10,7.5 Liên tục Chuyển cảnh video Một cảnh (scene) định nghĩa tập hợp nhiều ảnh chụp liền tập trung vào đối tượng đối tượng quan tâm Ví dụ, người xuống hành lang vào phòng cảnh, góc quay khác camera hiển thị Ba ảnh cho thấy ba người khác xuống hành lang cảnh đối tượng quan trọng hành lang người Chuyển cảnh chuyển đổi đưa người xem từ shot sang shot khác Hình 1.2 Ví dụ mơ tả chuyển cảnh Có hai loại khác q trình chuyển đổi xảy chuyển cảnh: a Chuyển cảnh đột ngột (abrupt transition), gọi Cut (cắt cứng) Xảy khung hình camera dừng khởi động lại cắt cảnh biên tập video • Cut: Cut (cắt cứng) thay đổi đột ngột từ shot sang cảnh khác, xảy hai khung hình Hình 1.3 Cut b Chuyển cảnh thay đổi (gradual transitions): Khác với chuyển cảnh đột ngột khung hình biến đổi khơng có đột biến mà thay đổi Các cảnh thay đổi thường kỹ xảo biên tập video làm thay đổi màu, thay đổi không gian hay phối hợp chúng với Một số chuyển cảnh loại : Fade, Dissolve (chồng mờ), Wipe Một số loại chuyển tiếp khác hay gọi đường biên shot định nghĩa sau: 4 Fade: thay đổi chậm độ sáng thường dẫn đến bắt đầu với frame màu đen Một fade trình chuyển đổi cảnh ảnh liên tục (fadeout) hình ảnh liên tục cảnh (fadein) Hình 1.4.a Fade in Hình 1.4.b Fade out • Dissolve: Dissolve (chồng mờ) xảy hình ảnh cảnh quay trở nên mờ hình ảnh cảnh quay thứ hai trở nên sáng hơn, với frame trình chuyển đổi hiển thị hình ảnh chồng lên hình ảnh khác Hình 1.5 Dissolve • Wipe: Được thực cách cảnh bị cuộn dần lại thay vào cảnh hai xuất khn mẫu bình thường chẳng hạn đường từ cạnh trái frame Có nhiều hình thức wipe như: cuộn theo đường chéo, cuộn theo trục thẳng đứng, nằm ngang, Hình 1.6 Wipe c Các loại chuyển đổi khác: Có nhiều kỹ thuật hiệu ứng đặc biệt sáng tạo sử dụng hình ảnh chuyển động Đây điểm chung khó phát 5 Nghiên cứu liên quan đến việc phát ranh giới cảnh video dựa ranh giới shot phântích âm Cung cấp cấu trúc cấp cao quan trọng nhận thấy video sưu tập cảnh, ảnh Nghiên cứu đòi hỏi thuật tốn phát biên ranh giới tốt để xác định xác bước chuyển tiếp từ từ Nhiều nhà nghiên cứu làm việc lĩnh vực bày tỏ cần thiết phải so sánh khơng thiên vị kỹ thuật có Giớithiệuphânđoạnvideo (Tách shot) Phânđoạnvideo (tách shot) q trình phântích chia nội dung hình ảnh video thành đơn vị sở gọi shot Tách shot tự động ứng dụng vào bước tiền xử lý cho hệ thống phântích video, phát đoạnvideo trùng lặp để tránh lưu trữ thừa video tiết kiệm khơng gian nhớ Ngồi ra, tách shot tự động dùng việc duyệt, tìm kiếm, sửa chữa video Các yếu tố ảnh hưởng đến kết phânđoạnvideo tính tương quan cao nội dung khung video shot; chuyển động camera đối tượng, thay đổi độ sáng đột ngột; hiệu ứng biên tập… Phát shot Bài toán đặt : video V gồm n shot, tìm vị trí bắt đầu vị trí kết thúc shot Phát shot biết phát biên shot hay phát biến đổi Phát shot tảng cho loại phântíchvideo ứng dụng video cho phép phân chia nhỏ video thành thành phần nó: shot Có nhiều kỹ thuật để tách shot phát cạnh, đường biên, so trùng histogram Việc lấy mẫu chọn gần khung hình video đại diện cho shot, gọi key-frame Key-frame đại diện mơ tả nội dung shot Quá trình phânđoạnvideo tiến hành phân tích, phát chuyển đổi từ shot sang shot khác phát ranh giới shot (đó khác biệt khung liền kề) Hình 1.7 sau mơ tả chuyển đổi shot Hình 1.7 minh họa chuyển đổi shot 6 Trong hình vẽ chuyển đổi shot xảy khung hình thứ thứ Phânđoạnvideo sử dụng việc phân tích, hiểu video, gồm lĩnh vực sau: - Tóm lược video, mục video thu hồi thông tin Biên soạn biên tập video Phát ước lượng chuyển động Video giám sát… Các yếu tố ảnh hưởng đến việc phát phương phát phânđoạn Việc xác định phương pháp phânđoạn thường phụ thuộc vào phạm vi yêu cầu ứng dụng, yếu tố ảnh hưởng đến việc xác định phương pháp phânđoạn là: - Thời gian thực hiện: Nếu phânđoạn phải thực thời gian thực Ví dụ, để kiểm sốt tốc độ điện thoại truyền hình, cần thuật tốn đơn giản hoàn toàn tự động Mặt khác, người ta sử dụng hình thức bán tự động, thuật toán tương tác cho ứng dụng độc lập lập mục video mã hóa video độc lập để có phânđoạn có nhiều ý ngữ nghĩa - Sự xác phân đoạn: Nếu phânđoạn sử dụng để nâng cao hiệu nén điều khiển tỷ suất nén, phânđoạn cần thiết cho việc biên tập biên soạn video dựa đối tượng so sánh, tìm kiếm hình tương tự việc ước lượng đường biên kết thực tế cần phải xác - Tính phức tạp cảnh quay: độ phức tạp nội dung video mơ hình số lượng máy ảnh chuyển động, màu sắc tính đồng chất liệu đối tượng, tương phản đối tượng, tính trơn mịnh chuyển động đối tượng, xuất vào/ra đối tượng Rõ ràng, video phức tạp đòi hỏi thuật tốn phânđoạn tinh vi Ví dụ, ta dễ dàng phát cắt cảnh phát chuyển cảnh theo kiểu wipe fade Có thể thấy rằng, để phát chuyển cảnh, phần lớn kỹ thuật tính tốn sai khung hình, nội dung đề tài tập trung nghiên cứu kỹ thuật trừ ảnh việc áp dụng kỹ thuật trừ ảnh vào phát chuyển cảnh video Một số hướng tiếp cận phânđoạnvideo Trong năm gần đây, nghiên cứu việc phát tự động đoạn sở bùng nổ, ứng dụng ngày nhiều có nhiều thuật tốn cơng bố để giải vấn đềphânđoạn sở cho mức độ phức tạp khác liệu thật Đểphânđoạnvideo thơng thường có hai cách tiếp cận: • Xử lý video nén (thông thường theo chuẩn MPEG) Không yêu cầu phải giải nén mà xử lý trực tiếp video nén nên tốc độ xử lý nhanh Tuy cách tiếp cận có nhược điểm thuật toán xử lý phụ thuộc vào chuẩn nén video, nên khó đưa thuật tốn tổng quát cho loại video nén khác • Xử lý video không nén Nếu video nén phải giải nén xử lý Việc xử lý video tiến hành khung hình (frame), coi khung ảnh tĩnh 8 ... Cách quét 3 QCIF 720x480 360x576 352x288 17 6x144 360x480 360x576 17 6x144 88x72 4:2:2 60 Cách dòng 4:2:2 50 Cách dòng 4:2:0 30 ,15 ,10 ,7.5 Liên tục 4:2:0 30 ,15 ,10 ,7.5 Liên tục Chuyển cảnh video Một... bao gồm 312 .5 dòng Video số Một số tiêu chuẩn Video số lấy theo tiêu chuẩn CCIR (Consultative Committee for International Radio) Bảng 1. 1 Các tiêu chuẩn video số CCIR CCIR CIF 6 015 25/60 6 016 25/50... khung hình, mà thấy cảnh liên tục Theo chuẩn hệ NTSC giây có 30 khung hình, phút có 18 00 khung hình, có 60x1800 = 10 8000 khung hình Có thể thấy số lượng khung hình cho đoạn video thường lớn, cần