Lý tưởng thì, khoảng cách frame-to-frame được sử dụng để tách shot cần phải có phân bổ như sau. Chúng phải gần bằng 0, với biến đổi rất nhỏ trong shot và phải lớn đáng kể giữa các shot. Với sắp xếp (distribution) này, sẽ không có nhầm lẫn tách shot. Tuy nhiên, khoảng cách frame-to-frame của video thường không có kiểu phân bổ này vì các chuyển động của đối tượng và máy quay và các thay đổi khác giữa các frame. Để tăng hiệu năng tách shot, bộ lọc được đề suất sử dụng để loại bỏ hiệu ứng chuyển động đối tượng và máy quay sao cho phân bổ khoảng cách frame-to-frame gần với phân bổ lý tưởng.
Trong khi phần lớn kỹ thuật tách shot là trực tiếp trên cơ sở màu và lược đồ cường độ, một phương pháp tách shot trên cơ sở tách cạnh được đề suất. Trong phương pháp này, tách cạnh được thực hiện trên từng frame ảnh. Sau khi chuẩn hóa, số phần trăm các cạnh vào và ra giữa hai frame được tính toán. Các biên shot được tìm ra khi số phần trăm vượt qua ngưỡng cho trước. Dissolve và fade được nhận biết bằng quan sát các giá trị tương đối của phần trăm cạnh vào và ra. Phương pháp này chính xác hơn các phương pháp trên cơ sở biểu đồ màu và độ chói.
Các máy quay hiện đại có khả năng ghi nhận vị trí, thời gian hay hướng vào tín hiệu video. Các thông tin bổ sung này cũng được sử dụng vào việc phân đoạn và hiểu video.
CHƢƠNG III. CHƢƠNG TRÌNH THỬ NGHIỆM 3.1. Dữ liệu video thử nghiệm
Đầu vào:
- Một file video
Đầu ra:
- Kết quả trả về là các file video đã tách lia.
3.2. Phân tích, lựa chọn công cụ
Nhằm kiểm chứng kỹ thuật đề xuất trong chương 2, chúng tôi đã tiến hành cài đặt chương trình demo thao tác tách lia video. Chương trình được phát triển trên môi trường Visual studio 2013.
Chúng tôi sử dụng kỹ thuật so sánh biểu đồ màu, kết hợp với kỹ thuật thay đổi bước nhảy nhằm tăng tốc độ tính toán của chương trình. Dữ liệu kiểm tra được lấy từ một số video tự xây dựng.
3.3. Một số kết quả thực hiện chƣơng trình
Các chức năng chính của chương trình:
Mở video để thực hiện phát hiện chuyển cảnh.
+ Lựa chọn chức năng “Chọn file” để chọn video.
+ Lựa chọn chức năng “Chọn thiết bị” để chọn thiết bị phát video. + Quan sát quá trình phát hiện chuyển cảnh.
+ Lưu kết quả ra các file
Dưới đây là giao diện của chương trình:
Hình 3.2 Giao diện chọn file
Hình 3.4 Giao diện tách lia video dựa trên kỹ thuật phát hiện chuyển cảnh
3.4 Ứng dụng
3.4.1 Chỉ mục và truy tìm video
Chỉ mục và truy tìm trên cơ sở các frame r(r – representative frames) của shot video: Cách chung nhất tạo ra chỉ mục shot là sử dụng các frame đại diện để biểu diễn shot. Frame r nắm bắt (captures) nội dung chính của shot. Các đặc trưng của frame này được trích chọn và chỉ mục trên cơ sở màu, hình dạng hoặc/và texture như truy tìm ảnh. Khi truy tìm, các câu truy vấn được so sánh với chỉ mục và véc tơ đặc trưng của frame này. Nếu frame này tương tự hay liên quan đến câu truy vấn, nó sẽ được hiển thị cho người sử dụng. Nếu người sử dụng thấy frame này có liên quan thì có thể trình chiếu shot mà nó đại diện. Vậy, việc lựa chọn frame đại diện là rất quan trọng vì nó được sử dụng làm chỉ mục hay chỉ thị cho toàn bộ shot.
Chỉ mục và truy tìm video trên cơ sở thông tin chuyển động phương pháp chỉ mục và truy tìm trên cơ sở frame r coi video như tập hợp các ảnh tĩnh và bỏ qua thời gian hay thông tin chuyển động chứa trong video. Để bổ sung vào tiệm cận trên cơ sở frame, phương pháp chỉ mục và truy tìm video trên cơ sở thông tin chuyển động được đề xuất. Các thông tin chuyển động được xác định cho mỗi frame r. Do vậy, các frame r được chỉ mục trên cơ sở nội dung ảnh và thông tin chuyển động. Thông tin chuyển động được suy diễn như sau: một số cặp cố định các đoạn ảnh hay cửa sổ được quyết định cho mọi frame.
Chỉ mục và truy vấn video trên cơ sở đối tượng trong ảnh tĩnh, phân đoạn và nhận biết đối tượng thường là khó khăn. Nhưng trong video, đối tượng dịch chuyển trọn vẹn, do đó ta có thể nhóm các pixel mà nó cùng chuyển động vào một đối tượng. Phân đoạn đối tượng có thể khá chính xác nhờ ý tưởng này. Các đối tượng phân đoạn này có thể được sử dụng để chỉ mục video. Nếu ta theo dõi (track) chuyển động đối tượng, thì có thể xây dựng mô tả chuyển động này để sử dụng vào truy tìm shot video. Nó cũng có giá trị giúp nhận biết đối tượng một khi nó được trích chọn. Ngay cả khi không có các kỹ thuật cao để nhận biết, ta có thể xây dựng biểu tượng từ đối tượng được trích chọn để làm tín hiệu (cue) chỉ mục trực quan có ý nghĩa.
Chỉ mục và truy tìm video trên cơ sở metadata: metadata có sẵn trong một vài khuôn dạng video chuẩn. Chỉ mục và truy tìm video có thể thực hiện trên metadata này bằng DBMS. Thí dụ PSI (program specific information) của hệ thống MPEG-2 định nghĩa 4 bảng chứa các thông tin cần thiết để phân kênh và trình diễn chương trình qua transport stream. Các thông tin khác bao gồm bản quyền, ngôn ngữ có thể tìm thấy trong bảng ánh xạ chương trình.Chuẩn châu Âu về truyền thông dịch vụ số có tên Phát chương trình video số (DVD – Digital Video Broadcasting) hiện được sử dụng trong nhiều nước. Nó sử dụng MPEG-2 để nén và truyền tải video. Chuẩn DVD còn được bổ sung metadata trong bảng thông tin dịch vụ (DVD-SI) để nhận biết các dịch vụ và sự kiện. DVD-SI được tổ chức thành 6 bảng. Bảng mô tả dịch vụ và bảng thông tin sự kiện có hữu ích nhất với chỉ mục video. Các bảng này chứa tiêu đề, loại video và đạo diễn phim.
Chỉ mục và truy tìm video trên cơ sở mô tả (annotation): Video có thể chỉ mục và truy tìm trên cơ sở mô tả nhờ kỹ thuật IR như đã nói trong các chương trước. Mô tả rất quan trọng vì nó thu thập nội dung video ở mức cao. Mô tả có được nhờ thực hiện theo một trong ba cách sau:
Diễn dải và mô tả video một cách thủ công. Là công việc mất nhiều thời gian, nhưng vẫn còn sử dụng nhiều vì hiện nay chưa có thể tự động hiểu nội dung video ở mức cao. Do vậy người ta đang cố gắng đơn giản hóa tiến trình mô tả thủ công. Hai khía cạnh công việc được thực hiện: Cung cấp khung công việc cho nhập thủ công và sử dụng tri thức lĩnh vực để bán tự động mô tả video.
sử dụng trực tiếp cho chỉ mục và truy tìm video.
Nếu không có phụ đề, áp dụng nhận dạng tiếng nói cho rãnh tiếng để tách các từ nói, nó có thể được sử dụng làm chỉ mục và truy tìm. Tiệm cận này còn nhiều thách thức bởi vì vì tiếng nói và không tiếng nói còn trộn trong rãnh tiếng, nhạc nền và nhiễu trong tín hiệu tiếng nói làm giảm chất lượng nhận dạng.
3.4.2 Duyệt video
Một trong các phương pháp hiệu quả nhất khi xác định video có liên quan hay không và định vị đoạn video liên quan là duyệt. Các thao tác video truyền thống (trình chiếu, tiến, lùi) được sử dụng để duyệt thường tốn kém thời gian. Đại diện video cho phép người sử dụng xem nhanh nội dung chính video mà không cần đi theo trình tự.
3.4.3 Làm giảm thiểu yêu cầu băng thông và độ trễ
CSDL video (hay server) được nhiều người sử dụng truy cập từ xa thông qua kết nối mạng. Trước khi download hay trình chiếu video, họ thường xác định video nào cần trình chiếu hay download nhờ duyệt. Trình diễn cô đọng video không chỉ cho phép duyệt nhanh mà còn làm giảm băng thông và độ trễ mạng bởi vì trình diễn cô đọng thường nhỏ hơn nhiều lần so với chính video, thậm chí so sánh ngay với cả video nén.
PHẦN KẾT LUẬN
Video ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực đời sống khoa học – xã hội. Các tài liệu video kỹ thuật số ngày nay chiếm một số lượng lớn trong dữ liệu đa phương tiện có sẵn. Để quản lý hiệu quả các tài liệu video này, chúng cần phải được lập chỉ mục. Các phương pháp lập chỉ mục cổ điển dựa trên văn bản là không đủ để cung cấp một mô tả đầy đủ, do đó, một hình thức mới của lập chỉ mục là cần thiết cho chuỗi video. Trong đó tách lia video là một trong những bước đầu tiên cần thiết trong một hệ thống quản lý hiệu quả dữ liệu video. Hơn nữa, việc tách video kỹ thuật số thành các đơn vị nhỏ hơn cũng rất quan trọng trong các lĩnh vực khác như nén MPEG.
Qua thời gian thực hiện đề tài, luận văn đã nghiên cứu và hoàn thành được mục đích và các nội dung nghiên cứu đề ra, cụ thể với các nội dung chính như sau:
Trình bày một cách tổng quan vể video và tách lia video.
Trình bày về các kỹ thuật tách lia video từ đó đưa ra được những nhận xét ,đánh giá và so sánh.
Xây dựng được chương trình thử nghiệm.
Kết quả đạt đƣợc: Nắm vững về lý thuyết về video, cấu trúc, một số kỹ thuật tách video.Xây dựng được phần mềm mô phỏng.
Hƣớng phát triển: Tiếp tục xây dựng CSDL video và các chỉ mục, video rút gọn giúp cho việc tìm kiếm video theo một số điều kiện được nhanh và thuận tiện.
TÀI LIỆU THAM KHẢO
[1] PGS.TS Đặng Văn Đức, Bài giảng môn CSDL đa phương tiện dành cho học viên cao học, 2014.
[2] Lương Xuân Cương, Đỗ Trung Tuấn (2006), “Thuật toán cho phép nâng cao khả năng phân đoạn dữ liệu video”, Tạp chí khoa học ĐHQGHN,
KHTN&CN T.XXII Số 3,2006
[3] Koumousis, V. Fotopoulos, A. N. Skodras (2012), A NEW APPROACH
TO GRADUAL VIDEO TRANSITION DETECTION, Informatics
(PCI),Panhellenic Conference on.
[4] Hattarge A.M, Bandgar P.A, Patil V. M, A Survey on Shot Boundary
Detection Algorithms and techniques, February 2013.
[5] Rainer Lienhart,Comparison of Automatic Shot Boundary Detection
Algorithms, Microcomputer Research Labs, Intel Corporation, Santa Clara, CA
95052-8819. .
[6] Swati D. Bendale, Bijal.J.Talati, Analysis of Popular Video Shot Boundary
Detection Techniques in Uncompressed Domain,International Journal of
Computer Applications (0975 – 8887) Volume 60– No.3, December 2012. [7] Timo Volkmer, S.M.M. Tahaghoghi, Hugh E. Williams, James A. Thom,
The Moving Query Window for Shot Boundary Detection at trec-12, School of Computer Science and Information Technology RMIT University, GPO Box 2476V Melbourne,Australia, 3001
[8] S.M.M. Tahaghoghi ,James A. Thom, Hugh E. Williams, Shot boundary
detection using the moving query window, School of Computer Science and Information Technology, RMIT University, GPO Box 2476V,Melbourne, Australia, 3001.
[9] Jordi Mas and Gabriel Fernandez ,VIDEO SHOT BOUNDARY
DETECTION BASED ON COLOR HISTOGRAM, Digital Television Center
(CeTVD),La Salle School of Engineering,Ramon Llull University.
[10] Ali Amiri (2011), VIDEO SHOT BOUNDARY DETECTION USING GENERALIZED EIGENVALUE DECOMPOSITION AND GAUSSIAN TRANSITION DETECTION, Computer Engineering Group, Engineering Department Zanjan University, Zanjan, Iran, Vol. 30.
[11] Mr. Padalkar milind Gajanan (2010) , HISTOGRAM BASED EFFICIENT
[12] Jyrpi Korki – Anttila, (2002), Automatic colorenhancement and sence
change detection of digitalvideo. Dept of Automation and Systems,
Lab ofMedia Technology, Hensiki University ofTechnology.
[13] Yi-Chun Liao, Chun-Hong Huang( 2009), Automatic Video Segmentation
and Story-Based Authoring in E-Learning. Journal of software, vol. 4, no. 2,
April 2009
[14] Grainne Gormley (1999), Scene Break Detectionand Classification of
Digital Video Sequences Usingthe Method of Edge Detection. School
of ComputerApplication, Dublin city University.
[15] Jianlin Zhao, Zeju Wu, Jundong Chen, Jing Wang, (2009). Video
Object Segmentation of Still Background. Proceedings of the 2009
International Workshop on Information Security and Application (IWISA 2009).