Các giao diện để phục vụ cho việc xây dựng cơ sở dữ liệu như giao diện phân đoạn video, giao diện trích chọn khung hình chính đã được trình bày trong chương 3 và chương 4. Phần này chỉ giới thiệu giao diện dành cho người sử dụng truy vấn, tìm kiếm video mà NVLV xây dựng.
Hình 5.3 Giao diện cửa sổ tìm kiếm video
Kết luận chương
Từ các lý thuyết và thử nghiệm ở các chương trước, chương này NVLV
đã lựa chọn và tổng hợp thành một hệ thống tìm kiếm video khá hoàn chỉnh. Việc xây dựng hệ thống dựa vào ý tưởng sử dụng phương pháp tìm kiếm
ảnh theo nội dung để tìm kiếm video. Tuy nhiên, không phải tìm kiếm trên toàn bộ các khung hình mà chỉ tìm kiếm trong phạm vi các khung hình chính (do các khung hình gần nhau thường có độ tương quan rất cao với nhau). Do
đó, hệ thống là sự kết hợp của các thành phần: tìm kiếm ảnh theo nội dung, phân đoạn video, trích chọn khung hình chính.
Danh sách các video và các đoạn trong CSDL Liệt kê các khung hình chính Chi tiết về các đoạn (shot) video Cửa sổ kết quả phóng to Lựa chọn
Việc xây dựng phần mềm khá hoàn chỉnh đã cho phép người sử dụng có thể xem nhanh (browsing) các khung hình chính trong video do đó hiểu nhanh
được nội dung của video. Hoặc người sử dụng có thể dùng ảnh để tìm kiếm (searching) trong cơ sở dữ liệu lớn.
KẾT LUẬN
Kết luận
Việc tựđộng hoá trong đánh chỉ mục và tìm kiếm video theo nội dung là một lĩnh vực rất khó và đồ sộ. Đến thời điểm này trên thế giới vẫn chưa có một hệ thống nào có thể coi là công cụ vạn năng đểđánh chỉ mục và tìm kiếm video tựđộng ở mức cao (ngữ nghĩa), các hướng tiếp cận hiện nay chỉ dừng lại trong một lĩnh vực hẹp hoặc là tìm kiếm mức thấp. Trong luận văn này người viết đã phân tích và đánh giá một số phương pháp hiện nay trên thế giới và đã đưa một hướng tiếp cận phù hợp. Đó là sử phương pháp tìm kiếm ảnh theo nội dung để tìm kiếm các khung hình chính và đạt được những kết quả
nhất định. Các vấn đề mà luận văn đã làm được:
1. Nghiên cứu các hệ thống tìm kiếm video theo nội dung trên thế giới. 2. Đưa ra mô hình tìm kiếm video dựa trên cơ chế tìm kiếm ảnh.
3. Nghiên cứu, phát triển một số phương pháp tìm kiếm ảnh theo nội dung ứng dụng trong tìm kiếm video.
4. Nghiên cứu và đưa ra giải thuật cải tiến trong phân đoạn video với độ
chính xác cao.
5. Nghiên cứu kỹ thuật trích chọn khung hình chính trong video. 6. Cài đặt hệ thống và chứng minh tính đúng đắn của các giải thuật.
Đóng góp khoa học của luận văn
1. Đưa ra được một mô hình tìm kiếm video dựa trên cơ chế tìm kiếm
ảnh. Video được phân đoạn thành các đoạn cơ sở, mỗi đoạn cơ sở được đại diện bằng một số khung hình chính. Người sử dụng có thể
tìm kiếm video thông qua việc tìm kiếm trên các khung hình chính dựa vào cơ chế tìm kiếm ảnh.
2. Đưa ra giải thuật tìm kiếm ảnh kết hợp tìm kiếm ảnh sử dụng đặc trưng Entropy-giá trị trung bình và giải thuật so sánh biểu đồ màu tăng nhanh tốc độ tìm kiếm. Entropy là một đặc trưng của ảnh có số
chiều bằng 1, do đó tìm kiếm ảnh dựa trên Entropy có tốc độ tìm kiếm rất cao. Tuy nhiên, đôi khi phương pháp này lại không chính xác. NVLV đưa ra giải pháp kết hợp đặc trưng Entropy và giá trị
trung bình nhằm tăng độ chính xác mà vẫn không giảm tốc độ tìm kiếm. Phương pháp Entropy-giá trị trung bình được thực hiện trước
để thu hẹp không gian tìm kiếm sau đó sẽ dùng phương pháp so sánh biểu đồ màu đểđưa ra kết quả tìm kiếm cuối cùng đến người sử dụng. 3. Đưa ra giải thuật phân đoạn video kết hợp giữa phương pháp cửa sổ
trượt và ngưỡng so sánh để tăng độ chính xác của phân đoạn. Phương pháp cửa sổ trượt xác định chuyển cảnh đột ngột dựa trên sự khác nhau tương đối giữa các khung hình trong cửa sổ truy vấn. Tuy nhiên, có những trường hợp phương pháp này đưa ra kết quả sai ví dụ trong các trường hợp video có đối tượng nhỏ chuyển động nhanh. NVLV
đề xuất thuật toán cải tiến: ngoài việc so sánh tương đối giữa các khung hình còn cần xét đến sự sai khác tuyệt đối giữa nhằm tăng độ
chính xác trong phân đoạn.
Hướng phát triển của đề tài
Như đã trình bày, hệ thống tìm kiếm video được xây dựng trong Luận văn là sự kết hợp của các thành phần: tìm kiếm ảnh, phân đoạn video, trích chọn khung hình chính. Do đó để nâng cao chất lượng của hệ thống cần cải thiện từng thành phần:
1. Tìm kiếm ảnh: Nghiên cứu sử dụng các đặc trưng khác của ảnh như: kết cấu, hình dạng,... Tiếp cận theo hướng tìm kiếm theo các thông tin ngữ nghĩa có trong ảnh.
2. Phân đoạn video:
• Tăng cường độ chính xác trong phân đoạn.
• Phân đoạn được nhiều loại chuyển cảnh khác nhau.
• Tăng cường tốc độ phân đoạn: cải tiến giải thuật, sử dụng trực tiếp video nén.
3. Trích chọn khung hình chính: Cải tiến giải thuật theo hướng trích chọn những khung hình tiêu biểu nhất, đặc biệt tiêu biểu về mặt ngữ
nghĩa.
Tóm lại hướng nghiên cứu tương lai là tập trung vào hướng đưa các thông tin về mặt ngữ nghĩa (đối tượng, sự kiện) vào trong việc đánh chỉ mục và tìm kiếm video.
TÀI LIỆU THAM KHẢO
[1] Milan Petkovic. (2000), Content-based Video Retrieval, (EDBT) PhD Workshop
[2] Hauptmann, A., Jin, R., N. Papernick, D. Ng, Y. Qi, Houghton, RThornton, S. (2001), Video Retrieval with the Informedia Digital Video Library System, Proceedings of the Tenth Text Retrieval Conference (TREC-2001).
[3] Abraham Ittycheriah, Martin Franz, Wei-Jing Zhu, and Adwait Ratnaparkhi. (2000), IBM's statistical question answering system. In 9th Text REtrieval Conference, Gaithersburg.
[4] Mayfield, J., McNamee, P., Costello, C., Piatko, C., and Banerjee. A. (2001), JHU/APL at TREC 2001: Experiments in Filtering and in Arabic, Video and Web retrieval. In TREC 2001 Proceedings.
[5] Kareem Darwish and David S. Doermann and Ryan C. Jones and Douglas W. Oard and Mika Rautiainen. (2001), {TREC}-10 Experiments at University of Maryland {CLIR} and Video.
[6] Mark E. Rorvig, Ki-Tau Jeong, Anup Pachlag, Ramprasad Anusuri, Diane Jenkins, Sara Oyarce. (2001), UNT TRECvid: A Brighton Image Searcher Application.
[7] D. Tegolo. (1994), Shape analysis for image retrieval, Proc. of SPIE, Storage and Retrieval for Image and Video Databases -II, no. 2185, San Jose, CA, pp. 59-69.
[8] T. Chang, and C.C.J. Kuo. (1993), Texture analysis and classification with tree-structured wavelet transform, IEEE Trans. on Image Processing, vol. 2, no. 4, pp. 429-441.
[9] I.Koprinska and S.Carrato. (2001), Temporal Video Segmentation: A Survey, Signal Processing Image Communication, Elsevier Science [10]T. Kikukawa, S. Kawafuchi. (1992), Development of an automatic
summary editing system for the audio-visual resources, Transactions on Electronics and Information J75-A, 204-212, 1992.
[11]A. Nagasaka, Y. Tanaka. (1995), Automatic video indexing and full-video search for object appearances, in Visual Database Systems II (E. Knuth and L.M. Wegner, eds.), pp. 113-127, Elsevier.
[12]R. Kasturi, R. Jain. (1991), Dynamic vision, in Computer Vision: Principles, R. Kasturi and R. Jain, eds.), pp. 469-480, IEEE Computer Society Press, Washington DC.
[13]M. J. Swain. (1993), Interactive indexing into image databases, in: Proc. SPIE Conf. Storage and Retrieval in Image and Video Databases, pp.173-187.
[14]Gianluigi Ciocca, Raimondo Schettini. (2004), Dynamic Key-frame Extraction for Video Summarization, Proceedings of the SPIE, Volume 5670, pp. 137-142
[15]S.M.M Tahaghoghi et al. (2005), Video Cut Detection using Frame Windows, Proceedings of the Twenty-eighth Australasian conference on Computer Science, pp. 193 – 199.
[16]Janko Calic. (2004), Highly Efficient Low-level Feature Extraction for Video Representation And Retrieval, PhD thesis, University of London
[17]John M. Zachary. (2000), An Information Theoretic Approach to Content Based Image Retrieval, PhD thesis, Louisiana State
[18]Shengjiu Wang. (2001), A Robust CBIR Approach Using Local Color Histograms, Technical Report TR 01-13, Department Of Computing Science, University of Alberta, Edmonton, Alberta, Canada
[19]Edgar Chávez, Gonzalo Navarro, Ricardo Baeza-Yates, José Luis Marroquín. (2001), Searching in Metric Spaces, ACM Computing Surveys, Vol. 33, No. 3, pp. 273–321.
[20]F. Long, H. Zhang & D. Feng (2003), Chapter 1 - Fundamental of Content-Based Image Retrieval, pp.1-26, in “Multimedia Information Retrieval and Management – Technological Fundamentals and Applications”, Edited by David Dagan Feng, W. C. Siu & Hongjing Zhang, Springer-Verlag, Germany.
[21]T. Deselaers, D. Keysers, and H. Ney. (2004), Classification error rate for quantitative evaluation of content-based image retrieval systems. In Int. Conf. on Pattern Recognition, Cambridge, UK.
[22]Tonomura Y., Akutsu A., Otsugi K., and Sadakata T. (1993), VideoMAP and VideoSpaceIcon: Tools for automatizing video content. Proc. ACM INTERCHI ’93 Conference, 131-141.
[23]Rui Y., Huang T. S. and Mehrotra S. (1998), Exploring Video Structure Beyond the Shots. Proc. IEEE Int. Conf. on Multimedia Computing and Systems (ICMCS), Texas USA, 237-240
[24]Pentland A., Picard R., Davenport G. and Haase K. (1994), Video and Image Semantics: Advanced Tools for Telecommunications. IEEE MultiMedia; 1(2):73-75
[25]Zhonghua Sun, Fu Ping. (2004), Combination of Color and Object Outline Based Method in Video Segmentation. Proc. SPIE Storage and Retrieval Methods and Applications for Multimedia; 5307:61-69.
[26]Li Zhao, Wei Qi, Stan Z. Li, S.Q.Yang, H.J. Zhang. (2000), Key- frame Extraction and Shot Retrieval Using Nearest Feature Line (NFL). Proc. ACM Int. Workshops on Multimedia Information Retrieval; 217-220.
[27]Hanjalic A., Lagendijk R. L., Biemond J. (1998), A new Method for Key Frame Based Video Content Representation. In: Image Databases and Multimedia Search, World Scientific Singapore.
[28]Hoon S. H., Yoon K., and Kweon I. (2000), A new Technique for Shot Detection and Key Frames Selection in Histogram Space. Proc. 12th Workshop on Image Processing and Image Understanding; 475- 479.
[29]Narasimha R., Savakis A., Rao R. M. and De Queiroz R. (2004), A Neural Network Approach to Key Frame extraction. Proc. of SPIE- IS&T Electronic Imaging Storage and Retrieval Methods and Applications for Multimedia; 5307:439-447.
[30]Chetverikov D. and Szabo Zs. (1999), A Simple and Efficient Algorithm for Detection of High Curvature Points in Planar Curves, Proc. 23rd Workshop of the Austrian Pattern Recognition Group, ;175-184.
[31]A. Nagasaka, Y. Tanaka. (1992), Automatic Video Indexing and Full- Video Search for Object Appearances, Visual Database Systems, vol. II, pp. 113-127
[32]K. Otsuji, Y. Tonomura, and Y. Ohba. (1991), Video browsing using brightness data, in Proc. SPIE-IST VCIP91, vol. 1606, pp. 980-989 [33]A.Akutsu, Y.Tonomura, H.Hashimoto and Y.Ohba. (1992), Video
indexing using motion vectors, Proc. SPIE: Visual Communication and Image Processing '92 1818, pp1522-1530
[34]http://en.wikipedia.org/wiki/Lab_color_space/, không gian màu CIELAB
[35]http://wang.ist.psu.edu/docs/related/ , cơ sở dữ liệu hình ảnh
[36]TREC Video Retrieval Evaluation, website: http://www- nlpir.nist.gov/projects/trecvid/
PHỤ LỤC
Chuyển đổi từ không gian màu RGB sang CIELAB
Việc chuyển đổi từ RGB sang CIELAB phải qua không gian màu trung gian XYZ. Sự chuyển đổi từ RGB sang XYZ được thực hiện bằng một ánh xạ
tuyến tính như sau: ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ B G R Z Y X 0.950227 0.11919 0.019334 0.072169 0.71516 0.212671 0.180423 0.35758 0.412453
Từ XYZ chuyển đổi sang CIELAB
16 116 * 3 1 − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = n Y Y L với >0.008856 n Y Y ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = n Y Y L* 903.3 với n Y Y còn lại ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = n n Y Y f X X f a* 500 ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = n n Z Z f Y Y f b* 200 Trong đó 3 1 ) (t t f = với t>0.008856 116 16 787 . 7 ) (t = t+ f với t còn lại
(Xn, Yn, Zn) là giá trị của (X, Y, Z) tại điểm trắng tham chiếu (reference white point). Trong luận văn sử dụng điểm trắng tham chiếu tại (R, G, B) = (255, 255, 255). Tính được (Xn, Yn, Zn) = (242.366, 255.000, 277.632)
TÓM TẮT LUẬN VĂN
Tiếng Việt:
Sự phát triển của Công nghệ thông tin và Truyền thông đã làm gia tăng nhanh chóng việc lưu trữ, sử dụng, truyền tải một lượng lớn video số. Do đó việc sắp xếp, quản lý, tìm kiếm video càng ngày càng trở nên phức tạp và nặng nhọc. Luận văn này với tên gọi “Nghiên cứu, xây dựng hệ thống tìm kiếm video theo nội dung” (Content-Based Video Retrieval) sẽ tập trung vào việc tự động hoá đánh chỉ mục và tìm kiếm video. Luận văn gồm ba phần chính. Phần một: Tìm kiếm ảnh theo nội dung. Phần này nghiên cứu các vấn
đề đánh chỉ mục và tìm kiếm ảnh, đây là một phần quan trọng của hệ thống tìm kiếm video mà NVLV xây dựng. Phần hai: Phân đoạn video. Phần này tập trung vào việc phân đoạn video theo thời gian thành các đoạn cơ sở, tập trung vào nghiên cứu các giải thuật nhằm tăng cường độ chính xác trong phân đoạn. Phần ba: Trích chọn khung hình chính. Nghiên cứu các giải thuật trích chọn các khung hình đại diện cho đoạn video với mục đích làm giảm khối lượng lưu trữ. Hệ thống tìm kiếm video mà NVLV xây dựng là sự kết hợp của ba thành phần trên, video sau khi được phân đoạn thành các đoạn cơ sở sẽđược trích chọn ra các khung hình đại diện cho các đoạn cơ sở. Người sử dụng có thể xem được tóm tắt đoạn video qua các khung hình đại diện hoặc có thể tìm kiếm đoạn video thông qua phương pháp tìm kiếm ảnh trên các khung hình
đại diện đó.
Từ khoá: Tìm kiếm video theo nội dung, tóm tắt video, phân đoạn video, trích
English:
Information and communication technology are developing very quickly hence storing, using and transfering digital video are increasing quickly too. Therefore video arrangement, management, search become complicated and exhausting. This thesis with name “Content-Based Video Retrieval” will concentrate to automate video indexing and searching. The thesis contains three main parts. Part one: “Content-base image retrieval”. This part research problems in indexing and searching images, it is a important part in thesis writer’s video retrieval system. Part two: “Video segmentation”. This part researchs how to segment video into shots. Proposes some algorithms with high accurate. Part three: “Key-frame extraction”. This part researchs key- frame extraction algorithms in the world and proposes appropriate approachs. Thesis writer’s video retrieval system is combined from these three parts. Video is segmented in to shots, and each shot is presented by some key- frames.Users can browse video by using key-frames or using image retrieval mechanism to search video.
Keywords: Content-Based Video Retrieval, video summarization, shot segmentation, key frames extraction, Content-Based Image Retrieval