Thuật toán trích chọn khung hình chính được sử dụng để xây dựng hệ
thống là thuật toán tìm các điểm cong lớn trên đường sai khác tích luỹ đã đề
cập chi tiết trong phần 4.3.3.
Để xây dựng đường sai khác tích luỹ giữa các khung hình trước hết ta tính khoảng cách giữa các khung hình liền nhau dựa vào công thức (4.1). Ở đây ta sử dụng phương pháp so sánh biểu đồ màu trong không gian màu đồng nhất CIELAB do tính đồng nhất, tính đầy đủ và tính duy nhất được đáp ứng [17].
Như đã nói phần 4.3.3, thuật toán trích chọn khung hình chính dựa vào phương pháp tìm các điểm có độ cong lớn trên đường sai khác tích luỹ ảnh hưởng bởi hai tham số: kích thước của của cửa sổ (dmax) và giá trị lớn nhất của góc (αmax). Việc thử nghiệm được thực hiện với kích thước cửa sổ là 3 và góc αmax=176ođó là sự cân bằng giữa độ phức tạp tính toán và số lượng các khung hình chính được lấy ra trong mỗi đoạn video.
Hình 4.4 Giao diện chương trình trích chọn khung hình chính
Thuật toán được chạy thử nghiệm với một số loại video khác nhau, kết quảđược trình bày trong bảng 4.1
Bảng 4.1 Kết quả thử nghiệm trích chọn khung hình chính với một số video STT Loại video Số khung hình Số đoạn Số khung hình chính Số khung hình chính/đoạn Số khung hình/Số khung hình chính Tỷ lệ nén 1 Động vật 1301 4 5 1.25 260.2 99.62% 2 Cánh đồng 750 3 3 1.00 250.0 99.60% 3 Trong nhà 2300 6 6 1.00 383.3 99.74% 4 Đồi núi 1050 3 3 1.00 350.0 99.71% 5 Quay từ máy bay 199 2 2 1.00 99.5 98.99% 6 Nấu ăn 1250 3 23 7.67 54.3 98.16% 7 Dưới đáy biển 300 2 2 1.00 150.0 99.33% 8 Phong cảnh 1750 9 11 1.22 159.1 99.37%
Kết luận chương
Trong chương này chúng ta đã tìm hiểu một số phương pháp trích chọn khung hình chính ứng dụng vào việc tóm tắt và đánh chỉ mục video. Đây là một phần hết sức quan trọng trọng trong việc xây dựng hệ thống tìm kiếm video.
Việc trích chọn khung hình chính tập trung vào giải thuật tìm các điểm có độ cong lớn trên đường sai khác tích luỹ. Tại những điểm có độ cong lớn có những sự thay đổi đáng kể trong video. Khung hình chính được chọn là khung hình nằm chính giữa hai điểm có độ cong lớn liên tiếp.
Từ những cơ sở lý thuyết đó đã xây dựng được chương trình trích trọn khung hình chính thử nghiệm, đánh giá trên một số loại video khác nhau. Chương sau sẽ trình bày cách thức tổng hợp các nghiên cứu trong các chương trước để xây dựng nên hệ thống tìm kiếm video hoàn chỉnh.
CHƯƠNG 5. XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO THEO NỘI DUNG DỰA TRÊN PHƯƠNG PHÁP TÌM KIẾM ẢNH TRONG CÁC KHUNG HÌNH
CHÍNH 5.1 Lựa chọn phương pháp xây dựng
Như đã đề cập trong chương 1, trên thế giới hiện nay có rất nhiều phương pháp tiếp cận trong việc tìm kiếm video theo nội dung. Trong luận văn này người viết đưa ra một phương pháp tìm kiếm video dựa trên việc tìm kiếm ảnh, tuy nhiên không phải tìm kiếm trên mọi khung hình mà chỉ tìm trong các khung hình chính. Điều này làm giảm thời gian tìm kiếm đi rất nhiều lần.
Do vậy hệ thống là sự kết hợp của các lĩnh vực:
• Tìm kiếm ảnh theo nội dung: đề cập trong chương 2 • Phân đoạn video: đề cập trong chương 3
• Trích chọn khung hình chính: đề cập trong chương 4
5.2 Các mô-đun của hệ thống
Sơ đồ khối của hệ thống được trình bày trong hình 5.1. Đầu vào của hệ
thống là các file video từ nhiều nguồn khác nhau. Các video này được phân
đoạn thành các đoạn cơ sở, sau đó trong mỗi đoạn sẽ trích chọn ra một số các khung hình đại diện (key-frame). Các khung hình đại diện này được trích chọn đặc trưng và lưu vào trong cơ sở dữ liệu. Việc tìm kiếm được thực hiện theo hai cách:
• Cách thứ nhất: người sử dụng có thể liệt kê (browsing) các khung hình chính của các đoạn video. Khi quan sát các khung hình chính
người sử dụng có thể hình dung được nội dung của đoạn video chứa khung hình đó là gì và có thể lựa chọn một đoạn video nào đó.
• Cách thứ hai: người sử dụng đưa vào một ảnh và mong muốn tìm các
đoạn video có chứa các khung hình có nội dung gần giống với ảnh
đưa vào truy vấn. Hệ thống sẽ trích chọn đặc trưng của ảnh truy vấn
đó so sánh với các khung hình chính trong cơ sở dữ liệu và trả lại các
đoạn video có chứa các khung hình chính gần giống với ảnh truy vấn nhất.
Hình 5.1 Sơđồ hệ thống tìm kiếm video theo nội dung trong luận văn
5.2.1 Mô-đun phân đoạn video
Việc phân đoạn video đã được để cập chi tiết trong chương 3. Để xây dựng hệ thống này, mô-đun phân đoạn video sử dụng giải thuật “cửa sổ trượt
Video Files Phân đoạn Video Trích chọn keyframe Keyframes Browser Đánh chỉ mục Tìm kiếm bằng ảnh Trích chọn đặc trưng CSDL Keyframe và đoạn So sánh Trích chọn đặc trưng Kết quả: Các đoạn Video
kết hợp với ngưỡng” nhằm tăng độ chính xác trong phân đoạn. Giải thuật không chỉ quan tâm đến sự khác nhau tương đối giữa các khung hình mà còn xét đến sự khác nhau tuyệt đối giữa chúng. Trong đó sử dụng tính khoảng cách giữa các khung hình dựa vào phương pháp so sánh biểu đồ màu trong không gian màu đồng nhất CIELAB với số màu lượng tử hoá là 256 mức. Các tham sốđể xây dựng mô-đun này được lựa chọn theo mục 3.4.3 trong chương 3.
5.2.2 Mô-đun trích chọn khung hình chính
Trong chương 4 đã đề cập chi tiết về việc trích chọn khung hình chính trong video. Để xây dựng hệ thống tìm kiếm video theo nội dung ở đây sử
dụng giải thuật tìm các điểm có độ cong lớn trên đường sai khác tích luỹ để
trích chọn khung hình chính.
Khi xem xét đường sai khác tích luỹ ta có thể biết được sự thay đổi về
nội dung qua các khung hình trong toàn bộđoạn video. Các chỗ dốc lớn chỉ ra rằng có những sự thay đổi đáng kể trong video có thể do: một vật chuyển
động, sự di chuyển của camera. Khung hình chính được chọn là khung hình nằm chính giữa hai điểm có độ cong lớn liên tiếp
Việc xây dựng đường sai khác tích luỹ giữa các khung hình đòi hỏi phải tính toán được sự khác nhau giữa các khung hình liên tiếp. Trong thử nghiệm này việc tính khoảng cách giữa các khung hình sử dụng phương pháp so sánh biểu đồ màu trong không gian màu đồng nhất CIELAB với số màu lượng tử
hoá là 256 mức. Do việc tính sự sai khác giữa các khung hình có phương pháp giống nhau nên có thể sử dụng trực tiếp kết quả tính sự sai khác giữa các khung hình trong phần phân đoạn video mà không cần phải tính lại. Các tham sốđể xây dựng mô-đun này được lựa chọn theo mục 4.4 trong chương 4.
5.2.3 Mô-đun tìm kiếm ảnh theo nội dung
Mô-đun tìm kiếm ảnh theo nội dung được sử dụng để tìm kiếm trong các khung hình chính xem có khung hình nào gần giống với ảnh truy vấn nhất.
Cơ sở lý thuyết xây dựng mô-đun này đã được đề cập chi tiết trong chương 2. Ở đây, việc tìm kiếm dựa vào phương pháp cải tiến là sự kết hợp của hai thuật toán “Entropy-giá trị trung bình” và “So sánh biểu đồ màu”
được đề cập chi tiết trong chương 2 phần 2.6.4.
5.2.4 Mô-đun cơ sở dữ liệu
Việc thiết kế cơ sở dữ liệu nhằm lưu trữ, đánh chỉ mục video, thuận lợi cho việc tìm kiếm video.
Trong cơ sở dữ liệu phải lưu được các đối tượng: • Các file video
• Các đoạn cơ sở
• Các khung hình chính
• Các đặc trưng của các khung hình chính
Do đó cơ sở dữ liệu được thiết kế thành bốn bảng như sau: Bảng VIDEO chứa các thông tin về các file video
Tên trường Kiểu Ý nghĩa
ID Số nguyên Khoá chính
Video_Name Chuỗi Tên của video
Filename Chuỗi Đường dẫn của file video Length Số thực Chiều dài đoạn video Frames_Per_Sec Số thực Số khung hình / giây
Bảng SHOT chứa các thông tin về các đoạn cơ sở
Tên trường Kiểu Ý nghĩa
ID Số nguyên Khoá chính
VideoID Số nguyên ID của video chứa đoạn (khoá ngoại) Begin_Frame Số nguyên Khung hình bắt đầu của đoạn
End_Frame Số nguyên Khung hình kết thúc của đoạn
Bảng KEYFRAME chứa các thông tin về các khung hình chính
Tên trường Kiểu Ý nghĩa
ID Số nguyên Khoá chính
ShotID Số nguyên ID của đoạn cơ sở chứa khung hình chính (khoá ngoại)
Frame_Position Số nguyên Vị trí của khung hình trong video
Filename Chuỗi Để thuận tiện hơn cho việc truy xuất khung hình chính, các khung hình chính sau khi được chọn sẽđược lưu vào máy dưới dạng ảnh. Entropy_Value Số thực Giá trị Entropy của ảnh
Mean_Value Số thực Giá trị trung bình của biểu đồ màu
Bảng HISTOGRAM chứa các thông tin về các đặc trưng của khung hình chính (Ởđây sử dụng đặc trưng biểu đồ màu trong không gian màu CIELAB)
Tên trường Kiểu Ý nghĩa
ID Số nguyên Khoá chính
KeyframeID Số nguyên ID của khung hình chính (khoá ngoại) Bin Số nguyên Bin màu (chỉ số màu)
Về mối quan hệ giữa các bảng trong ảnh, từ nhận xét: Có nhiều file video, mỗi video có nhiều đoạn cơ sở (shot), mỗi đoạn cở sở có nhiều khung hình chính (keyframe), mỗi khung hình chính có nhiều đặc trưng. Do đó ta có mối quan hệ giữa các bảng như sau:
Hình 5.2 Mối quan hệ giữa các bảng trong cơ sở dữ liệu
5.3 Giao diện hệ thống
Các giao diện để phục vụ cho việc xây dựng cơ sở dữ liệu như giao diện phân đoạn video, giao diện trích chọn khung hình chính đã được trình bày trong chương 3 và chương 4. Phần này chỉ giới thiệu giao diện dành cho người sử dụng truy vấn, tìm kiếm video mà NVLV xây dựng.
Hình 5.3 Giao diện cửa sổ tìm kiếm video
Kết luận chương
Từ các lý thuyết và thử nghiệm ở các chương trước, chương này NVLV
đã lựa chọn và tổng hợp thành một hệ thống tìm kiếm video khá hoàn chỉnh. Việc xây dựng hệ thống dựa vào ý tưởng sử dụng phương pháp tìm kiếm
ảnh theo nội dung để tìm kiếm video. Tuy nhiên, không phải tìm kiếm trên toàn bộ các khung hình mà chỉ tìm kiếm trong phạm vi các khung hình chính (do các khung hình gần nhau thường có độ tương quan rất cao với nhau). Do
đó, hệ thống là sự kết hợp của các thành phần: tìm kiếm ảnh theo nội dung, phân đoạn video, trích chọn khung hình chính.
Danh sách các video và các đoạn trong CSDL Liệt kê các khung hình chính Chi tiết về các đoạn (shot) video Cửa sổ kết quả phóng to Lựa chọn
Việc xây dựng phần mềm khá hoàn chỉnh đã cho phép người sử dụng có thể xem nhanh (browsing) các khung hình chính trong video do đó hiểu nhanh
được nội dung của video. Hoặc người sử dụng có thể dùng ảnh để tìm kiếm (searching) trong cơ sở dữ liệu lớn.
KẾT LUẬN
Kết luận
Việc tựđộng hoá trong đánh chỉ mục và tìm kiếm video theo nội dung là một lĩnh vực rất khó và đồ sộ. Đến thời điểm này trên thế giới vẫn chưa có một hệ thống nào có thể coi là công cụ vạn năng đểđánh chỉ mục và tìm kiếm video tựđộng ở mức cao (ngữ nghĩa), các hướng tiếp cận hiện nay chỉ dừng lại trong một lĩnh vực hẹp hoặc là tìm kiếm mức thấp. Trong luận văn này người viết đã phân tích và đánh giá một số phương pháp hiện nay trên thế giới và đã đưa một hướng tiếp cận phù hợp. Đó là sử phương pháp tìm kiếm ảnh theo nội dung để tìm kiếm các khung hình chính và đạt được những kết quả
nhất định. Các vấn đề mà luận văn đã làm được:
1. Nghiên cứu các hệ thống tìm kiếm video theo nội dung trên thế giới. 2. Đưa ra mô hình tìm kiếm video dựa trên cơ chế tìm kiếm ảnh.
3. Nghiên cứu, phát triển một số phương pháp tìm kiếm ảnh theo nội dung ứng dụng trong tìm kiếm video.
4. Nghiên cứu và đưa ra giải thuật cải tiến trong phân đoạn video với độ
chính xác cao.
5. Nghiên cứu kỹ thuật trích chọn khung hình chính trong video. 6. Cài đặt hệ thống và chứng minh tính đúng đắn của các giải thuật.
Đóng góp khoa học của luận văn
1. Đưa ra được một mô hình tìm kiếm video dựa trên cơ chế tìm kiếm
ảnh. Video được phân đoạn thành các đoạn cơ sở, mỗi đoạn cơ sở được đại diện bằng một số khung hình chính. Người sử dụng có thể
tìm kiếm video thông qua việc tìm kiếm trên các khung hình chính dựa vào cơ chế tìm kiếm ảnh.
2. Đưa ra giải thuật tìm kiếm ảnh kết hợp tìm kiếm ảnh sử dụng đặc trưng Entropy-giá trị trung bình và giải thuật so sánh biểu đồ màu tăng nhanh tốc độ tìm kiếm. Entropy là một đặc trưng của ảnh có số
chiều bằng 1, do đó tìm kiếm ảnh dựa trên Entropy có tốc độ tìm kiếm rất cao. Tuy nhiên, đôi khi phương pháp này lại không chính xác. NVLV đưa ra giải pháp kết hợp đặc trưng Entropy và giá trị
trung bình nhằm tăng độ chính xác mà vẫn không giảm tốc độ tìm kiếm. Phương pháp Entropy-giá trị trung bình được thực hiện trước
để thu hẹp không gian tìm kiếm sau đó sẽ dùng phương pháp so sánh biểu đồ màu đểđưa ra kết quả tìm kiếm cuối cùng đến người sử dụng. 3. Đưa ra giải thuật phân đoạn video kết hợp giữa phương pháp cửa sổ
trượt và ngưỡng so sánh để tăng độ chính xác của phân đoạn. Phương pháp cửa sổ trượt xác định chuyển cảnh đột ngột dựa trên sự khác nhau tương đối giữa các khung hình trong cửa sổ truy vấn. Tuy nhiên, có những trường hợp phương pháp này đưa ra kết quả sai ví dụ trong các trường hợp video có đối tượng nhỏ chuyển động nhanh. NVLV
đề xuất thuật toán cải tiến: ngoài việc so sánh tương đối giữa các khung hình còn cần xét đến sự sai khác tuyệt đối giữa nhằm tăng độ
chính xác trong phân đoạn.
Hướng phát triển của đề tài
Như đã trình bày, hệ thống tìm kiếm video được xây dựng trong Luận văn là sự kết hợp của các thành phần: tìm kiếm ảnh, phân đoạn video, trích chọn khung hình chính. Do đó để nâng cao chất lượng của hệ thống cần cải thiện từng thành phần:
1. Tìm kiếm ảnh: Nghiên cứu sử dụng các đặc trưng khác của ảnh như: kết cấu, hình dạng,... Tiếp cận theo hướng tìm kiếm theo các thông tin ngữ nghĩa có trong ảnh.
2. Phân đoạn video:
• Tăng cường độ chính xác trong phân đoạn.
• Phân đoạn được nhiều loại chuyển cảnh khác nhau.
• Tăng cường tốc độ phân đoạn: cải tiến giải thuật, sử dụng trực tiếp video nén.
3. Trích chọn khung hình chính: Cải tiến giải thuật theo hướng trích chọn những khung hình tiêu biểu nhất, đặc biệt tiêu biểu về mặt ngữ
nghĩa.
Tóm lại hướng nghiên cứu tương lai là tập trung vào hướng đưa các thông tin về mặt ngữ nghĩa (đối tượng, sự kiện) vào trong việc đánh chỉ mục và tìm kiếm video.
TÀI LIỆU THAM KHẢO
[1] Milan Petkovic. (2000), Content-based Video Retrieval, (EDBT) PhD Workshop
[2] Hauptmann, A., Jin, R., N. Papernick, D. Ng, Y. Qi, Houghton, RThornton, S. (2001), Video Retrieval with the Informedia Digital Video Library System, Proceedings of the Tenth Text Retrieval Conference (TREC-2001).
[3] Abraham Ittycheriah, Martin Franz, Wei-Jing Zhu, and Adwait Ratnaparkhi. (2000), IBM's statistical question answering system. In 9th Text REtrieval Conference, Gaithersburg.
[4] Mayfield, J., McNamee, P., Costello, C., Piatko, C., and Banerjee. A. (2001), JHU/APL at TREC 2001: Experiments in Filtering and in Arabic, Video and Web retrieval. In TREC 2001 Proceedings.
[5] Kareem Darwish and David S. Doermann and Ryan C. Jones and Douglas W. Oard and Mika Rautiainen. (2001), {TREC}-10 Experiments at University of Maryland {CLIR} and Video.
[6] Mark E. Rorvig, Ki-Tau Jeong, Anup Pachlag, Ramprasad Anusuri, Diane Jenkins, Sara Oyarce. (2001), UNT TRECvid: A Brighton Image Searcher Application.
[7] D. Tegolo. (1994), Shape analysis for image retrieval, Proc. of SPIE, Storage and Retrieval for Image and Video Databases -II, no. 2185,