trung bình kết hợp với phương pháp so sánh biểu đồ màu (ảnh truy vấn bên phải)
2.7 Thử nghiệm, so sánh, đánh giá các phương pháp tìm kiếm ảnh kiếm ảnh
Việc thử nghiệm được tiến hành với 4 phương pháp đã được trình bày trong các phần trước là:
STT Phương pháp Viết tắt
1 So sánh Entropy-giá trị trung bình Entropy-Mean 2 So sánh biểu đồ màu trong không gian màu RGB HistogramRGB
3 So sánh biểu đồ màu trong không gian màu CIELAB
HistogramCIELAB
4 Phương pháp kết hợp “So sánh Entropy-giá trị
trung bình” và “So sánh biểu đồ màu”
Phương pháp “So sánh Entropy-giá trị trung bình” thu hẹp không gian tìm kiếm xuống còn 100 ảnh
2.7.1 Đánh giá trong hệ thống tìm kiếm ảnh
Việc so sánh các hệ thống tìm kiếm ảnh là một công việc cần thiết nhằm xác định xem hệ thống này hay hệ thống kia hoạt động tốt hơn. Do đó, cần phải có những phép đo đủ mạnh độc lập với đánh giá chủ quan của con người. Các phép đo thông dụng nhất trong các hệ thống tìm kiếm ảnh là precision và recall. R R R N N precision= (2.15) R R R N N recall= Trong đó: • NR là tổng sốảnh được lấy ra.
• NR là tổng sốảnh liên quan với ảnh truy vấn trong cơ sở dữ liệu. • R
R
N là sốảnh liên quan được lấy ra.
Precision cho biết tỉ lệ giữa số ảnh tìm đúng ( R R
N ) trong tổng số ảnh lấy ra (NR). Recall cho biết tỉ lệ giữa số ảnh được tìm đúng ( R
R
N ) trong tổng số ảnh liên quan trong cơ sở dữ liệu (NR). Một hệ thống có precision và recall
càng cao thì càng tốt. Tuy nhiên, hai tham số này thường mâu thuẫn nhau,
precision cao thì recall thấp và ngược lại.
Ví dụ: giả sử hệ thống tìm kiếm ảnh có 20 ảnh tất cả, 4 trong số đó có nội dung liên quan để chủ đề t nênNR=4 . Hệ thống sắp xếp các tài liệu liên quan đó theo các vị trí thứ nhất, thứ hai, thứ tư và thứ 15. Do đó, nếu số lượng
ảnh lấy ra là NR =1 thì ảnh đó sẽ có chủ đề liên quan đến t nên R=1
R N . Ta có: 25 . 0 4 1 = = recall , 0.25 1 1= = precision . Nếu sốảnh lấy ra là NR =2 hệ thống sẽ trả
về R =2
R
N ảnh liên quan đến chủđềt. Nên 0.5 4 2 = = recall , 1 2 2 = = precision . Cứ
làm như vậy đến 20 ảnh được lấy ra ta sẽ có 20 cặp giá trị (P,R) và vẽ được
đồ thị P-R như hình 2.25.
Hình 2.25 Biểu đồ precision-recall
Precision và recall là các phép đo thông dụng trong tìm kiếm ảnh, tuy
nhiên khi đứng độc lập chúng lại thiếu thông tin [21]. Người ta thường kết hợp chúng lại trong một biểu đồ gọi là biểu đồ P-R (hình 2.25). Hoặc tính
precision hay recall tại số lượng ảnh lấy ra cụ thể, ví dụ: P(20), P(50) tức là
precision tại 20 hay 50 ảnh được lấy ra. Hoặc tính recall tại precision bằng bao nhiêu và ngược lại, ví dụ: R(P=0.5) tức recall tại precision=0.5.
2.7.2 Cơ sở dữ liệu ảnh thử nghiệm
Cơ sở dữ liệu ảnh được thử nghiệm trong luận văn được lấy từ [35] gồm 1000 ảnh được chia làm 10 loại khác nhau, mỗi loại gồm 100 ảnh. 10 loại ảnh gồm: Châu Phi, bãi biển, phong cảnh, ô tô buýt, khủng long, voi, hoa hồng, ngựa, núi non, món ăn.
2.7.3 So sánh, đánh giá về tốc độ tìm kiếm
Phần mềm được xây dựng vẫn chỉ mang tính demo chưa chú trọng đến tối ưu về tốc độ tìm kiếm. Tuy nhiên, cũng có thể đánh giá, so sánh được tương đối tốc độ tìm kiếm giữa các phương pháp. Việc thử nghiệm được thực hiện trên máy tính CeleronM tốc độ 1.46GHz. Sau đây là thời gian tìm kiếm của các phương pháp với cơ sở dữ liệu ảnh đã nêu ở mục 2.7.2.
Bảng 2.3 Thời gian tìm kiếm ảnh của các phương pháp
Phương pháp Thời gian tìm kiếm (giây)
Entropy-Mean 2,5
HistogramRGB 13,5
HistogramCIELAB 9
Hybrid100 4
Nhận xét: Ta thấy phương pháp Entropy-Mean cho tốc độ tìm kiếm cao nhất, phương pháp HistogramRGB có tốc độ tìm kiếm chậm nhất, còn phương pháp Hybrid100 cho tốc độ tìm kiếm khá nhanh (chỉ lâu hơn phương pháp Entropy- Mean 1,5 giây)
2.7.4 So sánh, đánh giá vềđộ chính xác
Để đánh giá độ chính xác của các phương pháp tìm kiếm ảnh NVLV sử
dụng cơ sở dữ liệu ảnh gồm 1000 ảnh như đã nêu trong phần 2.7.2. Việc thử
nghiệm được tiến hành bằng cách cho lần lượt 1000 ảnh trong cơ sở dữ liệu làm ảnh truy vấn. Với mỗi lần truy vấn xem có bao nhiêu ảnh có nội dung tương tự với ảnh truy vấn. NVLV sử dụng tham sốprecision khi số lượng ảnh lấy ra khác nhau: 10, 20, 50, 100, 200, 500. Sau đó tính precision trung bình của tất cả 1000 ảnh truy vấn đó. Bảng 2.4 liệt kê giá trị trung bình của
precision với các phương pháp khác nhau. Có một chú ý là: với cơ sở dữ liệu
ảnh thử nghiệm này khi số lượng ảnh lấy ra là 100 thì tại đó recall=precision.
Bảng 2.4 Giá trị precision của các phương pháp khi số lượng ảnh lấy ra khác nhau
Sốảnh lấy ra Entropy-Mean HistogramRGB HistogramCIELAB Hybrid100
10 0.562 0.637 0.633 0.645 20 0.499 0.557 0.561 0.571 50 0.428 0.439 0.456 0.462 100 0.370 0.323 0.354 0.370 200 0.261 0.226 0.256 500 0.160 0.143 0.154
Chú ý: Phương pháp “Hybrid100” kết hợp “So sánh Entropy-giá trị trung bình” và “So sánh biểu đồ màu”. Trong đó, phương pháp “So sánh Entropy-
giá trị trung bình” thu hẹp không gian tìm kiếm xuống còn 100 ảnh. Do vậy,
việc tính precision chỉđược thực hiện với số lượng ảnh lấy ra không quá 100. Hình 2.26 biểu diễn giá trị của precision dưới dạng biểu đồ. Có thể đưa ra nhận xét rằng:
• Phương pháp “HistogramCIELAB” và “Hybrid100” cho precision
cao nhất trong hầu hết các trường hợp.
• Khi số lượng ảnh lấy ra nhỏ hơn 100 thì phương pháp “Entropy- Mean” có precision thấp hơn các phương pháp khác.
• Khi số lượng ảnh lấy ra lớn hơn 20 thì phương pháp “HistogramRGB” có độ chính xác kém hơn hai phương pháp “HistogramCIELAB” và “Hybrid100”
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 10 100 1000 Sè l−îng ¶nh lÊy ra Precision Entropy-Mean HistogramCIELAB HistogramRGB Hybrid100
Hình 2.26 Giá trịprecision của các phương pháp khi số lượng ảnh lấy ra khác nhau
Việc đánh giá, so sánh các phương pháp cũng được thực hiện với các loại ảnh truy vấn khác nhau. Bảng 2.5 là thống kê giá trị precision với các 10 loại ảnh truy vấn có trong cơ sở dữ liệu, việc tính precision được thực hiện khi lấy ra 50 ảnh.
Hình 2.27 biểu diễn precision dưới dạng biểu đồ. Có thể đưa ra một số
nhận xét:
• Hai phương pháp Entropy-Mean và Hybrid100 cho kết quả đặc biệt tốt (precision gần bằng 100%) với ảnh “khủng long”. Có thể giải thích là do các ảnh đó chụp khủng long trên nền trắng do vậy màu trắng sẽ là màu chủđạo của ảnh nên giá trị trung bình và Entropy của các ảnh đó rất giống nhau, các ảnh khác rất ít ảnh có được điều đó nên trong hai phương pháp này rất ít ảnh bị nhận sai.
• Tất cả các phương pháp đều làm việc không tốt với ảnh “bãi biển” và “phong cảnh”. Do các ảnh thuộc hai loại này có màu sắc rất khác
nhau và nhiều ảnh có màu giống với các ảnh thuộc loại khác. Do đó, có rất nhiều trường hợp nhận dạng sai.
Bảng 2.5 Giá trị precisionđối với các loại ảnh khác nhau khi lấy ra 50
ảnh
Loại ảnh Entropy-Mean HistogramRGB HistogramCIELAB Hybrid100
Châu Phi 0.347 0.670 0.566 0.494 Bãi biển 0.279 0.220 0.269 0.323 Phong cảnh 0.224 0.259 0.244 0.228 Ô tô buýt 0.298 0.400 0.614 0.357 Khủng long 0.991 0.845 0.760 0.977 Voi 0.382 0.428 0.275 0.442 Hoa hồng 0.551 0.491 0.515 0.568 Ngựa 0.610 0.524 0.611 0.637 Núi 0.283 0.189 0.251 0.280 Món ăn 0.311 0.368 0.455 0.315 Trung bình 0.428 0.439 0.456 0.462 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000
Ch©u Phi B·i biÔn Phong c¶nh
Xe buýt Khñng long
Voi Hoa
hång
Ngùa Nói non Mãn ¨n
Lo¹i ¶nh
Entropy-Mean HistogramCIELAB HistogramRGB Hybrid100
Hình 2.27 Giá trịprecisionđối với các loại ảnh khác nhau khi lấy ra 50
2.7.5 Nhận xét
Qua các thử nghiệm và đánh giá ở trên có thể thấy rằng: phương pháp
kết hợp: “So sánh Entropy-giá trị trung bình” và “So sánh biểu đồ màu”
(Hybrid100) cho kết quả tốt thoả mãn cả về độ chính xác và tốc độ tìm kiếm. Do đó, phương pháp tìm kiếm ảnh áp dụng vào bài toán tìm kiếm video được xây dựng trong luận văn này sẽ được sử dụng là phương pháp “So sánh Entropy-giá trị trung bình” kết hợp với “So sánh biểu đồ màu”
Kết luận chương
Trong chương này chúng ta đã tìm hiểu một số phương pháp tìm kiếm
ảnh hiện nay trên thế giới, các đặc tính của ảnh, các không gian màu sắc, biểu
đồ màu, Entropy của ảnh,... đó là những đặc trưng hết sức quan trọng. Đây là những kiến thức cơ sở để thực hiện công việc xử lý video trong các chương tiếp theo.
Đã xây dựng được phần mềm tìm kiếm ảnh theo nội dung ứng dụng vào việc xây dựng hệ thống tìm kiếm video. Tập trung chủ yếu vào hướng tìm kiếm ảnh dựa trên đặc trưng màu sắc và đặc trưng Entropy. Thử nghiệm các phương pháp, so sánh đánh giá và đưa ra giải thuật kết hợp khá hiệu quả cả về độ chính xác lẫn tốc độ tìm kiếm: “Entropy-giá trị trung bình” và “So sánh biểu đồ màu”.
Chương sau sẽ đề cập vấn đề phân đoạn video theo thời gian, đây là bước đầu tiên trong việc tựđộng hoá đánh chỉ mục và tìm kiếm video.
CHƯƠNG 3. PHÂN ĐOẠN VIDEO
Để thiết kế hệ thống tìm kiếm video số theo nội dung, việc đầu tiên cần giải quyết là phải có phương pháp phân tích dữ liệu video số vốn rất lớn về
kích thước thành các đặc trưng với kích thước bé để tiện lưu trữ và truy tìm. Một trong những bước quan trọng nhất, được gọi là phân đoạn video theo thời gian (temporal video segmentation) hay phát hiện chuyển cảnh (shot
boundaries detection).
3.1 Giới thiệu sơ lược phân đoạn video
3.1.1 Một số khái niệm a. Khung hình a. Khung hình
Một đoạn video gồm nhiều ảnh tĩnh đặt liên tiếp nhau tạo nên chuyển
động trong video. Mỗi ảnh tĩnh đó được gọi là một khung hình (frame). Để đoạn video có thể tạo cảm giác chuyển động, các khung hình phải được quay với tốc độ phù hợp. Vì mắt người chỉ có thể nhận được 24 hình/giây, nên nếu như trong một giây, lần lượt 24 hình hoặc nhiều hơn được phát thì mắt sẽ
không nhận ra được sự rời rạc giữa những khung hình, mà chỉ thấy những cảnh liên tục.
Hình 3.1 Khái niệm về khung hình
Khung hình là đơn vị cơ bản nhất của dữ liệu video. Theo chuẩn của hệ
NTSC thì một giây có 30 khung hình, vậy một phút có 1800 khung hình, một giờ có 60x1800 = 108000 khung hình. Có thể thấy rằng số lượng khung hình cho một đoạn video thường là rất lớn, cần phải có một đơn vị cấp cao hơn cho video số.
b. Đoạn cơ sở
Đoạn cơ sở (shot) là một chuỗi các khung hình liên tiếp nhau theo thời gian mô tả một hành động liên tục, được giới hạn bởi hai chuyển cảnh.
Hình 3.2 Khái niệm vềđoạn cơ sở và chuyển cảnh
Một đoạn video có thể có nhiều đoạn cơ sở, mà cũng có thể chỉ là một
đoạn cơ sở. Những đoạn cơ sở đại diện cho toàn bộ đoạn video, và truy xuất
đến chúng cũng coi như là truy xuất đến chính đoạn video. Tổ chức những
đoạn video ở mức độ đoạn cơ sở là thích hợp nhất cho việc duyệt và truy tìm thông tin dựa vào nội dung.
3.1.2 Một số hình thức chuyển cảnh
Có thể chia ra làm hai loại chuyển cảnh chính:
a. Chuyển cảnh đột ngột (abrupt transition hay cut): Xảy ra chỉ trong một khung hình khi camera dừng và khởi động lại hoặc do cắt cảnh khi biên tập video (hình 3.2).
b. Chuyển cảnh thay đổi dần dần (gradual transitions): Khác với chuyển cảnh đột ngột các khung hình biến đổi không có sựđột biến mà thay đổi dần
Đoạn cơ sở thứ i Đoạn cơ sở thứ i+1 Đoạn cơ sở thứ i+2
dần. Các cảnh thay đổi dần dần thường do các kỹ xảo khi biên tập video làm thay đổi màu, thay đổi về không gian hay phối hợp chúng với nhau. Một số
chuyển cảnh ở loại này như: fade, dissolve, wipe,...
• Fade out/in: Chuyển cảnh được thực hiện bằng cách cho cảnh đầu tiên mờ dần và sau đó cảnh thứ hai rõ dần lên (hình 3.3)
Hình 3.3 Chuyển cảnh dần dần fade
• Dissolve: Chuyển cảnh này được thực hiện bằng cách cảnh thứ nhất mờ dần trong khi cảnh thứ hai rõ dần lên (hình 3.4)
Hình 3.4 Chuyển cảnh dần dần dissolve
• Wipe: được thực hiện bằng cách cảnh đầu tiên bị cuộn dần lại thay thế vào đó là cảnh hai (hình 3.5). Có nhiều hình thức wipe như: cuộn theo đường chéo, cuộn theo trục thẳng đứng, nằm ngang,...
Hình 3.5 Chuyển cảnh dần dần wipe
3.1.3 Các hướng tiếp cận trong phân đoạn video
Trong những năm gần đây, những nghiên cứu về việc phát hiện tự động
đoạn cơ sở đang bùng nổ, những ứng dụng ngày càng nhiều và càng có nhiều thuật toán được công bốđể giải quyết vấn đề phân đoạn cơ sở cho những mức
độ phức tạp khác nhau của dữ liệu thật.
Để phân đoạn video thông thường có hai cách tiếp cận:
• Xử lý trên video nén (thông thường theo chuẩn MPEG). Không yêu cầu phải giải nén mà xử lý trực tiếp trên video nén nên tốc độ xử lý nhanh. Tuy cách tiếp cận này có nhược điểm là thuật toán xử lý phụ
thuộc vào chuẩn nén video, nên khó có thểđưa ra một thuật toán tổng quát cho các loại video nén khác nhau.
• Xử lý trên video không nén. Nếu là video nén phải giải nén rồi mới xử lý. Việc xử lý video được tiến hành trên từng khung hình (frame), coi mỗi khung hình như một ảnh tĩnh. Do đó những kiến thức trong chương 2 như: không gian màu, biểu đồ màu,... là rất quan trọng trong việc xử lý video theo cách tiếp cận này. Trong luận văn này, tập trung chủ yếu vào việc xử lý video không nén do tính tổng quát của nó.
3.2 Một số phương pháp phân đoạn video
Phần lớn các phương pháp phân đoạn video đều có chung ý tưởng chính là trích chọn các đặc trưng của mỗi khung hình trong video, rồi tính toán sự
ngưỡng thì có nghĩa là chuyển cảnh. Vấn đề là sử dụng đặc trưng nào của khung hình và sử dụng như thế nào, từ đó nảy sinh ra nhiều phương pháp, hướng tiếp cận khác nhau.
3.2.1 So sánh điểm ảnh
Việc so sánh điểm ảnh từng cặp tương ứng trong hai khung hình liên tiếp
để đưa ra “khoảng cách” giữa hai khung hình và từ đó cho biết hai khung hình là giống nhau hay khác nhau [10].
Y X y x P y x P i i D X x Y y i i . ) , ( ) , ( ) 1 , ( 1 1 1 ∑∑ = = + − = + với ảnh đen trắng (3.1) Y X c y x P c y x P i i D X x Y y c i i . ) , , ( ) , , ( ) 1 , ( 1 1 1 ∑∑∑ = = + − = + với ảnh màu Trong đó:
• i, i+1 là hai khung hình liên tiếp có kích thước là X × Y.
• Pi(x,y), Pi+1(x,y) là giá trị cường độ của điểm ảnh tại toạđộ (x,y) của khung hình i và i+1.
• c là thành phần màu (ví dụ c∈{R,G,B} )
Một chuyển cảnh đột ngột được xác định giữa hai khung hình i và i+1 nếu D(i,i+1) lớn ngưỡng T nào đó. Nhược điểm chính của phương pháp này không thể phân biệt được sự thay đổi lớn trong phạm vi nhỏ và sự thay đổi nhỏ trong phạm vi rộng. Phương pháp này nhạy cảm với chuyển động của đối tượng và sự di chuyển của camera.