Luận văn sử dụng ba tập ảnh chuẩn được sử dụng phổ biến trong CBIR Tập ảnh Wang là tập con của tập Corel được sử dụng trong nhiều nghiên cứu CBIR. Tập dữ liệu này có 1000 ảnh được phân thành mười lớp theo các chủ đề đó là: Biển, Châu Phi, hoa hồng, ngựa, núi, thức ăn, xe buýt, khủng long, lâu đài, voi. Mỗi lớp có 100 ảnh, tất cả các ảnh là ảnh mầu, định dạng .jpg, kích thước mỗi ảnh là 384 pixel x 256 pixel. Đây là một lợi thế lớn của cơ sở dữ liệu này bởi do được phân lớp nên có thể đánh giá kết quả tra cứu một cách dễ dàng. Hình 3.1 minh họa một số ảnh mẫu trong tập dữ liệu này.
Cơ sở dữ liệu này được sử dụng rộng rãi cho kiểm nghiệm các đặc trưng khác nhau bởi vì kích thước của cơ sở dữ liệu và tính khả dụng của thong tin lớp cho phép sự đánh giá hiệu năng.
Tập Oxford Building bao gồm 5062 ảnh độ phân giải cao (1024x768) được lấy ra từ bộ sưu tập Flick. Đây là các địa danh cụ thể của Oxford. Tập ảnh này được chú thích thủ công tạo ra một cơ sở dữ liệu ảnh chuẩn đại diện cho 11 địa danh khác nhau. Mỗi địa danh có 5 truy vấn khác nhau được chọn, các ảnh được gán nhãn một trong bốn khả năng: (1) Good - ảnh đẹp, rõ ràng các đối tượng, tòa nhà; (2) OK – hơn 25% của đối tượng là nhìn thấy được; (3) Junk – ít hơn 25% của đối tượng nhìn thấy hoặc có một mức độ rất cao bị che lấp hoặc méo mó; (4) Absentn – đối tượng không được biểu diễn. Số lần xuất hiện của các địa danh khác nhau trong phạm vi 7 và 220 các ảnh Good và OK.
Tập Caltech 101 bao gồm các ảnh theo 101 chủ đề, mỗi chủ đề có khoảng 40 đến 800 ảnh. Kích thước mỗi ảnh khoảng 300x200 điểm ảnh.
Trong thực nghiệm luận văn trích rút các đặc trưng ảnh theo các đặc trưng màu sắc, kết cấu và hình dạng, toàn bộ gồm sáu đặc trưng mức thấp trong Bảng 3.1. Đây là những đặc trưng rất hay được sử dụng trong các nghiên cứu CBIR.
Bảng 3. 1. Các miêu tả ảnh và hàm khoảng cách sử dụng trong thực nghiệm
Miêu tả Kiểu đặc trưng Số chiều Hàm khoảng cách
Lược đồ HSV Màu 32 L1
Các mô men màu Màu 6 L2
Lược đồ tự tương quan màu
Màu 64 L1
Các phép lọc Gabor Kết cấu 48 L2
Gist Hình dạng 512 L2
Sau khi trích rút đặc trưng, mỗi chiều được chuẩn hóa vào phạm vi [0,1] bằng kĩ thuật chuẩn hóa đặc trưng.