Hệ thống truy vấn ảnh dựa vào ngữ nghĩa thường gặp phải vấn đề về rút trích và nhận dạng đặc trưng ngữ nghĩa trong ảnh và độ tương đồng tổng thể giữa các đặc trưng ngữ nghĩa với nhau. Ví dụ ảnh 1 có bóng đèn tròn màu đỏ, ảnh 2 có bóng đèn tròn màu cam, ảnh ba có bóng đèn elíp màu đỏ. Với trường hợp này việc rút trích chính xác các ngữ nghĩa bóng đèn hình gì và màu gì trong mỗi ảnh là không dễ. Hơn nữa, ảnh 1 sẽ giống ảnh 2 hay ảnh 1 giống ảnh 3 cũng là một vấn đề hệ thống cần xử lý. Vì ảnh 1 khác về màu và giống nhau về hình dạng đèn với ảnh 2 nhưng ảnh 1 lại khác về hình dạng đèn và giống về màu với ảnh 3.
Phương pháp truy vấn ảnh dựa trên các đặc trưng cơ bản đã chứng minh được phần nào hiệu quả của nó qua các hệ thống CBIR mức 1 đang được triển khai QBIC, VisualSeek, BlobWorld,… với hiệu quả truy vấn tương đối. Nhưng mỗi một cách lựa chọ n đặc trưng cơ bản nào dùng để truy vấn thường cũng chỉ tối ưu trong một số loại ảnh này mà không tốt trong loại ảnh khácNgoài ra, các hệ thống đánh chỉ mục cho dữ liệu văn bản thông thường không thể áp dụng cho việc xây dựng chỉ mục cho
CSDL ảnh. Áp dụng hệ thống chỉ mục cho dữ liệu nhiều chiều R*-tree, TV-tree và SS+- tree vào đánh chỉ mục cho CSDL ảnh cũng có những hạn chế nhất định về chi phí tính toán. Vì vậy để triển khai một hệ thống truy vấn ảnh hoàn thiện trong thực tế cần xây dựng hệ thống chỉ mục nhiều thích hợp.