Truy vấn ảnh dựa theo ngữ nghĩa có hai cấp độ: ngữ nghĩa cấp thấp dựa trên việc rút trích một số đặc tính logic như “tìm tất cả các hình có tháp Eiffel”; còn ngữ nghĩa cấp cao thì dựa trên các thuộc tính trừu tượng như “tìm các hình có người châu Á đang khiêu vũ”. Phần lớn các kỹ thuật truy vấn ảnh trong CBIR hiện nay đều dựa trên các đặc trưng cơ bản ở mức 1. Đã có một số công trình truy vấn ảnh dựa theo ngữ nghĩa cấp thấp như phương pháp của Ranta và Grimson dùng các mối liên hệ về màu sắc rút ra từ sự
phân giải cấp thấp của ảnh để xây dựng nên các mẫu do người dùng định nghĩa. Còn các công trình nghiên cứu truy vấn ảnh dựa trên các đặc trưng ngữ nghĩa cấp cao rất ít. Hiện tại chỉ có một số công trình đang nghiên cứu để nhận biết ảnh hoàng hôn và bình minh hay là ảnh đó thể hiện thời tiết lạnh hay ấm áp…
Hệ thống truy vấn ảnh dựa vào ngữ nghĩa thường gặp phải vấn đề về rút trích và nhận dạng đặc trưng ngữ nghĩa trong ảnh và độ tương đồng tổng thể giữa các đặc trưng ngữ nghĩa với nhau. Ví dụ ảnh 1 có bóng đèn tròn màu đỏ, ảnh 2 có bóng đèn tròn màu cam, ảnh ba có bóng đèn elíp màu đỏ. Với trường hợp này việc rút trích chính xác các ngữ nghĩa bóng đèn hình gì và màu gì trong mỗi ảnh là không dễ. Hơn nữa, ảnh 1 sẽ giống ảnh 2 hay ảnh 1 giống ảnh 3 cũng là một vấn đề hệ thống cần xử lý. Vì ảnh 1 khác về màu và giống nhau về hình dạng đèn với ảnh 2 nhưng ảnh 1 lại khác về hình dạng đèn và giống về màu với ảnh 3