3.2 Trích chọn đặc trưng
Các đặc trưng được chia làm hai loại là: các đặc trưng màu và các đặc trưng kết cấu (xem Bảng 3.1).
Mỗi ảnh được sử dụng có thể được biểu biểu diễn tối đa bởi năm đặc trưng trực quan gồm ba đặc trưng màu và hai đặc trưng kết cấu. Trong trường hợp này, các véctơ đặc trưng tương ứng với mỗi kênh là một bảng hai chiều gồm 1000 dòng (mỗi dòng chứa một véctơ đặc trưng của ảnh) và 190 cột (độ dài tổng của một véctơ đặc trưng). Trong thực nghiệm, người sử dụng có thể lựa chọn một hoặc nhiều đặc trưng để từ đó kiểm tra được ảnh hưởng của các đặc trưng ảnh đến chất lượng của tra cứu ảnh.
Bảng 3.1. Các loại đặc trưng
Các loại đặc trưng Tên đặc trưng Độ dài
Loại đặc trưng màu
Lược đồ màu hsvHistogram 32
Tương quan màu color auto correlogram 64
Gắn kết màu colorMoments 6
Loại đặc trưng kết cấu
Biến đổi wavelet waveletTransform 40
gabor Wavelet gaborWavelet 48
3.3 Độ đo tương tự
Khi các đặc trưng của hình ảnh cơ sở dữ liệu đầu vào được tạo thì người dùng có thể đưa ra một hình ảnh dưới dạng truy vấn để lấy các hình ảnh tương tự từ cơ sở dữ liệu. Vectơ đặc trưng của hình ảnh truy vấn được tính toán lại bằng cách sử dụng các chức năng được giải thích ở trên. Đo lường độ tương đồng là một vấn đề quan trọng khác trong CBIR, trong đó hình ảnh truy vấn được so sánh với các ảnh cơ sở dữ liệu khác để tìm sự giống nhau. Để tính toán sự giống nhau giữa hình ảnh truy vấn đầu vào và hình ảnh cơ sở dữ liệu, sự khác biệt giữa vectơ đối tượng hình ảnh truy vấn và vectơ đặc điểm hình ảnh cơ sở dữ liệu được tính bằng cách sử dụng các số liệu khoảng cách khác nhau. Sự khác biệt càng nhỏ thì hai hình ảnh càng giống nhau. Các thước đo khoảng cách được đánh giá để thử nghiệm trong luận văn là khoảng cách Euclidean, khoảng cách City block, khoảng cách Minkowski và khoảng cách Mahalanobis, khoảng cách L1, L2, cosine và Chebyshev.
Khoảng cách Euclide được sử dụng rộng rãi nhất để đo độ tương tự trong tra cứu hình ảnh vì tính khả dụng và hiệu quả của nó. Nó đo khoảng cách giữa hai vectơ bằng cách tính căn bậc hai của tổng các chênh lệch tuyệt đối bình phương theo công thức: 2 1 n E i i i D I D (4.7)
Khoảng cách City block còn được gọi là khoảng cách Manhattan, chỉ thị độ mạnh so với các trường hợp ngoại lệ, được tính là theo công thức:
1 n C i i i D I D (4.8)
Khoảng cách Minkowski có dạng tổng quát được xác định như sau:
1 1 n p M i i i D I D (4.9)
Khoảng cách Mahalanobis được tính theo công thức:
1
h
T M
D x S x (5.0)
Khoảng cách Chebyshev được tính theo công thức:
max
Chebyshev i i
i
D I D (5.1)
Khoảng cách L1 được tính theo công thức:
1 1 1 n i i L i i i I D D I D (5.2)
Khoảng cách L2 được tính theo công thức: 2 2 1 n L i i i D I D (5.3) 3.4 Mô hình truy vấn
Để bắt chước hành vi của con người, luận văn thực hiện mô phỏng phản hồi liên quan trong thử nghiệm. Đầu tiên, truy vấn khởi tạo sẽ được thực hiện để tạo ra kết quả truy vấn. Học viên mô phỏng tương tác người dùng bằng việc chọn n ảnh liên quan từ kết quả tra cứu khởi tạo dựa vào tập tin cậy nền (ground truth). Những ảnh liên quan từ lần lặp phản hồi đầu tiên sẽ được phân thành k cụm và thực hiện tìm đại diện cho k cụm này. Sau đó k đại diện được dùng để xây dựng truy đa điểm phục vụ cho tra cứu tiếp theo. Cuối cùng, những kết quả tra cứu được gộp lại để tạo ra một danh sách kết quả tổng hợp theo chiến lược truy vấn đa điểm tách rời.
Phản hồi liên quan được thực hiện theo chiến lược chọn những ảnh liên quan đầu tiên (dựa vào tập tin cậy nền) trong danh sách kết quả. Trong chiến lược này, trường hợp xấu nhất là không có ảnh liên quan nào ngoài ảnh truy vấn và trường hợp
tốt nhất là có n-1 ảnh liên quan ngoài ảnh truy vấn. Do đó, số lượng ảnh liên quan có thể dao động từ 1 đến n ảnh (bao gồm cả ảnh truy vấn).
Mô hình hệ thống thực hiện quá trình này được thể hiện trên Hình 3.4. Một truy vấn khởi tạo được đưa vào hệ thống, kết quả tương ứng với truy vấn đó được hiển thị cho người dùng. Sau đó, người dùng sẽ phản hồi trên danh sách kết quả tương ứng với truy vấn khởi tạo để hình thành danh sách ảnh phản hồi. Hệ thống sẽ thực hiện phân cụm danh sách ảnh phản hồi và tìm đại diễn cho mỗi cụm. Đại diện của mỗi cụm sẽ xây dựng lên truy vấn đa điểm ở lần lặp truy vấn tiếp theo. Trong phần tính khoảng cách, khoảng cách từ một ảnh trong cơ sở dữ liệu đến truy vấn đa điểm là giá trị cực tiểu của các khoảng cách từ ảnh cơ sở dữ liệu tới một đại diện của truy vấn đa điểm để lấy được các ảnh nằm rải rác trong toàn bộ không gian đặc trưng. Quá trình sẽ dừng lại khi người dùng không tiếp tục phản hồi.
Hình 3.4. Mô hình truy vấn
3.5 Một số kết quả đạt được và đánh giá
3.5.1Tiêu chí đánh giá hiệu năng
Để đánh giá hiệu năng của hệ thống tra cứu, người ta có thể dựa trên các tiêu chí khác nhau. Trong khuôn khổ luận văn, học viên tập trung đánh giá độ chính xác trung bình (tỉ số giữa số các ảnh liên quan với ảnh truy vấn trong tập kết quả trả về trên tổng số các ảnh trả về). Mức ảnh trả về sẽ được lựa chọn lần lượt từ 20, 40, 60, 80 để đánh giá độ chính xác theo các mức khác nhau. Số mức phản hồi cũng được khảo sát từ 1 đến 4. Kích thước cụm k trong thuật toán SCRF cũng lần lượt được thử nghiệm từ 2 đến 6.
3.5.2Đánh giá định tính
Hình 3.5 minh hoạ kết quả tra cứu với ảnh truy vấn 10.jpg trong cơ sở dữ liệu Wang khi chưa có phản hồi từ người dùng với vecto đặc trưng là vec tơ tổng hợp cả đặc trưng màu và đặc trưng kết cấu, độ đo tương tự là độ đo L1. Kết quả cho thấy đã tìm ra một số ảnh tương đồng thuộc nhóm Africa. Tuy nhiên, vẫn còn một số ảnh thuộc khác nhóm khác được đưa ra thay vì thuộc cùng nhóm truy vấn.