Phương pháp SCRF được mô tả bởi sơ đồ trên
Hình 2.3. Quá trình tra cứu bắt đầu từ việc trích rút đặc trưng của ảnh truy vấn. Các đặc trưng của ảnh cơ sở dữ liệu thường được trích rút và lưu trữ thành tập các véctơ đặc trưng. Sử dụng các đặc trưng này với một độ đo tương tự đặc trưng, sự tương đồng giữa ảnh truy vấn và ảnh cơ sở dữ liệu được so sánh và phân hạng. Tiếp theo, một tập ảnh lân cận với ảnh truy vấn khởi tạo được trả về cho người dùng. Người dùng sẽ chọn những ảnh liên quan tới mong muốn của họ để hình thành lên tập ảnh phản hồi. Thuật toán phân cụm phổ sẽ được áp dụng lên tập ảnh phản hồi để hình thành lên các cụm liên quan ngữ nghĩa. Với mỗi cụm vừa tìm được, phương pháp SCRF sẽ thực hiện tìm đại diện cho mỗi cụm để hình thành truy vấn đa điểm đưa vào thực hiện tra cứu ở lần lặp sau. Quá trình được lặp lại cho đến khi người dùng ngừng phản hồi và phương pháp đưa ra tập kết quả.
2.2.3Phân cụm phổ với phản hồi liên quan
2.2.3.1 Ý tưởng
Tư tưởng chính của phương pháp phân cụm phổ với phản hồi liên quan là thay vì tìm một truy vấn trung tâm cho các mẫu tích cực mà người dùng chọn, phương pháp SCRF sẽ thực hiện phân cụm tập ảnh phản hồi của người dùng. Sau khi có được
Véctơ đặc trưng Tập các véctơ đặc trưng Độ tượng tự Tập kết quả Tập ảnh tra cứu Truy vấn đa điểm Các cụm ngữ nghĩa Tập ảnh phản hồi Tập ảnh download by : skknchat@gmail.com
các cụm ngữ nghĩa đó, SCRF sẽ tìm đại diện cho mỗi cụm. Mỗi đại diện đó được dùng để hình thành lên truy vấn đa điểm ở lần lặp tra cứu tiếp theo. Phương pháp SCRF sẽ tìm các ảnh tương tự với bất kỳ điểm nào hay đại diện nào của truy vấn đa điểm để trả về danh sách ảnh đa dạng nằm rải rác trong toàn bộ không gian đặc trưng.
2.2.3.2 Thuật toán phân cụm tập ảnh phản hồi từ người dùng
Trong tập ảnh lân cận được trả về bởi truy vấn khởi tạo người dùng sẽ chọn n ảnh liên quan. Để khai thác thông tin tương tự giữa các ảnh trong tập ảnh phản hồi chúng ta gọi thuật toán phân cụm sử dụng k véctơ riêng (Clustering Relevant Images Set using Eigenvectors- CRISE) để hình thành lên các các cụm ngữ nghĩa. Mỗi ảnh được chọn để đại diện cho mỗi cụm phải là ảnh mà tương tự nhất với tất cả các ảnh trong cụm. Các đại diện của các cụm sẽ hình thành lên truy vấn đa điểm ở lần lặp tra cứu tiếp theo. Quá trình trên được lặp lại cho đến khi người dùng dừng phản hồi.
Dưới một biểu diễn đồ thị, phân cụm có thể được phát biểu tự nhiên như một bài toán phân hoạch đồ thị. Ở đây, chúng ta sử dụng phương pháp sử dụng k véctơ riêng và tính trực tiếp phân hoạch k-way . So với phương pháp sử dụng một véctơ riêng tại một thời điểm và gọi đệ quy, phương pháp sử dụng k véctơ riêng được chỉ ra là tốt hơn về mặt thực hành. Nói chung, một phương pháp phân hoạch đồ thị cố gắng tổ chức các nút thành các nhóm sao cho độ tương tự trong phạm vi nhóm là cao, và/hoặc độ tương tự giữa các nhóm là thấp. Một đồ thị đã cho G=(V,E) với ma trận affinity A, một cách đơn giản để định lượng giá cho các nút phân hoạch thành hai tập rời nhau C1 và C2 (C1C2 và C1C2V) là tổng có trọng số của các cạnh mà kết nối hai tập.
Đầu tiên, từ n điểm dữ liệu ảnh, phương pháp xây dựng ma trận affinity A
2 2 2 , 0 i j s s ij ii a e i j a (4.3) Ở đây tham số tỉ lệ 2
điều khiển mức độ áp lực aij giảm nhanh thế nào với khoảng cách giữa si và sj. Một giá trị aij giữa hai ảnh là “cao” nếu hai ảnh là rất tương tự.
Xây dựng ma trận đường chéo D trong đó phần tử (i,i) là tổng hàng thứ i của ma trận A. D là một ma trận chéo với Dii j1,...,naij
1 2 k
Tính ma trận Laplace chuẩn hóa : L = D-1/2 A D-1/2
Tìm k véctơ riêng x1,x2,…xk lớn nhất của ma trận L, trong đó x1=(x11, x12, x13, …, x1n), x2=(x21, x22, x23, …, x2n), ….xk=(xk1, xk2, xk3, …, xkn) và xây dựng ma trận X = [x T ,x T ,…,x T ] Є Rn xk
Xây dựng ma trận Y từ X bằng việc chuẩn hóa mỗi dòng của X là chiều dài đơn vị của ma trận Y 1 2 2 ij ij ij j x Y x (4.4)
Mỗi dòng của ma trận Y được xem như là một điểm trong không gian véctơ k chiều. Đến đây, sẽ có n điểm trong không gian Rk, phân cụm (yi)i=1…n trong không gian Rk thành k cụm C1,C2,…,Ck thông qua K-Means. Cuối cùng, gán điểm si tới cụm j nếu và chỉ nếu hàng thứ i của ma trận Y tương ứng với cụm j.
Hình 2.4 mô tả thuật toán phân cụm sử dụng k véctơ riêng CRISE thực hiện việc phân cụm tập các ảnh liên quan mà người dùng chọn thành k cụm.
Thuật toán CRISE Input: - Tập các ảnh S{s , s ,... s }; s1 2 n iR*
- Số cụm k;
Output: k cụm: C C1, 2,...Ck;
Bước 1: Xây dựng ma trận affinity
For i 1 to n do For j 1 to n do If i j aij exp( 2 Else aij0
Bước 2: Xây dựng ma trận đường chéo và ma trận Laplace L
For i 1 to n do 1,..., 1/ 2 1/ 2 ii j n ij d a L D AD
Bước 3 : Tìm k véctơ riêng lớn nhất x x1, ,...,2 xncủa ma trận Laplace
For i 1 to k do
i x Largest_eigen_vector(L) 1T, 2T,..., T k X x x x Bước 4: Xây dựng ma trận Y từ X For i 1 to n do For j 1 to n do 1/2 2 / ij ij k ik y x x 1, 2,... k Y y y y
Bước 5: Phân thành k cụm thông qua K-Means
P For i 1 to n do i i i p y P P p K-Mean(P) Bước 6: Gán các si vào các cụm For i 1 to n do If pi Cj i1,...,k Cj Cjsi Return C C1, 2,...,Ck
Hình 2.4. Thuật toán CRISE [5]
2.2.3.3 Tìm ảnh đại diện cho cụm
Để thực hiện việc tra cứu ảnh hiệu quả, một ảnh đại diện thích hợp phải thu được cho mỗi cụm. Ở đây, một ảnh được chọn là đại diện cho một cụm phải là ảnh mà tương tự nhất với tất cả các ảnh trong cụm. Phát biểu này được minh họa bằng toán học như sau: Với một biểu diễn đồ thị của các ảnh được cho G=(V,E) với ma trận affinity A, cho tập các cụm ảnh là {C1, C2,…, Ck} (tập các cụm này cũng này cũng là một phân hoạch của V, tức là (CiCj và k1
i Ci V ) thì ảnh đại diện của là arg max i i j C j C ajt (4.5) download by : skknchat@gmail.com
Như vậy, với một cụm, ảnh đại diện là ảnh mà có tổng độ tương tự trong phạm vi cụm là cực đại.
2.2.3.4 Khoảng cách từ một ảnh đến truy vấn đa điểm
Khác với các phương pháp tra cứu ảnh khác, phương pháp này sẽ hình thành lên truy vấn đa điểm MQ=(Q1, Q2,.. Qk) từ các đại diện của mỗi cụm. Khi đó, khoảng cách từ một ảnh đến truy vấn đa điểm MQ=(Q1, Q2,.. Qk) là cực tiểu của các khoảng cách có trọng số từ một ảnh đến mỗi Qj trong truy vấn đa điểm và được tính theo công thức :
D DI MQ( i, )minj1...k dist DI Q( i, j) (4.6) Trong công thức (4.6), dist DI Q( i, j)với i=1…, N, j=1…, k là khoảng cách từ một ảnh DIi đến một điểm truy vấnQj trong truy vấn đa điểm MQ.
2.2.3.5 Thuật toán tra cứu ảnh sử dụng phân cụm phổ trong phản hồi liên quan
Hình 2.5 dưới đây mô tả Thuật toán tra cứu ảnh hiệu quả sử dụng phân cụm phổ trong phản hồi, có tên SCRF. Khi người dùng thực hiện truy vấn, phương pháp sẽ sử dụng thuật toán MQMRBR để tra cứu trên tập các ảnh cơ sở dữ liệu DI và cho kết quả là tập các ảnh S. Người dùng thực hiện việc chọn tập các ảnh liên quan E trong tập S thông qua hàm User_Choose_RelevanceImage(), phương pháp sẽ phân cụm tập E này thành k cụm thông qua thuật toán CRIES và tìm đại diện cho k cụm đó thông qua hàm Compute_Representative() và gán cho tập đại diện. Khoảng cách giữa ảnh cơ sở dữ liệu DIi và truy vấn đa điểm MQ được tính theo công thức (4.6). Quá trình này tiếp tục cho đến khi người dùng dừng việc chọn các ảnh liên quan.
Thuật toán tra cứu ảnh hiệu quả sử dụng phân cụm phổ trong phản hồi liên quan Input Tập N ảnh cơ sở dữ liệu DI Ảnh truy vấn Q Output Tập ảnh kết quả S’ download by : skknchat@gmail.com
MQMRBR (DI, Q, S) // thực hiện trên tập ảnh DI với truy vấn Q để cho ra tập kết
quả S
Repeat
E User_Choose_Relevancelmage (S, n) // người dung chọn các ảnh liên
quan từ tập S
C CRIES (E, k)// phân tập ảnh liên quan E thành k cụm
RI Compute_Representative (C, M)
For I 1 to N do For j 1 to k do
Tính disi theo công thức sau: disi = min j = 1…k disij
Sort (DI) // Sắp xếp các ảnh trong tập ảnh cơ sở dữ liệu DI theo thứ tự tăng dần của khoảng cách so với truy vấn đa điểm MQ.
Return S’ // danh sách ảnh có khoảng cách nhỏ nhất với MQ Untill (User dừng phản hồi)
Hình 2.5. Thuật toán SCRF [5]
2.3 Kết luận chương
Nhằm tạo nâng cao hiệu quả tra cứu ảnh, qua tham khảo các tài liệu liên quan (đặc biệt là tài liệu [5]) học viên quyết định áp dụng thuật toán tra cứu ảnh hiệu quả sử dụng phân cụm phổ trong phản hồi liên quan (SCRF) nhằm mục đích nâng cao chất lượng tra cứu ảnh. Thuật toán này nhằm giải quyết hai vấn đề chính đó là: (1) tìm các ảnh liên quan ngữ nghĩa nằm rải rác trong toàn bộ không gian đặc trưng với độ chính xác cao và (2) thời gian tra cứu không tăng theo số phản hồi của người dùng. Để giải quyết được hai vấn đề này, thuật toán đã tận dụng sự đánh giá của người dùng để hình thành tập ảnh liên quan và phân cụm chúng thành các cụm ngữ nghĩa nằm rải rác trong toàn bộ không gian đặc trưng và đại diện của mỗi cụm hình thành lên truy vấn đa điểm. Phương pháp sử dụng một thuật toán phân cụm phổ sử dụng k véctơ riêng (CRISE) có ưu điểm phân cụm các ảnh được kết nối với nhau nhưng không nhất thiết phải nhóm vào trong một đường bao lồi nên thực hiện tốt hơn các thuật toán phân cụm truyền thống. Từ đó có thể tra cứu được các ảnh nằm rải rác trong toàn bộ không gian đặc trưng và nâng cao độ chính xác. Hiệu quả của việc áp dụng thuật
toán sẽ được chứng minh trong việc xây dựng chương trình mô phỏng được trình bày chi tiết trong chương 3 của luận văn.
CHƯƠNG 3
CHƯƠNG TRÌNH THỬ NGHIỆM
Trên cơ sở các kiến thức cơ bản đã được giới thiệu trong chương 1 và chương 2 của luận văn, nội dung chương 3 sẽ đi sâu vào mô tả việc xây dựng chương trình thử nghiệm để đánh giá ảnh hưởng của các phương pháp trích chọn đặc trưng, các phương pháp tính toán độ đo tương tự cũng như hiệu quả khi áp dụng thuật toán SCRF đến chất lượng tra cứu ảnh.
3.1 Thiết kế mô hình thử nghiệm
3.1.1Công cụ
Chương trình ứng dụng được xây dựng trên giao diện GUI của phần mềm Matlab 2019b. Sở dĩ học viên lựa chọn xây dựng phần mềm mô phỏng trên Matlab vì đây là phần mềm chuyên dụng cho tính toán số liệu dưới dạng ma trận và ảnh số cũng là một đối tượng. Ngoài ra, Matlab cũng tích hợp rất nhiều các công cụ hỗ trợ cho xử lý ảnh, phân cụm đồ thị. Các công bố về các phương pháp tra cứu ảnh cũng đa phần sử dụng Matlab nên rất tiện cho việc so sánh và đánh giá hiệu quả của các phương pháp.