Trong [7] đã đề cập đến cách tiếp cận khác liên kết thông tin không gian vào lƣợc đồ màu, các véctơ gắn kết màu – CCV (Color Coherence Vectors), đƣợc đề xuất mỗi bin lƣợc đồ đƣợc phân thành hai loại, đó là, gắn kết, nếu nó thuộc về một vùng màu đồng nhất lớn, hoặc không gắn kết, nếu nó không thuộc về một vùng màu đồng nhất lớn. Cho i biểu thị số các pixel gắn kết trong bin màu thứ i và i biểu thị số các pixel không gắn kết trong một ảnh. CCV của một ảnh đƣợc định nghĩa bằng véctơ
(1,1 ),(2,2 ),...,(N ,N ) . Lƣu ý rằng
1 1,2 2,...,N N là lƣợc đồ màu của ảnh. Do thông tin không gian thêm vào nó, nó đã đƣợc chỉ ra rằng CCV cung cấp các kết quả tra cứu tốt hơn lƣợc đồ màu, đặc biệt cho các ảnh hoặc có phần lớn màu đồng nhất hoặc có phần lớn các vùng kết cấu. Ngoài ra, với cả biểu diễn lƣợc đồ màu và véctơ gắn kết màu, không
gian màu HSV cung cấp các kết quả tra cứu tốt hơn không gian CIE L*u*v* và CIE L*a*b*.
2.3 Kỹ thuật phân đoạn ảnh sử dụng phân cụm theo màu 2.3.1 Khoảng cách Euclid
𝑑 = (𝑥1 − 𝑦1)2 + (𝑥2 − 𝑦2)2 + … + (𝑥𝑛 − 𝑦𝑛)2
Trong đó 𝑥𝑖, 𝑦𝑖, (𝑖 = 1 , 𝑛 ) là các thuộc tính.
2.3.2 Kỹ thuật phân cụm ảnh
Phân cụm ảnh là một thao tác ở mức thấp trong toàn bộ quá trình xử lý ảnh. Quá trình này thực hiện việc phân vùng ảnh thành các vùng rời rạc và đồng nhất với nhau hay nói cách khác là xác định các biên của các vùng ảnh đó. Các vùng ảnh đồng nhất này thông thƣờng sẽ tƣơng ứng với toàn bộ hay từng phần của các đối tƣợng thật sự bên trong ảnh. Vì thế, trong hầu hết các ứng dụng của lĩnh vực xử lý ảnh, thị giác máy tính, phân cụm ảnh luôn đóng một vai trò cơ bản và thƣờng là bƣớc tiền xử lý đầu tiên trong toàn bộ quá trình trƣớc khi thực hiện các thao tác khác ở mức cao hơn nhƣ nhận dạng đối tƣợng, biểu diễn đối tƣợng, nén ảnh dựa trên đối tƣợng, hay truy vấn ảnh dựa vào nội dung … Vào những thời gian đầu, các phƣơng pháp phân cụm ảnh đƣợc đƣa ra chủ yếu làm việc trên các ảnh mức xám do các hạn chế về phƣơng tiện thu thập và lƣu trữ. Ngày nay, cùng với sự phát triển về các phƣơng tiện thu nhận và biểu diễn ảnh, các ảnh màu đã hầu nhƣ thay thế hoàn toàn các ảnh mức xám trong việc biểu diễn và lƣu trữ thông tin do các ƣu thế vƣợt trội hơn hẳn so với ảnh mức xám. Do đó, các kỹ thuật, thuật giải mới thực hiện việc phân cụm ảnh trên các loại ảnh màu liên tục đƣợc phát triển để đáp ứng các nhu cầu mới. Các thuật giải, kỹ thuật này thƣờng đƣợc phát triển dựa trên nền tảng các thuật giải phân cụm ảnh mức xám đã có sẵn.
Phân cụm ảnh là quá trình chia ảnh thành các vùng không trùng lắp. Mỗi vùng gồm một nhóm pixel liên thông và đồng nhất theo một tiêu chí nào đó. Tiêu chí này phụ thuộc vào mục tiêu của quá trình phân cụm. Ví dụ nhƣ đồng nhất về màu sắc, mức xám, kết cấu, độ sâu của các lớp… Sau khi phân cụm, mỗi pixel chỉ thuộc về một vùng duy nhất.
Bƣớc đầu tiên trong kỹ thuật tra cứu của luận văn nàylà gom cụm ảnh thành các vùng. Trong trƣờng hợp lý tƣởng, các vùng sẽ tƣơng ứng với các đối tƣợng xuất hiện trong ảnh. Với mục tiêu này, ta cần một thuật toán phân đoạn ảnh hiệu quả để sinh ra
các vùng thuần nhất từ ảnh trong một thời gian ngắn. Luận văn nghiên cứu hai thuật toánphân đoạn khác nhau có tên là K-means[11] và kỹ thuật phân cụm đƣợc đề xuất bởi Stehling [10].
K-means là một trong những phƣơng pháp phân cụm phổ biến nhất và dễ dàng thực hiện. Phƣơng pháp khởi tạo ngẫu nhiên giá trị trung bình của K cụm và tính toán sự khác nhau giữa mỗi pixel và trung bình của mỗi cụm. Tính toán này quyết định một pixel cụ thể thuộc về cụm nào. Sau đó các trung bình đƣợc tính toán và quá trình này đƣợc lặp lại. Mặc dù K-means thực hiện tính toán đơn giản và cần ít thời gian, số các cụm thu đƣợc là một tham số đầu vào của thuật toán (điều này là một nhƣợc điểm). Luận văn mong muốn một thuật toán phân cụm tự động mà có thể quyết định số cụm dựa trên nội dung của ảnh. Do đó, K-means không thích hợp cho đòi hỏi của hệ thống. Gần đây, Stehling [10] đã trình bày thuật toán phát triển vùng đƣợc sử dụng cùng với cây mở rộng tối thiểu (minimum spanning tree - MST)gọilà CBC (Color base Clustering). Thuật toán có thể đƣợc mô tả nhƣ sau. Đầu tiên, toàn bộ ảnh đƣợc chuyển thành một đồ thị, các đỉnh của đồ thị là các pixel trong ảnh và các cạnh là cáccặp pixel lân cận bốn. Trọng số của mỗi cạnh là khoảng cách Euclide giữa các màu của các pixel lân cận bốn. Các pixel đƣợc phân cụm sử dụng hai ngƣỡng: màu và cỡ. Tập các pixel liên thông có khoảng cách màu nhỏ hơn ngƣỡng màu tạo nên một vùng. Sau đó, các vùng nhỏ hơn ngƣỡng cỡ đã cho đƣợc xem nhƣ là nhiễu và nhập với vùng lân cận gần nhất có độ tƣơng tự màu lớn nhất. Thuật toán phân cụm này không chỉ tự động mà còntốnít thời gian.Do đó luận vănđã quyết định sử dụng thuật toán phân cụm này để nhận đƣợc các vùng trong ảnh.
Thuật toán phân cụm
Đầu vào: Ảnh A Đầu ra: Các vùng của ảnh A 1. ConvertGraph(A, G); 2. Single-Linkage(G(V, E), d0) 3. For mỗi cặp vùng𝑨𝒊 ∈ 𝑨 If (𝐴𝑖. 𝐶𝑜𝑢𝑛𝑡<size) { 𝐴𝑘 = getNeighbor(𝐴𝑖) Join(𝐴𝑖, 𝐴𝑘) }
Hình2.3: Thuật toán phân cụm.
Trong thuật toán phân cụm ở trên hàm ConvertGraph(A) nhằm xây dựng đồ thị vô hƣớng có trọng số G(V, E), với các pixel của ảnh A là các đỉnh của V và mỗi cặp lân cận 4 láng giềng (p,q) trong I xác định một cạnh của E, các trọng số của cạnh (p,q) là khoảng cách Euclide giữa các màu p và q. Hàm Single-Linkage(G(V, E), d0) có tác dụng phân cụm các pixel sử dụng tham số ngƣỡng khoảng cách màu d0 cho ra một phân hoạch đồ thị. Trong phân hoạch đồ thị này, mỗi phần là một cây, các nút của cây tạo thành vùng các pixel liên thông. Khoảng cách tối thiểu giữa các vùng lớn hơn hoặc bằng d0. Hàm getNeighbor(𝐴𝑖) sẽ trả lại vùng 𝐴𝑘là vùng lân cận có độ tƣơng tự nhất so với vùng 𝐴𝑖có số pixel nhỏ hơn s0. Còn hàm Join(𝐴𝑖, 𝐴𝑘) nhằm nhập vùng 𝐴𝑖 vào vùng 𝐴𝑘
Thuật toán phân cụm ở trên là một biến thể đơn giản và hiệu quả của thuật toán phân cụm phân cấp liên kết đơn single-linkage. Thuật toán single-linkage có thể đƣợc mô tả theo ngôn ngữ và khái niệm của lý thuyết đồ thị[1]. Ta coi các yếu tố dữ liệu mà muốn gom cụm là các nút của đồ thị. Việc sáp nhập của hai cụm (ban đầu là đơn) 𝑨 = {𝑨𝒊} và 𝑩 = {𝑩𝒋} tƣơng ứng với thêm một cạnh giữa các cặp nút gần nhất 𝑨𝒊𝝐 𝑨 và 𝑩𝒋 𝝐 𝑩 . Docác cạnh đƣợc thêm vào luôn luôn ởgiữa cácnút cụm riêng biệt, vì thếđồ thị kết quả không bao giờ có mạch kín.Trong thực tế, đồ thị kết quả là một cây. Nếu quá trình này cứ tiếp tục cho đến khi tất cả các cụm đƣợc liên kết với nhau, có thể chỉ ra rằng đồ thị kết quả là một cây mở rộng tối thiểu [1]. Dựa trên mối quan hệ giữa các thuật toán single-linkage và MST, để tạo ra một thuật toán tƣơng đƣơng với “thuật toán tham lam Kruskal” để tạo ra một MST. Thuật toán đƣợc sử dụng nhƣ là cơ sở để thay thế cho thuật toán single-linkage đã nói ở trên đƣợc mô tả nhƣ trong Hình 2.4.
Thuật toánSingle-Linkage(𝑮(𝑽, 𝑬), 𝒅𝟎 )
Đầu vào: - đồ thị G(V,E)
-ngưỡng khoảng cách d0
Đầu ra:Các vùng của ảnh
1. Formỗi đỉnh𝒗 𝝐 𝑽 doMake-Set(𝒗)
2. Sắp xếp các cạnh E theo chiều tăng dần của trọng số 𝒘
If𝒅 𝑮𝒆𝒕𝑹𝒐𝒐𝒕 𝒖 , 𝑮𝒆𝒕𝑹𝒐𝒐𝒕 𝒗 < 𝒅𝟎Then If𝑮𝒆𝒕𝑹𝒐𝒐𝒕 𝐮 ≠ 𝑮𝒆𝒕𝑹𝒐𝒐𝒕 𝐯 ThenJoin(𝒖, 𝒗)
Else break;
Hình2.4: Thuật toán Single-Linkage.
Trong thuật toán Single-Linkage ở trên, hàm Make-Set(.)nhằm khởi tạo ra một cụm với các nút 𝒗 là tham số truyền vào. Còn hàm GetRoot(.) trả về địnhdanh của các cụm bằng các phần tử thông qua nhƣ một tham số truyền vào. Dòng 1 tạo ra các cụm, mỗi cụm là một nút của đồ thị G, các cạnh trong Eđƣợc sắp xếp theo trọng số của cạnh trong dòng 2. Vòng lặpforở 3 kiểm tra cho mỗi cạnh (𝒖, 𝒗), nếu khoảng cách giữa các cụm của 𝒖 và 𝒗mà nhỏ hơn khoảng cách ngƣỡng 𝒅𝟎(tiêu chí để dừng) thì chứng tỏ các cụm là khác biệt, chúng đƣợc nối kết hợp lại với nhau.
2.3.3 Biểu diễn và trích rút đặc trƣng
Pha tiếp theo là trích rút đặc trƣngmỗivùng trong ảnh, nơi mà các ảnh sau khi đã phân cụm đã đƣợc phân tích và dựa vào đó ta xây dựng đƣợc một véc tơ đặc trƣngcho mỗi vùng. Vị trí không gian, màu đặc trƣng và cỡ của các vùng ảnh đƣợc bao gồm trong véc tơ đặc trƣng.
2.3.3.1 Trích rút màu
Một trong những đặc trƣng hiệu quả nhất trợ giúp trong việc phân biệt một ảnh với ảnh khác là màu. Nhƣ đã đƣợc đề cập ở phần trên, vấn đề với thuật toán phân cụm hay phân đoạn là một tập các tham số nên không thể áp dụng đối với tất cả các ảnh trong cơ sở dữ liệu, đặc biệt khi xét tập ảnh thuần nhất. Vấn đề càng quan trọng nếu một số đối tƣợng có biểu diễn chi tiết hơn các đối tƣợng còn lại. Biểu diễn đặc trƣng màu của từng vùng bởi các giá trị R, G, B tƣơng ứng của từng vùng là các giá trị R, G, B xuất hiện nhiều nhất trong vùng đó.
2.3.3.2 Trích rút các đặc trƣng khác
Ngoài màu, các đặc trƣng khác của vùng trong ảnh cũng đƣợc trích rút. Vị trí không gian của mỗi vùng đƣợc biểu thị bởi trọng tâm của mỗi vùng. Các toạ độ x và y
Cỡ của mỗi vùng là tổng số các pixel trong vùng. Sau đó, cỡ đƣợc chuẩn hoá theo cỡ của ảnh gốc. Cỡ của mỗi vùng i trong ảnh I là một giá trị giữa 0 và 1 đƣợc biểu thị là A(i).
2.4 Độ đo tƣơng tự
Tiếp theo chúng ta so sánh ảnh mẫu truy vấn với các ảnh trong cơ sở dữ liệu, muốn so sánh các ảnh thì phải dựa vào độ đo khoảng cách giữa các đặc trƣng đã trích rút của ảnh mẫu với tập ảnh cơ sở dữ liệu.Độ đo khoảng cách là một trong những mục chính trong quá trình tra cứu ảnh mà quyết định độ chính xác và tốc độ của kỹ thuật tra cứu ảnh.
Trong trƣờng hợp tra cứu sử dụng các vùng của ảnh, quan trọng là để chọn một độ đo tƣơng tự mà mạnh đối với phân cụmcó thể chƣachính xác,và độ đo đồng hành với tƣơng nhận thức của con ngƣời và có thể dễ tính toán. Do các ảnh đƣợc phân rã thành các vùng tƣơng ứng của chúng, sự tƣơng tự giữa hai ảnh trong thực tế là sự tƣơng tự giữa các vùng hợp thành của chúng. Nhƣ đã đề cập trong phần trƣớc, mỗivùng đƣợc biểu diễn bởi vị trí không gian, màu và cỡ. Do đó, để so sánh hai vùng, các đặc trƣng tƣơng ứng của nó sẽ đƣợc so sánh.
Khoảng cách giữa các thành phầnmàu và vị trí không gian của hai vùngi của ảnh
A và j của ảnh B, đƣợc tính toán bằng khoảng cách Euclid giữacác màu, tâm của hai vùng. Điều này đƣợc chỉ ra nhƣ sau:
2 2 )) ( ) ( ( )) ( ) ( ( ) , (i j X i X j Y i Y j DS
Ở đây X(i) và Y(i) là các toạ độ x và y của các tâm vùng.
2 2 2 )) ( ) ( ( )) ( ) ( ( )) ( ) ( ( ) , (i j R i R j G i G j B i B j DC
R(i), G(i), B(i) là các giá trị xuất hiện nhiều nhất trong vùng của các thành phần màu R, G, B.
Áp dụng các công thức đã trình bày ở trên ta đã đo đƣợc khoảng cách giữa vị trí không gian và màu từng vùng của ảnh. Nhƣng để phân biệt sự sai khác giữa các vùng, chúng ta cần một độ đo khoảng cách chung (có thể thu đƣợc bởi việc kết hợp hai khoảng cách này). Khoảng cách giữa hai vùng i và j của các ảnh A và Blà 𝑅𝑑 𝐴, 𝐵, 𝛼 đƣợc định nghĩa bởi:
𝑅𝑑 𝐴, 𝐵, 𝛼 = 𝛼 × 𝐷𝑐 + 1 − 𝛼 × 𝐷𝑆
𝐷𝑐 là khoảng cách màu giữa hai vùng
𝐷𝑠 là khoảng cách vị trí không gian giữa hai vùng
Để đo khoảng cách giữa hai ảnh, đối sánh vùng tích hợp (IRM) đƣợc đề xuất trong [7] đƣợc sử dụng trong hệ thống. Ý tƣởng chính của độ đo IRM là để đối sánh các ảnh hoàn chỉnh. Các khoảng cách vùng giữa tất cả các cặp vùng trong hai ảnh đƣợc tính. Hai vùng tƣơng tự nhất (khoảng cách vùng trong ảnh đƣợc so sánh là tối thiểu) đƣợc đối sánh hoàn chỉnh, nếu các vùng có cùng cỡ, ngƣợc lại đối sánh một phần xuất hiện và phần chƣa đối sánh đƣợc đối sánh với vùng khác. Quá trình này đƣợc lặp cho đến khi tất cả các vùng đƣợc đối sánh hoàn chỉnh. Độ đo IRM tính toán khoảng cách d(A, B,𝛼 ) giữa hai ảnh A với m vùng và B với n vùng đƣợc tính nhƣ sau:
Thuật toán tính khoảng cách giữa hai ảnh A và B
Đầu vào: Các véc tơ đặc trưng vùng của ảnh A và B
Đầu ra: Khoảng cách d(A, B, α )
1. For mỗi cặp vùng 𝑨𝒊 ∈ 𝑨 và 𝑩𝒋 ∈ 𝑩
1.1 𝐴𝑖. 𝑠𝑡𝑎𝑡𝑢𝑠 = 0
1.2 𝐵𝑗. 𝑠𝑡𝑎𝑡𝑢𝑠 = 0
1.3Tính khoảng cách 𝐷𝐴𝑖𝐵𝑗 = 𝑅𝑑 𝐴, 𝐵, 𝛼
2. Sắp xếp tất cả các khoảng cách theo thứ tự tăng dần 3. 𝜷 = 𝟎 4. For tất cả các khoảng cách 𝑫𝑨𝒊𝑩𝒋đã đƣợc sắp xếp do If 𝐴𝑖. 𝑠𝑡𝑎𝑡𝑢𝑠 = 𝐵𝑗. 𝑠𝑡𝑎𝑡𝑢𝑠 = 0 If 𝐴𝑖. 𝑠𝑖𝑧𝑒 < 𝐵𝑗. 𝑠𝑖𝑧𝑒 𝜔 = 𝐴𝑖. 𝑠𝑖𝑧𝑒 𝐵𝑗. 𝑠𝑖𝑧𝑒 = 𝐵𝑗. 𝑠𝑖𝑧𝑒 − 𝐴𝑖. 𝑠𝑖𝑧𝑒 𝐴𝑖. 𝑠𝑡𝑎𝑡𝑢𝑠 = 1 Else 𝜔 = 𝐴𝑖. 𝑠𝑖𝑧𝑒 𝐵𝑗. 𝑠𝑖𝑧𝑒 = 𝐵𝑗. 𝑠𝑖𝑧𝑒 − 𝐴𝑖. 𝑠𝑖𝑧𝑒 𝐵𝑗. 𝑠𝑡𝑎𝑡𝑢𝑠 = 1 If 𝐴𝑖. 𝑠𝑖𝑧𝑒 = 0 then B𝑗. 𝑠𝑡𝑎𝑡𝑢𝑠 = 1
Hình2.5: Thuật toán tính khoảng cách giữa hai ảnh
Quá trình tính toán độ đo IRM đòi hỏi thời gian bậc hai do cần so sánh tất cả các vùng ảnh của ảnh A với tất cả các vùng của ảnh B. Với mỗi ảnh truy vấn, các đặc trƣng vùng đã trích rút đƣợc so sánh với siêu dữ liệu của tất cả các ảnh trong cơ sở dữ liệu sử dụng công thức khoảng cách và sau đó sử dụng độ đo IRM, các độ đo khoảng cách ảnh đƣợc tính. Sau khi thu nhận các độ đo khoảng cách, các ảnh cơ sở dữ liệu đƣợc phân hạng theo thứ tự độ đo khoảng cách tăng dần.
2.5 Kết luận chƣơng 2
Chƣơng này đã trình bày một số kỹ thuật tra cứu và biểu diễn phƣơng pháp tra cứu ảnh dựa vào phân cụm ảnh. Sau đó, tôi đã trình bày kỹ thuật tra cứu ảnh sử dụng đặc trƣng màu, vị trí không gian và cỡ. Kỹ thuật này gồm các bƣớc: phân cụm ảnh thành các vùng, trích rút véc tơ đặc trƣng của mỗi vùng và tính tổng tất cả các khoảng cách của hai ảnh theo mỗi vùng.
𝛽 = 𝛽 + 𝜔 ×𝐷𝐴𝑖𝐵𝑗
Chƣơng 3: ỨNG DỤNG 3.1Giới thiệu bài toán tra cứu ảnh dựa vào nội dung
Trong thực tế, ảnh phong cảnh rất đa dạng và phong phú. Số lƣợng ảnh phong cảnh trên Internet là rất lớn. Khi có một ảnh phong cảnh, ngƣời sử dụng muốn tìm một bộ ảnh phong cảnh tƣơng tự với một ảnh phong cảnh đã biết (ảnh truy vấn). Vấn đề làm thế nào xác định đƣợc một tập các phong cảnh tƣơng tự với một ảnh mà ngƣời sử dụng đã biết là không dễ dàng, ngay cả việc số lƣợng ảnh trong tập ảnh không lớn.
Ngày nay với sự phát triển mạnh mẽ của công nghệ thông tin ngƣời ta đã có thể thu thập đƣợc bộ ảnh lâm nghiệp theo mục đích nào đó. Tuy nhiên khi cơ sở dữ liệu trên Internet có kích cỡ cực lớn thì việc thu thập này trở nên cực kỳ khó khăn. Để giải quyết vấn đề này chúng ta có thể sử dụng công nghệ tra cứu ảnh dựa vào nội dung để tìm ra những ảnh tƣơng tự với ảnh truy vấn nhất. Các kết quả tìm đƣợc sẽ giúp ngƣời sử dụng nhanh chóng thực hiện đƣợc mục tiêu của mình.
Từ những thực tế trên đặt ra một bài toán tra cứu ảnh nhƣ sau: tìm trong một cơ sở dữ liệu ảnh phong cảnh, những ảnh có nội dung (màu sắc, hình dạng) giống với một ảnh phong cảnh đúng nhất, sau đó phân loại theo thứ tự giảm dần của độ tương