1.1. Mô hình hoạt dộng
Hình 27 là mô hình một hệ thống tra cứu ảnh theo nội dung điển hình, nó gồm có các module cơ bản như sau:
Hình 27 – Mô hình hệ thống tra cứu ảnh
1.1.1. Bộ mô tả nội dung trực quan
Nội dung một ảnh có thể bao gồm cả về mặt ngữ nghĩa và trực quan. Nội dung trực quan có thể mang tính tổng thể hoặc cũng có thể mang tính vùng miền. Phần nội dung trực quan tổng thể bao gồm màu sắc, hình dạng, cấu trúc, quan hệ không gian… Phần nội dung vùng miền thì tuỳ theo ứng dụng độc lập, có thể bao gồm các tri thức miền. Nội dung ngữ nghĩa được mô tả bởi hoặc các cụm từ văn bản ghi chú hoặc cũng có thể bởi các hàm mô tả phức tạp nói nên nội dung trực quan.
Trong hệ tra cứu ảnh theo nội dung, bộ mô tả nội dung trực quan được sử dụng khi lưu trữ ảnh vào cơ sở dữ liệu ảnh của hệ thống và khi đưa một ảnh mới vào tra cứu.
XỬ LÝ TRƯỚC XỬ LÝ TRỰC TUYẾN trích chọn đặc trưng ảnh nguồn các ảnh số sưu tập
Bộ mô tả nội dung trực quan CSDL vector đặc trưng ảnh chỉ số hoá trích chọn đặc trưng ảnh
ảnh số tra cứu Bộ mô tả nội dung
Chức năng của bộ mô tả nội dung trực quan chính là xây dựng nên các vector đặc trưng từ việc trích chọn các đặc tính của ảnh, các đặc tính đó có thể là màu sắc, hình dạng, cấu trúc… tuỳ theo hệ thống cụ thể nào đó. Các đặc tính của ảnh được trích chọn và được mô tả như là các bộ vector đặc trưng theo các phương pháp đã đề cập ở chương trước, giá trị của chúng sẽ được hoặc là lưu vào trong cơ sở dữ liệu hoặc dùng để tính toán tra cứu độ tương tự.
Một bộ mô tả nội dung trực quan tốt phải mang tính bất biến đối với các biến đổi thường thấy trong xử lý ảnh (chẳng hạn như sự bất biến đối với độ sáng chói của cảnh quan). Tuy nhiên phải có sự cân bằng giữa sự bất biến với sự phân biệt đặc tính trực quan, bởi vì một lớp rất rộng của tính bất biến sẽ làm mất đi khả năng phân biệt những điểm khác nhau mang tính cơ bản. Mô tả tính bất biến đã được nghiên cứu rộng rãi trong khoa học máy tính (giống như nhận dạng đối tượng) và đã được ứng dụng cho lĩnh vực tra cứu ảnh. Một bộ mô tả nội dung trực quan có thể hoặc là trên phương diện tổng thể, hoặc là trên phương diện cục bộ. Bộ mô tả tổng thể sử dụng cá đặc tính trực quan cho toàn bộ bức ảnh, trong khi bộ mô tả cục bộ sử dụng các đặc tính trực quan mang tính vùng-miền hay tính đối tượng. Thực hiện việc mô tả cục bộ tức là phân mảnh ảnh hoặc chia ảnh thành các phần nhỏ. Cách đơn giản nhất để chia nhỏ một ảnh là sử dụng phân bảng, đó là cắt bức ảnh thành các mảnh nhỏ bằng nhau về kích cỡ và hình dạng. Một cách phân chia đơn giản thường không sinh ra các vùng có đầy đủ ý nghĩa trực quan nhưng nó là cách thể hiện đặc tính tổng thể của ảnh ở độ phân giải tốt hơn. Một phương pháp tốt hơn để chia nhỏ ảnh là chia thành các vùng đồng nhất tuỳ theo một số tiêu chuẩn dùng trong thuật toán phân đoạn mảnh đã có trong nghiên cứu. Cũng có thể chia ảnh phức tạp hơn bằng cách phân chia ảnh thành các đối tượng hoàn chỉnh hòng thu được các đối tượng mang đầy đủ ý nghĩa và ngữ nghĩa (chẳng hạn như quả bóng, xe ôtô, con ngựa…). Vệc phân chia đối tượng tự động trong một vùng rộng của ảnh cho đến nay vẫn chưa thu được những thành công nào đáng kể.
1.1.2. Bộ so sánh đánh giá độ tƣơng tự
Sau khi đã có vector đặc trưng mô tả ảnh, việc đánh giá so sánh vector đặc trưng của ảnh mẫu cần tra cứu so với vector đặc trưng của ảnh trong cơ sở dữ liệu sẽ được thực hiện bởi bộ so sánh đánh giá độ tương tự. Thực chất bộ so sánh đánh giá độ tương tự hoạt động đúng như chức năng của một hàm đánh giá độ tương tự (tuỳ chọn theo mục đích ứng dụng khác nhau) như đã đề cập trong chương 2, nó có thể là hàm đánh giá qua khoảng cách Euclidean hay khoảng cách Minkowski, khoảng cách Mahalanobis .v.v.
1.2. Giới thiệu một số hệ thống tra cứu ảnh theo nội dung
1.2.1. QBIC
Một trong những hệ thống tra cứu ảnh theo nội dung là hệ QBIC (Query By Image Content – Tra Cứu Ảnh Theo Nội Dung) do IBM phát triển. Hệ QBIC sử dụng 3 đặc tính của ảnh, đó là : histogram màu, môment hình dạng và mô tả cấu trúc dựa trên độ tương phản, độ thô và hướng tính toán cấu trúc. Hệ thống này sử dụng công nghệ cơ sở dữ liệu để quản lý kích cỡ một cơ sở dữ liệu lớn. Hệ thống hoạt động trực tuyến.
1.2.2. Blob World
Một hệ tra cứu ảnh phổ biến khác là hệ Blob World, nó được Trường đại học Berkeley của Canada phát triển. Các đặc trưng của ảnh được trích chọn bằng cách phân đoạn mảnh. Công việc này được thực hiện qua việc sử dụng thuật toán phân cụm kiểu EM, nó phân cụm các điểm ảnh dựa trên màu sắc, cấu trúc và thông tin về vị trí điểm ảnh. Để tra cứu một bức ảnh trên cơ sở dữ liệu, người dùng lựa chọn một vùng trên ảnh và hệ thống sẽ cho kết quả là các bức ảnh có nội dung tương tự vùng ảnh đã cho. Blob World hoạt động trực tuyến.
1.2.3. SIMBA
Một hệ thống rất mạnh trong lĩnh vực này là hệ SIMBA (Search IMage By Appearance – Tìm kiếm Ảnh theo Diện mạo). Hệ thống sử dụng các đặc tính bất biến đối với góc quay và sự chuyển dịch tính toán chính dựa trên màu sắc và cấu trúc. Bằng việc kết hợp các trọng số, người dùng có thể đưa ra độ đo tương tự tuỳ thuộc theo yêu cầu, SIMBA hoạt động trực tuyến.
1.2.4. GIFT
Squire và Muller trình bày một cách tiếp cận lĩnh vực tra cứu ảnh theo nội dung theo kiểu hướng đối tượng, phương pháp này sử dụng tra cứu các thông tin dạng văn bản. Họ đưa ra một không gian nhiều chiều (cỡ 80.000) mô tả các đặc tính nhị phân và một tệp nghịch đảo cho phép truy cập có hiệu quả. Các đặc tính họ sử dụng đó là histogram màu trong không gian HSV và bộ các hệ số Gabor. Việc tính trọng số cho các đặc tính được thực hiện độc lập dựa trên con số các sự kiện xảy ra trong ảnh. Chính tiếp cận này được VIPER (Visual Information Processing for Enhaced Retrieval – Xử lý thông tin Trực quan cho Tra cứu ảnh nâng cao) sử dụng và nó được tổ chức
Finding Tool - Công cụ tìm kiếm ảnh GNU). Do công cụ này được ban hành miễn phí, nó cũng đã được sử dụng trong các viện nghiên cứu và hiện nay còn mở rộng sử dụng trong các hệ tra cứu ảnh trong y học.
1.2.5. CIRES
Hệ CIRES sử dụng cách trích chọn theo histogram màu với 15 bin màu cho đặc trưng về màu và các hàm Gabor cho đặc trưng về cấu trúc. Thêm vào đó cấu trúc của bức ảnh theo hướng các đường chéo và đường ngang cũng được kể đến. Các cấu trúc bổ sung thêm vào ảnh (nhân tạo) sẽ nâng cao hiệu năng cho việc tra cứu. Họ cũng cho thấy rằng nghiên cứu này dẫn đến việc tăng hiệu năng cho các bức ảnh chứa các đối tượng nhân tạo. CIRES cũng hoạt động trực tuyến.
1.2.6. Hệ phân lớp trƣớc
Wang và Li đưa ra một nghiên cứu khác để tăng khả năng tra cứu ảnh. Các tác giả cho rằng việc phân lớp trước sẽ cải thiện được kết quả tra cứu tìm kiếm. Họ đề xuất việc phân lớp các bức ảnh theo chủng loại như đồ hoạ/ảnh, cấu trúc/phi cấu trúc… là những kiểu tương đối dễ phân lớp. Sau khi phân lớp, các bức ảnh của một lớp sẽ thuộc về cùng chủng loại ngữ nghĩa. Trên cơ sở các phân lớp đó, các tính toán tương tự sẽ dựa trên các đặc trưng cơ sở vùng, nó giống như hệ Blob World nhưng các mô tả vùng của các bức ảnh được ghép một cách tự động. Hệ thông này cũng hoạt động trực tuyến.
1.2.7. IRMA
Trong các ứng dụng y học cũng cho thấy một số hệ tra cứu ảnh. Dự án IRMA (Image Retrieval in Medical Applications – Tra cứu ảnh trong các ứng dụng y học) được thực hiện bởi sự hợp tác của các Ban chẩn đoán Xquang, thuộc viện Thông tin Yhọc của trường đại học Công nghệ Aachen (RWTH Aachen). Mục đích của dự án là
để phát triển và bổ xung các phương pháp mức cao vào tra cứu ảnh theo nội dung qua một ứng dụng mẫu dùng cho nghiệp vụ chấn đoán dựa trên các bức ảnh Xquang.