MỞ ĐẦU Tra cứu ảnh dựa theo nội dung là kỹ thuật cho phép trích chọn các đặc điểm dựa vào nội dung trực quan của ảnh như màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức CSDL ảnh. Tuy nhiên, khi CSDL ảnh lớn thì phương pháp tìm kiếm ảnh tuần tự sẽ tốn rất nhiều thời gian. Để tăng tốc hệ thống tra cứu ảnh dựa vào nội dung, cần có một số kỹ thuật tra cứu ảnh nhanh. Đề t ài Phương pháp tra cứu ảnh dựa vào phân cụm ảnh và ứng dụng vào bài toán tra cứu ảnh phong cảnh trình bày ứng dụng thuật toán phân cụm có thứ bậc (Agglomerative Hierarchical Clustering) vào bài toán tra cứu ảnh dựa vào nội dung sử dụng đặc trưng màu với mục đích phân tập ảnh trong CSDL thành các cụm ảnh có màu sắc tương tự nhau, khi tiến hành tra cứu hệ thống chỉ phải so sánh ảnh truy vấn với cụm ảnh tương tự nhất mà không phải so sánh trên toàn bộ ảnh trong CSDL. Luận văn được bố cục thành 3 chương: Chương 1: Giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung, kỹ thuật đánh chỉ số ảnh, một số hạn chế của các phương pháp tra cứu ảnh và nội dung nghiên cứu của đề tài. Chương 2: Trình bày kỹ thuật phân cụm có thứ bậc (Agglomerative Hierarchical Clustering AHC) áp dụng cho bài toán tra cứu ảnh dựa vào nội dung sử dụng đặc trưng màu sắc. Chương 3: Trình bày thiết kế và xây dựng hệ thống thực nghiệm tra cứu ảnh ứng dụng kỹ thuật phân cụm có thứ bậc (AHC) vào bài toán tra cứu ảnh phong cảnh. Cuối cùng chúng tôi đưa ra một số kết luận và đề xuất các hướng nghiên cứu.
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TẬP ĐOÀN BƯU CHÍNH VIỄN THÔNG VIỆT NAM
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
NGUYỄN QUỲNH ANH
PHƯƠNG PHÁP TRA CỨU ẢNH DỰA VÀO PHÂN CỤM ẢNH
VÀ ỨNG DỤNG VÀO BÀI TOÁN TRA CỨU
Trang 2Luận văn được hoàn thành tại:
Học viện Công nghệ Bưu chính Viễn thông Tập đoàn Bưu chính Viễn thông Việt Nam
Người hướng dẫn khoa học:
Pgs.Ts Ngô Quốc Tạo
Phản biện 1: ………
………
Phản biện 2: ………
………
Luận văn sẽ được bảo vệ trước hội đồng chấm luận văn tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm
Trang 3MỞ ĐẦU
Tra cứu ảnh dựa theo nội dung là kỹ thuật cho phép trích chọn các đặc điểm dựa vào nội dung trực quan của ảnh như màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức CSDL ảnh Tuy nhiên, khi CSDL ảnh lớn thì phương pháp tìm kiếm ảnh tuần tự sẽ tốn rất nhiều thời gian Để tăng tốc hệ thống
tra cứu ảnh dựa vào nội dung, cần có một số kỹ thuật tra cứu ảnh nhanh Đề tài "Phương
pháp tra cứu ảnh dựa vào phân cụm ảnh và ứng dụng vào bài toán tra cứu ảnh phong cảnh " trình bày ứng dụng thuật toán phân cụm có thứ bậc (Agglomerative Hierarchical
Clustering) vào bài toán tra cứu ảnh dựa vào nội dung sử dụng đặc trưng màu với mục đích phân tập ảnh trong CSDL thành các cụm ảnh có màu sắc tương tự nhau, khi tiến hành tra cứu hệ thống chỉ phải so sánh ảnh truy vấn với cụm ảnh tương tự nhất mà không
phải so sánh trên toàn bộ ảnh trong CSDL
Luận văn được bố cục thành 3 chương:
Chương 1: Giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung, kỹ thuật đánh chỉ số
ảnh, một số hạn chế của các phương pháp tra cứu ảnh và nội dung nghiên cứu của đề tài
Chương 2: Trình bày kỹ thuật phân cụm có thứ bậc (Agglomerative Hierarchical
Clustering -AHC) áp dụng cho bài toán tra cứu ảnh dựa vào nội dung sử dụng đặc trưng màu sắc
Chương 3: Trình bày thiết kế và xây dựng hệ thống thực nghiệm tra cứu ảnh ứng dụng
kỹ thuật phân cụm có thứ bậc (AHC) vào bài toán tra cứu ảnh phong cảnh
Cuối cùng chúng tôi đưa ra một số kết luận và đề xuất các hướng nghiên cứu
Chương 1
Trang 4TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG
1.1 GIỚI THIỆU TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG
1.1.1 Giới thiệu chung
Sự phát triển mạnh mẽ của công nghệ ảnh số làm số lượng ảnh lưu trữ trên web tăng lên một cách nhanh chóng Để tìm kiếm bức ảnh theo mong muốn là rất khó khăn Các kỹ thuật tra cứu ảnh được thực hiện chủ yếu theo hai hướng: kỹ thuật dựa vào văn bản mô tả ảnh, kỹ thuật dựa vào nội dung ảnh
Kỹ thuật tra cứu ảnh dựa vào văn bản đó là sử dụng các từ khóa để mô tả nội dung ảnh,
kỹ thuật này có các hạn chế sau:
- Sử dụng tập từ khoá mô tả ảnh rất lớn và phức tạp
- Cần nguồn nhân lực xây dựng các từ khoá đối với mỗi ảnh
- Việc mô tả phụ thuộc vào cảm nhận chủ quan của người xây dựng
Kỹ thuật tra cứu ảnh dựa vào nội dung là sử dụng kỹ thuật trích rút đặc trưng thị giác một cách tự động để cho ra các mô tả nội dung ảnh một cách trực tiếp từ chính bản thân ảnh Kỹ thuật tra cứu này đã khắc phục được các khó khăn ở trên
Hiện nay trên thị trường có nhiều các hệ thống tìm kiếm ảnh theo nội dung đã ra đời như: Google Image Swirl, Tiltomo, Byo Image Search
1.1.2 Đặc trưng thị giác trong tra cứu ảnh dựa vào nội dung
Các đặc trưng ảnh bao gồm:
Đặc trưng màu: là tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng
các điểm ảnh của ảnh mà chứa các giá trị đặc biệt
Đặc trưng kết cấu: Kết cấu là tập các điểm trong một vùng thỏa mãn ràng buộc hay
qui luật nào đó Các phương pháp biểu diễn kết cấu có thể được chia thành hai loại: các phương pháp cấu trúc và các phương pháp thống kê
Đặc trưng hình dạng: Các đặc trưng hình dạng có quan hệ chặt chẽ với mô tả vùng
hoặc các đối tượng được phân đoạn Đặc trưng hình dạng được trích rút từ các đường bao đối tượng hoặc vùng chứa đối tượng
1.1.3 Kiến trúc của hệ thống tra cứu ảnh dựa vào nội dung
Kiến trúc chung của hệ thống tra cứu ảnh gồm 2 phần:
Trang 5Phần 1 : Tạo lập CSDL ảnh cùng với thông tin đặc trưng
Phần 2 : Tra cứu ảnh
Hình 1.2: Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung
1.1.4 Giới thiệu một số hệ thống tra cứu ảnh
Dựa trên các nghiên cứu về tra cứu ảnh dựa vào nội dung ảnh, một số hệ thống tra cứu ảnh đã được đưa vào sử dụng thương mại như: QBIC, RetrievalWare, VisualSEEk và WebSeek, Google Image Swirl, Tiltomo, Byo Image Search…vv
1.2 KỸ THUẬT ĐÁNH CHỈ SỐ ẢNH
Mô hình được hoạt động như sau (xem hình 1.6):
Bước 1: Chuyển đổi các đối tượng trong tập ảnh thành các vector đặc trưng
Bước 2: Đo khoảng cách hoặc đo độ tương tự giữa hai vector đặc trưng của hai ảnh bất
kỳ
Bước 3: Đánh chỉ số cho các vector đặc trưng tạo thành lược đồ
Bước 4: Thực hiện truy vấn ảnh dựa trên lược đồ đánh chỉ số
Trang 6Hình 1.6: Mô hình truy vần sử dụng kỹ thuật đánh chỉ số trong
các ứng dụng đa phương tiện
1.2.1 Kỹ thuật đánh chỉ số nhiều chiều
Kỹ thuật đánh chỉ số trong tra cứu ảnh dựa vào nội dung hay trong khai phá dữ liệu đa phương tiện chính là việc gán một mô tả phù hợp cho dữ liệu để có thể phát hiện ra nội dung thông tin của dữ liệu Mô tả của dữ liệu được trích chọn dựa trên các đặc trưng của
dữ liệu Mô tả nội dung này được tổ chức thành các cấu trúc truy cập phù hợp giúp cho tra cứu được thuận lợi Chúng tôi giới thiệu hai phương pháp đánh chỉ số:
- Sử dụng các cấu trúc cây không gian
- Sử dụng các thuật toán phân cụm
Phương pháp đánh chỉ số sử dụng các cấu trúc không gian thực hiện gồm các bước sau:
- Giảm chiều của các vector đặc trưng
- Tìm kiếm cấu trúc dữ liệu hiệu quả để đánh chỉ số
- Tìm các độ đo tương tự phù hợp
Phương pháp sử dụng các kỹ thuật phân cụm để đánh chỉ số là thực hiện nhóm các cụm
dữ liệu tương tự nhau Đây cũng là phương pháp được này áp dụng và trình bày trong luận văn
1.2.2 Một số cấu trúc cây đánh chỉ số nhiều chiều
Các cấu trúc đánh chỉ số có thứ bậc được chia làm 2 loại:
- Các cấu trúc đánh chỉ số dựa trên phân chia không gian thực hiện phân chia đệ quy toàn bộ không gian dữ liệu thành các vùng không gian con Các cấu trúc này bao gồm các cây: Hybrid-tree, kd-tree, KDB-tree, LSD-tree
Trang 7- Các cấu trúc đánh chỉ số dựa trên phân chia dữ liệu bao gồm các vùng bao được hình thành dựa trên các cụm dữ liệu gồm các cấu trúc sau: R-tree,R*-tree, X-tree, SS-tree, SR-tree
1.3 MỘT SỐ HẠN CHẾ CỦA CÁC PHƯƠNG PHÁP TRA CỨU ẢNH
Các hệ thống tra cứu ảnh hiện nay thường trích chọn các đặc trưng của ảnh truy vấn và
so sánh với các đặc trưng tương ứng của tất cả các ảnh được lưu trữ trong CSDL Vì vậy thời gian tìm kiếm tăng tuyến tính với kích thước của cơ sở dữ liệu
Các kỹ thuật tìm kiếm nhanh khác cũng đã được nhiều nhà nghiên cứu đề xuất như: kỹ thuật tìm kiếm nhanh được Barros và các đồng nghiệp sử dụng bất đẳng thức tam giác để giảm thời gian tìm kiếm Chen và các đồng nghiệp đề xuất kỹ thuật lượng hóa vector và
sử dụng bất đẳng thức tam giác.Cả hai kỹ thuật này đều yêu cầu độ đo tương tự được sử dụng để so sánh hai ảnh phải thỏa mãn bất đẳng thức tam giác Tuy nhiên hạn chế là không phải tất cả độ đo tương tự đều thỏa mãn được bất đẳng thức tam giác Các kỹ thuật đánh chỉ số sử dụng cấu trúc cây R-Tree, R*- Tree, SR-Tree, SS-Tree, Kdb-Tree được trình bày ở trên tuy nhiên nhược điểm của các phương pháp này là không thực hiện tốt khi số chiều của các vector đặc trưng lớn
Để khắc phục nhược điểm trên chúng tôi trình bày phương pháp tạo ra một lược đồ được đánh chỉ số bằng cách nhóm các ảnh tương tự nhau theo nội dung của ảnh
1.4 NỘI DUNG NGHIÊN CỨU CỦA ĐỀ TÀI
Nội dung nghiên cứu của đề tài là áp dụng phương pháp phân cụm có thứ bậc Agglomerative Hierarchical clustering (AHC) cho bài toán tra cứu ảnh theo nội dung sử dụng đặc trưng màu Mục đích của phương pháp là nhóm các ảnh có nội dung về màu sắc tương tự nhau thành các cụm và thực hiện tính các tâm cụm Khi tra cứu ảnh thì chỉ cần
tìm kiếm ảnh tương tự trong một cụm ảnh và không phải tìm kiếm trong toàn bộ CSDL 1.5 KẾT LUẬN CHƯƠNG 1
Trong chương này, chúng tôi đã trình bày tổng quan về tra cứu ảnh dựa vào nội dung, trình bày các kỹ thuật đánh chỉ số ảnh Nghiên cứu, tìm hiểu đưa ra một số hạn chế trong các phương pháp, các công trình liên quan tới tra cứu ảnh nhanh qua đó trình bày nội dung nghiên cứu của luận văn
Trang 8CHƯƠNG 2
KỸ THUẬT PHÂN CỤM ẢNH CÓ THỨ BẬC ÁP DỤNG CHO TRA CỨU ẢNH
DỰA VÀO NỘI DUNG
2.1 CÁC KHÁI NIỆM TRONG KỸ THUẬT TRA CỨU ẢNH THEO ĐẶC TRƯNG MÀU
2.1.1 Đặc trưng màu: Đặc trưng màu là một trong những thành phần quan trọng giúp
mắt người nhận dạng ảnh Là thành phần cơ bản của nội dung ảnh Nó cung cấp một lượng thông tin lớn cho việc phân loại ảnh Đặc trưng màu được sử dụng rất hiệu quả cho tra cứu các ảnh màu trong CSDL ảnh Các mô tả màu được trích rút và so sánh tương đối
thuận lợi và do đó nó thích hợp cho tra cứu dựa vào đặc trưng thị giác
2.1.2 Lượng hóa màu: Lượng hoá màu là quá trình giảm số các màu được sử dụng để
biểu diễn một ảnh Một lược đồ lượng hoá được xác định bởi không gian màu và phân
đoạn của không gian màu
2.1.3 Các không gian màu: Không gian màu là một mô hình đại diện cho màu về mặt giá
trị độ sáng Một không gian màu xác định bao nhiêu thông tin màu được thể hiện Nó định nghĩa không gian 1, 2, 3 hoặc 4 chiều mà mỗi chiều của nó gọi là một thành phần đại diện cho những giá trị độ sáng Mô hình không gian màu có thể được phân biệt như hướng phần cứng và hướng người dùng Các không gian màu hướng phần cứng dựa trên
l ý thuyết ba màu bao gồm: RGB, CMY và YQI Các không gian màu hướng người dùng dựa trên ba tri giác màu của con người là độ bão hòa, độ sáng và đặc trưng màu bao gồm:
HLS, HCV, HSV, HSB, MTM, CIE-LAB và CIE- LUV
2.1.4 Lược đồ màu: Lược đồ màu là công cụ hiệu quả trong việc mô tả phân bố màu toàn
cục của ảnh Nó được xác định bằng một tập các bin, trong đó mỗi bin biểu thị xác suất
của các pixel của một màu trong ảnh
Trang 92.1.5 Kỹ thuật tra cứu ảnh dựa vào đặc trưng màu: Hai kỹ thuật được sử dụng trong tra cứu ảnh dựa trên màu sắc đó là lược đồ màu toàn cục và biểu đồ màu cục bộ
2.1.6 Độ đo tương tự giữa các lược đồ màu: Tra cứu ảnh theo nội dung tính toán độ
tương tự thị giác giữa ảnh truy vấn và các ảnh trong CSDL Kết quả tìm kiếm không phải
là một ảnh đơn mà là một danh sách các ảnh được sắp xếp theo độ tương tự Một số độ đo
tương tự được sử dụng phổ biến
Khoảng cách Minkowski: Độ đo này chỉ so sánh các bin giống nhau giữa các lược đồ
màu và được xác định:
1/r ) r N
1 i
| [i]
I H [i]
Q H
| ( I)
Trong đó Q và I là hai ảnh N là số các bin trong lược đồ màu, H Q [i] là giá trị của bin
i trong lược đồ màu H Q, và H I [i] là gía trị của bin i trong lược đồ màu H I
Khoảng cách toàn phương (Quadratic metrics): Độ đo này so sánh nhiều bin giữa các
lược đồ màu và được xác định:
) H Q A(H t ) H Q (H I) d(Q, (2.10)
Trong đó: Q và I là hai ảnh, H Q là lược đồ màu của ảnh Q
I
H là lược đồ màu của ảnh I, A [ a ]
j , i
là ma trận N x N, N là số các bin trong lược đồ màu, và a biểu thị sự tương tự giữa màu i và màu j a i , j ij=1-dij / dmax và dij = | HQ[i] -
HT[j] |
Lược đồ giao (Histogram Intersection): Lược đồ giao được xác định dựa trên tổng số các
điểm ảnh phổ biến có trong cả 2 lược đồ màu:
N1 i
[i]) I H [i], Q min(H I)
I(Q,
(2.12)
2.2 GIỚI THIỆU MỘT SỐ KỸ THUẬT PHÂN CỤM
Kỹ thuật phân cụm được chia thành hai nhóm chính:
- Phân cụm bằng cách phân hoạch (Partitional clustering)
Trang 10- Phân cụm theo thứ bậc (Hierarchical clustering)
2.2.1 Phân cụm phân hoạch (Partitional clustering)
Phương pháp phân cụm phân hoạch nhằm phân một tập dữ liệu có n phần tử cho trước thành k nhóm dữ liệu sao cho: mỗi phần tử dữ liệu chỉ thuộc về một nhóm dữ liệu và mỗi nhóm dữ liệu có tối thiểu là một phần tử dữ liệu Cho giá trị k tìm một phân hoạch có k cụm nhằm tối ưu tiêu chuẩn phân hoạch được chọn Lớp các thuật toán nổi tiếng của nó
là thuật toán K-means và các cải tiến
2.2.2 Phân cụm theo thứ bậc (Hierarchical Clustering)
Các kỹ thuật phân cụm theo thứ bậc Hierarchical Clustering đưa ra một chuỗi các phần được chia lồng vào nhau với một cụm gốc ở trên cùng và các cụm đơn của các đối tượng đơn lẻ ở phía dưới Các cụm ở cấp độ trên chứa các cụm phía dưới chúng theo thứ bậc Kết quả của thuật toán phân cụm theo thứ bậc có thể xem như một cây được gọi mà một dendogram ( xem hình 2.13)
Hình 2.13: dendogram của phân cụm sử dụng phân cụm có thứ bậc
Trong kỹ thuật phân cụm theo thứ bậc có 2 phương pháp
Divisive Approach (top down approach): Quá trình ngược lại với Agglomerative
Approach, ban đầu chúng ta xem tất cả các đối tượng thuộc cùng 1 cụm, sau đó tiến hành phân thành 2 cụm con Quá trình này được thực hiện cho đến khi mỗi cụm chỉ còn 1 đối tượng
Trang 11Agglomerative Approach (bottom up approach): Ban đầu, chúng ta xem mỗi đối
tượng là 1 cụm (cluster) và nhóm 2 đối tượng gần nhất thành 1 cụm Quá trình này lặp lại cho đến khi tất cả các đối tượng được nhóm vào 1 cụm hoặc là cho đến khi số lượng cụm còn lại đạt đến một ngưỡng cho phép
Các bước của thuật toán Agglomerative Approach như sau:
Cho một tập gồm N đối tượng và N*N là ma trận khoảng cách
Bước 1: Xác định các đặc trưng của đối tượng và tính ma trận khoảng cách (độ tương tự)
giữa các đối tượng
Bước 2: Xem mỗi đối tượng là một cụm
Bước 3: Lặp lại 2 bước sau cho đến khi số cụm bằng 1 hoặc số cụm bằng một ngưỡng
Trang 12Trong bước 3 cần phải định nghĩa rõ việc tính khoảng cách giữa 2 cụm Có 4 phương thức hay được dùng để tính toán khoảng cách được liệt kê dưới đây:
- Kết nối đơn (Single Linkage)
- Kết nối toàn bộ (Complete Linkage)
- Kết nối trung bình (Average Linkage):
- Khoảng cách tâm (Centroid distance)
2.3 ÁP DỤNG THUẬT TOÁN PHÂN CỤM CÓ THỨ BẬC (AHC) VÀO HỆ THỐNG TRA CỨU ẢNH THEO ĐẶC TRƯNG MÀU
2.3.1 Biểu diễn ảnh: Tập ảnh trong cơ sở dữ liệu được chia thành các vùng hình chữ
nhật Mỗi ảnh sẽ được biểu diễn bởi một tập các lược đồ được chuẩn hóa tương đương với các vùng hình chữ nhật này Theo kinh nghiệm thì mỗi ảnh được chia nhỏ thành 16
vùng hình chữ nhật
Hình 2.19: Chia ảnh thành các phần và các lược đồ màu tương ứng
2.3.2 Độ đo tương tự giữa hai ảnh
Độ tương tự giữa hai ảnh: Chúng tôi sử dụng độ đo lược đồ giao để so sánh giữa hai lược
đồ đơn của hai vùng hình chữ nhật tương đương của hai ảnh
Cho hai lược đồ màu được chuẩn hóa p={p1,p2, ,pm}, q={q1,q2, ,qm} độ đo tương tự
giữa hai lược đồ được tính như sau:
m1 i
) i q , i min(p q
p,
Trang 13Độ tương tự giữa hai cụm ảnh: Độ đo tương tự S k,l giữa hai cụm ảnh C k và C l được định nghĩa bằng trung bình độ tương tự giữa các cặp ảnh được biểu diễn trong các cụm này:
) (
,
,
l N k N P
j i k E l E j
s l
k S
2.3.3 Trình bày thuật toán phân cụm ảnh có thứ bậc
Áp dụng thuật toán phân cụm có thứ bậc được thực hiện qua các bước chính sau:
- Bước 1: Thực hiện phân cụm ảnh
- Bước 2: Tính tâm cụm
- Bước 3: Tối ưu tâm cụm
- Bước 4: Tra cứu ảnh
Ví dụ:
Hình 2.22: Biểu diễn một ví dụ phân cụm có thứ bậc với 8 ảnh
Thực hiện phân cụm ảnh:
Đặt n là số lượng ảnh trong CSDL Độ tương tự giữa các cặp ảnh được tính toán trước
Thuật toán phân cụm được thực hiện như sau:
Bước 1: Khởi tạo trong CSDL n ảnh được đặt vào n cụm phân biệt Các cụm này được
đánh chỉ số { C 1 ,C 2 , C n } Với mỗi cụm thứ k tập E k biểu thị tập ảnh chứa trong cụm đó
và N k là số lượng ảnh E k ={ k } và N k = 1 với k=1,2, ,n