Bố cục trình bày của luận văn như sau: Chương 1: Giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung, trình bày kỹ thuật đánh chỉ số ảnh, một số đặc trưng cơ bản của ảnh số, các chức n
Trang 1ĐẠ I HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Thái Xuân Hoàng
NGHIÊN CỨU KỸ THUẬT ĐÁNH CHỈ SỐ DỰA VÀO PHÂN CỤM PHỤC VỤ TRA CỨU ẢNH NHANH VÀ ỨNG DỤNG TRONG TÌM
KIẾM ẢNH DANH LAM THẮNG CẢNH
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên - Năm 2011
Trang 2ĐẠ I HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Thái Xuân Hoàng
NGHIÊN CỨU KỸ THUẬT ĐÁNH CHỈ SỐ DỰA VÀO PHÂN CỤM PHỤC VỤ TRA CỨU ẢNH NHANH VÀ ỨNG DỤNG TRONG TÌM
KIẾM ẢNH DANH LAM THẮNG CẢNH
Chuyên ngành: Khoa học máy tính
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
HƯỚNG DẪN KHOA HỌC: TS NGUYỄN HỮU QUỲNH
Thái Nguyên - Năm 2011
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan toàn bộ nội dung trong Luận văn hoàn toàn theo đúng nội dung
đề cương cũng như nội dung mà cán bộ hướng dẫn giao cho Nội dung của Luận văn, các phần trích lục các tài liệu là hoàn toàn chính xác Nếu có sai sót tôi hoàn toàn chịu trách nhiệm
Thái Nguyên, Ngày 20 tháng 09 năm 2011
Học viên
Thái Xuân Hoàng
Trang 4LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành tới TS Nguyễn Hữu Quỳnh, Trưởng Khoa Công nghệ Thông tin - Trường Đại học Điện lực, là cán bộ trực tiếp hướng dẫn luận văn cho tôi
Tôi xin trân trọng cảm ơn tới các Thầy cô trong Khoa công nghệ Thông tin - Trường Đại học Thái Nguyên, các Thầy cô trong Viện Công nghệ Thông tin - Viện Khoa học và Công nghệ Việt Nam đã tạo điều kiện giúp đỡ tôi trong suốt khóa học cũng như trong suốt quá trình làm luận văn
Tôi xin gửi lời cảm ơn tới gia đình, bạn bè và các đồng nghiệp đã giúp đỡ tôi để tôi có thể hoàn thành khóa học Cao học này
Thái Nguyên, ngày 20 tháng 09 năm 2011
Thái Xuân Hoàng
Trang 5MỤC LỤC
Chương 1 TỔNG QUAN VỀ TRA CỨU ẢNH VÀ KỸ THUẬT ĐÁNH CHỈ SỐ 4
1.1 Một số đặc trưng cơ bản của ảnh số 4
1.1.1 Khái niệm đặc trưng của ảnh số 4
1.1.2 Đặc trưng về màu sắc 4
1.1.2.1 Lược đồ màu 4
1.1.2.2 Véc tơ gắn kết màu 5
1.1.2.3 Tương quan màu 5
1.1.2.4 Các màu trội 6
1.1.2.5 Các Mômen màu 6
1.1.3 Đặc trưng về không gian màu 7
1.1.3.1 Giới thiệu về không gian màu 7
1.1.3.2 Không gian màu RGB 9
1.1.3.3 Không gian màu HSx 9
1.1.3.4 Các không gian màu YUV và YIQ 10
1.1.3.5 Các không gian màu CIE XYZ và LUV 11
1.1.4 Đặc trưng về kết cấu 11
1.1.4.1 Một số khái niệm về kết cấu 11
1.1.4.2 Các đặc trưng Tamura 12
1.1.4.3 Các đặc trưng Wold 13
1.1.4.4 Mô hình tự hồi qui đồng thời SAR 14
1.1.4.5 Các đặc trưng lọc Gabor 15
1.1.4.6 Các đặc trưng biến đổi sóng 16
1.1.5 Đặc trưng về hình dạng 17
1.1.5.1 Một số khái niệm về hình dạng ảnh 17
1.1.5.2 Các bất biến Mômen 17
1.1.5.3 Các góc uốn 18
1.1.5.4 Các ký hiệu mô tả Fourier 19
1.2 Tra cứu thông tin và thông tin trực quan 20
1.2.1 Khái niệm 20
1.2.2 Truy vấn người sử dụng 21
1.2.2.1 Truy vấn bởi ảnh mẫu (QBE) 21
1.2.2.2 Truy vấn bởi đặc trưng (QBF) 22
1.2.2.3 Truy vấn dựa vào thuộc tính 22
1.3 Đánh chỉ số nhiều chiều 22
1.3.1 Khái niệm 22
1.3.2 Giảm số chiều 23
1.3.3 Kỹ thuật đánh chỉ số nhiều chiều 24
1.4 Các chức năng của một hệ thống tra cứu ảnh dựa vào nội dung 25
1.5 Đánh giá hiệu năng tra cứu 26
1.6 Một số ứng dụng của tra cứu ảnh dựa vào nội dung 28
1.7 Kết luận Chương 1 và hướng nghiên cứu 29
Chương 2 KỸ THUẬT ĐÁNH CHỈ SỐ DỰA VÀO PHÂN CỤM 30
2.1 Giới thiệu 30
Trang 62.2 Phân cụm ảnh 30
2.3 Biểu diễn ảnh và đo độ tương tự 31
2.3.1 Biểu diễn ảnh 31
2.3.2 So sánh độ tương tự 32
2.3.2.1 Kỹ thuật tra cứu ảnh dựa vào đặc trưng màu 32
2.3.2.2 Đo khoảng cách giữa các lược đồ màu 34
2.3.2.3 Đo độ tương tự 37
2.4 Phân cụm có thứ bậc dựa vào kỹ thuật đánh chỉ số 39
2.4.1 Khái quát 39
2.4.1.1 Các bước phân cụm 39
2.4.1.2 Tính toán tâm cụm 42
2.4.2 Tối ưu tâm cụm 44
2.4.2.1 Loại bỏ các nút 44
2.4.2.2 Thêm các nút 45
2.5 Kết luận Chương 2 46
Chương 3 XÂY DỰNG HỆ THỐNG TRA CỨU ẢNH NHANH 47
3.1 Giới thiệu bài toán tra cứu ảnh danh lam thắng cảnh 47
3.2 Phân tích bài toán 47
3.3 Thiết kế hệ thống 48
3.3.1 Các chức năng của chương trình 49
3.3.2 Biểu đồ Use Case của hệ thống 50
3.3.3 Biểu đồ trình tự và biểu đồ hoạt động 51
3.3.3.1 Tác nhân Quản lý CSDL ảnh 51
3.3.3.2 Tác nhân tra cứu ảnh 53
3.3.4 Thiết kế CSDL 55
3.3.4.1 Bảng Clusters 55
3.3.4.2 Bảng Regions 55
3.3.4.3 Bảng Cluster_Images 55
3.3.5 Sơ đồ liên kết các bảng trong CSDL 56
3.3.6 Giao diện chương trình 56
3.3.6.1 Giao diện chính của chương trình 56
3.3.6.2 Giao diện cập nhật ảnh 57
3.3.6.3 Giao diện phân cụm ảnh 57
3.3.6.4 Giao diện tìm kiếm ảnh 58
3.3.6.5 Giao diện so sánh hai ảnh 58
3.3.6.6 Giao diện duyệt CSDL ảnh 59
3.4 Một số kết quả 59
3.5 Kết luận Chương 3 61
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62
TÀI LIỆU THAM KHẢO 64
Trang 7DANH MỤC CÁC KÝ HIỆU VÀ TỪ NGỮ VIẾT TẮT
CBIR Content Based Images Retrieval Tra cứu ảnh dựa vào nội dung
CCV Color Coherence Vectors Véc-tơ gắn kết màu
MRSAR Multi-Resolution Simultaneous
Auto-Regressive
Mô hình tự hồi qui đồng thời SAR
PCA Principal Component Analysis Phân tích thành phần chính
TBIR Text Based Image Retrieval Tra cứu ảnh dựa vào văn bản mô tả VIR Visual Information Retrieval Tra cứu thông tin trực quan
Trang 8DANH MỤC CÁC HÌNH TRONG LUẬN VĂN
Hình 1.1 Biểu diễn không gian màu RGB 9
Hình 1.2 Trực quan hóa không gian màu HSV như một hình nón 10
Hình 1.3 Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung 26
Hình 2.1 Ba ảnh mẫu và lược đồ màu của chúng 33
Hình 2.3 Khoảng cách dạng Minkowski 35
Hình 2.4 Khoảng cách dạng Quadratic 35
Hình 2.5 Lược đồ giao của hai lược đồ 37
Hình 2.6 Biểu diễn một ví dụ phân cụm có thứ bậc với 8 ảnh 40
Hình 2.7 Xóa nút 2 và nút 5 từ cluster C14 45
Hình 2.8 Thêm nút 2 vào cụm C12 46
Hình 3.1 Kiến trúc chung của hệ thống tra cứu ảnh dựa vào nội dung 48
Hình 3.2 Mô hình chi tiết của hệ thống tra cứu ảnh 49
Hình 3.3 Biểu đồ Use Case đối với chức năng Quản trị hệ thống 50
Hình 3.4 Biểu đồ Use Case đối với chức năng Người dùng 50
Hình 3.5 Biểu đồ trình tự của tác nhân xử lý dữ liệu 52
Hình 3.6 Sơ đồ hoạt động của tác nhân xử lý dữ liệu 52
Hình 3.7 Biểu đồ trình tự của tác nhân tra cứu ảnh 54
Hình 3.8 Sơ đồ hoạt động của tác nhân Tra cứu ảnh 54
Hình 3.9 Sơ đồ liên kết các bảng dữ liệu trong CSDL 56
Hình 3.10 Giao diện chính của hệ thống tra cứu ảnh dựa vào nội dung 56
Hình 3.11 Giao diện Cập nhật ảnh 57
Hình 3.12 Giao diện Phân cụm ảnh 57
Hình 3.13 Giao diện Tìm kiếm ảnh 58
Hình 3.14 Giao diện So sánh sự tương tự giữa hai ảnh thông qua LCH 58
Hình 3.15 Giao diện Xem CSDL ảnh dưới dạng Preview 59
Hình 3.16 Kết quả tìm kiếm với ảnh truy vấn có trong CSDL 59
Hình 3.17 Kết quả tìm kiếm với ảnh truy vấn không có trong CSDL 60
Hình 3.18 Đánh giá kết quả giữa hai phương pháp tìm kiếm 60
Trang 9LỜI NÓI ĐẦU
Những năm gần đây, ảnh số và việc xử lý ảnh số ngày càng nhận được sự quan tâm của nhiều người, một phần do các thiết bị thu nhận ảnh số ngày càng trở nên thông dụng với mọi người, cùng với nó là các thiết bị lưu trữ ngày càng được cải thiện về dung lượng và giá thành nên việc lưu trữ ảnh ngày càng thông dụng hơn, chất lượng ảnh tốt hơn, thời gian lưu trữ lâu hơn,
Mặt khác, với sự phát triển mạnh mẽ của công nghệ thông tin, đặc biệt là sự phát triển của Internet làm cho số lượng ảnh số được lưu trữ và trao đổi qua Internet là rất lớn Do đó bài toán thực tế đặt ra là cần phải có phương pháp tổ chức CSDL ảnh phù hợp, phục vụ cho quá trình tìm kiếm và tra cứu ảnh nhanh hơn và có độ chính xác cao hơn
Việc tìm kiếm một bức ảnh thỏa mãn tiêu chí tìm kiếm trong vô số các bức ảnh thuộc đủ loại chủ đề và định dạng khác nhau là rất khó khăn, và khi số lượng ảnh trong CSDL còn ít, việc nhận diện một bức ảnh hay việc so sánh sự giống và khác nhau giữa nhiều bức ảnh có thể thực hiện được bằng mắt thường, tuy nhiên khi số lượng ảnh rất lớn thì việc so sánh này rất khó khăn, và do đó cần có các phương pháp hiệu quả và phù hợp hơn
Các ứng dụng tiềm năng của các hệ thống tra cứu ảnh tăng theo từng ngày Cho đến nay, sử dụng tra cứu ảnh phổ biến nhất là tìm kiếm trên web Có một số hệ thống tra cứu như: QBIC, Netra Simplicity, Yahoo! Picture Gallery, Google Image Search Tạo thuận lợi tìm kiếm các ảnh từ web Gần đây, tra cứu ảnh được ứng dụng rất phổ biến trong lĩnh vực ngăn ngừa tội phạm Các cơ sở dữ liệu chứa các ảnh, vân tay và dấu chân có thể được sử dụng trong điều tra hình sự Một ứng dụng quan trọng khác là lĩnh vực chuẩn đoán bệnh Tra cứu ảnh được sử dụng trong một
số kỹ thuật chuẩn đoán bệnh như chụp nhũ ảnh (mammography), chụp cắt lớp (tomography) và mô bệnh học (histopathology) Tra cứu ảnh có thể rất hữu ích trong nhận biết các trường hợp tương tự đã được điều trị trong quá khứ để đánh giá
Trang 10loại điều trị được biết Tra cứu ảnh dựa vào nội dung cũng được sử dụng trong các
hệ thống thông tin địa lý và viễn thám CBIR có thể được sử dụng cho tra cứu các phần video như phim và trò chơi Các ứng dụng khác bao gồm bảo tàng trực tuyến, quảng cáo và thiết kế thời trang
Việc tìm ra các phương pháp tổ chức dữ liệu ảnh và cách thức tra cứu, tìm kiếm ảnh hiệu quả sẽ là điều kiện quan trọng để giải quyết các bài toán như trên, và điều này trở thành vấn đề có tính thiết thực và có hiệu quả cao trong thực tiễn
Kỹ thuật tra cứu ảnh được nhiều người quan tâm nghiên cứu hiện nay là kỹ thuật
"Tra cứu ảnh dựa theo nội dung" Kỹ thuật này cho phép trích rút các đặc trưng dựa
vào nội dung trực quan của bản thân ảnh như màu sắc, kết cấu, hình dạng, bố cục không gian của ảnh, để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức CSDL ảnh Việc biểu diễn và trích rút đặc trưng để nhận dạng được bức ảnh mong muốn là rất quan trọng và nhiều hướng nghiên cứu khác nhau đã được triển khai Tuy nhiên, khi CSDL ảnh lớn thì việc tìm kiếm ảnh một cách tuần tự sẽ tốn rất nhiều thời gian Để tăng tốc hệ thống tra cứu ảnh dựa vào nội dung, cần có một số kỹ thuật tra cứu ảnh nhanh Thực tế đòi hỏi thời gian tìm kiếm không được tăng tuyến tính đối với số các ảnh trong CSDL
Đề tài "Nghiên cứu kỹ thuật đánh chỉ số dựa vào phân cụm phục vụ tra cứu ảnh nhanh và ứng dụng trong tìm kiếm ảnh danh lam thắng cảnh" trình bày tổng
quan về tra cứu ảnh dựa vào nội dung và ứng dụng kỹ thuật đánh chỉ số ảnh dựa vào phân cụm Trong kỹ thuật này, tại thời điểm truy vấn, ảnh truy vấn không so sánh với tất cả các ảnh trong CSDL, mà chỉ so sánh với một tập con rất nhỏ các ảnh Trên
cơ sở đó thử nghiệm phương pháp cụ thể để xây dựng một chương trình phần mềm đọc vào một ảnh danh lam thắng cảnh mẫu và tìm kiếm những ảnh danh lam thắng cảnh tương tự với ảnh mẫu trong tập hợp các ảnh cho trước Kết quả thực hiện đề tài sẽ giúp cho việc tìm kiếm các ảnh danh lam thắng cảnh trong tập hợp các ảnh được nhanh hơn, đồng thời là cơ sở cho việc xây dựng nên các hệ thống ứng dụng
có tính thực tiễn cao phục vụ cho nhu cầu phát triển của xã hội và cho công tác nghiên cứu sau này
Trang 11Bố cục trình bày của luận văn như sau:
Chương 1: Giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung, trình bày kỹ
thuật đánh chỉ số ảnh, một số đặc trưng cơ bản của ảnh số, các chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung và một số ứng dụng của hệ thống tra cứu ảnh dựa vào nội dung tiêu biểu
Chương 2: Giới thiệu phương pháp phân cụm ảnh dựa vào kỹ thuật đánh chỉ số
ảnh để phục vụ cho quá trình tra cứu ảnh
Chương 3: Thiết kế hệ thống tra cứu ảnh ứng dụng phương pháp phân cụm ảnh
dựa vào kỹ thuật đánh chỉ số ảnh để tra cứu ảnh danh lam thắng cảnh
Trang 12Chương 1 TỔNG QUAN VỀ TRA CỨU ẢNH VÀ KỸ THUẬT ĐÁNH CHỈ SỐ 1.1 Một số đặc trưng cơ bản của ảnh số
1.1.1 Khái niệm đặc trưng của ảnh số
Trích rút đặc trưng là cơ sở của tra cứu ảnh dựa vào nội dung Theo nghĩa rộng, các đặc trưng có thể bao gồm cả các đặc trưng dựa vào văn bản và các đặc trưng trực quan Các đặc trưng trực quan có thể được phân loại tiếp thành các đặc trưng chung và các đặc trưng trong các lĩnh vực cụ thể Các đặc trưng trực quan chung gồm: màu, kết cấu, hình dạng, ; các đặc trưng trong các lĩnh vực cụ thể phụ thuộc vào các ứng dụng, ví dụ: mặt người, vân tay, Các đặc trưng lĩnh vực cụ thể bao gồm nhiều tri thức lĩnh vực, ta không đề cập ở đây
Nói chung, không tồn tại một biểu diễn đơn tốt nhất cho một đặc trưng đã cho, và tùy vào điều kiện cụ thể nên lựa chọn các đặc trưng ảnh một cách phù hợp
1.1.2 Đặc trưng về màu sắc
Màu là đặc trưng trực quan quan trọng đầu tiên và đơn giản nhất trong tra cứu ảnh dựa vào nội dung Nó cũng là đặc trưng được sử dụng phổ biến nhất trong lĩnh vực này, vì nó độc lập với kích thước và hướng của ảnh Mỗi điểm ảnh có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều, với các không gian màu thường dùng là RGB, HSV, CIE,
1.1.2.1 Lược đồ màu
Lược đồ màu H của một ảnh được xác định bởi véc tơ: H={H[0], H[1], H[2], , H[N]}, trong đó H[i] là số các pixel có màu i trong ảnh, i biểu diễn một màu trong lược đồ màu, tương ứng với một khối con trong không gian màu RGB, N là số các bin trong lược đồ màu, mỗi bin biểu thị xác suất của các pixel trong ảnh Để so sánh các ảnh có các kích cỡ khác nhau, các lược đồ màu sẽ được chuẩn hóa Lược đồ
màu chuẩn hóa H’ được xác định: H’={H’[0], H’[1], , H’[N]}, với
p
i H i
H' [ ] = [],
và P là tổng các pixel trong ảnh
Đối với đặc trưng màu, lược đồ màu thường được sử dụng để thực hiện việc tra cứu ảnh bằng cách tính toán để xác định tỉ trọng của các điểm ảnh, vì lược đồ màu
Trang 13biểu thị xác suất chung của các cường độ của ba kênh màu Có rất nhiều kỹ thuật đã
áp dụng thành công lược đồ màu trong việc tra cứu ảnh, ví dụ như Swain và Ballard
đề xuất lược đồ màu giao [18] để tính toán sự tương tự giữa các lược đồ màu của các ảnh, hay Stricker và Orengo đề xuất sử dụng các lược đồ màu tích lũy, hoặc sử dụng phương pháp mô-men khoảng màu [12], Smith và Chang đề xuất thiết lập bộ màu như là một xấp xỉ với lược đồ màu [10], để khắc phục một số hạn chế của lược đồ màu thông thường Ở đây không gian màu được giả thiết là cố định, thông tin không gian trong ảnh bị bỏ qua, và thông tin màu trong một ảnh tiêu biểu có thể được xem như tín hiệu ba chiều đơn, điều này có thể dẫn tới khả năng các ảnh rất khác nhau có thể có các phân bố màu giống nhau, nhất là trong các CSDL lớn Để giải quyết vấn đề này, một số cải tiến đã được đề xuất để kết hợp với thông tin không gian ảnh ngoài các thông tin màu, mà phương pháp đơn giản nhất là phân chia một ảnh thành các vùng (phân hoạch ảnh) và xác định lược đồ màu cho từng vùng Phân hoạch hay được dùng là phân hoạch hình chữ nhật, thậm chí phân hoạch đối tượng Việc tăng số các vùng con sẽ tăng thông tin về vị trí, nhưng cũng tăng về chi phí bộ nhớ và thời gian tính toán khi thực hiện tra cứu ảnh
1.1.2.2 Véc tơ gắn kết màu
Véctơ gắn kết màu CCV đề xuất mỗi bin lược đồ được phân thành hai loại là gắn kết (không gắn kết) nếu nó thuộc (không thuộc) về một vùng màu đồng nhất [3] Cho αi và βi biểu thị số các pixel gắn kết và không gắn kết trong bin màu thứ i của một ảnh thì CCV của ảnh đó được định nghĩa bằng véctơ ((α1,β1),(α2,β2), ,(αN,βN)) Lưu ý rằng (α1+β1,α2+β2, ,αN+βN) là lược đồ màu của ảnh Do đã tính đến cả thông tin không gian nên CCV cho kết quả tra cứu tốt hơn lược đồ màu, đặc biệt với các ảnh có sự tương đồng lớn về màu sắc và kết cấu Không gian màu HSV cung cấp các kết quả tra cứu tốt hơn không gian CIE L*u*v* và CIE L*a*b* [3]
1.1.2.3 Tương quan màu
Tương quan màu được đề xuất không chỉ để mô tả các phân bố màu của các pixel, mà còn tương quan không gian của các cặp màu [8] Chiều thứ nhất và thứ hai của lược đồ màu ba chiều là các màu của mọi cặp pixel và chiều thứ ba là
Trang 14khoảng cách không gian của chúng Một tương quan màu là một bảng được đánh chỉ số bởi các cặp màu, ở đây mục thứ k cho (i,j) chỉ rõ xác suất tìm được một pixel
có màu j tại một khoảng cách k từ một pixel có màu i trong ảnh Cho I biểu diễn toàn bộ tập các pixel ảnh và Ic(i) biểu diễn tập các pixel có màu c(i) thì tương quan màu được định nghĩa bằng:
[p I c j p p k]
I p I p
k j
i c
2 ) 1
Ở đây i,j ∈{1,2, ,N}, k ∈{1, ,d}, |p1-p2| là khoảng cách giữa các pixel p1 và p2 Nếu ta xét tất cả các kết hợp có thể của các cặp màu, thì cỡ của tương quan màu sẽ rất lớn (bằng O(N2d)), do đó một phiên bản đơn giản hoá, được gọi là tự tương quan màu thường được sử dụng thay thế Tự tương quan màu chỉ thu tương quan không gian giữa các màu thuần nhất và vì thế giảm số chiều xuống còn O(Nd)
So sánh với lược đồ màu và véc tơ gắn kết màu, tự tương quan màu cho các kết quả tra cứu tốt hơn, nhưng chi phí tính toán cũng cao hơn do có tính tới thông tin về chiều cao trong không gian màu ba chiều
1.1.2.4 Các màu trội
Các lược đồ màu thường rất thưa và thường chỉ cần một số nhỏ các màu là đủ để miêu tả các thông tin màu cần thiết, do đó các màu trội được dùng để mô tả nội dung màu của một ảnh Một phân cụm màu được thực hiện để thu các màu trội đại diện và phần trăm tương ứng của nó Mỗi bộ (màu đại diện, phần trăm tương ứng) tạo ra một cặp các thuộc tính mô tả các đặc trưng màu trong một vùng ảnh
Ký hiệu mô tả đặc trưng lược đồ màu trội F được định nghĩa:
Ở đây N là tổng số các cụm màu trong ảnh, ci là véc tơ màu ba chiều, pi là phần trăm của nó (∑ = 1
i i
p ) Lưu ý rằng N có thể thay đổi từ ảnh này sang ảnh khác
1.1.2.5 Các Mômen màu
Là các Mômen thống kê của các phân bố xác suất của các màu Nó được sử dụng thành công trong nhiều hệ thống tra cứu ảnh (ví dụ QBIC [7]), đặc biệt khi ảnh chứa chính xác đối tượng Các Mômen màu bậc nhất (trung bình), bậc hai (phương sai)
Trang 15và bậc ba (độ lệch), đã được chứng minh là hiệu quả trong biểu diễn các phân bố màu của các ảnh
Về mặt toán học, ba Mômen đầu tiên được định nghĩa bằng:
∑
=
j ij
))(
1( ∑ −
1
3 ) ) (
Do chỉ 9 số (ba Mômen cho mỗi một trong ba thành phần màu) được sử dụng để biểu diễn nội dung màu của mỗi ảnh, các Mômen màu là một biểu diễn rất nén so với các đặc trưng màu khác, do đó có thể cũng giảm khả năng phân biệt Thông thường, các Mômen màu có thể được sử dụng như sơ duyệt lần đầu để giảm không gian tìm kiếm trước khi các đặc trưng màu phức tạp khác được dùng để tra cứu
1.1.3 Đặc trưng về không gian màu 1.1.3.1 Giới thiệu về không gian màu
Một không gian màu chỉ rõ các màu như các bộ số, theo các đặc tả nào đó và được dùng để sinh ra các biểu diễn màu, như trong việc in hoặc hiển thị điện tử số Mục đích của không gian màu là để đặc tả các màu theo một số cách chuẩn, được chấp nhận chung Có thể mô tả các không gian màu sử dụng khái niệm đồng nhất nhận thức - nghĩa là hai màu có khoảng cách bằng nhau trong không gian màu thì cũng được nhận thức như nhau bởi người quan sát
Trang 16Có rất nhiều dạng không gian màu khác nhau, tùy thuộc vào từng ứng dụng và từng nhà phát triển, ví dụ như không gian màu RGB, CMY, HSx,
Các ảnh với đặc tính màu và kết cấu tương tự nhau có thể được phân biệt khi dùng các ràng buộc không gian, ví dụ: vùng bầu trời màu xanh và biển xanh có thể
có các lược đồ màu giống nhau, nhưng các vị trí không gian của chúng trong các ảnh là khác nhau Do đó, vị trí không gian giữa các vùng và quan hệ giữa các vùng trong một ảnh rất có ích cho việc tra cứu ảnh, gọi là đặc trưng màu – không gian Biểu diễn quan hệ không gian được sử dụng rộng rãi nhất là các xâu 2D được đề xuất bởi Chang và cộng sự [10] Nó được xây dựng bởi việc chiếu các ảnh dọc theo các hướng x và y Hai tập ký hiệu, V và A, được định nghĩa trên hình chiếu Mỗi ký hiệu trong V biểu diễn một đối tượng trong ảnh Mỗi ký hiệu trong A biểu diễn một loại quan hệ không gian giữa các đối tượng Do sự biến đổi của nó, xâu 2DG cắt tất
cả các đối tượng dọc theo hình hộp tối thiểu của nó và mở rộng các quan hệ không gian thành hai tập toán tử không gian Một tập định nghĩa các quan hệ không gian cục bộ Tập còn lại định nghĩa quan hệ không gian toàn cục, chỉ ra rằng hình chiếu của hai đối tượng là tách rời, nối tiếp hoặc định vị tại cùng vị trí Thêm nữa, xâu 2DG được đề xuất để cực tiểu hoá số các đối tượng cắt Xâu 2D-B biểu diễn một đối tượng bằng hai ký hiệu, vị trí cho bắt đầu và kết thúc đường bao của đối tượng
Tất cả các phương pháp này có thể hỗ trợ ba loại truy vấn: Truy vấn tìm tất cả các ảnh chứa đối tượng O 1 , O 2 , , O n ; Truy vấn tìm tất cả các ảnh chứa các đối tượng
có quan hệ với nhau, nhưng khoảng cách giữa chúng không đáng kể; và Truy vấn tìm tất cả các ảnh có quan hệ khoảng cách nào đó với mỗi ảnh khác
Ngoài các xâu 2D, cây tứ phân không gian [5] cũng được sử dụng cho biểu diễn thông tin không gian Tuy nhiên, tìm kiếm các ảnh dựa trên các quan hệ không gian của các vùng còn là một vấn đề nghiên cứu khó trong tra cứu ảnh dựa vào nội dung,
do việc phân chia các đối tượng hoặc các vùng thường là không khả thi ngoại trừ các ứng dụng rất giới hạn Người ta thường dùng một số kỹ thuật khác để khắc phục vấn đề này, ví dụ sử dụng phương pháp dựa vào biến đổi radon,
Trang 171.1.3.2 Không gian màu RGB
Không gian màu RGB (Red, Green, Blue) là không gian màu được sử dụng nhiều nhất cho đồ hoạ máy tính Đây là không gian màu cộng: đỏ, xanh lục, và xanh lơ được kết hợp lại để tạo ra các màu khác Không gian này không đồng nhất về nhận thức Không gian màu RGB có thể được trực quan hoá như một hình khối, như được minh hoạ trong hình 1.1 sau:
Hình 1.1 Biểu diễn không gian màu RGB
Mỗi trục màu (R, G, và B) có độ quan trọng như nhau, do đó mỗi trục nên được lượng hoá với cùng một độ chính xác Khi không gian màu RGB được lượng hoá,
số các bin luôn là một hình khối Thông thường, 8 (23), 64 (43), 216 (63), 512 (83) bin được sử dụng trong lượng hoá không gian màu RGB Có thể thực hiện chuyển đổi sang ảnh đa cấp xám để tiện cho việc xử lý
1.1.3.3 Không gian màu HSx
Các không gian màu HSx (như HSI, HSV, HSB, HSL, ) là gần với nhận thức của người hơn không gian màu RGB, nhưng vẫn không là đồng nhất nhận thức Các trục của không gian màu HSx biểu diễn các đặc trưng hue (màu), saturation (độ bão hòa), lightness (độ sáng) (còn gọi là value, brightness và intensity) Sự khác biệt giữa các không gian màu HSx là cách biến đổi từ không gian màu RGB Chúng thường được biểu diễn bởi các hình khác nhau (ví dụ hình nón, hình trụ)
Trang 18Hình 1.2 Trực quan hóa không gian màu HSV như một hình nón
Hue là thành phần màu của các không gian màu HSx Hue là một góc giữa một đường tham chiếu và điểm màu trong không gian RGB, phạm vi của giá trị này giữa
00 và 3600, ví dụ blue là 2400 Theo CIE, Hue là “thuộc tính của cảm giác trực quan
theo đó một vùng xuất hiện là tương ứng với một vùng màu được nhận thức, đỏ (red), vàng (yellow), xanh lục (green), và xanh lơ (blue), hoặc kết hợp của hai trong chúng” Nói cách khác, hue là loại màu, như đỏ hoặc xanh lục Cũng theo CIE, độ
bão hoà là “màu đầy của một vùng được xem xét tương xứng với độ sáng của nó”
Trong hình nón, độ bão hoà là khoảng cách từ tâm của mặt cắt ngang của hình nón,
“chiều cao” nơi mặt cắt ngang này được được xác định bởi giá trị - Value, nó là khoảng cách từ điểm cuối của hình nón Giá trị là độ sáng của một màu, điều này
được định nghĩa bởi CIE như “thuộc tính của cảm giác trực quan theo đó một vùng
xuất hiện để phát ra nhiều hoặc ít ánh sáng” Khi độ bão hoà được đặt đến 0, Hue
không được xác định
1.1.3.4 Các không gian màu YUV và YIQ
Các không gian màu này được phát triển cho truyền hình vô tuyến Không gian màu YIQ là giống như không gian màu YUV, ở đây mặt phẳng I-Q là một mặt phẳng quay 330 của mặt phẳng U-V Tín hiệu Y biểu diễn độ chói của một pixel và
là kênh duy nhất được sử dụng trong ti vi đen trắng U và V cho YUV và I và Q cho YIQ là các thành phần màu
Kênh Y được định nghĩa bởi các giá trị năng lượng có trọng số của R(0.299), G(0.587), và B(0.144) Các không gian màu YUV và YIQ không là đồng nhất nhận
Trang 19thức Khi các không gian màu YUV và UIQ được lượng hoá, mỗi trục được lượng hoá với cùng độ chính xác
1.1.3.5 Các không gian màu CIE XYZ và LUV
Không gian màu đầu tiên được phát triển bởi CIE là không gian màu XYZ Thành phần Y là thành phần độ chói được xác định bởi các tổng có trọng số của R(0:212671), G(0:715160), và B(0:072169) X và Y là các thành phần màu Không gian màu XYZ là không đồng nhất nhận thức Trong lượng hoá không gian màu XYZ, mỗi trục được lượng hoá với cùng độ chính xác
Không gian màu CIE LUV là một biến đổi xạ ảnh của không gian màu XYZ là đồng nhất nhận thức Kênh L của không gian màu LUV là độ chói của màu Các kênh U và V là các thành phần màu, nên khi U và V được đặt bằng 0, kênh L biểu diễn một ảnh cấp xám
Trong lượng hoá không gian LUV, mỗi trục được lượng hoá với cùng độ chính xác Với cả không gian màu XYZ và LUV, các lược đồ lượng hoá thường sử dụng 8 (23), 27 (33), 64 (43), 125 (53) bin
1.1.4 Đặc trưng về kết cấu 1.1.4.1 Một số khái niệm về kết cấu
Kết cấu là một đặc tính quan trọng khác của ảnh Các biểu diễn kết cấu đa dạng
đã được nghiên cứu trong nhận dạng mẫu và thị giác máy tính Các phương pháp biểu diễn kết cấu có thể được phân thành hai loại: cấu trúc và thống kê Các phương pháp cấu trúc, gồm toán tử hình thái và đồ thị kề, mô tả kết cấu bởi nhận dạng cấu trúc gốc và các luật sắp đặt của chúng Chúng có chiều hướng hiệu quả nhất khi được áp dụng với các kết cấu đều Các phương pháp thống kê, gồm các kỹ thuật phổ năng lượng Fourier, ma trận đồng khả năng, phân tích thành phần chính bất biến, đặc trưng Tamura, phân rã Wold, MRF, mô hình fractal, và lọc đa phân giải như biến đổi Gabor và sóng, mô tả kết cấu bằng phân bố thống kê của cường độ ảnh Một số biểu diễn kết cấu [14] được sử dụng thường xuyên và đã được chứng minh
là hiệu quả trong tra cứu ảnh dựa vào nội dung
Trang 20* Thô (Coarseness): Thô là một độ đo tính chất hột của kết cấu Để
tính toán thô, các trung bình động Ak(x,y) được tính đầu tiên sử dụng cỡ 2k*2k(k=0 5) các cửa sổ tại mỗi pixel (x,y), tức là:
2
2
1
1 1
1
2/),()
,(
k
k k
k
x
x i
y
y j
k
k x y g i j
Ở đây g(i,j) là cường độ pixel tại (i,j)
Sau đó, các sự khác nhau giữa các cặp trung bình động không chồng theo hướng ngang và đứng cho mỗi pixel được tính toán, tức là:
)2,()2,(),()
,2(),2(),
v k
k k
k
h x y A x y A x y và E x y A x y A x y
Sau đó, gía trị của k cực đại hoá E theo một trong hai hướng được sử dụng để đặt
cỡ tốt nhất cho mỗi pixel, tức là:
k best x y
j best crs S i j
n m
F
),(
1
(1-9)
Thay vì lấy trung bình của Sbest, một phiên bản được cải tiến của đặc trưng thô có thể thu được bởi sử dụng một lược đồ để mô tả phân bố của Sbest So với sử dụng một giá trị đơn để biểu diễn thô, sự cải tiến này có thể tăng đáng kể hiệu năng tra cứu Sự điều chỉnh này làm cho đặc trưng có khả năng xử lý với một ảnh hoặc vùng
có đa đặc tính kết cấu, và do đó là hữu ích hơn đối với các ứng dụng tra cứu ảnh
* Độ tương phản: Công thức tính tương phản như sau:
4 / 1 4
ασ
=
con
Trang 21Ở đây α4=µ4 / σ4, µ4 là Mômen thứ tư về trung bình, và phương sai σ2 Công thức này có thể được sử dụng cho cả toàn bộ ảnh và một vùng của ảnh
* Hướng: Để tính hướng, ảnh được chập với hai dãy 3*3 (tức là:
0 0 0
1 1 1
1 0 1
1 0 1
1 0 1
và là một véc tơ gradient tại mỗi pixel được tính)
Độ lớn và góc của véc tơ này được định nghĩa bằng:
=
H V V
Ở đây ∆H và ∆V là các khác biệt ngang và dọc của chập
Sau đó, bằng lượng hoá θ và đếm số các pixel với độ lớn tương ứng |∆G| lớn hơn một ngưỡng, một lược đồ của θ, biểu thị bằng HD, có thể được xây dựng Lược đồ này sẽ cho biết các đỉnh bền vững cho các ảnh hướng cao và sẽ là tương đối phẳng với các ảnh không có hướng bền vững Sau đó toàn bộ lược đồ được tóm lược để thu toàn bộ độ đo hướng dựa trên tính nhọn của các đỉnh:
F
φ
φφ
),(),(),(),(),(),(m n u m n d m n u m n h m n e m n
Ở đây F y(ξ,η),F u(ξ,η),F d(ξ,η),F h(ξ,η),F e(ξ,η) là các hàm phân bố phổ (SDF) của {y(m,n)}, {u(m,n)}, {d(m,n)}, {h(m,n)} và {e(m,n)} tương ứng
Trang 22Trong miền không gian, ba thành phần trực giao có thể thu được bởi ước lượng khả năng nhất, nó gồm sự điều chỉnh một quá trình bậc cao, cực tiểu hoá hàm giá,
và giải một tập các phương trình tuyến tính Trong miền tần số, các thành phần Wold có thể thu được bởi ngưỡng toàn cục của các độ lớn phổ Fourier của ảnh Trong [15], một phương pháp sử dụng trích rút đỉnh điều hoà và mô hình MRSAR thiếu một phân rã thực sự của ảnh được giới thiệu Phương pháp này được thiết kế
để dung sai sự đa dạng của các sự không đồng nhất trong các mẫu kết cấu tự nhiên
1.1.4.4 Mô hình tự hồi qui đồng thời SAR
Là một thể hiện của các mô hình MRF, nó rất thành công về mô hình kết cấu trong những thập kỷ qua So với MRF, SAR sử dụng ít các tham số hơn Trong mô hình SAR, các cường độ pixel nhận được bằng các biến ngẫu nhiên Cường độ g(x,y) tại pixel (x,y) có thể được ước lượng bằng một kết hợp tuyến tính của các giá trị pixel lân cận g(x’,y’) và một số hạng nhiễu cộng Σ(x,y), tức là:
∑
∈
+ +
=
D y x
y x y
x g y x y
x g
) ' ', (
) , ( ) ' , ' ( ) ' , ' ( )
,
Ở đây µ là giá trị xiên được xác định bởi trung bình của toàn bộ ảnh; D là tập lân cận của (x,y); θ(x’,y’) là tập các trọng số được kết hợp với mỗi pixel lân cận; ε(x,y)
là biến ngẫu nhiên độc lập Gaussian với trung bình 0 và phương sai σ2 Các tham số
θ và σ được sử dụng để đo kết cấu Ví dụ một giá trị σ cao hơn hàm ý tính chất hột tốt hơn hoặc thô kém hơn; các giá trị θ(x,y+1) và θ(x,y-1) cao hơn chỉ ra rằng kết cấu được hướng thẳng đứng Kỹ thuật sai số bình phương tối thiểu hoặc phương pháp ước lượng hợp lý cực đại thường được sử dụng để đánh giá các tham số của
mô hình SAR
Mô hình SAR là không bất biến quay Để nhận được một mô hình SAR bất biến quay (RISAR), các pixel nằm trên các đường tròn có bán kính khác nhau có tâm tại mỗi pixel (x,y) đáp ứng bằng tập D lân cận của nó Như thế cường độ g(x,y) tại pixel (x,y) có thể được ước lượng bằng:
∑
=
++
i
i
i x y l x y x y y
x g
1
),(),(),()
,
Trang 23Ở đây p là số lân cận Để tạo chi phí tính toán thấp và để thu được bất biến quay tại cùng thời điểm, p không được quá lớn hoặc quá nhỏ Thông thường p=2.l(x,y) có thể được tính toán bởi:
i y x l
) ' ,' (
)','()','(8
1),
1.1.4.5 Các đặc trưng lọc Gabor
Được sử dụng rộng rãi để trích rút các đặc trưng ảnh, đặc biệt là các đặc trưng kết cấu Nó tối ưu về mặt cực tiểu hoá sự không chắc chắn chung trong miền không gian và miền tần số, và thường được sử dụng như một hướng và tỷ lệ biên điều hướng và phát hiện đường Có nhiều cách tiếp cận đã được đề xuất để mô tả các kết cấu của các ảnh dựa trên các lọc Gabor Ý tưởng cơ bản của sử dụng các lọc Gabor
để trích rút các đặc trưng kết cấu như sau: Một hàm Gabor hai chiều g(x,y) được định nghĩa bằng:
−
y x g
y x y
x
πσ
σσ
1 exp 2
1 )
( '
) 19 1 ( )
sin cos
( '
) ' , ' ( )
, (
θθ
θθ
y x
a y
y x
a x
y x g a y x g
m m
m mn
+
−
=
− +
Ở đây a>1, θ=nπ / K, n=0, ,K-1, và m=0, ,S-1 K và S là số các hướng và các tỷ
lệ Nhân tố tỷ lệ a-m là để đảm bảo rằng năng lượng là độc lập của m
Trang 24Một ảnh I(x,y) đã cho, biến đổi Gabor của nó được định nghĩa bằng:
) ,
( ) , ( ) , (x y I x y g x x y y dx dy
Ở đây * chỉ ra số liên hợp phức Sau đó trung bình µmn và độ lệch chuẩn σmn của
độ lớn Wmn(x,y), tức là, f=[µ00, σ00, , µmn, σmn, Λ, µS-1 K-1, σS-1 K-1] có thể được sử dụng để biểu diễn đặc trưng kết cấu của một vùng kết cấu thuần nhất
1.1.4.6 Các đặc trưng biến đổi sóng
Tương tự với lọc Gabor, biến đổi sóng cung cấp một cách tiếp cận đa độ phân giải đối với phân tích kết cấu và phân lớp Các biến đổi sóng phân rã một tín hiệu với một họ các hàm cơ sở ψmn(x) thu được thông qua dịch chuyển và sự giãn của sóng mẹ ψ(x), tức là:
) 2 ( 2 ) (x m/2 m x n
mn
mn x c
x f
,
) ( )
Để khắc phục hạn chế này, TWT phân rã các dải khác như LH, HL hoặc HH khi cần Sau khi phân rã, các véc tơ đặc trưng có thể được xây dựng sử dụng trung bình
và độ lệch chuẩn của phân bố năng lượng của mỗi dải con tại mỗi mức Với phân rã
ba mức, PWT đưa ra một véc tơ đặc trưng có 3*4*2 thành phần Với TWT, đặc trưng sẽ phụ thuộc vào dải con nào tại mỗi mức được phân rã Một cây phân rã cố định có thể thu được bởi phân rã liên tiếp các dải LL, LH, HL, và vì thế cho ra một
Trang 25véc tơ đặc trưng có 52*2 thành phần Hơn nữa, theo so sánh của các đặc trưng biến đổi sóng khác nhau, chọn riêng lọc sóng không là then chốt cho phân tích kết cấu
1.1.5 Đặc trưng về hình dạng 1.1.5.1 Một số khái niệm về hình dạng ảnh
Các đặc trưng hình dạng của các đối tượng hoặc các vùng đã được sử dụng trong nhiều hệ thống CBIR So với các đặc trưng màu và kết cấu, đặc trưng này thường được mô tả sau khi các ảnh được phân đoạn thành các vùng hoặc các đối tượng Do phân đoạn ảnh mạnh và chính xác là khó đạt được, sử dụng các đặc trưng hình dạng cho tra cứu ảnh bị giới hạn đối với các ứng dụng chuyên biệt, ở đó các đối tượng hoặc các vùng đã sẵn có Các phương pháp state-of-art cho mô tả hình có thể được phân thành hoặc là các phương pháp dựa vào đường bao hoặc các phương pháp dựa vào vùng Một biểu diễn đặc trưng hình tốt cho một đối tượng phải bất biến với dịch chuyển, quay và tỷ lệ Chúng ta sẽ mô tả ngắn gọn một số đặc trưng hình được sử dụng phổ biến trong các ứng dụng tra cứu ảnh Với một giới thiệu tổng quan ngắn gọn về các kỹ thuật đối sánh hình
1.1.5.2 Các bất biến Mômen
Biểu diễn hình cổ điển sử dụng một tập các bất biến Mômen Nếu đối tượng R được biểu diễn như một ảnh nhị phân, thì các Mômen trung tâm bậc p+q cho hình của đối tượng R được định nghĩa:
q c p
c
q x x y y
) (
0 , 0
, ,
+ +
Trang 261 , 2 3 , 0 2 , 1 0 , 3 1 , 1 2 1 , 2 3 , 0 2 2 , 1 0 , 3 2 , 0 0 , 2 6
2 2 , 1 0 , 3 2 1 , 2 3 , 0 1 , 2 3 , 0 1 , 2 3 , 0
2 1 , 2 3 , 0 2 2 , 1 0 , 3 2 , 1 0 , 3 2 , 1 0 , 3 5
2 1 , 2 3 , 0 2 2 , 1 0 , 3 4
2 1 , 2 3 , 0 2 2 , 1 0 , 3 3
2 1 , 1 2 2 , 0 0 , 2 2
2 , 0 0 , 2 1
)(
3)(
)(
3(
))(
(4)(
)(
(
)(
3)(
)(
3(
)(
3)(
)(
3(
)251()
()(
)3(
)3(
4)(
µµµ
µµµµµφ
µµµµµµ
µµ
µµµφ
µµµ
µµµµµ
µµµ
µµµµµ
φ
µµµ
µφ
µµ
µµ
φ
µµ
µφ
µµφ
+
−+
+
−
=
++
++
−+
−
=
+
−+
+
−+
+
−+
+
−
=
−+
++
=
−+
hồ như một hàm độ dài cung s theo một điểm tham chiếu trên đường biên đóng của đối tượng, có thể được định nghĩa như:
ds
dx x ds
dy y
x
y s
s s
s s
s s
'
' tan )
θ
Một vấn đề chính đối với biểu diễn này là nó biến đổi đối với quay của đối tượng
và chọn điểm tham chiếu Nếu chúng ta trượt điểm tham chiếu dọc theo đường bao của đối tượng bởi một lượng t, thì hàm xoay mới trở thành θ(s + t) Nếu chúng ta quay đối tượng một góc ω thì hàm mới trở thành θ(s) + ω Do đó, để so sánh sự tương tự giữa các đối tượng A và B với các hàm xoay của nó, khoảng cách tối thiểu cần được tính toán trên tất cả các trượt t và các quay ω có thể, tức là:
p p B
A t
R
d
1 1
0 ] 1 , 0 [
min)
Ở đây ta giả thiết rằng mỗi đối tượng đã tỷ lệ lại sao cho tổng độ dài chu vi là 1
Độ đo này là bất biến với dịch chuyển, quay và thay đổi tỷ lệ
Trang 271.1.5.4 Các ký hiệu mô tả Fourier
Các ký hiệu mô tả Fourier mô tả hình của một đối tượng với biến đổi Fourier của đường bao Xét đường biên đóng của một đối tượng hai chiều bằng một dãy đóng các pixel bao liên tiếp (xs,ys), với 0≤ s ≤N-1 và N là tổng các pixel trên đường bao
Định nghĩa: Độ cong K(s) tại một điểm s dọc theo đường biên đóng được định
nghĩa như tỷ lệ thay đổi theo hướng tiếp tuyến của đường biên đóng, tức là :
) ( )
Ở đây θ(S) là hàm xoay của đường biên đóng, được định nghĩa như (1-26)
Khoảng cách trọng tâm được định nghĩa bằng hàm khoảng cách giữa các pixel bao và trọng tâm xc,yc) của đối tượng:
2 2
)(
)(
)(s x s x c y s y c
Toạ độ phức hợp thu được bởi biểu diễn đơn giản các toạ độ của các pixel bao như các số phức hợp:
) (
) (
) (s x s x c j y s y c
Các biến đổi Fourier của ba loại biểu diễn đường biên đóng này sinh ra ba tập hệ
số phức hợp, biểu diễn hình của một đối tượng trong miền tần số Các hệ số tần số thấp hơn mô tả đặc tính hình chung, trong khi các hệ số tần số cao phản ánh các chi tiết hình Để thu được bất biến quay (tức là, mã đường biên đóng không liên quan đến chọn điểm tham chiếu), chỉ độ lớn của các hệ số phức hợp được sử dụng và các thành phần pha bị loại bỏ Để thu được bất biến tỷ lệ, độ lớn của các hệ số được chia bằng độ lớn của thành phần DC hoặc hệ số khác không đầu tiên Bất biến dịch chuyển thu được trực tiếp từ biểu diễn đường biên đóng
Các ký hiệu mô tả Fourier của đường cong là:
[ 1, 2, , /2] (1−31)
K F F F f
Ký hiệu mô tả Fourier của khoảng cách trọng tâm là:
) 32 1 ( , ,
,
0
2 /
0 2
F F F
Trang 28Ở đây Fi trong (1-31) và (1-32) biểu thị thành phần thứ i của các hệ số biến đổi Fourier Ở đây chỉ các trục tần số dương được xem xét bởi vì đường cong và các hàm khoảng cách trọng tâm là thực và, do đó, các biến đổi Fourier của nó biểu lộ tính đối xứng, tức là, |F-i| = |Fi|
Ký hiệu mô tả Fourier của toạ độ phức hợp là:
)331(, ,
,, ,
1
2 /
1 2
1 1
1
) 1 2 / (
F F
F F
F
Ở đây F1 là thành phần tần số khác không đầu tiên được sử dụng để chuẩn hoá các hệ số biến đổi Ở đây cả hai thành phần tần số dương và âm được xem xét Hệ
số DC là phụ thuộc vào vị trí của hình, và do đó, bị loại bỏ
Để đảm bảo các đặc trưng hình kết quả của tất cả các đối tượng trong một CSDL
có cùng độ dài, đường bao ((xs,ys), 0≤ s ≤N-1) của mỗi đối tượng được lấy mẫu lại với M mẫu trước khi thực hiện biến đổi Fourier Ví dụ, M có thể đặt tới 2m=64 sao cho biến đổi có thể được thực hiện hiệu quả sử dụng biến đổi Fourier nhanh
1.2 Tra cứu thông tin và thông tin trực quan 1.2.1 Khái niệm
Thuật ngữ “Tra cứu thông tin” được đưa ra vào năm 1952 và được phổ biến trong cộng đồng nghiên cứu từ năm 1961 Một hệ thống tra cứu thông tin được xem như một hệ thống lưu trữ và tìm kiếm thông tin, vì thế nó được cấu tạo bởi một tập các thành phần tương tác, mỗi thành phần lại được thiết kế để đáp ứng một chức năng
cụ thể cho một mục tiêu cụ thể, và tất cả các thành phần này được liên hệ với nhau
để đạt được một mục tiêu, đó là tra cứu thông tin trong một phạm vi nào đó Trước đây, tra cứu thông tin có nghĩa là tra cứu thông tin văn bản, định nghĩa trên vẫn được giữ khi áp dụng đối với tra cứu thông tin trực quan (VIR) Tuy nhiên, có một
sự khác biệt giữa loại thông tin và bản chất của tra cứu văn bản với các đối tượng trực quan Thông tin văn bản là một chiều trong khi hình ảnh là hai chiều, và video
là ba chiều (chiều thứ ba là thời gian)
Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề VIR dựa trên dạng thông tin trực quan đó là các phương pháp dựa trên đặc trưng và các phương pháp
Trang 29dựa trên văn bản mô tả ảnh Các phương pháp dựa trên văn bản mô tả ảnh dựa trên các phương pháp tra cứu thông tin văn bản truyền thống và hệ quản trị CSDL cũng như sự can thiệp của con người để trích rút siêu dữ liệu về một đối tượng trực quan
và kết hợp nó cùng với đối tượng trực quan như một chú thích văn bản Tuy nhiên, gán các thuộc tính văn bản một cách thủ công cần nhiều thời gian và chi phí Hơn nữa, các chú thích thủ công thường phụ thuộc rất nhiều vào nhận thức chủ quan của con người Nhận thức chủ quan và chú thích thiếu chính xác là nguyên nhân tra cứu không chính xác trong các quá trình tra cứu sau này Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩy nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung Với giải pháp này, thay vì được chú thích một cách thủ công bởi các từ khoá dựa vào văn bản, các ảnh có thể được trích rút sử dụng một số đặc trưng trực quan như màu, kết cấu, hình dạng, và quan hệ không gian giữa các vùng và được đánh chỉ số dựa trên các các đặc trưng trực quan này Cách tiếp cận này dựa chủ yếu vào các kết quả từ thị giác máy Tuy nhiên, không có đặc trưng riêng lẻ tốt nhất mà cho các kết quả chính xác Thông thường một sự kết hợp các đặc trưng một cách tuỳ biến là cần thiết để cung cấp các kết quả tra cứu thích hợp cho ứng dụng tra cứu ảnh dựa vào nội dung Tuy nhiên, vì mang tính chất tìm hiểu và nghiên cứu, nên trong luận văn này chỉ tập trung vào một đặc trưng chính cụ thể, đó là đặc trưng màu cho ứng dụng tra cứu ảnh dựa vào nội dung
1.2.2 Truy vấn người sử dụng
Có nhiều cách gửi một truy vấn trực quan Một phương pháp truy vấn tốt là một phương pháp tự nhiên đối với người sử dụng cũng như thu được đủ thông tin từ người sử dụng để trích rút các kết quả có ý nghĩa Các phương pháp truy vấn dưới đây được sử dụng phổ biến trong tra cứu ảnh dựa vào nội dung:
1.2.2.1 Truy vấn bởi ảnh mẫu (QBE)
Trong loại truy vấn này, người sử dụng hệ thống chỉ rõ một ảnh truy vấn đích, dựa trên ảnh truy vấn đó hệ thống sẽ tìm kiếm trong CSDL ảnh các ảnh tương tự nhất Ảnh truy vấn có thể là một ảnh thông thường, một bản quét của một ảnh có độ phân giải thấp, hoặc một phác thảo của người sử dụng dùng các công cụ mô tả giao
Trang 30diện đồ hoạ để tạo ra nó Ưu điểm chính của loại hệ thống này là nó tự nhiên cho những người sử dụng chung và chuyên gia để tìm kiếm một CSDL ảnh
1.2.2.2 Truy vấn bởi đặc trưng (QBF)
Trong hệ thống QBF tiêu biểu, những người sử dụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm Ví dụ, một người sử dụng có
thể truy vấn một CSDL ảnh bằng việc đưa ra một lệnh để tra cứu tất cả các ảnh có
góc phần tư trái chứa 25% pixel màu xanh Truy vấn này được chỉ rõ bằng việc sử
dụng các công cụ giao diện đồ hoạ chuyên dụng Những người sử dụng hệ thống tra cứu ảnh chuyên biệt có thể thấy loại truy vấn này là bình thường, nhưng những người sử dụng chung thì không thể QBIC là một ví dụ về một hệ thống tra cứu ảnh dựa vào nội dung sử dụng loại phương pháp truy vấn này
1.2.2.3 Truy vấn dựa vào thuộc tính
Loại truy vấn này sử dụng các chú thích văn bản, trích rút trước bởi nỗ lực của con người, như một khoá tra cứu chính Loại biểu diễn này đòi hỏi độ trừu tượng cao và khó thực hiện một cách tự động hoàn toàn do một ảnh có một lượng lớn các thông tin và khó tóm tắt bởi một số ít các từ khoá Phương pháp này nhìn chung là nhanh hơn và dễ hơn để thực hiện, nhưng có một độ chủ quan và nhập nhằng cao Người sử dụng thích truy vấn các hệ thống tra cứu ảnh dựa vào nội dung bằng
việc yêu cầu các câu hỏi tự nhiên như “Đưa ra các bức ảnh về Trường Đại học Thái
Nguyên”, hoặc “Tìm các ảnh liên quan đến các lớp Thạc sĩ Tin học của Trường Đại học Thái Nguyên” Ánh xạ truy vấn ngôn ngữ tự nhiên này đến một truy vấn trên
CSDL ảnh là vô cùng khó so với việc sử dụng các phương pháp chú thích Khả năng của các máy tính để thực hiện nhận dạng đối tượng tự động trên các ảnh chung vẫn là một vấn đề nghiên cứu mở Do đó hầu hết các nỗ lực nghiên cứu và thương mại tập trung vào xây dựng các hệ thống thực hiện tốt với các phương pháp QBE
1.3 Đánh chỉ số nhiều chiều 1.3.1 Khái niệm
Để thực hiện tra cứu ảnh dựa vào nội dung đối với các CSDL ảnh lớn, các kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng Có ba cộng đồng nghiên cứu chính
Trang 31đóng góp vào lĩnh vực này: hình học tính toán, quản trị CSDL và nhận dạng mẫu Các kỹ thuật đánh chỉ số nhiều chiều phổ biến đã có gồm thuật toán bucketing, cây k-d, cây k-d ưu tiên, cây tứ phân, cây K-D-B, cây hB, cây R-tree, Ngoài các phương pháp trên, clustering và mạng lưới thần kinh, được dùng rộng rãi trong nhận dạng mẫu cũng là hướng nghiên cứu đầy hứa hẹn
Để việc đánh chỉ số nhiều chiều được hiệu quả, cần để ý đến hai tham số:
• Highdimensionality: Là số chiều của vectơ đặc trưng, thường là 102
• Non-Euclidean similarity measure: Các độ đo tương tự phi Euclide, thực
hiện mô phỏng nhận thức con người về một nội dung trực quan nhất định, ví dụ như giao điểm biểu đồ, cosin, tương quan Để giải quyết những vấn đề này, một cách tiếp cận đầy hứa hẹn là đầu tiên thực hiện giảm số chiều và sau đó sử dụng các kỹ thuật lập chỉ mục thích hợp đa chiều để giải quyết bài toán đặt ra
1.3.2 Giảm số chiều
Mặc dù kích thước của các vectơ đặc trưng trong tra cứu ảnh là rất lớn, số chiều nhúng là thấp hơn nhiều [12] Kỹ thuật lập chỉ mục có lợi ích đầu tiên là giảm kích thước Có ít nhất hai cách tiếp cận là biến đổi Karhunen-Loeve (KLT) và phân nhóm theo cột
KLT và biến thể của nó được dùng trong nhận diện khuôn mặt, phân tích các biến thể thông tin của nó, phân tích thành phần chính (PCA), được nghiên cứu trong việc giảm kích thước thực hiện Trong [2] Faloutsos và Lin đã đề xuất một xấp xỉ nhanh KLT để thực hiện việc giảm kích thước Thử nghiệm các kết quả từ nghiên cứu của họ cho thấy rằng tập hợp dữ liệu thực tế có thể được giảm đáng kể trong không gian mà chất lượng thu được hầu như không giảm [2], [17], [12] Vì hệ thống tra cứu ảnh luôn được cập nhật ảnh mới nên hệ thống chỉ mục cũng cần phải linh động Thuật toán này là một công cụ cung cấp cách thức đánh chỉ mục
Ngoài KLT, phân cụm (cluster) là một công cụ mạnh mẽ trong việc giảm kích thước thực hiện, kỹ thuật này được sử dụng trong rất nhiều ngành khác nhau Thông thường nó được sử dụng cho các đối tượng cluster tương tự với nhau (mô hình, tín hiệu, và các văn bản) để thực hiện công nhận hoặc phân nhóm Kiểu của các cụm
Trang 32này gọi là cụm row-wise Tuy nhiên, cụm cũng có thể sử dụng column-wise để giảm chiều của không gian chức năng [4] Các thực nghiệm cho thấy rằng đây là một phương pháp đơn giản và hiệu quả, tuy nhiên việc giảm kích thước có thể dẫn tới sự mất mát thông tin khi thực hiện cần xác định rõ các trạng thái của hệ thống
1.3.3 Kỹ thuật đánh chỉ số nhiều chiều
Sau khi xác định kích thước nhúng của các vectơ đặc trưng, ta cần lựa chọn các thuật toán lập chỉ mục đa chiều phù hợp với chỉ số vectơ đặc trưng
Lịch sử của các kỹ thuật đánh chỉ số nhiều chiều có thể quay lại giữa những năm
1970, khi các phương pháp khối, cây tứ phân, và cây k-d được giới thiệu lần đầu tiên, tuy nhiên hiệu quả chưa thật sự tốt so với mong muốn Bị thúc đẩy bởi nhu cầu cấp bách của đánh chỉ số không gian từ các hệ thống thông tin địa lý (GIS) và CAD, Beckmann [13] và cộng sự đã đề xuất cấu trúc đánh chỉ mục R-tree trong năm 1990 Dựa trên nghiên cứu của ông, nhiều biến thể khác của R-tree đã được phát triển như
R+ tree, R* tree [13], tuy nhiên R* tree không thực hiện tốt với số chiều lớn hơn 20 Rất khó thực hiện việc so sánh các kỹ thuật lập chỉ mục khác nhau trong tra cứu ảnh [12], [17] Thúc đẩy bởi cây kd và R-tree, White và Jain nghiên cứu các thuật toán lập chỉ mục cho các lĩnh vực khác nhau, và qua đó đề xuất VAM kd tree và VAMSplit R-tree Họ thấy rằng các VAMSplit R-tree cung cấp hiệu suất tốt nhất, việc cân bằng lại làm mất tính chất động của R-tree Trong [17], Ng và Sedighian
đề xuất một chiến lược ba bước hướng tới chỉ mục tra cứu ảnh là giảm số chiều, đánh giá các phương pháp lập chỉ mục hiện có, và tuỳ biến của phương pháp lập chỉ mục được chọn Sau khi giảm kích thước bằng cách sử dụng các phương pháp tiếp cận eigenimage, kích thước mới hoặc số chiều của ảnh có thể được dùng để chọn thuật toán lập chỉ mục tốt hơn Trên bộ dữ liệu thử nghiệm của họ, họ thấy rằng các BA-KD-tree đã cho hiệu suất tốt nhất
Cho đến nay, các phương pháp trên chỉ tập trung vào việc làm thế nào để xác định và cải thiện các kỹ thuật lập chỉ mục được mở rộng bằng chiều cao của vectơ đặc trưng trong tra cứu ảnh Các tính chất khác của vectơ đặc trưng trong tra cứu ảnh, ví dụ như các độ đo tương tự phi Euclide, chưa được khai thác tốt Có hai kỹ
Trang 33thuật đầy hứa hẹn đối với việc giải quyết vấn đề này là phân cụm (clustering) và mạng nơron Trong [11], Charikar và cộng sự đã đề xuất kỹ thuật phân cụm gia tăng cho thu hồi thông tin năng động, còn trong [6], Zhang và Zhong đã đề xuất sử dụng
sơ đồ tự tổ chức (SOM) lưới thần kinh như là công cụ để xây dựng cấu trúc chỉ mục cây trong tra cứu ảnh Kết quả thực nghiệm của họ trong bộ sưu tập kết cấu Brodatz chứng minh rằng SOM là một kỹ thuật lập chỉ mục đầy hứa hẹn
1.4 Các chức năng của một hệ thống tra cứu ảnh dựa vào nội dung
Một hệ thống tra cứu ảnh dựa vào nội dung CBIR tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở các khuôn dạng khác nhau (ví dụ, văn bản, hình ảnh và video) mà còn giải quyết các nhu cầu của người sử dụng Về cơ bản, hệ thống phân tích cả các nội dung của nguồn thông tin cũng như các truy vấn sử dụng, sau đó so sánh các nội dung này để tra cứu các mục tin liên quan Các chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung thường bao gồm:
a Phân tích các nội dung của nguồn thông tin và biểu diễn các nội dung của các nguồn được phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng (không gian của nguồn thông tin được biến đổi thành không gian đặc trưng cho mục tiêu so sánh nhanh trong bước tiếp theo) Bước này thông thường cần rất nhiều thời gian do nó phải xử lý lần lượt tất cả thông tin nguồn (các ảnh) trong CSDL Tuy nhiên, bước này được thực hiện chỉ một lần và có thể được thực hiện ngoại tuyến
b Phân tích các truy vấn người sử dụng và biểu diễn chúng ở dạng thích hợp cho so sánh với CSDL nguồn Bước này là tương tự với bước trước, nhưng chỉ được áp dụng với ảnh truy vấn, do đó nó sẽ được thực hiện trực tuyến
c Định nghĩa một chiến lược để so sánh các truy vấn tìm kiếm với thông tin trong CSDL được lưu trữ Tra cứu thông tin liên quan một cách hiệu quả Bước này được thực hiện trực tuyến và được yêu cầu rất nhanh Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại không gian đặc trưng để tăng tốc quá trình đối sánh và tra cứu
Trang 34d Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng điều chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ người sử dụng và / hoặc các ảnh được tra cứu
Hình 1.3 Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung
Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa vào nội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau và trên mặt kia
có các truy vấn người sử dụng Hai mặt này được liên kết thông qua một chuỗi các
tác vụ như được minh họa trong hình 1.3 Hai tác vụ “phân tích truy vấn người sử
dụng” và “đánh chỉ số nhiều chiều” đã được giới thiệu khái quát ở trên, trong khi
hai tác vụ quan trọng “trích rút đặc trưng” và “các độ đo tương tự” sẽ được mô tả
sau, trong đó tập trung vào đặc trưng màu của ảnh
1.5 Đánh giá hiệu năng tra cứu
Để đánh giá hiệu năng của hệ thống tra cứu, người ta đưa ra hai số đo đó là độ triệu hồi (recall) và độ chính xác (precision) Các số đo này được mượn từ hệ thống tra cứu thông tin truyền thống
Đối với một truy vấn q, tập hợp các ảnh trong CSDL thích hợp với truy vấn q được ký hiệu là R(q) còn kết quả tra cứu của truy vấn q được ký hiệu là Q(q) Độ chính xác của việc tra cứu được định nghĩa là tỉ lệ những kết quả thu được thực sự thích hợp với truy vấn
Trang 35) (
) ( ) (
q Q
q R q Q precision= Ι
Độ triệu hồi là tỉ lệ những kết quả thích hợp do truy vấn trả lại:
) (
) ( ) (
q R
q R q Q recall Ι
Thông thường phải có sự thoả hiệp giữa hai số đo này bởi vì nếu muốn tăng cường số đo này thì lại phải chịu giảm số đo kia và ngược lại Trong các hệ thống tra cứu điển hình thì độ triệu hồi có xu hướng tăng lên khi số lượng các kết quả thu được tăng lên trong khi đó thì độ chính xác dường như lại bị giảm đi
Ngoài ra, việc lựa chọn R(q) thường không ổn định do sự đa đạng của cách hiểu
về một bức ảnh Hơn nữa, khi số lượng ảnh thích hợp lớn hơn lượng ảnh hệ thống tìm được thì khái niệm độ triệu hồi trở thành vô nghĩa Do đó, recall và precision chỉ là các mô tả ở dạng thô về hiệu năng của một hệ thống truy vấn mà thôi
Gần đây MPEG7 có khuyến nghị một cách đánh giá mới về hiệu năng của các hệ thống tra cứu gọi là ANMRR (average normalized modified retrieval rank) Theo cách này độ chính xác và độ triệu hồi được kết hợp thành một số đo duy nhất
Ký hiệu số lượng ảnh hoàn toàn đúng với truy vấn q là N(q) và số lượng lớn nhất của các ảnh hoàn toàn đúng với tất cả Q truy vấn tức là max{N(q1), N(q2), ,N(qQ)} là M Sau đó đối với mỗi truy vấn q thì mỗi bức ảnh hoàn toàn đúng k được gán một giá trị xếp hạng rank(k) giá trị này là thứ hạng của nó trong số những ảnh hoàn toàn đúng nếu ảnh đó nằm trong K kết quả truy vấn đầu tiên (ở đây
K = min{4N(q), 2M}) hoặc có giá trị K+1 nếu ảnh đó không nằm trong K kết quả truy vấn đầu tiên
Thứ hạng trung bình AVR(q) đối với truy vấn q được tính như sau:
∑ =
= N ( q ) 1
) q ( rank )
q ( AVR
Thứ hạng tra cứu sửa đổi MRR(q) được tính là:
Trang 36MRR(q) nhận giá trị 0 khi tất cả các ảnh hoàn toàn đúng đều nằm trong K kết quả truy vấn đầu tiên
Thứ hạng tra cứu sửa đổi và chuẩn hoá NMRR(q) nhận giá trị từ 0 đến 1 được tính như sau:
) q ( N
* 5 0 5 0 K
) q ( MRR )
q ( NMRR
−+
1 ANMRR
(1-39)
1.6 Một số ứng dụng của tra cứu ảnh dựa vào nội dung
Các ứng dụng tiềm năng của các hệ thống tra cứu ảnh tăng theo từng ngày Cho đến nay, sử dụng tra cứu ảnh phổ biến nhất là tìm kiếm trên web Có một số hệ thống tra cứu như: QBIC (http://wwwqbic.almaden.ibm.com/), Netra Simplicity (http://maya.ece.ucsb.edu/Netra/netra.html), (http://wang14.ist.psu.edu/cgi-bin/zwang/regionsearch show.cgi), Yahoo! Picture Gallery (http://gallery.yahoo.com/), Google Image Search (http://images.google.com/) etc., Tạo thuận lợi tìm kiếm các ảnh từ web Một số trong các hệ thống này sử dụng chú thích ảnh, trong khi một số hệ thống còn lại sử dụng một kết hợp của nhiều đặc trưng như màu, kết cấu, vị trí không gian Gần đây, tra cứu ảnh được ứng dụng rất phổ biến trong lĩnh vực ngăn ngừa tội phạm [19] Các cơ sở dữ liệu chứa các ảnh (http://www.viisage.com/, http://www.faceit.com), vân tay (http://www.east-shore.com/) và dấu chân (http://www.fosterfreeman.co.uk/sicar.html) có thể được
sử dụng trong điều tra hình sự Một ứng dụng quan trọng khác là lĩnh vực chuẩn đoán bệnh (http://www.brisbio.ac.uk/) Tra cứu ảnh được sử dụng trong một số kỹ thuật chuẩn đoán bệnh [20] như chụp nhũ ảnh (mammography), chụp cắt lớp (tomography) và mô bệnh học (histopathology) [19] Tra cứu ảnh có thể rất hữu ích trong nhận biết các trường hợp tương tự đã được điều trị trong quá khứ để đánh giá