CBIR được thực hiện thông qua việc tính độ tương tự giữa hai bức ảnh được biểu diễn bởi một trong số các đặc trưng mức thấp của ảnh như: Màu sắc, hình dạng, kết cấu… Kết quả đưa ra là tậ
Trang 1LỜI CAM ĐOAN
Tôi xin cam đoan luận văn với tên đề tài “Nghiên cứu kỹ thuật tra cứu
cứu ảnh và ứng dụng trong tra cứu cây thuốc” là kết quả nghiên cứu của bản
thân học viên, dựa trên nghiên cứu và thu thập cơ sở dữ liệu thực tiễn dưới sự hướng dẫn khoa học của TS Nguyễn Văn Tảo Các số liệu, kết quả nêu trong luận văn là hoàn toàn trung thực, chưa từng được công bố dưới bất cứ hình thức nào
Thái Nguyên, ngày 15 tháng 7 năm 2013
Người cam đoan
Nguyễn Thị Bích Hạnh
Trang 2LỜI CẢM ƠN
Trong suốt thời gian hoàn thành luận văn nghiên cứu, tôi luôn nhận được giúp
đỡ tận tình của thầy giáo hướng dẫn và biết bao người thân yêu bên tôi
Nhân dịp này, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới TS Nguyễn Văn Tảo về những chỉ dẫn khoa học, những góp ý quý báu và tận tình hướng dẫn tôi trong suốt quá trình thực hiện luận văn tốt nghiệp
Tôi xin chân thành cảm ơn tập thể các Thầy, Cô giáo trong trường Đại học Công nghệ thông tin và Truyền thông đã luôn nhiệt tình quan tâm, giúp đỡ và tạo mọi điều kiện tốt nhất cho tôi trong suốt quá trình học tập tại trường
Xin chân thành cảm ơn tới tập thể các thầy cô và các bạn đồng nghiệp Trung tâm Nghiên cứu và Phát triển Nông Lâm nghiệp miền núi phía Bắc - Trường Đại học Nông Lâm nơi tôi đang công tác; các bạn trường Đại học Y Thái Nguyên đã luôn cổ vũ, động viên và tạo mọi điều kiện thuận lợi để tôi hoàn thành luận văn của mình
Cuối cùng, tôi muốn bày tỏ lòng cảm ơn vô hạn tới bạn bè, tới những người thân yêu luôn bên tôi Xin bày tỏ lòng cảm ơn sâu sắc tới bố mẹ, chồng, con và những người thân trong gia đình đã là điểm tựa tinh thần lẫn vật chất cho tôi trong những lúc khó khăn, luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện luận văn tốt nghiệp
Xin trân trọng cảm ơn tất cả sự giúp đỡ quý báu đó!
Sinh viên
Nguyễn Thị Bích Hạnh
Trang 3MỤC LỤC
1.1 Tổng quan về xử lý ảnh 3
1.2.1 Đặc trưng màu .7
1.2.2 Đặc trưng màu vân 9
1.2.3 Đặc trưng về hình dạng 9
1.3 Các chức năng cơ bản của một hệ thống tra cứu ảnh dựa vào nội dung 12
Truy vấn người sử dụng 13
1.4 Những ứng dụng cơ bản của tra cứu ảnh dựa vào nội dung 15
1.5 Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu 15
2.1 Tra cứu ảnh dựa vào màu sắc 17
2.1.1 Màu sắc 18
2.1.2 Một số đặc tính đặc biệt về màu sắc 18
2.1.3 Các không gian màu 19
Hình 2.1: Mô tả không gian màu RGB 20
Hình 2.2: Mô tả không gian màu HSV 21
2.1.4 Lượng tử hóa màu và lược đồ màu 23
Lược đồ màu 24
2.2 Tra cứu ảnh dựa vào hình dạng 31
2.2.1 Khái niệm về hình dạng 31
2.2.2 Đặc điểm hình dạng với việc tìm kiếm ảnh 31
2.2.3 Lược đồ hình dạng 33
2.2.4 Biểu diễn hình dạng trên cơ sở vùng và thước đo đồng dạng 34
Hình 2.8: Đo hai hình dạng trên cơ sở chỉ mục 37
Các thao tác hình dạng khác 38
2.3 Tra cứu ảnh dựa vào vân 38
2.3.1 Vân là gì? 38
2.3.3 Phân hoạch vùng nhị phân cục bộ 40
2.3.4 Phân đoạn vân 40
2.4 Phương pháp tra cứu ảnh sử dụng dấu hiệu nhị phân 40
2.4.1 Giới thiệu 40
2.4.2 Kiến trúc hệ thống 41
Hình 2.10: Kiến trúc của kỹ thuật tra cứu ảnh sử dụng dấu hiệu nhị phân 42
2.4.3 Kỹ thuật tra cứu ảnh theo nội dung dựa vào dấu hiệu nhị phân 42
Hình 2.11: Mẫu thiết lập hình ảnh 44
Bảng 2.2: Dấu hiệu nhị phân của hình 2.11 sử dụng VBA 45
2.4.4 Độ đo tương tự 47
Bảng 2.3: Chuỗi dấu hiệu nhị phân minh họa sự giống và khác nhau của ảnh 48
Hình 3.4: Biểu đồ Use Case 55
3.3.2 Biểu đồ trình tự và biểu đồ hoạt động 55
Hình 3.5: Biểu đồ trình tự của tác nhân tra cứu 56
Hình 3.7: Biểu đồ hoạt động của tác nhân tra cứu ảnh 57
Trang 4Hình 3.8: Biểu đồ trình tự của tác nhân quản lý CSDL ảnh 58
Hình 3.10: Biểu đồ hoạt động của chức năng quản lý cơ sở dữ liệu ảnh 59
Bảng 3.1: Bảng cơ sở dữ liệu ảnh 59
Bảng 3.2: Bảng cơ sở dữ liệu nhị phân 60
3.5.2.2 Màn hình chọn cơ sở dữ liệu ảnh 62
Hình 3.12: Màn hình chọn cơ sở dữ liệu ảnh 62
3.5.2.3 Màn hình chọn ảnh cần truy vấn 62
63
Hình 3.13: Màn hình chọn ảnh cần truy vấn 1 63
Hình 3.15: Danh sách ảnh hiển thị thông tin được sắp xếp với ảnh truy vấn 1 64
Hình 3.16: Màn hình chọn ảnh truy vấn 2 65
Bảng 3.3: Bảng kết quả thực hiện truy vấn 1 67
Bảng 3.4: Bảng kết quả thực hiện truy vấn 2 67
DANH MỤC CÁC CHỮ VIẾT TẮT
viết tắt
1 VIR Visual Information Retrieval Tra cứu thông tin
2 CBIR Content Based Image Retrieval Tra cứu ảnh dựa vào nội dung
5 QBIC Query By Image Content Truy vấn ảnh dựa vào nội
dung
7 HSV Hue, Saturation, Value Màu, độ bão hòa màu, độ sáng
8 CCV Color Coherence Vectors Véc tơ gắn kết màu
9 CIE Commission International d'E
10 CMY Cyan-Magenta-Yellow Lục lam, đỏ tươi, vàng
11 CBA Constant Bin Allocation Phân bổ bin liên tục
12 VBA Variable Bin Allocation Phân bổ biến bin
13 GCH Global Color Histogram Lược đồ màu toàn cục
14 LCH Local Color Histogram Lược đồ màu cục bộ
Trang 515 GIS Geographic Information System Hệ thống thông tin địa lý
16 CSDL Cơ sở dữ liệu
DANH MỤC CÁC HÌNH
1.1 Tổng quan về xử lý ảnh 3
1.2.1 Đặc trưng màu .7
1.2.2 Đặc trưng màu vân 9
1.2.3 Đặc trưng về hình dạng 9
1.3 Các chức năng cơ bản của một hệ thống tra cứu ảnh dựa vào nội dung 12
Truy vấn người sử dụng 13
1.4 Những ứng dụng cơ bản của tra cứu ảnh dựa vào nội dung 15
1.5 Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu 15
2.1 Tra cứu ảnh dựa vào màu sắc 17
2.1.1 Màu sắc 18
2.1.2 Một số đặc tính đặc biệt về màu sắc 18
2.1.3 Các không gian màu 19
Hình 2.1: Mô tả không gian màu RGB 20
Hình 2.2: Mô tả không gian màu HSV 21
2.1.4 Lượng tử hóa màu và lược đồ màu 23
Lược đồ màu 24
2.2 Tra cứu ảnh dựa vào hình dạng 31
2.2.1 Khái niệm về hình dạng 31
2.2.2 Đặc điểm hình dạng với việc tìm kiếm ảnh 31
2.2.3 Lược đồ hình dạng 33
2.2.4 Biểu diễn hình dạng trên cơ sở vùng và thước đo đồng dạng 34
Hình 2.8: Đo hai hình dạng trên cơ sở chỉ mục 37
Các thao tác hình dạng khác 38
2.3 Tra cứu ảnh dựa vào vân 38
2.3.1 Vân là gì? 38
2.3.3 Phân hoạch vùng nhị phân cục bộ 40
2.3.4 Phân đoạn vân 40
2.4 Phương pháp tra cứu ảnh sử dụng dấu hiệu nhị phân 40
2.4.1 Giới thiệu 40
2.4.2 Kiến trúc hệ thống 41
Hình 2.10: Kiến trúc của kỹ thuật tra cứu ảnh sử dụng dấu hiệu nhị phân 42
Trang 62.4.3 Kỹ thuật tra cứu ảnh theo nội dung dựa vào dấu hiệu nhị phân 42
Hình 2.11: Mẫu thiết lập hình ảnh 44
Bảng 2.2: Dấu hiệu nhị phân của hình 2.11 sử dụng VBA 45
2.4.4 Độ đo tương tự 47
Bảng 2.3: Chuỗi dấu hiệu nhị phân minh họa sự giống và khác nhau của ảnh 48
Hình 3.4: Biểu đồ Use Case 55
3.3.2 Biểu đồ trình tự và biểu đồ hoạt động 55
Hình 3.5: Biểu đồ trình tự của tác nhân tra cứu 56
Hình 3.7: Biểu đồ hoạt động của tác nhân tra cứu ảnh 57
Hình 3.8: Biểu đồ trình tự của tác nhân quản lý CSDL ảnh 58
Hình 3.10: Biểu đồ hoạt động của chức năng quản lý cơ sở dữ liệu ảnh 59
Bảng 3.1: Bảng cơ sở dữ liệu ảnh 59
Bảng 3.2: Bảng cơ sở dữ liệu nhị phân 60
3.5.2.2 Màn hình chọn cơ sở dữ liệu ảnh 62
Hình 3.12: Màn hình chọn cơ sở dữ liệu ảnh 62
3.5.2.3 Màn hình chọn ảnh cần truy vấn 62
63
Hình 3.13: Màn hình chọn ảnh cần truy vấn 1 63
Hình 3.15: Danh sách ảnh hiển thị thông tin được sắp xếp với ảnh truy vấn 1 64
Hình 3.16: Màn hình chọn ảnh truy vấn 2 65
Bảng 3.3: Bảng kết quả thực hiện truy vấn 1 67
Bảng 3.4: Bảng kết quả thực hiện truy vấn 2 67
DANH MỤC CÁC BẢNG 1.1 Tổng quan về xử lý ảnh 3
1.2.1 Đặc trưng màu .7
1.2.2 Đặc trưng màu vân 9
1.2.3 Đặc trưng về hình dạng 9
1.3 Các chức năng cơ bản của một hệ thống tra cứu ảnh dựa vào nội dung 12
Truy vấn người sử dụng 13
Trang 71.4 Những ứng dụng cơ bản của tra cứu ảnh dựa vào nội dung 15
1.5 Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu 15
2.1 Tra cứu ảnh dựa vào màu sắc 17
2.1.1 Màu sắc 18
2.1.2 Một số đặc tính đặc biệt về màu sắc 18
2.1.3 Các không gian màu 19
Hình 2.1: Mô tả không gian màu RGB 20
Hình 2.2: Mô tả không gian màu HSV 21
2.1.4 Lượng tử hóa màu và lược đồ màu 23
Lược đồ màu 24
2.2 Tra cứu ảnh dựa vào hình dạng 31
2.2.1 Khái niệm về hình dạng 31
2.2.2 Đặc điểm hình dạng với việc tìm kiếm ảnh 31
2.2.3 Lược đồ hình dạng 33
2.2.4 Biểu diễn hình dạng trên cơ sở vùng và thước đo đồng dạng 34
Hình 2.8: Đo hai hình dạng trên cơ sở chỉ mục 37
Các thao tác hình dạng khác 38
2.3 Tra cứu ảnh dựa vào vân 38
2.3.1 Vân là gì? 38
2.3.3 Phân hoạch vùng nhị phân cục bộ 40
2.3.4 Phân đoạn vân 40
2.4 Phương pháp tra cứu ảnh sử dụng dấu hiệu nhị phân 40
2.4.1 Giới thiệu 40
2.4.2 Kiến trúc hệ thống 41
Hình 2.10: Kiến trúc của kỹ thuật tra cứu ảnh sử dụng dấu hiệu nhị phân 42
2.4.3 Kỹ thuật tra cứu ảnh theo nội dung dựa vào dấu hiệu nhị phân 42
Hình 2.11: Mẫu thiết lập hình ảnh 44
Bảng 2.2: Dấu hiệu nhị phân của hình 2.11 sử dụng VBA 45
2.4.4 Độ đo tương tự 47
Bảng 2.3: Chuỗi dấu hiệu nhị phân minh họa sự giống và khác nhau của ảnh 48
Hình 3.4: Biểu đồ Use Case 55
3.3.2 Biểu đồ trình tự và biểu đồ hoạt động 55
Hình 3.5: Biểu đồ trình tự của tác nhân tra cứu 56
Hình 3.7: Biểu đồ hoạt động của tác nhân tra cứu ảnh 57
Hình 3.8: Biểu đồ trình tự của tác nhân quản lý CSDL ảnh 58
Hình 3.10: Biểu đồ hoạt động của chức năng quản lý cơ sở dữ liệu ảnh 59
Bảng 3.1: Bảng cơ sở dữ liệu ảnh 59
Bảng 3.2: Bảng cơ sở dữ liệu nhị phân 60
3.5.2.2 Màn hình chọn cơ sở dữ liệu ảnh 62
Trang 8Hình 3.12: Màn hình chọn cơ sở dữ liệu ảnh 62
3.5.2.3 Màn hình chọn ảnh cần truy vấn 62
63
Hình 3.13: Màn hình chọn ảnh cần truy vấn 1 63
Hình 3.15: Danh sách ảnh hiển thị thông tin được sắp xếp với ảnh truy vấn 1 64
Hình 3.16: Màn hình chọn ảnh truy vấn 2 65
Bảng 3.3: Bảng kết quả thực hiện truy vấn 1 67
Bảng 3.4: Bảng kết quả thực hiện truy vấn 2 67
Trang 9PHẦN MỞ ĐẦU
Ngày nay cùng với sự phát triển của các ngành khoa học khác, ngành công nghệ thông tin cũng có những bước phát triển nhanh chóng, ngày càng có nhiều ứng dụng vào thực tiễn cuộc sống và đem lại hiệu quả cao Việc quản lý thông tin rất cần tới các công cụ để thu thập, phân loại tổ chức ở các dạng dữ liệu khác nhau một cách hiệu quả Trong khi các hệ thống quản lý thông tin dựa vào văn bản đã rất thành công nhưng chúng vẫn không đáp ứng được việc quản lý, khai thác và xử lý dữ liệu với khối lượng khổng lồ như hiện nay Ảnh số ngày càng thu hút được sự quan tâm của nhiều người, một phần là do các thiết bị thu nhận ảnh số ngày càng phổ biến và có giá cả phù hợp, cho phép nhiều người có thể sở hữu và sử dụng Tra cứu và quản trị cơ sở dữ liệu ảnh thu hút sự quan tâm của nhiều nhà nghiên cứu từ những năm 1970 Với sự tăng nhanh về tốc độ máy tính và giảm chi phí bộ nhớ, các cơ sở dữ liệu ảnh chứa hàng nghìn thậm chí hàng triệu ảnh được sử dụng trong nhiều lĩnh vực ứng dụng khác nhau như y học, ảnh vệ tinh, các cơ sở dữ liệu ảnh sinh học và các cơ sở dữ liệu ảnh phong cảnh Các ứng dụng này đòi hỏi độ chính xác tra cứu cao
Khi có nhu cầu tra cứu một vài bức ảnh nào đó trong một cơ sở dữ liệu có hàng trăm ngàn ảnh, điều này khó có thể thực hiện được khi ta tra cứu bằng tay theo cách thông thường, nghĩa là xem từng tấm ảnh một cho đến khi thấy ảnh có nội dung cần tìm Với sự tăng nhanh về số lượng ảnh, cách tiếp cận tra cứu ảnh dựa vào chú thích ảnh thủ công trở nên không khả thi về cả thời gian và chi phí
Do đó, khi số lượng ảnh được lưu trữ trở nên rất lớn thì vấn đề đặt ra là phải
có những phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tra cứu, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt mới đáp ứng được nhu cầu ngày càng cao của con người Việc xây dựng các hệ thống tra cứu ảnh là rất cần thiết Trong thực tế, bài toán tra cứu ảnh số có rất nhiều ứng dụng quan trọng Ví
dụ trong lĩnh vực ngân hàng việc so sánh chữ ký của khách hàng với mẫu chữ ký đã được lưu trữ sẵn có thể thực hiện rất nhanh và chính xác nếu có được một phần
Trang 10mềm so sánh mẫu chữ ký tốt Các ứng dụng phức tạp hơn như so sánh mẫu vân tay, tra cứu ảnh tội phạm v.v là những bài toán tra cứu ảnh được áp dụng trong ngành khoa học hình sự.
Vì vậy, việc xây dựng các hệ thống tra cứu và xếp hạng ảnh là rất cần thiết
và thực tế đã có nhiều công cụ tra cứu ảnh thương mại xuất hiện Các công cụ tra cứu ảnh thường dựa vào hai đặc trưng chính là văn bản đi kèm ảnh hoặc nội dung ảnh Tra cứu ảnh theo nội dung đã nhận được nhiều sự quan tâm của các nhà khoa học do nhu cầu tìm kiếm các cơ sở dữ liệu có cỡ lớn tăng nhanh
Cây thuốc (cây dược liệu) có một vai trò quan trọng đối với đời sống của mỗi con người, đặc biệt trong chăm sóc sức khỏe Ngày nay, cây dược liệu đã được con người khai thác, khám phá, phát hiện và nhận dạng trên cơ sở công dụng của chúng đối với đời sống chúng ta, đặc biệt là cây dược liệu đem lại giá trị kinh tế cao Tuy nhiên hiện nay, nguồn cây dược liệu bị khai thác bừa bãi ngày càng nhiều, điều này dẫn đến cạn kiệt dần nguồn tài nguyên dược liệu
Trên thế giới, việc nghiên cứu, phát hiện, khai thác và quản lý cây dược liệu đã nhận được sự quan tâm nghiên cứu của nhiều nhà quản lý, nhà khoa học và nhà y - dược Họ không chỉ thu thập, khai thác, quản lý mà còn xây dựng các cơ chế ứng dụng tiến bộ khoa học và công nghệ vào nhận dạng, quản lý và bảo vệ cũng như bảo tồn cây dược liệu một cách hiệu quả Ở Việt Nam việc quản lý và khai thác cây dược liệu vẫn chỉ mang tính chất tự phát nên cần có sự quản lý và khai thác đồng bộ trên cơ sở phát hiện, nhận dạng và bảo tồn các loài cây dược liệu quý là một việc làm cấp thiết
Xuất phát từ thực tế nêu trên, luận văn được lựa chọn là: “Nghiên cứu kỹ thuật
tra cứu ảnh và ứng dụng trong tra cứu cây thuốc”
Bố cục luận văn gồm 3 phần: Phần mở đầu, phần kết luận và 3 chương nội dung
Chương 1: Tổng quan về tra cứu ảnh dựa vào nội dung
Chương 2: Một số kỹ thuật tra cứu ảnh dựa vào nội dung.
Chương 3: Xây dựng chương trình tra cứu ảnh cây thuốc.
Trang 11Chương 1 TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG
1.1 Tổng quan về xử lý ảnh
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ Nó là một ngành khoa học mới mẻ so với các ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh, kích thích các trung tâm nghiên cứu ứng dụng, đặc biệt là máy tính chuyên dụng cho nó
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho
ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh “tốt hơn” hoặc một kết luận
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể xem như một hàm n biến P(c1, c2, , cn) Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều [1], [2]
Sơ đồ tổng quát của một hệ thống xử lý ảnh:
Hình 1.1: Các bước cơ bản trong một hệ thống xử lý ảnh
Trang 12loại ảnh thông dụng Raster, Vector Các thiết bị thu nhận ảnh thông thường Raster
là camera, các thiết bị thu nhận ảnh thông thường Vector là sensor hoặc bàn số hoá Digitalizer hoặc được chuyển đổi từ ảnh Raster
Trước đây ảnh thu được qua camera là ảnh tương tự nhưng gần đây với sự phát triển của công nghệ, ảnh màu hay ảnh đen trắng lấy được từ camera sau đó được chuyển trực tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo Mặt khác ảnh có thể thu được từ vệ tinh hoặc máy quét ảnh
Tiền xử lý
Sau bộ thu nhận ảnh có thể bị nhiễu hoặc có độ tương phản thấp nên cần đưa vào bộ tiền xử lý để nâng cao chất lượng Chức năng của bộ tiền xử lý là lọc nhiễu, nâng cao độ tương phản,…
Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực hiện
lọc vùng (zonal filtering) Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn v.v )
Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng và do
vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) v.v
Biểu diễn ảnh
Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoá được
Trang 13nhúng trong các thiết bị kỹ thuật khác nhau Quá trình lưu trữ ảnh nhằm 2 mục đích là: Tiết kiệm bộ nhớ và giảm thời gian xử lý.
Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in
ấn và xử lý ảnh được xem như là 1 tập hợp các điểm với cùng kích thước nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm này là độ phân giải
Một số đối tượng nhận dạng ảnh khá phổ biến hiện nay là nhận dạng kí tự (chữ
in, chữ viết tay, chữ kí điện tử), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt người [1]
1.2 Khái quát về tra cứu ảnh
Tra cứu ảnh là một quá trình tra cứu trong một cơ sở dữ liệu ảnh những ảnh thỏa mãn một yêu cầu nào đó Ví dụ người sử dụng có thể tra cứu tất cả các ảnh chủ đề về
“Cây thuốc thảo dược” trong một cơ sở dữ liệu ảnh hoặc một người sử dụng khác lại muốn phân loại cơ sở ảnh của mình thành các bộ sưu tập có chủ đề khác nhau Một ví
dụ khác là một người muốn tìm tất cả các ảnh tương tự với một bức ảnh mẫu nào đó trong một cơ sở dữ liệu ảnh
Theo Wikipedia: Hệ thống tra cứu ảnh là một hệ thống máy tính sử dụng để duyệt, tra cứu và tra cứu ảnh từ một cơ sở dữ liệu ảnh số lớn
Trước năm 1990, người ta thường sử dụng phương pháp tra cứu ảnh theo văn bản (Text Based Image Retrieval) Theo cách này người ta sẽ gán cho mỗi bức ảnh
Trang 14một lời chú thích phù hợp với nội dung hoặc một đặc điểm nào đó của ảnh, sau đó việc tra cứu ảnh được thực hiện dựa trên những lời chú thích này Phương pháp này khá đơn giản Phương pháp tra cứu ảnh như trên còn được gọi là tra cứu ảnh theo
từ khóa Tuy nhiên, việc tra cứu chỉ dựa vào văn bản đi kèm còn có nhiều nhập nhằng giữa nội dung hiển thị ảnh và nội dung văn bản đi kèm ảnh trong quá trình tra cứu Ví
dụ, với truy vấn “Apple”, máy tra cứu khó phân biệt được người dùng muốn tìm hình ảnh quả táo hay logo của hãng Apple Bên cạnh đó phương pháp tra cứu ảnh dựa theo văn bản không thể áp dụng để tra cứu các cơ sở dữ liệu ảnh có số lượng ảnh lớn
và kết quả tra cứu thì mang tính chủ quan và cảm ngữ cảnh
Một trong những phương pháp được nhiều người quan tâm nghiên cứu hiện nay là phương pháp “Tra cứu ảnh dựa theo nội dung” (Content Based Images Retrieval - CBIR) [16] Phương pháp tra cứu ảnh theo nội dung ra đời đã khắc phục được những nhược điểm của phương pháp từ khóa CBIR là một lĩnh vực khoa học được phát triển dựa trên cơ sở lý thuyết và ứng dụng của xử lý ảnh Hệ thống cho phép người dùng tra cứu các ảnh tương tự trong một cơ sở dữ liệu hình ảnh
CBIR được thực hiện thông qua việc tính độ tương tự giữa hai bức ảnh được biểu diễn bởi một trong số các đặc trưng mức thấp của ảnh như: Màu sắc, hình dạng, kết cấu… Kết quả đưa ra là tập các bức ảnh tương tự với ảnh truy vấn được sắp xếp theo thứ tự giảm dần độ tương tự Cụm từ CBIR được T.Kato đưa ra vào năm 1992 trong quá trình thu thập ảnh một cách tự động từ cơ sở dữ liệu dựa trên biểu diễn màu sắc
và hình dạng của ảnh
Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề tra cứu thông tin dựa trên dạng thông tin trực quan đó là các phương pháp dựa trên đặc trưng và các phương pháp dựa trên văn bản mô tả ảnh Các phương pháp dựa trên văn bản mô tả ảnh dựa trên các phương pháp tra cứu thông tin văn bản truyền thống và hệ quản trị cơ
sở dữ liệu cũng như sự can thiệp của con người để trích rút siêu dữ liệu về một đối tượng trực quan và kết hợp nó cùng với đối tượng trực quan như một chú thích văn
Trang 15bản Tuy nhiên, gán các thuộc tính văn bản một cách thủ công cần nhiều thời gian và chi phí Hơn nữa, các chú thích thủ công thường phụ thuộc rất nhiều vào nhận thức chủ quan của con người Nhận thức chủ quan và chú thích thiếu chính xác là nguyên nhân tra cứu không chính xác trong các quá trình tra cứu.
Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩy nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung Với giải pháp này, thay vì được chú thích một cách thủ công bởi các từ khoá dựa vào văn bản, các ảnh có thể được trích rút sử dụng một số đặc trưng trực quan như màu, hình dạng và kết cấu
và được đánh chỉ số dựa trên các các đặc trưng trực quan này Cách tiếp cận này dựa chủ yếu vào các kết quả từ thị giác máy Tuy nhiên, không có đặc trưng riêng lẻ tốt nhất mà cho các kết quả chính xác Thông thường một sự kết hợp các đặc trưng một cách tuỳ biến là cần thiết để cung cấp các kết quả tra cứu thích hợp cho ứng dụng tra cứu ảnh dựa vào nội dung Trong luận văn này, em sẽ tập trung vào đặc trưng cụ thể là đặc trưng màu và vector đặc trưng ứng dụng tra cứu ảnh dựa vào nội dung
Một số đặc trưng đã được sử dụng để biểu diễn các ảnh trong các hệ thống CBIR
1.2.1 Đặc trưng màu
Đặc trưng được sử dụng phổ biến nhất là màu Màu sắc là vấn đề cần tập trung giải quyết nhiều nhất, vì một ảnh màu thì thông tin quan trọng nhất trong ảnh chính là màu sắc Hơn nữa thông tin về màu sắc là thông tin người dùng quan tâm nhất, qua đặc trưng màu sắc, có thể lọc được rất nhiều lớp ảnh, thông qua vị trí, không gian, định lượng của màu trong ảnh
Lược đồ màu toàn cục (GCH) là cách sử dụng đặc trưng màu đơn giản và hiệu quả GCH là một véc tơ n chiều (h1, h2, hn), ở đây mỗi thành phần hj biểu diễn phần trăm các pixel có màu j trong ảnh GCH là bất biến đối với quay và tỉ lệ và tính toán rất đơn giản Tuy nhiên, GCH có nhược điểm cơ bản là quá tổng quát Nói cách khác, GCH chỉ đem vào bản miêu tả phân bố các màu mà bỏ qua quan hệ giữa các bin màu [14], [15]
Trang 16Để tránh một số vấn đề gặp phải đối với GCH, lược đồ màu cục bộ (LCH) đã được đề xuất Một ảnh được chia thành các khối ảnh có cỡ như nhau và độ tương tự giữa hai ảnh được dựa trên các khoảng cách lược đồ giữa các khối tương ứng Phương pháp này không có khả năng xử lý đối với các biến đổi hình học như quay và dịch chuyển, bị một số vấn đề về đan chéo và biến đổi với vị trí không gian Một số giải pháp đã được đề xuất để làm cho cách tiếp cận dựa vào lưới bất biến đối với quay và dịch chuyển nhưng các giải pháp này tốn nhiều thời gian.
Natsev và cộng sự thực hiện tra cứu ảnh dựa vào nội dung dựa trên thuộc tính
bố cục màu Mỗi ảnh được chia thành một số ảnh con bằng việc dịch chuyển các cửa
sổ có cỡ khác nhau và với mỗi ảnh con, một dấu hiệu bố cục màu được trích rút Độ tương tự giữa các ảnh được tính toán bằng việc so sánh các dấu hiệu của các ảnh con này Ưu điểm của hệ thống này là có thể giảm các nhạy cảm với tỉ lệ và trượt, nhược điểm là độ phức tạp tính toán tăng và hệ thống không xem xét đến đặc trưng hình
Smith và Chang đã đề xuất các tập màu Phương pháp xấp xỉ lược đồ màu để tăng tốc quá trình tra cứu trong trường hợp cơ sở dữ liệu ảnh rất lớn Tập màu được chọn từ không gian màu được lượng hoá và từ các đặc trưng được biểu diễn như một xâu bít, một cây nhị phân được sử dụng để tăng tốc quá trình tra cứu
Một cách tiếp cận dựa vào màu khác được đề xuất trong, ở đây một ảnh được biểu diễn với sự trợ giúp của ba mô men màu trung bình, phương sai và độ lệch Kỹ thuật có ưu điểm là tính toán đơn giản và chi phí không gian thấp Độ tương tự giữa hai ảnh được tính như là tổng trọng số của các sai khác giữa các mô men trong ảnh truy vấn và các mô men của tất cả các ảnh trong cơ sở dữ liệu Thậm chí thông qua các mô men màu có thể ngăn chặn các ảnh hưởng của lượng hoá (không giống như lược đồ màu) Cách tiếp cận thiếu thông tin không gian
Pass và cộng sự đã đề xuất một phương pháp mới sử dụng véc tơ gắn kết màu (CCV) Họ đã đề xuất một cách tiếp cận dựa vào lược đồ màu kết hợp với thông tin không gian Ảnh được làm mờ để loại đi các khác biệt nhỏ giữa các pixel và sau đó không gian màu được lượng hoá thành n màu Các pixel trong phạm vi một bin màu
Trang 17được phân lớp hoặc là gắn kết hoặc là không gắn kết phụ thuộc vào chúng có thuộc vào vùng pixel tương đối lớn hay không
1.2.2 Đặc trưng màu vân
Có những lớp ảnh mà màu sắc không thể giải quyết được, đòi hỏi phải sử dụng đặc trưng vân, ví dụ như những ảnh liên quan đến cấu trúc của điểm ảnh như: cỏ, mây,
đá, sợi Vân sẽ giải quyết tốt cho việc tìm kiếm đối với lớp ảnh này
1.2.3 Đặc trưng về hình dạng
Đối với những lớp ảnh cần tìm mà liên quan đến hình dạng của đối tượng thì đặc trưng vân và màu không thể giải quyết được Tìm kiếm theo hình dáng thật sự là một cái đích của hệ thống tìm kiếm dựa vào nội dung muốn đạt tới Các đặc trưng hình dạng của các đối tượng hoặc các vùng đã được sử dụng trong nhiều hệ thống tra cứu ảnh dựa vào nội dung So với các đặc trưng màu và vân, các đặc trưng hình dạng thường được mô tả sau khi các ảnh được phân đoạn thành các vùng hoặc các đối tượng Do phân đoạn ảnh mạnh và chính xác là khó đạt được, sử dụng các đặc trưng hình dạng cho tra cứu ảnh bị giới hạn đối với các ứng dụng chuyên biệt, ở đó các đối tượng hoặc các vùng đã sẵn có
1.2.4 Thông tin không gian
Các vùng hoặc đối tượng với các đặc tính màu và kết cấu tương tự có thể được phân biệt dễ dàng bằng việc tận dụng các ràng buộc không gian Thí dụ, các vùng bầu trời màu xanh và biển xanh có thể có các lược đồ màu tương tự, nhưng các vị trí không gian của chúng trong các ảnh là khác nhau Do đó, vị trí không gian của các vùng (hoặc các đối tượng) hoặc quan hệ không gian giữa nhiều vùng (hoặc đối tượng) trong một ảnh thì rất hữu ích cho tìm kiếm các ảnh
Thu thông tin không gian của các đối tượng trong một ảnh là một quá trình quan trọng đối với các hệ thống GIS Quá trình này bao gồm việc biểu diễn vị trí không gian tuyệt đối và cũng bao gồm vị trí không gian tương đối của các đối tượng Các thao tác như giao và chồng được sử dụng Bố cục màu kết hợp thông tin không
Trang 18gian với thông tin màu xuất hiện trong ảnh và tạo ra một đặc trưng rất quan trọng trong quá trình tra cứu, gọi là đặc trưng màu – không gian.
Biểu diễn quan hệ không gian được sử dụng rộng rãi nhất là các xâu 2D được đề xuất bởi Chang và cộng sự Nó được xây dựng bởi việc chiếu các ảnh dọc theo các hướng x và y Hai tập ký hiệu V và A được định nghĩa trên hình chiếu Mỗi ký hiệu trong V biểu diễn một đối tượng trong ảnh Mỗi ký hiệu A biểu diễn một loại quan hệ không gian giữa các đối tượng Do sự biến đổi của nó, xâu 2DG cắt tất cả các đối tượng dọc theo hình hộp tối thiểu của nó và mở rộng các quan hệ không gian thành lập hai toán tử không gian Một tập định nghĩa các quan hệ không gian cục bộ Tập còn lại định nghĩa quan hệ không gian toàn cục, chỉ ra rằng hình chiếu của hai đối tượng là tách rời, nối tiếp hoặc định vị tại cùng vị trí Thêm nữa, xâu 2DC được đề xuất để cực tiểu hóa số các đối tượng cắt Xâu 2D-B biểu diễn một đối tượng bằng hai ký hiệu, vị trí cho bắt đầu và kết thúc đường bao của đối tượng Tất cả các phương pháp này có thể hỗ trợ ba loại truy vấn Loại truy vấn 0 tìm tất cả ảnh chứa đối tượng O1, O2, ,On Loại 1 tìm tất
cả các ảnh chứa các đối tượng có quan hệ nào đó giữa chúng nhưng khoảng cách giữa chúng là không đáng kể Loại 2 tìm tất cả các ảnh có quan hệ khoảng cách nào đó với mỗi ảnh khác
Thêm với xâu 2D, cây tứ phân không gian, và ảnh ký hiệu cũng được sử dụng cho biểu diễn thông tin không gian Tuy nhiên, tìm kiếm các ảnh dựa trên các quan hệ không gian của các vùng còn lại là một vấn đề nghiên cứu khó trong tra cứu ảnh dựa vào nội dung, do phân đoạn tin cậy của các đối tượng hoặc các vùng thường là không khả thi ngoại trừ các ứng dụng rất giới hạn Mặc dù một số hệ thống chia các ảnh thành các khối đều, chỉ thu được sự thành công khiêm tốn với các lược đồ chia không gian như thế do hầu hết các ảnh tự nhiên không thể ép thành các khối con đều về không gian Để giải quyết vấn đề này, một phương pháp dựa vào biến đổi radon, tận dụng phân bố không gian của các đặc trưng trực quan không cần phân đoạn phức tạp
1.2.5 Phân đoạn
Trang 19Phân đoạn là quá trình phân ảnh ra thành các vùng mà về lý tưởng nó sẽ tương ứng với các đối tượng xuất hiện trong ảnh Đây là bước rất quan trọng đối với tra cứu ảnh Cả đặc trưng hình và đặc trưng bố cục phụ thuộc vào phân đoạn tốt Trong phần này chúng tôi sẽ mô tả một số kỹ thuật phân đoạn đã có được sử dụng trong cả thị giác máy và tra cứu ảnh.
Trong, Lybanon và các cộng sự đã nghiên cứu một cách tiếp cận phép toán hình thái học (mở và đóng) trong phân đoạn ảnh Họ đã kiểm tra cách tiếp cận của họ với các loại ảnh khác nhau, gồm các ảnh thiên văn và các ảnh hồng ngoại Trong khi cách tiếp cận này là hiệu quả trong xử lý các loại ảnh khoa học ở trên, hiệu năng của nó cần được tiếp tục đánh giá cho các ảnh tự nhiên phức tạp hơn Li và cộng sự đã đề xuất một cách tiếp cận phân đoạn dựa vào entropy mờ Cách tiếp cận này dựa trên thực tế rằng entropy cực đại địa phương tương ứng với sự không rõ ràng giữa các vùng khác nhau trong ảnh Cách tiếp cận này rất hiệu quả cho các ảnh có lược đồ không có các đỉnh và các rãnh rõ ràng Các kỹ thuật phân đoạn khác dựa trên phép đo đạc tam giác Delaunay (Delaunay triangulation), fractals, và luồng biên (edge flow)
Tất cả các thuật toán được đề cập ở trên là tự động Một ưu điểm chính của các thuật toán phân đoạn loại này là nó trích rút các đường bao từ một số lượng lớn các ảnh mà không chiếm thời gian và nỗ lực của con người Tuy nhiên, trong một lĩnh vực
tự nhiên, với các ảnh không có điều kiện tiên quyết, phân đoạn tự động không luôn luôn tin cậy Một thuật toán có thể phân đoạn trong trường hợp này chỉ là các vùng,
mà không là các đối tượng Để thu được các đối tượng mức cao, nó cần có sự trợ giúp của con người
Samadani và Han đã đề xuất một cách tiếp cận trích rút đường bao được trợ giúp bởi máy tính, nó kết hợp các đầu vào thủ công từ người sử dụng với các biên ảnh được sinh ra bởi máy tính Trong khi đó, Daneel và cộng sự đã phát triển một phương pháp cải tiến của các chu tuyến thiết thực Dựa trên đầu vào của người sử dụng, đầu tiên thuật toán sử dụng một thủ tục tham lam để cung cấp sự hội tụ ban đầu nhanh
Trang 20Thứ hai, nét ngoài được lọc bằng việc sử dụng quy hoạch động Rui và cộng sự đã đề xuất một thuật toán dựa vào phân cụm và nhóm trong không gian - màu - kết cấu Người sử dụng định nghĩa đối tượng quan tâm là ở đâu, và thuật toán nhóm các vùng thành các đối tượng có ý nghĩa.
1.3 Các chức năng cơ bản của một hệ thống tra cứu ảnh dựa vào nội dung
Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image Retrieval) tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở các khuôn dạng khác nhau (văn bản, hình ảnh và video) mà còn giải quyết các nhu cầu của người sử dụng [4], [14], [16] Về cơ bản hệ thống phân tích cả các nội dung của nguồn thông tin cũng như các truy vấn sử dụng, và sau đó so sánh các nội dung này để tra cứu các mục tin liên quan Các chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung như sau:
• Phân tích các nội dung của nguồn thông tin và biểu diễn các nội dung của các nguồn được phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng (không gian của nguồn thông tin được biến đổi thành không gian đặc trưng cho mục tiêu so sánh nhanh trong bước tiếp theo) Bước này thông thường cần rất nhiều thời gian do
nó phải xử lý lần lược tất cả thông tin nguồn (các ảnh) trong cơ sở dữ liệu Tuy nhiên, bước này được thực hiện chỉ một lần và có thể được thực hiện ngoại tuyến
• Phân tích các truy vấn người sử dụng và biểu diễn chúng ở dạng thích hợp cho so sánh với cơ sở dữ liệu nguồn Bước này là tương tự với bước trước nhưng chỉ được
áp dụng với ảnh truy vấn
• Định nghĩa một chiến lược để so sánh các truy vấn tìm kiếm với thông tin trong cơ
sở dữ liệu được lưu trữ Tra cứu thông tin liên quan theo một cách hiệu quả Bước này được thực hiện trực tuyến và được yêu cầu rất nhanh Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại không gian đặc trưng để tăng tốc quá trình đối sánh
Trang 21• Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng điều chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ người sử dụng hoặc các ảnh được tra cứu.
Hình 1.2: Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung
Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa vào nội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau và trên mặt kia có các truy vấn người sử dụng Hai mặt này được liên kết thông qua một chuỗi các tác vụ như được minh họa trong Hình 1.2 Hai tác vụ phân tích truy vấn người sử dụng và đánh chỉ số nhiều chiều được tóm lược ở đây trong khi hai tác vụ quan trọng nhất:
“Phân tích các nội dung của thông tin nguồn” (trích rút đặc trưng) và “Định nghĩa một chiến lược để đối sánh các truy vấn tìm kiếm với thông tin trong cơ sở dữ liệu được lưu trữ” (các độ đo tương tự)
Truy vấn người sử dụng
Có nhiều cách gửi một truy vấn trực quan Một phương pháp truy vấn tốt là một phương pháp tự nhiên đối với người sử dụng cũng như thu được đủ thông tin từ người
sử dụng để trích rút các kết quả có ý nghĩa
Trang 22Các phương pháp truy vấn dưới đây được sử dụng phổ biến trong nghiên cứu tra cứu ảnh dựa vào nội dung.
Truy vấn bởi ảnh mẫu
Trong loại truy vấn bởi ảnh mẫu (QBE), người sử dụng hệ thống chỉ rõ một ảnh truy vấn đích, dựa trên ảnh truy vấn đó hệ thống sẽ tìm kiếm trong cơ sở dữ liệu ảnh các ảnh tương tự nhất Ảnh truy vấn có thể là một ảnh thông thường, một bản quét của một ảnh có độ phân giải thấp, hoặc một phác thảo của người sử dụng sử dụng các công
cụ mô tả giao diện đồ hoạ Một ưu điểm chính của loại hệ thống này đó là nó là một cách tự nhiên cho những người sử dụng chung và chuyên gia để tìm kiếm một cơ sở dữ liệu ảnh
Truy vấn bởi đặc trưng
Trong hệ thống truy vấn bởi đặc trưng (QBF) tiêu biểu, những người sử dụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm Thí dụ, một người sử dụng có thể truy vấn một cơ sở dữ liệu ảnh bằng việc đưa ra một lệnh để tra cứu tất cả các ảnh có góc phần tư trái chứa 25% pixel màu vàng Truy vấn này được chỉ rõ bằng việc sử dụng các công cụ giao diện đồ họa chuyên dụng Những người sử dụng hệ thống tra cứu ảnh chuyên biệt có thể thấy loại truy vấn này là bình thường, nhưng những người sử dụng chung thì không thể QBIC [5] là một ví dụ về một hệ thống tra cứu ảnh dựa vào nội dung sử dụng loại phương pháp truy vấn này
Các truy vấn dựa vào thuộc tính
Các truy vấn dựa vào thuộc tính sử dụng các chú thích văn bản, trích rút trước bởi nỗ lực của con người, như một khoá tra cứu chính Loại biểu diễn này đòi hỏi một
độ trừu tượng cao khó để thu được bằng các phương pháp tự động hoàn toàn do một ảnh chứa một số lượng lớn các thông tin mà khó tóm tắt khi sử dụng một số ít các từ khoá Phương pháp này nhìn chung là nhanh hơn và dễ thực hiện hơn, nhưng có một
độ chủ quan và nhập nhằng cao xuất hiện như chúng ta đã đề cập
Một người sử dụng tiêu biểu chắc chắn thích truy vấn các hệ thống tra cứu ảnh dựa vào nội dung bằng việc yêu cầu các câu hỏi tự nhiên như “Đưa cho tôi tất cả các bức tranh có hình ảnh của cây Đinh Lăng” hoặc “Tìm tất cả các ảnh có cây thảo dược”
Trang 23Ánh xạ truy vấn ngôn ngữ tự nhiên này đến một truy vấn trên cơ sở dữ liệu ảnh là vô cùng khó so với việc sử dụng các phương pháp chú thích Khả năng của các máy tính
để thực hiện nhận dạng đối tượng tự động trên các ảnh chung vẫn là một vấn đề nghiên cứu mở Do đó hầu hết các nỗ lực nghiên cứu và thương mại tập trung vào xây dựng các hệ thống thực hiện tốt với các phương pháp QBE
1.4 Những ứng dụng cơ bản của tra cứu ảnh dựa vào nội dung
Tra cứu ảnh dựa vào nội dung được ứng dụng thành công trong rất nhiều lĩnh vực bao gồm:
Ngăn chặn tội phạm
Quân sự
Quản lý tài sản trí tuệ
Thiết kế kiến trúc máy móc
Thiết kế thời trang và nội thất
Báo chí quảng cáo
Tra cứu trang web
1.5 Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu
1.5.1 Hệ thống QBIC
Hệ thống QBIC (Query By Image Content) của hãng IBM là một hệ thống tra cứu ảnh thương mại đầu tiên và nổi tiếng nhất trong số các hệ thống tra cứu ảnh dựa trên nội dung Nó cho phép người sử dụng tra cứu ảnh dựa vào màu sắc, hình dạng và kết cấu Các thuộc tính trực quan có được từ các ảnh tự giữa các bins màu được xem
Trang 24xét khi tính toán tính tương tự Đặc trưng texture được biểu diễn với độ thô, tương phản Đặc trưng hình dạng được mô tả bằng diện tích, hình dáng tròn, độ lệch, hướng trục chính và tập các bất biến moment đại số.
1.5.2 Hệ thống Photobook
Hệ thống này được phát triển ở viện kỹ thuật Massachusetts Nó cho phép người sử dụng tra cứu ảnh dựa trên màu sắc, hình dạng và kết cấu Hệ thống này cung cấp một tập các thuật toán đối sánh gồm: Euclidean, mahalanobis, vector space angle, histogram, Fourier peak, và wavelet tree distance như là những độ đo khoảng cách Hệ thống như là một công cụ bán tự động và có thể sinh ra một mẫu truy vấn dựa vào những ảnh mẫu được cung cấp bởi người sử dụng
1.5.3 Hệ thống VisualSEEK và WebSEEK
Cả hai hệ thống này đều được phát triển tại Trường Đại học Colombia VisualSEEK là hệ thống cơ sở dữ liệu ảnh Nó cho phép người sử dụng tra cứu ảnh dựa trên màu sắc, không gian miền và đặc điểm kết cấu Thêm vào đó VisualSEEK còn cho phép người sử dụng tạo truy vấn bằng việc chỉ định vùng màu và những không gian vị trí của chúng WebSEEK được thiết kế để tìm kiếm ảnh và video trên internet Trong WebSEEK, các ảnh được phân tích theo hai tiến trình riêng biệt Tiến trình thứ nhất trích chọn và chỉ mục các đặc trưng trực quan như biểu dồ màu và texture Tiến trình thứ hai chia sẻ text kết hợp và phân lớp các ảnh theo các lớp chủ đề,
ví dụ như lớp cây cối, lớp trường học…
Trang 25Hệ thống này cho phép người sử dụng tra cứu ảnh bởi nội dung màu, hình dạng, và kết cấu Nó cung cấp một số phương pháp để tra cứu ảnh tương tự: Màu tương tự, màu và hình dạng, màu và hình dạng mờ, và phân bố màu Màu tương tự để tra cứu những ảnh tương tự với ảnh mẫu dựa trên sự phân bố màu toàn cục Màu và hình dạng thực hiện tra cứu bởi việc kết hợp cả hình dạng, kết cấu và màu Màu và hình dạng mờ thực hiện thêm những bước xác định đối tượng trong ảnh mẫu.
Phân bố màu cho phép người sử dụng vẽ ra sự phân bố màu hoặc xác định
tỷ lệ phần trăm của một màu trong hình ảnh mong muốn Imatch cũng cung cấp những đặc điểm khác nội dung để xác định ảnh: ảnh nhị phân, lưu trữ trong những định dạng khác và những ảnh có tên tương tự
1.5.6 Mô tơ tìm kiếm WWW ImageRover
ImageRover được thiết kế để tìm kiếm ảnh trên World Wide Web Các đặc trưng trực quan bao gồm màu, hướng, sườn, texture và hình dạng Sự khác nhau chính giữa ImageRover và các hệ thống khác là nó sử dụng phản hồi liên quan Phản hồi liên quan cho phép người sử dụng lọc, lặp truy vấn thông qua đặc tả
Các hệ thống khác nhau như QBIC cũng sử dụng phản hồi liên quan, người sử dụng có thể sử dụng một trong các ảnh hiển thị (kết quả của tìm kiếm trước) là ảnh truy vấn mới Nhưng ImageRover sử dụng thuật toán phản hồi liên quan đặc biệt Người sử dựng có thể chọn nhiều ảnh liên quan Thuật toán đó tính toán véctơ đặc trưng tổ hợp
từ các ảnh này Véctơ đặc tưng tổ hợp được sử dụng như câu truy vấn mới
Chương 2 MỘT SỐ KỸ THUẬT TRA CỨU ẢNH DỰA VÀO NỘI DUNG
2.1 Tra cứu ảnh dựa vào màu sắc
Tra cứu ảnh dựa trên màu sắc hầu hết là biến đổi dựa trên ý tưởng giống nhau của các biểu đồ màu Mỗi ảnh khi đưa vào tập hợp ảnh đều được phân tích,
Trang 26tính toán một biểu đồ màu Sau đó, biểu đồ màu của mỗi ảnh sẽ được lưu trữ trong cơ
sở dữ liệu Khi tra cứu, người sử dụng có thể xác định tỷ lệ của mỗi màu mong muốn (ví dụ 75% Blue, 25% Red) hoặc đưa ra một ảnh mẫu với biểu đồ màu đã được tính toán Quá trình tra cứu sẽ đối sánh biểu đồ màu này với biểu đồ màu trong cơ
sở dữ liệu để tìm ra kết quả tương tự nhất Kỹ thuật đối sánh được sử dụng phổ biến nhất là biểu đồ màu giao nhau được phát triển đầu tiên bởi Swain Những kỹ thuật cải tiến từ kỹ thuật này ngày nay được sử dụng rộng rãi trong các hệ thống tra cứu ảnh hiện thời Kết quả của các hệ thống này đã tạo những ấn tượng khá sâu sắc
2.1.1 Màu sắc
Sự nhận thức về màu sắc là quá trình quan trọng của con người Sự nhận thức về màu sắc phụ thuộc vào cả tính chất vật lý của ánh sáng và quá trình xử lý của thị giác với sự góp phần rất quan trọng của kinh nghiệm Con người dùng thông tin màu sắc để phân biệt đối tượng, vật liệu, đồ ăn, vị trí và ngay cả thời gian của ngày Với sự phát triển mạnh mẽ của các thiết bị kinh tế, máy móc xử lý màu sắc trở nên thông dụng Chúng ta có các thiết bị như máy quay phim màu, thiết bị chiếu màu và những phần mềm xử lý ảnh màu Máy móc có thể dùng màu sắc cho những mục đích như là con người Đặc biệt, màu sắc thuận tiện bởi vì nó cung cấp phép đo lường đa dạng tại mỗi điểm ảnh đơn, có thể phân lớp, phân loại mà không cần đến những xử lý không gian phức tạp để đưa đến quyết định
Trang 272.1.3 Các không gian màu
Một không gian màu chỉ rõ các màu như các bộ số, theo các đặc tả nào đó Các không gian màu có thể dùng để sinh ra các biểu diễn màu, đặc biệt trong các biểu diễn
số, như in số hoặc hiển thị điện tử số Mục đích của không gian màu là để phục vụ đặc
tả các màu theo một số cách chuẩn, được chấp nhận chung
Mỗi điểm ảnh trên một bức ảnh có thể được biểu diễn bằng một điểm trong một không gian màu 3 chiều Những không gian màu được sử dụng nhiều nhất trong các hệ thống tra cứu ảnh là RGB, CIE L*a*b, CIE L*u*v, HSV, YUV, YIQ và không gian màu đối lập
Người ta cũng chưa chỉ ra được rằng không gian màu nào được sử dụng tốt hơn cho việc tra cứu ảnh Tuy nhiên tính chất quan trọng nhất để một không gian màu phù hợp để sử dụng trong một hệ thống tra cứu ảnh là tính đồng nhất Một không gian màu được gọi là có tính đồng nhất nếu các cặp 2 màu tương tự nhau trong không gian màu thì cũng được con người cảm nhận như nhau Nói một cách khác, khoảng cách đo được giữa hai màu bất kỳ phải có liên quan trực tiếp với độ tương tự sinh học giữa hai màu đó
2.1.3.1 Không gian màu RGB
RGB là không gian màu được sử dụng phổ biến nhất để hiển thị ảnh Không gian RGB bao gồm 3 thành phần màu là Đỏ (Red), Xanh lá cây (Green) và Xanh lam (Blue) Các thành phần này gọi là màu cộng bởi vì các màu sắc trong không gian RGB đều có thể thu được bằng cách cộng 3 thành phần màu này lại với nhau
Một màu trong không gian màu RGB đại diện cho một véc tơ với ba tọa độ Khi tất cả ba giá trị đều bằng 0 thì cho màu Black, khi tất cả ba giá trị đều bằng 1 thì cho màu White
Lưu ý rằng R,G, và B là viết tắt của các từ đỏ (Red), xanh lục (Green), và xanh
lơ (Blue) Đây là không gian màu cộng đỏ, xanh lục, và xanh lơ được kết hợp lại để tạo
Trang 28ra các màu khác Không gian này không đồng nhất về nhận thức Không gian màu RGB có thể được trực quan hoá như một hình khối, như được minh hoạ trong hình 2.1.
Hình 2.1: Mô tả không gian màu RGB
Mỗi trục màu (R, G, và B) có độ quan trọng như nhau Do đó, mỗi trục nên được lượng hoá với cùng một độ chính xác Khi không gian màu RGB được lượng hoá,
số các bin sẽ luôn luôn là một hình khối Thông thường, 8 (23), 64 (43), 216 (63), 512 (83) bin được sử dụng trong lượng hoá không gian màu RGB Chuyển đổi từ một ảnh RGB sang một ảnh cấp xám nhận được tổng của R, G, và B rồi chia kết quả cho ba
2.1.3.2 Không gian màu HSx
Các không gian màu HSI, HSV, HSB, và HSL (qui ước gọi là HSx) là gần với nhận thức của người hơn không gian màu RGB, nhưng vẫn không là đồng nhất nhận thức
Các trục từ các không gian màu HSx biểu diễn các đặc trưng màu (hue), độ bão hoà (saturation), và độ sáng (lightness) (cũng được gọi là value, brightness và
Trang 29intensity) Sự khác biệt giữa các không gian màu trong HSx là cách chúng biến đổi từ không gian màu RGB Chúng thường được biểu diễn bởi các hình khác nhau (ví dụ, hình nón, hình trụ) Trong hình 2.2 không gian màu HSV được trực quan hoá như một hình nón
Hình 2.2: Mô tả không gian màu HSV
Hue là thành phần màu của các không gian màu HSx Hue là một góc giữa một đường tham chiếu và điểm màu trong không gian RGB, phạm vi của giá trị này giữa 00
và 3600, thí dụ blue là 2400 Theo uỷ ban quốc tế về màu sắc CIE (Commission International d'E clairage), hue là “thuộc tính của cảm giác trực quan theo đó một vùng xuất hiện là tương ứng với một vùng màu được nhận thức, đỏ (red), vàng (yellow), xanh lục (green), và xanh lơ (blue), hoặc kết hợp của hai trong chúng” Nói cách khác, hue là loại màu, như đỏ hoặc xanh lục Cũng theo CIE, độ bão hoà là “màu đầy của một vùng được xem xét tương xứng với độ sáng của nó” Trong hình nón, độ bão hoà
là khoảng cách từ tâm của mặt cắt ngang tròn của hình nón, “chiều cao” nơi mặt cắt ngang này nhận được được xác định bởi giá trị – Value, nó là khoảng cách từ điểm cuối của hình nón Giá trị là độ sáng của một màu, điều này được định nghĩa bởi CIE
Trang 30như “thuộc tính của cảm giác trực quan theo đó một vùng xuất hiện để phát ra nhiều hoặc ít ánh sáng” Khi độ bão hoà được đặt đến 0, Hue không được xác định Trục giá trị biểu diễn ảnh cấp xám.
Không gian màu HSV có thể được lượng hoá dễ dàng, hue là đặc điểm quan trọng nhất của màu, thành phần này nhận được lượng hoá tốt nhất Trong vòng tròn hue, các màu chính đỏ, xanh lục, và xanh lơ được tách bởi 1200 Các màu phụ, yellow, magenta, và cyan, cũng được tách bởi 1200 và 600 cách xa hai màu chính gần nhất
Lượng hoá màu chung nhất của không gian màu HSV thành 162 bin, ở đây hue nhận 18 bin và độ bão hoà và giá trị nhận 3 bin Khi hue được chia ra thành 18 bin, mỗi màu chính và màu phụ được biểu diễn bởi ba phần nhỏ
2.1.3.3 Không gian màu CMY
Hệ thống màu CMY theo mô hình in trên giấy trắng và theo khuôn mẫu trừ từ màu trắng thay vì thêm vào từ màu đen như hệ thống màu RGB CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam, màu đỏ tươi, màu vàng), đó là ba màu chính tương ứng với ba màu mực in Cyan hấp thu sự chiếu sáng của màu đỏ, Magenta hấp thu màu xanh lục, Yellow hấp thu màu xanh dương Do đó, tạo ra sự phản ánh tương ứng như khi in ảnh được chiếu sáng với ánh sáng trắng Hệ thống dưới dạng âm tính vì
mã hóa theo dạng hấp thụ màu Có một số mã hóa như sau trắng (0,0,0) vì không có ánh sáng trắng được hấp thụ, đen (255,255,255) vì tất cả các thành phần của màu trắng đều được hấp thụ
Hệ thống màu CMY dường như là một sự đảo ngược của hệ thống màu RGB Đặc tính của nó là sự đơn giản, ứng dụng nhiều trong thực tế Tuy nhiên khuyết điểm của nó cũng tương tự như không gian màu RGB, tức là cách mã hóa khác với cách mà con người cảm nhận về màu sắc Không thích hợp cho bài toán tìm kiếm ảnh dựa vào nội dung
2.1.3.4 Các không gian màu YUV và YIQ
Các không gian màu YUV và YIQ được phát triển cho truyền hình vô tuyến Không gian màu YIQ là giống như không gian màu YUV, ở đây mặt phẳng I-Q là một
Trang 31mặt phẳng quay 330 của mặt phẳng U-V Tín hiệu Y biểu diễn độ chói của một pixel
và là kênh duy nhất được sử dụng trong ti vi đen trắng U và V cho YUV và I và Q cho YIQ là các thành phần màu
Kênh Y được định nghĩa bởi các giá trị năng lượng có trọng số của R(0.299), G(0.587) và B(0.144) Các không gian màu YUV và YIQ không là đồng nhất nhận thức Khi các không gian màu YUV và UIQ được lượng tử hoá, mỗi trục được lượng
tử hoá với cùng độ chính xác
2.1.3.5 Các không gian màu CIE XYZ và LUV
Không gian màu đầu tiên được phát triển bởi CIE là không gian màu XYZ Thành phần Y là thành phần độ chói được xác định bởi các tổng có trọng số của R(0:212671), G(0:715160), và B(0:072169) X và Y là các thành phần màu Không gian màu XYZ là không đồng nhất nhận thức Trong lượng tử hoá không gian màu XYZ, mỗi trục được lượng tử hoá với cùng độ chính xác
Không gian màu CIE LUV là một biến đổi xạ ảnh của không gian màu XYZ là đồng nhất nhận thức Kênh L của không gian màu LUV là độ chói của màu Các kênh
U và V là các thành phần màu Vậy, khi U, và V được đặt bằng 0, kênh L biểu diễn một ảnh cấp xám
Trong lượng tử hoá không gian LUV, mỗi trục được lượng tử hoá với cùng độ chính xác Với cả không gian màu XYZ và LUV, các lược đồ lượng tử hoá thường được sử dụng 8 (23), 27 (33), 64 (43), 125 (53) bin
2.1.3.6 Hệ thống màu L*a*b
Mô hình L*a*b được đề cử bởi CIE cho việc lượng hóa sự khác biệt của màu sắc trong vật chiếu sáng của ánh sáng ban ngày Tuy nhiên nó có một sự chuyển đổi được ghi vào để mà tính toán cho việc thích nghi với những nguồn sáng Đây là hệ thống màu có sự tách riêng ánh sáng và màu sắc ra riêng Do đó, cũng có khả năng lớn cho việc tìm kiếm dựa vào nội dung
2.1.4 Lượng tử hóa màu và lược đồ màu
Lượng tử hoá màu
Trang 32Lượng tử hóa màu là quá trình làm giảm số màu sắc được sử dụng để mô tả ảnh Việc lượng tử hóa màu trong không gian màu RGB được thực hiện bằng cách chia khối hình lập phương lớn thành những khối nhỏ và mỗi khối nhỏ có thể đại diện cho một màu đơn Ví dụ chia hình lớn thành 64(43) hình nhỏ bằng cách chia các trục Red, Green, Blue mỗi trục thành 4 phần nhỏ và tất cả các màu sắc được xác định trong một hình khối nhỏ sẽ đại diện cho một màu đơn.
Với hệ thống máy tính hiện thời thì không gian RGB thường thể hiện bởi hệ thống màu thực 24 bit Trong hệ thống màu 24 bit thì mỗi màu được xác định bằng 3
số nguyên:{Red, Green và Blue} và 3 số nguyên này nằm trong khoảng từ 0 – 23 như vậy nó cho ta khoảng 16.777.216 màu (224) Bởi vì quá trình lượng tử hóa không gian màu RGB tương tự như quá trình làm giảm số màu nên có thể xác định số màu trong không gian màu một cách đơn giản là giảm số màu từ 24 bit màu xuống còn n3 màu như sau:
Khi giảm một màu {R, G ,B} 24 bit màu thành màu mới {R’, G’ ,B’} với n3 Màu ta đặt:
Lược đồ màu như là một bảng tóm tắt thông tin về màu sắc cho một ảnh màu bất kỳ Việc tính lược đồ màu này được tiến hành một cách rất nhanh chóng trong ảnh
mà chỉ qua một lần duyệt qua toàn bộ ảnh Do đó ứng dụng vào việc tìm kiếm ảnh sẽ
có lợi rất lớn về mặt tốc độ Một số tính chất cần quan tâm của lược đồ màu đối với vấn đề truy tìm ảnh:
- Việc tính lược đồ màu của ảnh diễn ra rất nhanh chóng trong ảnh chỉ qua một lần duyệt qua toàn bộ ảnh
Trang 33- Lược đồ màu tương đối bất biến đối với phép tịnh tiến, xoay ảnh, và nhất là sự kéo nhỏ, kéo giãn, thay đổi kích thước của ảnh.
- Lược đồ màu của một ảnh màu có thể là một cách miêu tả rất có ý nghĩa cho việc truy tìm ảnh hay nhận dạng đối tượng trong ảnh
2.1.4.1 Lược đồ màu RGB
Lược đồ màu được xác định bằng một tập các bin, trong đó mỗi bin biểu thị xác suất của các pixel trong ảnh Một lược đồ màu H của một ảnh đã cho được xác định bởi véc tơ:
H={H[0], H[1], H[2], , H[i], H[N],},
Ở đây i biểu diễn một màu trong lược đồ màu và tương ứng với một khối con trong không gian màu RGB, H[i] là số các pixel có màu i trong ảnh, và N là số các bin trong lược đồ màu Mỗi pixel trong ảnh sẽ thuộc về một bin của lược đồ màu của ảnh,
vì thế với lược đồ màu của một ảnh, giá trị của mỗi bin là số các pixel cùng màu Để so sánh các ảnh có các kích cỡ khác nhau, các lược đồ màu được chuẩn hóa Lược đồ màu chuẩn hóa H’ được xác định bằng:
Trang 342.1.4.2 Lược đồ màu HSI
Mô hình màu HSI có những ưu điểm lớn cho việc tìm kiếm hình ảnh dựa vào nội dung và nhất là trong công việc tìm kiếm dựa vào màu sắc Nhưng những ảnh màu thông thường được lưu trữ ở dạng kỹ thuật số trong máy tính thường theo chuẩn RGB,
do đó để có được ảnh màu HSI ta phải qua công đoạn chuyển đổi Chuyển từ hệ màu RGB sang hệ màu HSI là một thuật giải có rất nhiều trong hầu hết những sách về xử lý ảnh cổ điển
Thuật toán chuyển đổi từ RGB sang HIS
Gọi R,G,B là giá trị nhập của RGB với giá trị trong khoảng [0,1] hay [0,255]
I : Giá trị xuất của cường độ intensity [0,1]
S : Giá trị xuất của độ bảo hòa saturation [0,1]
H : Giá trị xuất của màu sắc hue [0,2Π]
If (R=I) then H:=(Π/3)*(G-R) /Diff;
Else if (G=I) then H:=(2*Π/3)+Π/3*(B-R)/diff;
Else if (B=I) then H:=(4*Π/3)+Π/3*(R-G)/diff;
If (H<=0) H:=H+Π/2;
}
Theo các phương pháp truyền thống, việc tạo lược đồ màu chỉ đơn giản bằng cách chia không gian màu thành những ngăn riêng biệt, sau đó đếm những pixel có màu sắc phù hợp trong những ngăn này Cách làm này rất đơn giản, nhưng không phù hợp cho việc so sánh, tìm kiếm ảnh Vì những thay đổi nhỏ về điều kiện chiếu sáng, sự
Trang 35thay đổi về cường độ có thể gây nên những thay đổi lớn trong lược đồ màu Do đó, hai ảnh rất giống nhau về màu sắc có thể có lược đồ màu hoàn toàn khác nhau.
Ví dụ: không gian màu HSI, thành phần màu trong nhiều trường hợp mang giá trị nhưng không thể hiện được màu sắc trong hiển thị Khi giá trị cường độ màu nằm trong khoảng 0 - 0.2, màu mang bất kỳ giá trị nào thì màu mà mắt người nhìn thấy vẫn
là màu đen Vì vậy đối với các cách tính lược đồ màu thông thường, điểm ảnh A có màu bằng 2π, cường độ màu bằng 0.1 và điểm ảnh B có màu bằng π, cường độ màu bằng 0.1 sẽ nằm trong những bin khác nhau Nhưng thật ra, điểm ảnh A và điểm ảnh B đều có giá trị hiển thị là màu đen
2.1.4.3 Lược đồ HSI cải tiến
Một phương pháp được đề xuất để giải quyết cho trường hợp trên là ta dựa vào cường độ màu để lọc trước những giá trị mà màu không thể biểu thị được Sau đó dùng
độ bão hòa để lọc những giá trị có sắc màu xám Phần còn lại của không gian màu ta sẽ chia đều mỗi thành phần thành những khoảng nhất định có sự tương đồng về màu sắc
Để giá trị của lược đồ màu HSI được tính một cách phù hợp nhất đối với việc tìm kiếm, chúng ta cần chia nhỏ không gian 24 bit màu, tương ứng với 224 màu, xuống một con số có thể chấp nhận được Một con số được đề nghị là 5 giá trị mức xám, 162 cho giá trị sắc màu, tổng cộng là ta chỉ cần lưu trữ 167 bin màu
Trang 36Hình 2.3: Lược đồ màu HIS cải tiến.
2.1.5 Đo khoảng cách giữa các lược đồ màu
Bước tiếp theo của quá trình tra cứu dữ liệu ảnh dựa vào nội dung là xác định độ trùng khớp của hai lược đồ màu vừa tính được ở bước trên Do đó, phát sinh ra một giá trị để biểu thị cho sự trùng khớp và có nhiều cách để tính giá trị này Ta gọi những giá trị được tính từ những cách khác nhau này là các loại độ đo màu Một cách đơn giản,
độ đo màu được coi là một giá trị để biểu thị cho độ so khớp sự trùng khớp của hai lược đồ màu Tùy theo từng trường hợp, từng loại độ đo màu giá trị này có thể âm hoặc dương, lớn hoặc nhỏ tương ứng với mức độ giống nhau như thế nào của các loại lược
đồ màu Mỗi loại độ đo màu có những ưu và khuyết điểm riêng, trong từng trường hợp
i
I
Q i H i H
I Q
[)
,( (2-1)
Ở đây Q và I là hai ảnh, N là số các bin trong lược đồ màu, H Q [i] là giá trị của bin i trong lược đồ màuH Q, và H I [i] là giá trị của bin i trong lược đồ màu H I[4]
Trang 37Hình 2.4: Khoảng cách dạng Minkowski.
2.1.5.2 Khoảng cách dạng toàn phương
Độ đo này không chỉ so sánh các bin giống nhau mà so sánh nhiều bin giữa các lược đồ màu (xem hình 2.5) và được xác định:
) (
) (
) ,
I
H I
Q
d = − − (2-2)
Ở đây, Q và I là hai ảnh,H Q là lược đồ màu của ảnh Q,H I là lược đồ màu của ảnh
I, A=[ a i , j ] là ma trận N x N, N là số các bin trong lược đồ màu và a i , j biểu thị sự tương tự giữa màu i và màu j
Hình 2.5: Khoảng cách dạng toàn phương.
Trang 382.1.5.3 Khoảng cách Non-Histogram
Cách tiếp cận mô men màu khắc phục hiệu ứng lượng tử hóa của lược đồ màu Trong cách tiếp cận này, các đặc trưng phân bố màu của các ảnh được biểu diễn bởi các đặc trưng trội của chúng là trung bình, phương sai, độ lệch Mô men thứ nhất là màu trung bình của ảnh, mô men thứ hai là độ lệch chuẩn của mỗi kênh màu và mô men thứ ba là căn bậc ba của mỗi kênh màu Chúng được xác định bằng:
∑
=
j ij
2 / 1
2))(
1(
3) ) (
1
Ở đây Pij là giá trị của kênh màu thứ i tại pixel ảnh thứ j, E i là màu trung bình của kênh màu thứ i, σi là độ lệch chuẩn của kênh màu thứ i, s i là căn bậc ba của kênh màu thứ i, và F là tổng số các pixel Nếu Q và I là hai ảnh, và các đặc trưng màu của chúng được biểu diễn bởi các kênh màu r, thì sự tương tự giữa hai ảnh này được xác định:
)(
),
1 1
I i
Q i i
I i
Q i i
I i
Q i i
r
i
s s W W
E E
W I
Ở đây W i1,W i2 và W i3 là các trọng số được chỉ ra bởi người sử dụng
2.1.5.4 Độ đo khoảng cách Min-Max
Được thực hiện dựa trên ý tưởng lấy phần giao của của hai lược đồ cần so sánh,
ta sẽ được một lược đồ, tính tổng các giá trị có được từ lược đồ này cho ta được độ đo min-max
Đối với độ đo min: ta tính dựa vào giá trị min tại mỗi K bin
Intersection( h(I), h(M) ) = ∑
−
k j
j M h j I
(
Đối với độ đo max: ta tính dựa vào giá trị max tại mỗi K bin
Trang 39Intersection( h(I), h(M) ) = ∑
−
k j
j M h j I h
1
]}
)[
( ], )[
(
Matching ( h(I), h(M)) = ∑ih I ∑ih M i
M h I h tion Inter
] )[
( ), ( ( max
) ( ), ( (
sec
(2-9)
2.2 Tra cứu ảnh dựa vào hình dạng
2.2.1 Khái niệm về hình dạng
Một đặc trưng quan trọng khác trong tra cứu ảnh theo nội dung đó là đặc trưng
về hình dạng Hình dạng có khuynh hướng chỉ định tới một khu vực đặc biệt của ảnh Hay hình dạng chỉ là biên của đối tượng nào đó trong ảnh
Các đặc trưng hình dạng của các đối tượng hoặc các vùng đã được sử dụng trong nhiều hệ thống tra cứu ảnh dựa vào nội dung Các đặc trưng hình dạng thường được mô tả sau khi các ảnh được phân đoạn thành các vùng hoặc các đối tượng Do phân đoạn ảnh mạnh và chính xác là khó đạt được, sử dụng các đặc trưng hình dạng cho tra cứu ảnh bị giới hạn đối với các ứng dụng chuyên biệt, ở đó các đối tượng hoặc các vùng đã sẵn có Các phương pháp state-of-art cho mô tả hình có thể được phân thành hoặc là các phương pháp dựa vào đường bao hoặc các phương pháp dựa vào vùng Một biểu diễn đặc trưng hình tốt cho một đối tượng phải bất biến với dịch chuyển, quay và tỷ lệ
2.2.2 Đặc điểm hình dạng với việc tìm kiếm ảnh
Hình dạng là một cấp cao hơn màu sắc và vân Nó đòi hỏi sự phân biệt giữa các vùng để tiến hành xử lý về độ đo của hình dạng Trong nhiều trường hợp, sự phân biệt này cần thiết phải làm bằng tay Nhưng sự tự động hóa trong một số trường hợp có thể khả thi Trong đó, vấn đề chính yếu nhất là quá trình phân đoạn ảnh Nếu quá trình phân đoạn ảnh được làm một cách chính xác, rõ ràng và nhất là hiệu quả thì sự tìm kiếm thông tin dựa vào hình dạng có thể có hiệu lực rất lớn Nhận dạng ảnh hai chiều
là một khía cạnh quan trọng của quá trình phân tích ảnh Tính chất hình dạng toàn cục
ám chỉ đến hình dạng ảnh ở mức toàn cục Hai hình dạng có thể được so sánh với nhau
Trang 40theo tính chất toàn cục bởi những phương pháp nhận dạng theo hoa văn, mẫu vẽ Sự so khớp hình dạng ảnh cũng có thể dùng những kỹ thuật về cấu trúc, trong đó một ảnh được mô tả bởi những thành phần chính của nó và quan hệ không gian của chúng Vì
sự hiển thị ảnh là một quá trình liên quan đến đồ thị, do đó những phương pháp so khớp về đồ thị có thể được dùng cho việc so sánh hay so khớp Sự so khớp về đồ thị rất chính xác, vì nó dựa trên những quan hệ không gian hầu như bất biến trong toàn thể các phép biến đổi hai chiều Tuy nhiên, quá trình so khớp về đồ thị diễn ra rất chậm, thời gian tính toán tăng theo cấp số mũ tương ứng với số lượng các phần tử Trong việc tìm kiếm dữ liệu ảnh dựa vào nội dung, ta cần những phương pháp có thể quyết định sự giống và khác nhau một cách nhanh chóng Thông thường, chúng ta luôn đòi hỏi sự bất biến cả đối với kích thước của ảnh cũng như hướng của ảnh trong không gian Vì vậy, một đối tượng có thể được xác định trong một số hướng Tuy nhiên, tính chất này không thường được yêu cầu trong tìm kiếm ảnh Trong rất nhiều cảnh vật, hướng của đối tượng thường là không đổi Ví dụ như cây cối, nhà cửa, Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý ảnh Chúng trải rộng từ những độ đo toàn cục dạng thô với sự trợ giúp của việc nhận dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những hình dạng đặc biệt Lược đồ hình dạng là một ví dụ của độ đo đơn giản, nó chỉ có thể loại trừ những đối tượng hình dạng không thể so khớp, nhưng điều đó sẽ mang lại khẳng định sai, vì chỉ như là việc làm của lược đồ màu Kỹ thuật dùng đường biên thì đặc hiệu hơn phương pháp trước, chúng làm việc với sự hiện hữu của đường biên của hình dạng đối tượng và đồng thời cũng tìm kiếm những hình dạng đối tượng gần giống với đường biên nhất Phương pháp vẽ phác họa
có thể là phương pháp có nhiều đặc trưng rõ ràng hơn, không chỉ tìm kiếm những đường biên đối tượng đơn, mà còn đối với tập những đối tượng đã được phân đoạn trong một ảnh mà người dùng vẽ hay cung cấp
Các hệ thống tìm kiếm ảnh theo nội dung thường khai thác hai nhóm biểu diễn hình dạng sau :