Các công cụ tìm kiếm ảnh theo nội dung văn bản đi kèm ảnh với thời gian đáp ứng khá nhanh tuy nhiên, các công cụ này vẫn còn hạn chế trong việc giải quyết giữa nội dung câu truy vấn và n
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Trang 2MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC HÌNH VẼ v
MỞ ĐẦU 1
CHƯƠNG 1 ĐẶC TRƯNG ẢNH VÀ BÀI TOÁN TÌM KIẾM ẢNH 3
1.1 Đặt vấn đề 3
1.2 Đặc trưng văn bản đi kèm ảnh và tìm kiếm ảnh theo đặc trưng văn bản đi kèm 4
1.3 Đặc trưng nội dung ảnh và tìm kiếm ảnh theo nội dung 6
1.4 Một số chương trình minh họa tìm kiếm ảnh theo nội dung 8
1.5 Tổng kết chương 1 10
CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ẢNH 11
2.1 TRÍCH CHỌN ĐẶC TRƯNG THEO MÀU 11
2.1.1 Màu sắc 11
2.1.1.1 Khái niệm màu sắc 11
2.1.1.2 Một số đặc tính vật lý đặc biệt về màu sắc 12
2.1.2 Các hệ màu thông dụng 14
2.1.2.1 Hệ màu chuẩn RGB 14
2.1.2.2 Hệ màu CMY 15
2.1.2.3 Hệ màu HSI 16
2.1.2.4 Hệ màu HLS 18
2.1.2.5 Hệ màu YIQ 19
2.1.3 Đặc trưng màu sắc 19
2.1.3.1 Lược đồ màu (Histogram) 19
2.1.3.2 Véc- tơ liên kết mầu 21
2.1.3.3 Đặc trưng tương quan màu (AutoCorrelogram) 23
2.1.4 Các loại độ đo màu 26
2.1.4.1 Độ đo khoảng cách min- max 26
2.1.4.2 Độ đo khoảng cách Euclid 27
2.1.4.3 Độ đo khoảng cách toàn phương: 27
Trang 32.1.4.4 Độ đo Jensen – Shannon diergence (JSD): 27
2.2 TRÍCH CHỌN ĐẶC TRƯNG THEO KẾT CẤU ẢNH 28
2.2.1 Khái niệm 28
2.2.2 Một số loại kết cấu tiêu biểu 28
2.2.3 Đặc trưng kết cấu ảnh 28
2.2.4 Độ tương đồng kết cấu ảnh 29
2.2.4.1 Mật độ đường biên và hướng biên 29
2.2.4.2 Phân hoạch màu nhị phân cục bộ 31
2.2.4.3 Ma trận đồng hiện và đối tượng đồng hiện 31
2.2.4.4 Độ đo năng lượng của kết cấu dựa vào luật đo 34
2.2.4.5 Tương quan tự động và năng lượng 35
2.2.5 Phân đoạn cho kết cấu 36
2.3 TRÍCH CHỌN ĐẶC TRƯNG THEO HÌNH DẠNG ẢNH 36
2.3.1 Khái niệm 36
2.3.2 Các kỹ thuật phát hiện biên ảnh 37
2.3.2.1 Kỹ thuật phát hiện biên trực tiếp 38
2.3.3.2 Kỹ thuật phát hiện biên gián tiếp 48
2.3.3 Các đặc trưng về biên cạch 48
2.3.3.1 Lược đồ hệ số góc (Edge Direction Histogram) 48
2.3.3.2 Véc – tơ liên kết hệ số góc (Edge Direction Coherence Vector) 49
2.4 Kết luận chương 2: 51
CHƯƠNG 3: THỬ NGHIỆM TÌM KIẾM ẢNH 52
3.1 Kỹ thuật tìm kiếm ảnh dựa trên đặc trưng về màu sắc 52
3.1.1 Biểu đồ màu 52
3.1.2.1 Độ đo khoảng cách Minkowski 53
3.1.2.2 Độ đo khoảng cách Quadratic 54
3.1.2.3 Độ đo khoảng cách Non-histogram 54
3.2 Các phương pháp tra cứu ảnh 55
Trang 43.2.2 Biểu đồ màu cục bộ (Local Color Histogram - LCH) 56
3.2.3 Color Auto Correlgram 57
3.3 Thực nghiệm 60
3.3.1 Môi trường test 60
3.3.2 Mô tả chương trình 60
3.4 Giao diện chương trình 61
3.5 Kết luận 61
KẾT LUẬN 62
TÀI LIỆU THAM KHẢO 63
Trang 5DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Hình trả về khi truy vấn “d-80”……… 4
Hình 1.2 Hình trả về khi truy vấn “apple” 4
Hình 1.3 Hình dễ mô tả 5
Hình 1.4 Hình khó mô tả hơn 5
Hình 1.5 Hình khó mô tả bằng trực quan 5
Hình 1.6 Sơ đồ tìm kiếm ảnh theo đặc trưng văn bản đi kèm ảnh 6
Hình 1.7: Một số loại kết cấu trong tự nhiên 7
Hình 1.8: Sơ đồ tìm kiếm ảnh nội dung ảnh 8
Hình 1.9 Hình minh hoạ trả về của Google Image Swirl 9
Hình 1.10 Hình minh hoạ trả về của Tiltomo 9
Hình 1.11 Hình minh hoạ trả về của Byo Image Search 10
Hình 2.1 Hình mô tả ba màu cơ bản Red-Green-Blue 14
Hình 2.2 Sự biến đổi từ RGB thành CMY 15
Hình 2.3: Hệ màu CMY 16
Hình 2.4: Hệ màu HSI 17
Hình 3.5: Không gian màu HSI 17
Hình 2.6 Hình minh họa sự thay đổi độ sáng trong hệ HSI 18
Hình 2.7 Mô hình màu HLS 18
Hình 2.8.Ảnh trong hệ màu RGB 20
Hình 2.9.Ảnh trong hệ màu HSI 21
Hình 2.10 Lược đồ màu của ảnh sau khi lượng tử hóa 21
Hình 2.11: Ảnh trong hệ màu RGB 22
Hình 2.12: Ảnh trong hệ màu HSI 22
Hình 2.13: Màu đỏ thể hiện liên kết màu trong ảnh 22
Hình 2.15 Một số loại kết cấu trong tự nhiên 28
Trang 6Hình 2.17 Minh họa biên ảnh 38
Hình 2.18 Ảnh minh họa làm mảnh biên 44
Hình 2.19 Hình biên ảnh sau khi dùng phương pháp Gradient 44
Hình 2.20 Hình sau khi làm mảnh biên 44
Hình 2.21 Minh họa nguyên lý Bellman 46
Hình 2.22 Hình mô tả tìm biên theo phương pháp quy hoạch động 48
Hình 2.23.Ảnh minh hoạ hệ số góc 49
Hình 2.24 Đường biên của ảnh 49
Hình 2.25 Lược đồ hệ số góc của ảnh 49
Hình 2.26 Ảnh minh hoạ véc- tơ liên kết hệ số góc 50
Hình 2.27 Biên cạch của ảnh 50
Hình 2.28 Lược đồ vec- tơ liên kết hệ số góc 50
Hình 3.2 Độ đo khoảng cách Quadretic 54
Hình 3.3 Ba ảnh và biểu đồ màu của chúng 55
Hình 3.4 Sử dụng LCH để tính toán khoảng cách giữa ảnh C và D 57
H ình 3.5 Xác suất tính mầu sắc 57
Hình 3.6 Color auto correlgram của 2 ảnh tương tự 58
Hình 3.7 Các chức năng chính của chương trình 59
Hình 3.8 Giao diện chính của chương trình tra cứu ảnh 61
Trang 7MỞ ĐẦU
Ngày nay với sự phát triển không ngừng của công nghệ nói chung thiết bị kỹ thuật số nói riêng đã tạo ra các loại thiết bị máy ghi hình ngày càng phổ biến đa dạng và hiện đại như máy ảnh kỹ thuật số, camera, webcam…Với giá từ vài triệu đến vài chục triệu thì mỗi cá nhân, gia đình hay một tổ chức xã hội đã sở hữu được một trong các thiết bị trên Các thiết bị này đã và đang ghi lại được rất nhiều hình ảnh thuộc nhiều lĩnh vực khác nhau như khoa học kỹ thuật, giáo dục, chính trị, thể thao, văn hóa du lịch…
Trong mỗi một lĩnh vực khác như vậy, trải qua hàng tháng, hàng năm số ảnh của mỗi cơ quan, tổ chức và cá nhân tăng lên một cách nhanh chóng tạo thành cơ sở dữ liệu (CSDL) ảnh phong phú và đa dạng
Cùng với sự phát triển mạnh mẽ không ngừng của mạng Internet, tài nguyên ảnh trên các trang web ngày càng lớn Tính đến tháng 10/2009 thì trên Flick : 4 tỷ ảnh, Facebook: 30 tỷ ảnh và có 1,73 tỷ người sử dụng Internet [18] Đây quả là con
số khổng lồ
Vấn đề đặt ra là với CSDL ảnh lớn như vậy, để tìm kiếm được ảnh đáp ứng yêu cầu người dùng thì cần phải có một hệ thống hỗ trợ tìm kiếm ảnh một cách nhanh chóng, chính xác cao và tiện lợi Các công cụ tìm kiếm ảnh theo nội dung văn bản
đi kèm ảnh với thời gian đáp ứng khá nhanh tuy nhiên, các công cụ này vẫn còn hạn chế trong việc giải quyết giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả
về Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung đã giải quyết được vấn đề này
Một trong những bước quan trọng của việc tìm kiếm ảnh theo nội dung đó là bước trích chọn đặc trưng ảnh Trích chọn đặc trưng ảnh trong CSDL ảnh có sẵn để đưa ra các bộ ảnh được huấn luyện Từ ảnh yêu cầu gửi vào ta cũng trích chọn đặc trưng ảnh này theo phương pháp đã được sử dụng rồi đối sánh với bộ ảnh được huấn luyện trong CSDL ảnh để trả lại kết quả tìm kiếm
Phương pháp trích chọn đặc trưng ảnh là một bước rất quan trọng trong quá
Trang 8Chính vì vậy trong khuân khổ một luận văn thạc sỹ em chọn để tài: “Tìm hiểu một
số phương pháp trích chọn đặc trưng ảnh và thử nghiệm tìm kiếm ảnh” nhằm
tìm hiểu kỹ về các kỹ thuật trích chọn đặc trưng của ảnh, nhằm hiểu rõ hơn bản chất của bài toán tìm kiếm ảnh theo nội dung từ đó lựa chọn được được phương pháp thích hợp trong quá trình tìm kiếm ảnh vào những trường hợp cụ thể
Luận văn gồm 3 chương với các nội dung như sau:
Chương 1: Trình bày đặc trưng ảnh và bài toán tìm kiếm ảnh Chương này sẽ trình bày đặc trưng theo văn bản đi kèm ảnh, tìm kiếm ảnh theo văn bản đi kèm Phần tiếp theo của chương luận văn sẽ trình bày khái quát các đặc trưng ảnh Các đặc trưng đó là màu sắc, kết cấu và hình dạng ảnh Phần cuối của chương nêu lên một số hệ tìm kiếm ảnh trên mạng
Chương 2: Tìm hiểu sâu, phân tích kỹ hơn về các đặc trưng ảnh Các phương pháp trích chọn đặc trưng ảnh phục vụ trong quá trình tìm kiếm ảnh theo nội dung Chương 3: Luận văn trên cơ sở từ việc nghiên cứu cách trích chọn đặc trưng theo màu sắc sẽ thử nghiệm cài đặt một chương trình tìm kiếm ảnh
Trang 9CHƯƠNG 1 ĐẶC TRƯNG ẢNH VÀ BÀI TOÁN TÌM KIẾM ẢNH 1.1 Đặt vấn đề
Ngày nay với sự phát triển không ngừng của công nghệ nói chung thiết bị kỹ thuật số nói riêng đã tạo ra các loại thiết bị máy ghi hình ngày càng phổ biến đa dạng và hiện đại như máy ảnh kỹ thuật số, camera, webcam…Với giá từ vài triệu đến vài chục triệu thì mỗi cá nhân, gia đình hay một tổ chức xã hội đã sở hữu được một trong các thiết bị trên Các thiết bị này đã và đang ghi lại được rất nhiều hình ảnh thuộc nhiều lĩnh vực khác nhau như khoa học kỹ thuật, giáo dục, chính trị, thể thao, văn hóa du lịch…
Trong mỗi một lĩnh vực khác như vậy, trải qua hàng tháng, hàng năm số ảnh của mỗi cơ quan, tổ chức và cá nhân tăng lên một cách nhanh chóng tạo thành cơ sở dữ liệu (CSDL) ảnh phong phú và đa dạng
Cùng với sự phát triển mạnh mẽ không ngừng của mạng Internet, tài nguyên ảnh trên các trang web ngày càng lớn Tính đến tháng 10/2009 thì trên Flick : 4 tỷ ảnh, Facebook: 30 tỷ ảnh và có 1,73 tỷ người sử dụng Internet[18] Đây quả là con
số khổng lồ
Vấn đề đặt ra là với CSDL ảnh lớn như vậy, để tìm kiếm được ảnh đáp ứng yêu cầu người dùng thì cần phải có một hệ thống hỗ trợ tìm kiếm ảnh một cách nhanh chóng, chính xác cao và tiện lợi Các công cụ tìm kiếm ảnh theo nội dung văn bản
đi kèm ảnh với thời gian đáp ứng khá nhanh tuy nhiên, các công cụ này vẫn còn hạn chế trong việc giải quyết giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả
về Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung đã giải quyết được vấn đề này Phần trình bày tiếp theo sẽ giúp chúng ta hiểu rõ hơn cách tìm kiếm ảnh theo văn bản đi kèm và theo nội dung ảnh, từ đó cho ta thấy ưu và nhược điểm của từng phương pháp
Trang 101.2 Đặc trƣng văn bản đi kèm ảnh và tìm kiếm ảnh theo đặc trƣng văn bản
đi kèm
Mỗi ảnh trên Web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ (tag), bình luận (comment)… để mô tả các thông tin về ảnh, đây là các siêu dữ liệu (metadata) về ảnh Các dữ liệu này thường do người dùng tự đặt, công việc này được làm một cách thủ công, sau khi tạo ra rồi gắn cho mỗi ảnh, vì vậy chúng đều mang một ý nghĩa nhất định
Vì văn bản đi kèm ảnh mang ngữ nghĩa về nội ảnh cho nên hai bức ảnh có nội dung giống nhau thường có tên giống nhau và các thẻ tương tự nhau Vì vậy, các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung của các văn bản này để tìm kiếm và xếp hạng ảnh Phương pháp này cho kết quả khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng Tuy nhiên, với các câu truy vấn mang ý nghĩa không rõ ràng có thể các kết quả trả về không đúng như yêu cầu đặt ra Ví dụ truy vấn là “d-80”, “một máy ảnh phổ biến của Nikon”, hình 1.1, thì hệ thống trả về kết quả khá tốt Tuy nhiên, với truy vấn “apple”, nếu người dùng muốn tìm quả táo thì kết quả đầu tiên không thỏa mãn (logo của hãng Apple), hình 1.2, đó là hạn chế thứ nhất của việc tìm kiếm ảnh dựa trên đặc trưng văn bản đi kèm ảnh
Mặt khác các từ khóa này do người dùng tạo ra nên có thể rất dễ dàng mô tả với một số ảnh ở mức cao như: [3]
Trang 11Who: 2 người, Chirac-Mendela, Tổng thống
What: Bắt tay, Đồng ý
Where: Thảm đỏ, Ngoài trời, Điện Elysée
When: Ban ngày, tháng 7/1997
Trang 12Hơn nữa, cách gán các nhãn cho mỗi ảnh được thực hiện thủ công, bên cạnh
đó ảnh tăng lên ngày một chóng bởi sự phát triển nhanh và mạnh của các máy ảnh
kỹ thuật số, việc gán thủ công là rất tốn kém Một hướng nghiên cứu nhằm khắc phục vấn đề trên là tìm kiếm ảnh theo chính các đặc trưng trích rút từ nội dung của ảnh
Hình 1.6 Sơ đồ tìm kiếm ảnh theo đặc trƣng văn bản đi kèm ảnh
1.3 Đặc trƣng nội dung ảnh và tìm kiếm ảnh theo nội dung
Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR) hay truy vấn theo nội dung ảnh (Query Based Image Content QBIC) là một ứng dụng của thị giác máy tính đối với bài toán tìm kiếm ảnh [17] “Dựa vào nội dung ảnh (Content- Based) ” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực sự của các bức ảnh Nội dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu ảnh (texture), các đặc trưng cục bộ (local features), hay bất cứ thông tin nào có từ chính nội dung
Trang 13ảnh Cụm từ CBIR được T.Kato đưa ra vào năm 1992 trong quá trình thu thập ảnh một cách tự động từ cơ sở dữ liệu dựa trên biểu diễn màu sắc và hình dạng của ảnh Tee Cheng Siew đã giới thiệu một số đặc trưng nội dung ảnh[10]:
• Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ biến nhất trong tìm kiếm ảnh theo nội dung Mỗi một điểm ảnh (thông tin màu sắc)
có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều Các không gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV Tìm kiếm ảnh theo màu sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh của ảnh mà chứa các giá trị đặc biệt (màu sắc) Các nghiên cứu gần đây đang cố gắng phân vùng ảnh theo các màu sắc khác nhau và tìm mối quan hệ giữa các vùng này
• Đặc trưng kết cấu ảnh: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mô hình trực quan của ảnh và cách thức chúng được xác định trong không gian Kết cấu được biểu diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc vào số kết cấu được phát hiện trong ảnh Các tập này không chỉ xác định các kết cấu mà còn chỉ rõ vị trí các kết cấu trong ảnh Việc xác định các kết cấu đặc biệt trong ảnh đạt được chủ yếu bằng cách mô hình các kết cấu như những biến thể cấp
độ xám 2 chiều Ví dụ về một số loại kết cấu
Hình 1.7: Một số loại kết cấu trong tự nhiên
Trang 14• Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc trưng quan trong trong việc xác định và phân biệt ảnh trong nhận dạng mẫu Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng Thực tế,
đã có nhiều máy tìm kiếm cho phép tìm kiếm ảnh theo nội dung ảnh, tuy nhiên, các máy tìm kiếm này thường chỉ khai thác vào một phần nội dung của ảnh
Hình 1.8: Sơ đồ tìm kiếm ảnh nội dung ảnh
1.4 Một số chương trình minh họa tìm kiếm ảnh theo nội dung
• Google Image Swirl: Là một thử nghiệm tìm kiếm hình ảnh theo nội dung của Google, trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thị trực quan và độ tương đồng ngữ nghĩa giữa các ảnh Google Image Swril phân cụm
Trang 15tốp đầu các kết quả trả về cho trên 200.000 câu truy vấn và cho phép hiển thị hình ảnh dưới dạng các cụm và mối quan hệ giữa các ảnh
Hình 1.9 Hình minh hoạ trả về của Google Image Swirl
• Tiltomo: Là một công cụ dựa trên Flickr và duy trì chính cơ sở dữ liệu ảnh của Flickr Nó cho phép tìm kiếm ảnh dựa vào độ tương đồng về chủ đề, màu sắc hay kết cấu
Hình 1.10 Hình minh hoạ trả về của Tiltomo
• Byo Image Search: Tìm kiếm ảnh theo độ tương đồng về màu sắc với mẫu ảnh mà người dùng tải lên từ máy tính hoặc từ một địa chỉ URL Công cụ tìm kiếm
Trang 16này không hỗ trợ tính năng tìm kiếm ảnh dựa vào độ tương đồng về chủ đề
Hình 1.11 Hình minh hoạ trả về của Byo Image Search
• Tìm kiếm ảnh theo mẫu (example-based image search): Tìm kiếm ảnh theo mẫu là một dạng của tìm kiếm ảnh dựa vào nội dung Trong hệ thống đó, đầu vào là một ảnh, hệ thống tìm kiếm và trả lại cho người dùng những ảnh tương đồng với ảnh mẫu
1.5 Tổng kết chương 1
Trong chương này, em trình bày khái quát đặc trưng văn bản đi kèm ảnh và đặc trưng nội dung của ảnh, và giới thiệu một số công cụ tìm kiếm dựa vào nội dung ảnh Phương pháp tìm kiếm ảnh theo nội dung đã khắc phục được một phần nhược điểm của phương pháp tìm kiếm ảnh theo văn bản đi kèm ảnh và cho ra những kết quả khả quan Chương 2 luận văn sẽ trình bày về các đặc trưng, cách trích chọn đặc trưng ảnh phục vụ trong tìm kiếm ảnh số
Trang 17CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG
ẢNH
Trích chọn đặc trưng là cơ sở của việc tìm kiếm ảnh dựa vào nội dung Theo nghĩa rộng, các đặc trưng có thể bao gồm cả các đặc trưng dựa vào văn bản và các đặc trưng trực quan như màu, kết cấu hay hình dạng Trong phạm vi đặc trưng trực quan, các đặc trưng có thể được phân loại tiếp thành các đặc trưng chung và các đặc trưng trong từng lĩnh vực cụ thể Các đặc trưng trực quan chung gồm màu, kết cấu,
và hình dạng trong khi các đặc trưng lĩnh vực cụ thể là phụ thuộc ứng dụng Các đặc trưng lĩnh vực cụ thể bao gồm nhiều tri thức lĩnh vực
Nhìn chung, không tồn tại một biểu diễn đơn tốt nhất cho một đặc trưng đã cho Với mọi đặc trưng được cho tồn tại nhiều biểu diễn mô tả đặc trưng từ các tình huống khác nhau
2.1 TRÍCH CHỌN ĐẶC TRƯNG THEO MÀU ẢNH
2.1.1 Màu sắc
2.1.1.1 Khái niệm màu sắc
Màu ảnh là một yếu tố đặc trưng hết sức cơ bản của ảnh Ánh sáng màu là tổ hợp của ánh sáng đơn sắc Mắt người chỉ có thể cảm nhận được vài chục màu, song lại có thể phân biệt được tới hàng ngàn màu Có 3 thuộc tính chủ yếu trong cảm nhận màu:
- Brightness: sắc màu, còn gọi là độ chói
- Hue : sắc lượng, còn gọi là sắc thái màu
- Saturation: độ bão hoà [1]
Sự nhận thức về màu sắc là rất quan trọng trong đời sống của con người Sự nhận thức về màu sắc phụ thuộc vào cả tính chất vật lý của ánh sáng và quá trình xử
lý của thị giác với sự góp phần rất quan trọng của kinh nghiệm Con người có thể dùng thông tin màu sắc để phân biệt đối tượng, vật liệu, đồ ăn, vị trí, và ngay cả thời gian của ngày,
Trang 18o Mô hình hướng thiết bị: Định nghĩa theo thuộc tính của thiết bị dùng để hiển
Trang 19thì màu như màn hình TiVi, màn hình máy tính và máy in Các mô hình màu hướng thiết bị là RGB, CMY, YIQ Người dùng rất khó xử lý trên các mô hình này
vì nó không phản ánh trực tiếp các khái niệm trực giác màu sắc, sắc thái (còn gọi là sắc độ, là độ đậm nhạt của màu sắc) và cường độ sáng
o Mô hình hướng người dùng: Dựa trên khả năng cảm nhận màu sắc của con người Con người cảm nhận màu sắc thông qua các đối tượng trực giác màu sắc, sắc thái và cường độ sáng Các mô hình màu hướng ngừơi dùng là HSL, HSV, HCV, HSB, MTM, L*u*v, L*a*b* và L*C*h
Không gian màu là một cách biểu diễn toán học một tập các màu Các không gian màu có thể được phân vào 2 loại không gian màu: phụ thuộc thiết bị hay độc lập thiết bị
o Không gian màu độc lập thiết bị được chia thành nhiều không gian màu được định theo chuẩn CIE như: XYZ, L*a*b và L*u*v, ứng dụng chính cho mục đích đo màu
o Không gian màu phụ thuộc thiết bị được chia vào 3 lớp rộng: không gian màu
in, không gian màu video, và không gian màu màn hình Các không gian màu
in CMY, CMYK dựa trên màu mực được dùng trong ngành in và nhiếp ảnh Các không gian màu màn hình là các biến thể của không gian màu RGB, các không gian màu video - tất cả đều tương tự như không gian màu YUV được phân thành các không gian màu riêng tuỳ vào ứng dụng
Mục đích của hệ màu là cho phép các chỉ số kỹ thuật quy ước của một số loại màu sắc thích hợp với các màu sắc của một số gam màu khác Chúng ta có thể nhìn thấy trong hệ màu này, không gian màu là một tập hợp nhỏ hơn của không gian các màu có thể nhìn thấy được, vì vậy một hệ màu không thể được sử dụng để định rõ tất cả có thể nhìn thấy Sau đây, ta xem xét một số hệ hay được sử dụng nhất
Trang 202.1.2 Các hệ màu thông dụng
2.1.2.1 Hệ màu chuẩn RGB
Tổ chức quốc tế về chuẩn hoá màu CIE(Commision Internationale d'Eclairage) đưa ra một số các chuẩn để biểu diễn màu Các hệ này có các chuẩn riêng Ở đây chỉ đề cập đến chuẩn màu CIE-RGB (hệ toạ độ dùng 3 màu cơ bản) Như đã nêu trên, một màu là tổ hợp của các màu cơ bản theo một tỉ lệ nào đấy Như vậy, một pixel ảnh màu kí hiệu Px được viết:
Px =
red green blue
Hình 2.1 Hình mô tả ba màu cơ bản Red-Green-Blue
Mắt người có thể phân biệt hàng ngàn màu sắc khác nhau, những con số chính xác hơn vẫn còn đang được bàn cãi nhiều Ba màu RGB (Red-Green- Blue)
mã hóa hệ thống đồ họa sử dụng ba byte 224
hay khoảng chừng 16 triệu màu phân biệt Máy tính có thể phân biệt bất kỳ màu gì sau khi được mã hóa, nhưng việc mã
Trang 21hóa có thể không trình bày được những sự khác biệt trong thế giới thực Mỗi điểm ảnh RGB bao gồm một byte cho màu R, một byte cho màu G và một byte cho màu
B Việc mã hóa một màu tùy ý trong dãy hiển thị được làm bằng cách tổ hợp ba màu chính Ví dụ: Red(255,0,0), Green(0,255,0), Blue(0,0,255), Black(0,0,0) Hệ thống màu RGB là một hệ thống màu cộng vào bởi vì mỗi màu được tạo nên bằng cách cộng thêm các phần tử vào màu đen(0,0,0) Khuôn dạng của không gian màu RGB là định dạng phổ biến nhất của ảnh số, lý do chính là tính tương thích với màn hình hiển thị chính là màn hình vi tính Tuy nhiên không gian màu RGB có hạn chế lớn nhất là không phù hợp với cách con người cảm nhận về màu sắc Do đó không phù hợp cho việc ứng dụng vào tìm kiếm ảnh
2.1.2.2 Hệ màu CMY
Không gian màu CMY được dùng trong in ấn Màu lục lam, màu đỏ tươi và màu vàng là phần bù của màu đỏ, màu xanh lá cây và màu xanh dương được gọi là các thành phần cơ sở trừ vì chúng được tạo ra bằng cách trừ đi độ sáng từ màu trắng Ví dụ màu lục lam là phần bù của màu đỏ, tạo ra bằng cách xoá thành phần
đỏ từ màu trắng Có thể chuyển từ không gian màu RGB sang không gian màu CMY bằng công thức chuyển đổi đơn giản nhưng không chính xác: C=1-R, M=1-
G, Y=1-B
Hình 2.2 Sự biến đổi từ RGB thành CMY
Hệ thống màu CMY dường như là một sự đảo ngược của hệ thống màu RGB Đặc tính của nó là sự đơn giản, ứng dụng nhiều trong thực tế Tuy nhiên khuyết điểm của nó cũng tương tự như không gian màu RGB, tức là cách mã hóa khác với cách mà con người cảm nhận về màu sắc Không thích hợp cho bài toán tìm kiếm ảnh dựa vào nội dung
Y M C
1 1 1
Trang 22Hình 2.3: Hệ màu CMY
2.1.2.3 Hệ màu HSI
Hệ thống màu HSI mã hóa thông tin màu sắc bằng cách chia giá trị intensity
I từ hai giá trị được mã hóa thuộc về độ hội tụ của màu- hue H và saturation S Thành phần không gian màu HSI gồm có ba phần: Hue được định nghĩa có giá trị 0-2Π, mang thông tin về màu sắc Saturation có giá trị 0-1, mang giá trị về độ thuần khiết của thành phần Hue Intensity (Value) mang thông tin về độ sáng của điểm ảnh Ta có thể hình dung không gian màu HSI như là vật hình nón Với trục chính biểu thị cường độ sáng Intensity Khoảng cách đến trục biểu thị độ tập trung Saturation Góc xung quanh trục biểu thị cho sắc màu Hue Đôi khi, hệ thống màu HSI được coi như là hệ thống màu HSV dùng Value thay vì Intensity Hệ thống màu HSI thì thích hợp hơn với một số thiết kế đồ họa bởi vì nó cung cấp sự điều khiển trực tiếp đến ánh sáng và hue Hệ thống màu HSI cũng hỗ trợ tốt hơn cho những thuật toán xử lý ảnh vì sự tiêu chuẩn hóa về ánh sáng và tập chung vào hai tham số về độ hội tụ màu, và cường độ màu Hệ thống màu HSI có sự phân chia rõ rệt giữa ánh sáng và màu sắc Do đó có khả năng rất lớn được áp dụng cho việc tính đặc trưng và so sánh sự giống nhau về màu sắc của hai ảnh Do đó nó rất thích hợp cho việc tìm kiếm ảnh dựa vào màu Sự giống và khác nhau giữa hai ảnh về mặt màu sắc đối với mắt người chỉ mang ý nghĩa tương đối Do đó khi áp dụng vào bài toán này trên máy tính thì ta cũng giả lập sự tương đối này Phương pháp chính của việc tìm kiếm theo màu sắc là dùng lược đồ màu để làm đặc trưng cho từng
Trang 23ảnh Do những đặc điểm riêng của
mô hình màu HSI và đặc trưng của
việc tìm kiếm nên tính lược đồ màu
imin( , , )
Đặt r’ =
),,min(r g b i
r i
,
),,min(
'
b g r i
g i g
),,min(
'
b g r i
b i b
Trang 24b g r vàr
b g r khig
g
b g r vàb
b g r khig
b
b g r vàb
b g r khig
r
b g r vàg
b g r khir
g
b g r vàg
b g r khir
b
, ' 5
) , , min(
) , , max(
, ' 3
) , , min(
) , , max(
, ' 3
) , , min(
) , , max(
, ' 1
) , , min(
) , , max(
, 1
) , , min(
) , , max(
, ' 5
Minh họa thành phần cường độ sáng i thay đổi:
Hình 2.6 Hình minh họa sự thay đổi độ sáng trong hệ HSI
2.1.2.4 Hệ màu HLS
Mô hình màu HLS được xác định bởi tập hợp hình chóp sáu cạnh đôi của không gian hình trụ Sắc màu là góc quanh trục đứng của hình chóp sáu cạnh đôi với màu đỏ tại góc 0o Các màu sẽ xác định theo thứ tự giống như trong biểu đồ CIE khi ranh giới của nó bị xoay ngược chiều kim đồng hồ: Màu đỏ, màu vàng, màu lục, màu xanh tím, màu lam và đỏ thẫm Điều này cũng giống như thứ tự sắp xếp trong
mẫu hình chóp sáu cạnh đơn HSI.[2]
Hình 2.7 Mô hình màu HLS
Trang 25Chúng ta có thể xem mẫu HLS như một sự biến dạng của mẫu HSV mà trong
đó mãu này màu trắng được kéo hướng lên hình chóp sáu cạnh phía trên từ mặt V=
1 Như với mẫu hình chóp sáu cạnh đơn, phần bổ sung của một màu sắc được đặt ở
vị trí 180o hơn là xunh quanh hình chóp sáu cạnh đôi, sự bão hòa được đo xung quanh trục đứng, từ 0 trên trục tới 1 trên bề mặt Độ sáng bằng không cho màu đen
Q I Y
3111.0532.0212.0
321.0275.0596.0
114.0587.0299.0
Để lấy được các giá trị RGB từ tập YIQ, chúng ta chỉ cần thực hiện toán tử đảo ma trận Hệ màu YIQ được thiết kế giúp cho sự cảm nhận của con người về sự thay đổi độ sáng chói tốt hơn sự thay đổi đặc trưng màu sắc (Hue) và độ thuần khiết (Sataration) Lợi thế của YIQ trong việc xử lý ảnh là độ sáng chói (Y) và thông tin màu (I và Q) được tách riêng ra Sự quan trọng của việc tách riêng này giúp cho việc xử lý thành phần Y của ảnh có thể không có ảnh hưởng đến nội dung màu Không gian màu này đều gây khó khăn cho người sử dụng vì nó không phản ánh trực tiếp khái niệm giác quan của màu sắc: màu, sắc thái và độ sáng
2.1.3 Đặc trưng màu sắc
2.1.3.1 Lược đồ màu (Histogram)
Là đại lượng đặc trưng cho phân bố màu cục bộ của ảnh
Trang 26n ( ID ) : Tổng số điểm ảnh trong ảnh
m(ID ,Ci ) thể hiện số điểm ảnh có giá trị màu Ci
H: lược đồ màu của ảnh
Mặc dù lược đồ màu cần tính là rất lớn (224 màu), tuy nhiên do mức độ cảm nhận của mắt con người còn hạn chế nên thật sự chúng ta không thể phân biệt được một lượng màu lớn như vậy Do đó chúng em đề nghị sử dụng hệ màu HSI (12 H, 3 S, 3 I) và thêm 5 mức xám Vì vậy chúng ta có 113 màu đại diện cho 224màu trong việc tìm kiếm Lược đồ màu bất biến đối với phép quay và tịnh tiến ảnh,
và nếu chuẩn hoá lược đồ màu sẽ bất biến đối với phép co giãn Độ đo tính tương
tự về màu sắc giữa lược đồ màu của ảnh truy vấn H(IQ) và lược đồ màu của ảnh trong cơ sở dữ liệu ảnh H(I D ):
M
j
D Q
D Q H
j I H
j I H j I H I
I D
1
1
),(
)),(),,(min(
),(
Công thức trên cho ta thấy, tính tương tự về màu sắc được tính bằng phần giao của 2 lược đồ màu ảnh truy vấn H(IQ ) và ảnh trong cơ sở dữ liệu ảnh H(ID ) Kết quả sẽ là một lược đồ màu thể hiện độ giống nhau giữa 2 ảnh trên Tuy nhiên vì lược đồ màu chỉ thể hiện tính phân bố màu toàn cục của ảnh mà không xét đến tính phân bố cục bộ của điểm ảnh nên có thể có 2 ảnh trông rất khác nhau nhưng lại có cùng lược đồ màu Để khắc phục được tình trạng này, chúng ta dùng phân hoạch lưới ô vuông trên ảnh Lược đồ màu của ảnh là không duy nhất
Ví dụ minh hoạ ảnh trong hệ màu RGB và HSI:
Hình 2.8.Ảnh trong hệ màu RGB
Trang 27Hình 2.9.Ảnh trong hệ màu HSI
Hình 2.10 Lƣợc đồ màu của ảnh sau khi lƣợng tử hóa
2.1.3.2 Véc- tơ liên kết mầu
Là lược đồ tinh chế lược đồ màu, chia mỗi ô màu (bin) thành 2 nhóm điểm ảnh: Nhóm liên kết màu (coherence pixels) và nhóm không liên kết màu (non-coherence pixels) Một pixel trong 1 ô màu (bin) được gọi là điểm liên kết màu (coherent) nếu nó thuộc vùng gồm các màu tương tự với kích thước lớn (thường bằng khoảng 1%b kích thước ảnh) Với mỗi ô màu (bin) giả sử số điểm liên kết màu là α và số điểm không liên kết màu là β thì vector liên kết màu được xác định:
Q
c I I D
1
) (
) ,
Nhận xét:
Ngoài việc sử dụng đặc trưng liên kết màu cho việc tìm kiếm ảnh, đặc trưng này còn có thể được sử dụng cho việc phân biệt cảnh thiên nhiên và cảnh thành phố:
Ảnh thiên nhiên (núi, cảnh thiên nhiên, hoàng hôn) có khuynh hướng có số
Trang 28khuynh hướng có số điểm liên kết màu và số điểm không liên kết màu gần như nhau Vì vậy có thể dùng vector liên kết màu làm đặc trưng phân biệt cảnh thiên nhiên và cảnh thành phố
Chỉ dùng đặc trưng lược đồ màu khó phân biệt ảnh thiên nhiên và ảnh thành phố Ngòai ra vector liên kết màu còn giúp giải quyết khuyết điểm về tính không duy nhất của lược đồ màu đối với ảnh Hai ảnh có thể có chung lược đồ màu nhưng khác nhau hoàn toàn đây là khuyết điểm của lược đồ màu Nhưng với tìm kiếm theo đặc trưng vector liên kết màu thì nó sẽ giải quyết được khuyết điểm không duy nhất này
Ví dụ minh hoạ các điểm liên kết màu trong ảnh:
Hình 2.11: Ảnh trong hệ màu RGB
Hình 2.12: Ảnh trong hệ màu HSI
Hình 2.13: Màu đỏ thể hiện liên kết màu trong ảnh
Trang 29Hình 2.14.Lƣợc đồ véc tơ liên kết màu sau khi đƣợc lƣợng tử hóa
1[ ( ) ( cos cos ) ( sin sin ) ]5
a l I s H S H S H S H
Công thức thể hiện hai màu giống nhau
2.1.3.3 Đặc trưng tương quan màu (AutoCorrelogram)
Đặc trưng tương quan màu biểu diễn sự thay đổi mối quan hệ về không gian giữa các cặp màu theo khoảng cách Lược đồ màu chỉ ghi nhận được sự phân bố màu trong ảnh mà không chứa các thông tin mối quan hệ về khoảng cách
Khi đó, ký hiệu p Ic tương đương với p I , I ( p ) c
Để thống nhất, ta sử dụng quy tắc L∞ để đo khoảng cách giữa các pixel Ví dụ, với các pixel p1 =(x 1 ,y 1 ), p 2 =(x 2 ,y 2 ) thì p1 p2 max{ 1x x2 , 1y y2 }
Trang 30Chọn một khoảng cách d [n] Khi đó, Correrlogram của I được định nghĩa như sau:
( )
1 ,
Tiếp theo là một số thuật toán tính Correrlogram Các thuật toán này có thể chia nhỏ để tính toán song song nên có thể tăng tốc tính toán rất nhiều
Để tính được Correrlogram điều kiện cần là phải tính được:
có màu ci một khoảng cách là k (hệ số 8k là do tính chất của L∞
Thuật toán này có ý tưởng chính như sau: với mỗi pi I của màu ci
và với mỗi k[d] , tính tổng số các p2 I của màu cj với p1p 2 L k Thuật toán này có độ phức tạp O(n2
d2)
Để giàm chi phí tính toán ta định nghĩa cá đại lượng sau:
, , , ,
Trang 31Khi đó để tính Correlogram thì trước tiên phải tính ,
( )
c h
p k
cho mọi p Ic với mỗi k=1, ,d theo công thức (7) Khi
đó với mỗi k ta mất cho phí O(n2) nên chi phí tổng cộng là O(n2
d)
Tương tự với c y,
p
Ta có công thức tổng quát sau:
Độ phức của công thức trên là O(n2)
Độ phức tạp của toàn thuật toán trên là O(n2d) nhưng với hằng số d nhò thì
độ phức tạp tương đương O(n2
)
Nhân ma trận khi giá trị d lớn
Khi giá trị d lớn và cách xa nhau thì thuật toán trên không còn được tối ưu Khi đó ta sẽ sử dụng phương pháp quy hoạch động phức tạp hơn – thuật toán nhân
Trang 321
, ) , ( 2
Ta có (I c N1)N2 I c(N1N2) mặt khác N1N2 = N là ma trận kích thước n x d Khi đó thuật toán tính trước N với n được cho và sử dụng phép nhân ma trận nhanh để tính IcN bằng cách thêm từng cột trong phép nhân, chúng ta có thể tính
c i j
Tương tự ta có thể tính 3 thành phần còn lại
Chi phí của thuật toán này là chi phí của phép nhân IcN, ma trận 0-1 kích thước n x n với ma trận nguyên kích thước nxd Do đó, chi phí của thuật toán là O(n3dw-3) với w [2,3) thực nghiệm thuật toán có w 2,7
2.1.4 Các loại độ đo màu
Bước tiếp theo của quá trình tìm kiếm dữ liệu ảnh dựa vào nội dung là xác định độ trùng khớp của hai lượt đồ màu vừa tính được ở bước trên Do đó, phát sinh ra một giá trị để biếu thị cho sự trùng khớp này, có nhiều cách để tính giá trị này Ta gọi những giá trị được tính từ những cách khác nhau này là các loại độ đo màu Một cách đơn giản, độ đo màu là được coi một giá trị để biểu thị cho độ so khớp sự trùng khớp của hai lượt đồ màu Tùy theo từng trường hợp, từng loại độ
đo màu giá trị này có thể âm hoặc dương lớn hoặc nhỏ tương ứng với mức độ giống nhau như thế nào của các loại lược đồ màu
Mỗi loại độ đo màu có những ưu và khuyết điểm riêng, trong từng trường hợp cụ thể
Gọi h(I) và h(M) tương ứng là 2 lượt đồ màu của hai ảnh I và ảnh M Khi đó các loại độ đo màu được định nghĩa là một số nguyên (hoặc số thực) theo các loại
độ đo tương ứng như sau:
2.1.4.1 Độ đo khoảng cách min- max
Được thực hiện dựa trên ý tưởng lấy phần giao của của hai lượt đồ cần so sánh, ta sẽ được một lượt đồ, tính tổng các giá trị có được từ lượt đồ này cho ta
Trang 33được độ đo min-max
Đối với độ đo min: ta tính dựa vào giá trị min tại mỗi K bin
2.1.4.2 Độ đo khoảng cách Euclid
Đây là khoảng cách Euclid thông thường giữa các K bin màu
2 1
[h(i)-h(j)] aij [h(i)-h(j)]
2.1.4.4 Độ đo Jensen – Shannon diergence (JSD):
Độ đo JSD sử dụng lược đồ màu RGB để tính toán độ tương đồng về màu sắc giữa 2 ảnh:
Intersction( h(I), h(M) ) =
Trang 342.2 TRÍCH CHỌN ĐẶC TRƢNG THEO KẾT CẤU ẢNH
2.2.1 Khái niệm
Kết cấu ảnh (texture), đến nay vẫn chưa có một định nghĩa chính xác cụ thể
về kết cấu, là một đối tượng dùng để phân hoạch ảnh ra thành những vùng được quan tâm và để phân lớp những vùng đó Kết cấu cung cấp thông tin sự sắp xếp về mặt không gian của màu sắc và cường độ của một ảnh
2.2.2 Một số loại kết cấu tiêu biểu
Hình 2.15 Một số loại kết cấu trong tự nhiên
2.2.3 Đặc trưng kết cấu ảnh
Kết cấu được đặc trưng bởi sự phân bổ không gian của những mức cường độ trong một khu vực láng giềng với nhau Kết cấu của ảnh màu và kết cấu đối với ảnh xám là như nhau Kết cấu gồm nhiều kết cấu gốc hay kết cấu phần tử gộp lại, đôi khi được gọi là texel Xét về vấn đề phân tích kết cấu, có hai đặc trưng chính yếu nhất:
Cấu trúc kết cấu: kết cấu là tập hợp những texel được sắp xếp theo một số quy luật nhất định hay có cấu trúc không gian lặp đi lặp lại Sự thống kê kết cấu được định nghĩa như sau: kết cấu là một độ đo về số lượng của sự sắp xếp những mức xám hay cường độ sáng trong vùng Một kết cấu bất kỳ có thể coi như là một tập của những texel thô trong một quan hệ không gian đặc biệt nào đó Một cấu trúc không gian của một kết cấu bất kỳ sau đó có thể bao gồm một sự mô tả của texel và một đặc tả về không gian Những texel đương nhiên phải được phân đoạn và quan
hệ không gian phải được tính toán một cách thật hiệu quả Texel là những vùng ảnh
Trang 35có thể trích rút từ một số hàm phân ngưỡng đơn giản Đặc điểm quan hệ không gian của chúng có thể miêu tả như sau: Giả sử rằng chúng ta có tập những texel, với mỗi phần tử của tập hợp này ta có thể đặc trưng bởi một điểm ý nghĩa nhất, điểm này gọi
là trọng tâm Đặt S là tập của những điểm này Với mỗi cặp điểm P và Q trong tập
S, ta có thể xây dựng đường phân giác trực giao nối chúng lại với nhau Đường phân giác trực giao này chia mặt phẳng thành hai nửa mặt phẳng, một trong chúng là tập của những điểm gần với P hơn và cái còn lại là tập những điểm gần với Q hơn Đặt
H Q (P) là nửa mặt phẳng gần P hơn Ta có thể lặp lại quá trình này với mỗi điểm Q trong S Đa giác Voronoi của P là vùng đa giác bao gồm tất cả những điểm gần P hơn những điểm khác của S và được định nghĩa
2.2.4.1 Mật độ đường biên và hướng biên
Từ khi phương pháp dò biên được phổ biến rộng và sự đơn giản trong ứng dụng vào quy trình dò đối tượng, nó trở thành là bộ dò biên như là bước tiên quyết trong việc phân tích kết cấu Số lượng điểm ảnh trong một vùng ảnh xác định trước
về mặt kích thước cho ta thấy được một số biểu thị về mật độ điểm trong vùng ảnh
đó Hướng của những đường biên này cũng có thể hữu dụng trong việc mô tả đặc điểm hoa văn của kết cấu Xét khu vực gồm có N điểm ảnh Giả sử rằng bộ dò biên dựa trên gradient áp dụng vào cho vùng ảnh này sinh ra hai kết xuất của của mỗi điểm ảnh p: 1) độ lớn gradient Mag(p) và 2) phương hướng gradient Dir(p) Một trong những đối tượng kết cấu rất đơn giản là số đường biên trên một khu vực được