1.2.3.1 Truy vấn ảnh theo đối tượng (OBIR)
Hệ thống truy vấn ảnh dựa vào đối tượng Object Based Image Retrieval (OBIR) hiện nay đang được nghiên cứu. Rõ ràng truy vấn theo đối tượng sẽ rất gần với nhu cầu thường thấy của người sử dụng và giống theo nhận thức của con người. Ví dụ tìm tất cả các nhà hàng hoặc các khu di tích lịch sử có vị trí xung quanh thành phố Biên Hòa – Đồng Nai … Tuy vậy chi phí cho việc dò tìm ra đối tượng là không nhỏ và khả năng trích ra chính xác đối tượng trong ảnh cũng không dễ bởi lẽ định nghĩa thế nào là đối tượng trong ảnh cho đúng với ý nghĩa của đối tượng trong thực tế. Vì thế chỉ riêng việc nhận diện ra đối tượng hay nhận dạng mặt người cũng là một đề tài nghiên cứu. Đối với phương pháp này thì yếu tố quyết định là làm sao rút trích ra chính xác cùng một đối tượng trong các ảnh khác nhau (các hoàn cảnh xuất hiện khác nhau của cùng một đối tượng).
1.2.3.2 Truy vấn ảnh kết hợp với máy học:
Để cải thiện hiệu quả truy vấn, người ta xây dựng hệ thống truy vấn ảnh kết hợp với máy học có khả năng nhận phản hồi từ người dùng. Nâng cao hiệu quả truy vấn qua quá trình huấn luyện. Ví dụ như truy vấn CSDL ảnh áp dụng mô hình Mediator Markov Model (MMM) của tác giả Nguyễn Phước Lộc [3]. Kết quả của hệ thống này cho thấy: trong 1048 ảnh thử nghiệm với 40 truy vấn mẫu sau khi đã có 200 phản hồi: số ảnh tìm được gần bằng 795, số ảnh tìm được đúng gần 510 và số ảnh đúng trong CSDL 670. (Nghĩa là tỷ lệ Precision=0.64 và tỷ lệ Recall là 0.76) .
Trong các hệ thống truy vấn ảnh áp dụng mạng Nơron, dựa trên phản hồi của người dùng hệ thống thay đổi các trọng số quan hệ giữa các đặc trưng trong ảnh (như màu sắc, hình dáng…). Ví dụ như hệ thống Nơron Netwrok based Flexible Image Retrieval (NNFIR) của HYOUNG K. LEE and SUK I. YOO sử dụng hàm Radial Basis Function (RBF) để xác lập mối quan hệ phi tuyến giữa các đặc trưng có kết quả truy vấn với tỷ lệ Precision là 81.70% và tỷ lệ recall là 54.22% [13].
Ngoài ra, các nhà nghiên cứu đã thử nghiệm nhúng Fuzzy Logic vào việc truy vấn ảnh nhưng chưa thành công vì chưa có hàm độ đo sự tương đồng thích hợp cho số mờ bởi nguyên nhân các hàm tính toán đơn giản trên số mờ thì tốt. Trong khi các tính toán cao cấp phức tạp trên số mờ vẫn còn hạn chế. Ví dụ như phương pháp nhúng Fuzzy Logic vào Truy vấn ảnh dựa trên nội dung (Embedding Fuzzy Logic in Content Based Image Retrieval) của Constantin Vertan, Nozha Boujemaa truy vấn ảnh dựa trên Fuzzy Histogram thử nghiệm với nhiều độ đo khác nhau (Zadeh, Algebaric, Lukasiewicz, Hamacher , L1…) kết quả truy vấn tỷ lệ Precision đều nhỏ hơn 70.00% [21]. Sau này,Yixin Chen và James Z. Wang (2002) đã xây dựng một hệ thống truy vấn ảnh theo vùng dựa vào Fuzzy logic sử dụng độ đo Unified feature matching (UFM) cho kết quả khá khả quan.
Bên cạnh đó, sử dụng máy học Support Vector Machine (SVM) dựa trên các phản hồi của người dùng để xác định ảnh kết quả trả ra nào là giống với ảnh truy vấn và ảnh kết quả trả ra nào là khác với ảnh truy vấn. Sau đó, hệ thống sẽ đưa ra tập kết quả chính xác hơn. Ví dụ như hệ thống “Support Vector machine Learning for Image Retrieval” của Lei Zhang, Fuzong, Bo Zhang cho tỷ lệ recall là 0.743. Phương pháp này đòi hỏi cơ chế ngăn chặn sự phản hồi sai của người dùng, đồng thời cần có một quá trình huấn luyện cho máy học thì hệ thống mới hoạt động tốt được.
Chương 2: TRUY VẤN ẢNH DỰA VÀO ĐẶC TRƯNG HÌNH THÁI VÀ MÀU SẮC
2.1. CÁC ĐẶC TRƯNG ĐƯỢC SỬ DỤNG ĐỂ TRUY VẤN ẢNH
2.1.1. Các đặc trưng về màu sắc:
Sự nhận thức về màu sắc là rất quan trọng trong đời sống của con người. Sự nhận thức về màu sắc phụ thuộc vào cả tính chất vật lý của ánh sáng và quá trình xử lý của thị giác với sự góp phần rất quan trọng của kinh nghiệm. Con người có thể dùng thông tin màu sắc để phân biệt đối tượng, vật liệu, đồ ăn, vị trí, và ngay cả thời gian của ngày... Con người chỉ có khả năng nhận thức được ánh sáng có bức xạ điện từ với bước sóng trong khoảng 400 – 700 nanomet. Cơ quan thị giác cảm nhận được ánh sáng là do bề mặt đối tượng phát ra ánh sáng, là kết quả của sự tương tác giữa năng lượng chiếu sáng và những phân tử của bề mặt đối tượng. Một đối tượng màu xanh dương sẽ có bề mặt màu xanh dương khi chiếu ánh sáng trắng vào. Nhưng đối tượng đó sẽ có màu tím khi chiếu ánh sáng đỏ vào.Với sự phát triển mạnh mẽ của các thiết bị máy tính, các máy xử lý màu sắc trở nên thông dụng: Chúng ta có các thiết bị như máy quay phim màu, thiết bị chiếu màu và những phần mềm xử lý ảnh màu. Máy móc có thể dùng màu sắc cho những mục đích của con người. Đặc biệt, màu sắc rất thuận tiện bởi vì nó cung cấp phép đo lường đa dạng tại mỗi điểm ảnh đơn, có thể phân lớp, phân loại mà không cần đến những sự xử lý không gian phức tạp để đưa đến quyết định. Do đó, việc lựa chọn mô hình màu thích hợp và sử dụng lược đồ lượng hoá màu thích hợp sẽ giảm bớt độ phân giải màu. Đây là các vấn đề quan trọng trong việc truy vấn ảnh dựa trên màu sắc. Màu sắc thường được biểu diễn như là các điểm trong không gian màu 3 chiều. Hiện tại có rất nhiều mô hình màu hình học hỗ trợ việc thể hiện màu sắc một cách rõ ràng, dễ lượng hoá . Mô hình màu có thể khác biệt:
xạ quang phổ sử dụng thiết bị đo màu. Các không gian màu chuẩn theo CIE (Comission International d’Eclairage) thuộc loại này.
- Mô hình màu dựa trên cảm nhận sinh lý: Kết quả từ các nghiên cứu về thần kinh. Tồn tại 3 kiểu hình nón để phân biệt trong võng mạc của con người. Nó đóng vai trò vào việc sắp xếp màu sắc trong không gian màu. Các mô hình màu XYZ của CIE, RGB và các biến thể thuộc nhóm này;
- Mô hình màu dựa trên tâm lý học: dựa trên cách mà màu sắc hình thành trong đầu của người quan sát. Các mô hình đối lập dựa trên các phân tích thực nghiệm phản ứng của con người đối với các thành phần đối lập cơ sở. Họ các không gian màu HSB (Hue- Saturation-Brightness) thuộc lớp này.
- Mô hình màu có thể phân biệt
+ Mô hình hướng thiết bị: Định nghĩa theo thuộc tính của thiết bị dùng để hiển thì màu như màn hình Tivi, màn hình máy tính và máy in. Các mô hình màu hướng thiết bị là RGB, CMY, YIQ. Người dùng rất khó xử lý trên các mô hình này vì nó không phản ánh trực tiếp các khái niệm trực giác màu sắc, sắc thái (còn gọi là sắc độ, là độ đậm nhạt của màu sắc) và cường độ sáng.
+ Mô hình hướng người dùng: Dựa trên khả năng cảm nhận màu sắc của con người. Con người cảm nhận màu sắc thông qua các đối tượng trực giác màu sắc, sắc thái và cường độ sáng. Các mô hình màu hướng người dùng là HSL, HSV, HCV, HSB, MTM, L*u*v, L*a*b* và L*C*h .
Không gian màu là một cách biểu diễn toán học một tập các màu. Các không gian màu có thể được phân vào 2 loại không gian màu: phụ thuộc thiết bị hay độc lập thiết bị.
Không gian màu độc lập thiết bị được chia thành nhiều không gian màu được định theo chuẩn CIE như: XYZ, L*a*b và L*u*v, ứng dụng chính cho mục đích đo màu .
màu in, không gian màu video, và không gian màu màn hình. Các không gian màu in CMY, CMYK dựa trên màu mực được dùng trong ngành in và nhiếp ảnh. Các không gian màu màn hình là các biến thể của không gian màu RGB, các không gian màu video - tất cả đều tương tự như không gian màu YUV được phân thành các không gian màu riêng tuỳ vào ứng dụng.
* Các hệ màu thông dụng - Hệ màu chuẩn RGB:
Mắt người có thể phân biệt hàng ngàn màu sắc khác nhau, những con số chính xác hơn vẫn còn đang được bàn cãi nhiều. Ba màu RGB (Red-
Green- Blue) mã hóa hệ thống đồ họa sử dụng ba byte 224 hay khoảng chừng 16 triệu màu phân biệt. Máy tính có thể phân biệt bất kỳ màu gì sau khi được mã hóa, nhưng việc mã hóa có thể không trình bày được vì sự khác biệt trong thế giới thực. Mỗi điểm ảnh RGB bao gồm một byte cho màu R, một byte cho màu G và một byte cho màu B. Việc mã hóa một màu tùy ý trong dãy hiển thị được làm bằng cách tổ hợp ba màu chính. Ví dụ:Red (255,0,0), Green (0,255,0), Blue (0,0,255), Black (0,0,0).
Hệ thống màu RGB là một hệ thống màu cộng vào bởi vì mỗi màu được tạo nên bằng cách cộng thêm các phần tử vào màu đen(0,0,0) Khuôn dạng của không gian màu RGB là định dạng phổ biến nhất của ảnh số, lý do chính là tính tương thích với màn hình hiển thị chính là màn hình vi tính. Tuy nhiên không gian màu RGB có hạn chế lớn nhất là không phù hợp với cách con người cảm nhận về màu sắc. Do đó không phù hợp cho việc ứng dụng vào truy vấn ảnh.
Hình 2.1.1: Hệ màu RGB
- Hệ màu CMY
Không gian màu CMY được dùng trong in ấn. Màu lục lam, màu đỏ tươi và màu vàng là phần bù của màu đỏ, màu xanh lá cây và màu xanh dương được gọi là các thành phần cơ sở trừ vì chúng được tạo ra bằng cách trừ đi độ sáng từ màu trắng. Ví dụ màu lục lam là phần bù của màu đỏ, tạo ra bằng cách xoá thành phần đỏ từ màu trắng. Có thể chuyển từ không gian màu RGB sang không gian màu CMY bằng công thức chuyển đổi đơn giản nhưng không chính xác: C=1-R, M=1-G, Y=1-B. Hệ thống màu CMY dường như là một sự đảo ngược của hệ thống màu RGB. Đặc tính của nó là sự đơn giản, ứng dụng nhiều trong thực tế. Tuy nhiên khuyết điểm của nó cũng tương tự như không gian màu RGB, tức là cách mã hóa khác với cách mà con người cảm nhận về màu sắc. Không thích hợp cho bài toán truy vấn ảnh dựa vào nội dung.
Mối quan hệ giữa RGB và CMY là :
Hình 2.1.2: Hệ màu CMY
- Hệ màu YIQ
Về cơ bản mô hình màu YIQ là sự biến thể hệ màu RGB bằng cách chuyển đổi hiệu quả và duy trì sự tương thích với ti vi đơn sắc chuẩn. Thật sự, thành phần Y của mô hình màu YIQ cung cấp tất cả các thông tin video yêu cầu bởi một tập các TV đơn sắc. Công thức chuyển đổi từ RGB sang YIQ:
Để lấy được các giá trị RGB từ tập YIQ, chúng ta chỉ cần thực hiện toán tử đảo ma trận .Hệ màu YIQ được thiết kế giúp cho sự cảm nhận của con người về sự thay đổi độ sáng chói tốt hơn sự thay đổi đặc trưng màu sắc (Hue) và độ thuần khiết (Sataration). Lợi thế của YIQ trong việc xử lý ảnh là độ sáng chói (Y) và thông tin màu (I và Q) được tách riêng ra. Sự quan trọng của việc tách riêng này giúp cho việc xử lý thành phần Y của ảnh có thể không có ảnh hưởng đến nội dung màu. Không gian màu này đều gây khó khăn cho người sử dụng vì nó không phản ánh trực tiếp khái niệm giác quan của màu sắc: màu, sắc thái và độ sáng.
- Hệ màu L*a*b:
màu sắc trong vật chiếu sáng của ánh sáng ban ngày. Tuy nhiên nó có một sự chuyển đổi được ghi vào để mà tính toán cho việc thích nghi với những nguồn sáng. Một màu được xác bằng 2 toạ độ x và y. Độ sáng L* dựa trên độ đo giác quan của thành phần sáng u*, v* là toạ độ màu. Các màu khác nhau theo một hướng duy nhất là xấp xỉ bằng nhau trong không gian màu này. Do đó khoảng cách Euclician được dùng để quyết định khoảng cách tương đối giữa 2 màu. Tuy nhiên, việc chuyển sang không gian màu RGB là không tuyến tính. Đây là hệ thống màu có sự tách riêng ánh sáng và màu sắc ra riêng. Do đó, cũng có khả năng lớn cho việc truy vấn dựa vào nội dung.
- Hệ màu HSI: Hue-Saturation-Intensity
Hệ thống màu HSI mã hóa thông tin màu sắc bằng cách chia giá trị intensity I từ hai giá trị được mã hóa thuộc về độ hội tụ của màu- hue H và saturation S. Thành phần không gian màu HSI gồm có ba phần: Hue được định nghĩa có giá trị 0-2Π, mang thông tin về màu sắc. Saturation có giá trị 0-1, mang giá trị về độ thuần khiết của thành phần Hue. Intensity (Value) mang thông tin về độ sáng của điểm ảnh.Ta có thể hình dung không gian màu HSI như là vật hình nón. Với trục chính biểu thị cường độ sáng Intensity. Khoảng cách đến trục biểu thị độc tập trung Saturation. Góc xung quanh trục biểu thị cho sắc màu Hue. Đôi khi, hệ thống màu HSI được coi như là hệ thống màu HSV dùng Value thay vì Intensity. Hệ thống màu HSI thì thích hợp hơn với một số thiết kế đồ họa bởi vì nó cung cấp sự điều khiển trực tiếp đến ánh sáng và hue. Hệ thống màu HSI cũng hỗ trợ tốt hơn cho những thuật toán xử lý ảnh vì sự tiêu chuẩn hóa về ánh sáng và tập chung vào hai tham số về độ hội tụ màu, và cường độ màu. Hệ thống màu HSI có sự phân chia rõ rệt giữa ánh sáng và màu sắc. Do đó có khả năng rất lớn được áp dụng cho việc tính đặc trưng và so sánh sự giống nhau về màu sắc của hai ảnh. Do đó nó rất thích hợp cho việc truy vấn ảnh dựa vào màu. Sự giống và khác nhau giữa hai ảnh về mặt màu sắc đối với mắt người chỉ
mang ý nghĩa tương đối. Do đó khi áp dụng vào bài toán này trên máy tính thì ta cũng giả lập sự tương đối này. Phương pháp chính của việc truy vấn theo màu sắc là dùng lược đồ màu để làm đặc trưng cho từng ảnh. Do những đặc điểm riêng của mô hình màu HSI và đặc trưng của việc truy vấn nên tính lược đồ màu cũng được dùng một mô mình rất đặc biệt để phù hợp cho những đặc điểm riêng này.
Hình 2.1.3:Hệ màu HSI Hình 2.1.4: Không gian màu HSI
Công thức chuyển đổi từ không gian màu RGB sang HSI: Cho RGB c1(r, g, b) và HSI c2(h, s, i). Ta có:
I = max(r,g,b);
Đặt , ,
5+b’, khi r = max(r,g,b) và g = min ( r,g,b ) 1-g’, khi r = max(r,g,b) và g ≠ min ( r,g,b ) 1+r’, khi g = max(r,g,b) và b = min ( r,g,b )
h = 3-b’, khi g = max(r,g,b) và b ≠ min ( r,g,b ) 3+g’, khi b = max (r,g,b ) và r = min ( r,g,b ) 5 – r’, khác
Minh hoạ thành phần cường độ sáng i thay đổi:
Hình 2.1.5: Minh họa sự thay đổi cường độ sáng trong hệ màu HSI
2.1.1.1. Lược đồ màu (histogram):
Là đại lượng đặc trưng cho phân bố màu cục bộ của ảnh. Được định lượng:
- Ci là màu của điểm ảnh.
- n(ID).Tổng số điểm ảnh trong ảnh.
- m(ID,Ci)thể hiện số điểm ảnh có giá trị màu Ci. - H: lược đồ màu của ảnh.
Mặc dù lược đồ màu cần tính là rất lớn (224 màu), tuy nhiên do mức độ cảm nhận của mắt con người còn hạn chế nên thật sự chúng ta không thể phân biệt được một lượng màu lớn như vậy. Do đó ta cần sử dụng hệ màu HSI (12H, 3S, 3I) và thêm 5 mức xám. Vì vậy chúng ta có 113 màu đại
Hình 2.1.1.1.1a: Ảnh minh họa lượt đồ màu RGB và HSI
Lược đồ màu bất biến đối với phép quay và tịnh tiến ảnh, và nếu chuẩn hoá lược đồ màu sẽ bất biến đối với phép co giãn .
*./ Độ đo dùng cho lược đồ màu