Chương 2. MỘT SỐ KỸ THUẬT TRA CỨU ẢNH DỰA VÀO NỘI DUNG
2.1. Tra cứu ảnh dựa vào màu sắc
2.1.3. Các không gian màu
Một không gian màu chỉ rõ các màu nhƣ các bộ số, theo các đặc tả nào đó. Các không gian màu có thể dùng để sinh ra các biểu diễn màu, đặc biệt trong các biểu diễn số, nhƣ in số hoặc hiển thị điện tử số. Mục đích của không gian màu là để phục vụ đặc tả các màu theo một số cách chuẩn, đƣợc chấp nhận chung.
Mỗi điểm ảnh trên một bức ảnh có thể đƣợc biểu diễn bằng một điểm trong một không gian màu 3 chiều. Những không gian màu đƣợc sử dụng nhiều nhất trong các hệ thống tra cứu ảnh là RGB, CIE L*a*b, CIE L*u*v, HSV, YUV, YIQ và không gian màu đối lập.
Người ta cũng chưa chỉ ra được rằng không gian màu nào được sử dụng tốt hơn cho việc tra cứu ảnh. Tuy nhiên tính chất quan trọng nhất để một không gian màu phù hợp để sử dụng trong một hệ thống tra cứu ảnh là tính đồng nhất. Một không gian màu được gọi là có tính đồng nhất nếu các cặp 2 màu tương tự nhau trong không gian màu thì cũng được con người cảm nhận như nhau. Nói một cách khác, khoảng cách đo được giữa hai màu bất kỳ phải có liên quan trực tiếp với độ tương tự sinh học giữa hai màu đó.
2.1.3.1. Không gian màu RGB
RGB là không gian màu đƣợc sử dụng phổ biến nhất để hiển thị ảnh. Không gian RGB bao gồm 3 thành phần màu là Đỏ (Red), Xanh lá cây (Green) và Xanh lam (Blue). Các thành phần này gọi là màu cộng bởi vì các màu sắc trong không
gian RGB đều có thể thu đƣợc bằng cách cộng 3 thành phần màu này lại với nhau.
Một màu trong không gian màu RGB đại diện cho một véc tơ với ba tọa độ.
Khi tất cả ba giá trị đều bằng 0 thì cho màu Black, khi tất cả ba giá trị đều bằng 1 thì cho màu White.
Lưu ý rằng R,G, và B là viết tắt của các từ đỏ (Red), xanh lục (Green), và xanh lơ (Blue). Đây là không gian màu cộng đỏ, xanh lục, và xanh lơ đƣợc kết hợp lại để tạo ra các màu khác. Không gian này không đồng nhất về nhận thức. Không gian màu RGB có thể đƣợc trực quan hoá nhƣ một hình khối, nhƣ đƣợc minh hoạ trong hình 2.1.
Hình 2.1: Mô tả không gian màu RGB
Mỗi trục màu (R, G, và B) có độ quan trọng nhƣ nhau. Do đó, mỗi trục nên đƣợc lƣợng hoá với cùng một độ chính xác. Khi không gian màu RGB đƣợc lƣợng hoá, số các bin sẽ luôn luôn là một hình khối. Thông thường, 8 (23), 64 (43), 216 (63), 512 (83) bin đƣợc sử dụng trong lƣợng hoá không gian màu RGB. Chuyển đổi từ một ảnh RGB sang một ảnh cấp xám nhận đƣợc tổng của R, G, và B rồi chia kết quả cho ba.
2.1.3.2. Không gian màu HSx
Các không gian màu HSI, HSV, HSB, và HSL (qui ƣớc gọi là HSx) là gần với nhận thức của người hơn không gian màu RGB, nhưng vẫn không là đồng nhất nhận thức.
Các trục từ các không gian màu HSx biểu diễn các đặc trƣng màu (hue), độ bão hoà (saturation), và độ sáng (lightness) (cũng đƣợc gọi là value, brightness và intensity). Sự khác biệt giữa các không gian màu trong HSx là cách chúng biến đổi từ không gian màu RGB. Chúng thường được biểu diễn bởi các hình khác nhau (ví dụ, hình nón, hình trụ). Trong hình 2.2 không gian màu HSV đƣợc trực quan hoá nhƣ một hình nón.
Hình 2.2: Mô tả không gian màu HSV
Hue là thành phần màu của các không gian màu HSx. Hue là một góc giữa một đường tham chiếu và điểm màu trong không gian RGB, phạm vi của giá trị này giữa 00 và 3600, thí dụ blue là 2400. Theo uỷ ban quốc tế về màu sắc CIE (Commission International d'E clairage), hue là “thuộc tính của cảm giác trực quan theo đó một vùng xuất hiện là tương ứng với một vùng màu được nhận thức, đỏ (red), vàng (yellow),
xanh lục (green), và xanh lơ (blue), hoặc kết hợp của hai trong chúng”. Nói cách khác, hue là loại màu, nhƣ đỏ hoặc xanh lục. Cũng theo CIE, độ bão hoà là “màu đầy của một vùng được xem xét tương xứng với độ sáng của nó”. Trong hình nón, độ bão hoà là khoảng cách từ tâm của mặt cắt ngang tròn của hình nón, “chiều cao” nơi mặt cắt ngang này nhận đƣợc đƣợc xác định bởi giá trị – Value, nó là khoảng cách từ điểm cuối của hình nón. Giá trị là độ sáng của một màu, điều này đƣợc định nghĩa bởi CIE nhƣ “thuộc tính của cảm giác trực quan theo đó một vùng xuất hiện để phát ra nhiều hoặc ít ánh sáng”. Khi độ bão hoà đƣợc đặt đến 0, Hue không đƣợc xác định. Trục giá trị biểu diễn ảnh cấp xám.
Không gian màu HSV có thể đƣợc lƣợng hoá dễ dàng, hue là đặc điểm quan trọng nhất của màu, thành phần này nhận đƣợc lƣợng hoá tốt nhất. Trong vòng tròn hue, các màu chính đỏ, xanh lục, và xanh lơ đƣợc tách bởi 1200. Các màu phụ, yellow, magenta, và cyan, cũng đƣợc tách bởi 1200 và 600 cách xa hai màu chính gần nhất.
Lƣợng hoá màu chung nhất của không gian màu HSV thành 162 bin, ở đây hue nhận 18 bin và độ bão hoà và giá trị nhận 3 bin. Khi hue đƣợc chia ra thành 18 bin, mỗi màu chính và màu phụ đƣợc biểu diễn bởi ba phần nhỏ.
2.1.3.3. Không gian màu CMY
Hệ thống màu CMY theo mô hình in trên giấy trắng và theo khuôn mẫu trừ từ màu trắng thay vì thêm vào từ màu đen nhƣ hệ thống màu RGB. CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam, màu đỏ tươi, màu vàng), đó là ba màu chính tương ứng với ba màu mực in. Cyan hấp thu sự chiếu sáng của màu đỏ, Magenta hấp thu màu xanh lục, Yellow hấp thu màu xanh dương. Do đó, tạo ra sự phản ánh tương ứng như khi in ảnh được chiếu sáng với ánh sáng trắng. Hệ thống dưới dạng âm tính vì mã hóa theo dạng hấp thụ màu. Có một số mã hóa nhƣ sau trắng (0,0,0) vì không có ánh sáng trắng đƣợc hấp thụ, đen (255,255,255) vì tất cả các thành phần của màu trắng đều đƣợc hấp thụ.
Hệ thống màu CMY dường như là một sự đảo ngược của hệ thống màu RGB.
Đặc tính của nó là sự đơn giản, ứng dụng nhiều trong thực tế. Tuy nhiên khuyết điểm của nó cũng tương tự như không gian màu RGB, tức là cách mã hóa khác với cách mà con người cảm nhận về màu sắc. Không thích hợp cho bài toán tìm kiếm ảnh dựa vào nội dung.
2.1.3.4. Các không gian màu YUV và YIQ
Các không gian màu YUV và YIQ đƣợc phát triển cho truyền hình vô tuyến.
Không gian màu YIQ là giống nhƣ không gian màu YUV, ở đây mặt phẳng I-Q là một mặt phẳng quay 330 của mặt phẳng U-V. Tín hiệu Y biểu diễn độ chói của một pixel và là kênh duy nhất đƣợc sử dụng trong ti vi đen trắng. U và V cho YUV và I và Q cho YIQ là các thành phần màu.
Kênh Y đƣợc định nghĩa bởi các giá trị năng lƣợng có trọng số của R(0.299), G(0.587) và B(0.144). Các không gian màu YUV và YIQ không là đồng nhất nhận thức. Khi các không gian màu YUV và UIQ đƣợc lƣợng tử hoá, mỗi trục đƣợc lƣợng tử hoá với cùng độ chính xác.
2.1.3.5. Các không gian màu CIE XYZ và LUV
Không gian màu đầu tiên đƣợc phát triển bởi CIE là không gian màu XYZ.
Thành phần Y là thành phần độ chói đƣợc xác định bởi các tổng có trọng số của R(0:212671), G(0:715160), và B(0:072169). X và Y là các thành phần màu. Không gian màu XYZ là không đồng nhất nhận thức. Trong lƣợng tử hoá không gian màu XYZ, mỗi trục đƣợc lƣợng tử hoá với cùng độ chính xác.
Không gian màu CIE LUV là một biến đổi xạ ảnh của không gian màu XYZ là đồng nhất nhận thức. Kênh L của không gian màu LUV là độ chói của màu. Các kênh U và V là các thành phần màu. Vậy, khi U, và V đƣợc đặt bằng 0, kênh L biểu diễn một ảnh cấp xám.
Trong lƣợng tử hoá không gian LUV, mỗi trục đƣợc lƣợng tử hoá với cùng độ chính xác. Với cả không gian màu XYZ và LUV, các lược đồ lượng tử hoá thường đƣợc sử dụng 8 (23), 27 (33), 64 (43), 125 (53) bin.
2.1.3.6. Hệ thống màu L*a*b
Mô hình L*a*b đƣợc đề cử bởi CIE cho việc lƣợng hóa sự khác biệt của màu sắc trong vật chiếu sáng của ánh sáng ban ngày. Tuy nhiên nó có một sự chuyển đổi đƣợc ghi vào để mà tính toán cho việc thích nghi với những nguồn sáng. Đây là hệ thống màu có sự tách riêng ánh sáng và màu sắc ra riêng. Do đó, cũng có khả năng lớn cho việc tìm kiếm dựa vào nội dung.
2.1.4. Lƣợng tử hóa màu và lƣợc đồ màu
Lƣợng tử hoá màu
Lƣợng tử hóa màu là quá trình làm giảm số màu sắc đƣợc sử dụng để mô tả ảnh. Việc lƣợng tử hóa màu trong không gian màu RGB đƣợc thực hiện bằng cách chia khối hình lập phương lớn thành những khối nhỏ và mỗi khối nhỏ có thể đại diện cho một màu đơn. Ví dụ chia hình lớn thành 64(43) hình nhỏ bằng cách chia các trục Red, Green, Blue mỗi trục thành 4 phần nhỏ và tất cả các màu sắc đƣợc xác định trong một hình khối nhỏ sẽ đại diện cho một màu đơn.
Với hệ thống máy tính hiện thời thì không gian RGB thường thể hiện bởi hệ thống màu thực 24 bit. Trong hệ thống màu 24 bit thì mỗi màu đƣợc xác định bằng 3 số nguyên:{Red, Green và Blue} và 3 số nguyên này nằm trong khoảng từ 0 – 23 nhƣ vậy nó cho ta khoảng 16.777.216 màu (224). Bởi vì quá trình lƣợng tử hóa không gian màu RGB tương tự như quá trình làm giảm số màu nên có thể xác định số màu trong không gian màu một cách đơn giản là giảm số màu từ 24 bit màu xuống còn n3 màu nhƣ sau:
Khi giảm một màu {R, G ,B} 24 bit màu thành màu mới {R’, G’ ,B’} với n3. Màu ta đặt:
28
' n * R R
28
' n*G
G 8
2 ' n * B B
Vậy, sau khi giảm số màu sẽ có n*n*n=n3 màu.
Lƣợc đồ màu
Lƣợc đồ màu nhƣ là một bảng tóm tắt thông tin về màu sắc cho một ảnh màu bất kỳ. Việc tính lƣợc đồ màu này đƣợc tiến hành một cách rất nhanh chóng trong ảnh mà chỉ qua một lần duyệt qua toàn bộ ảnh. Do đó ứng dụng vào việc tìm kiếm ảnh sẽ có lợi rất lớn về mặt tốc độ. Một số tính chất cần quan tâm của lƣợc đồ màu đối với vấn đề truy tìm ảnh:
- Việc tính lƣợc đồ màu của ảnh diễn ra rất nhanh chóng trong ảnh chỉ qua một lần duyệt qua toàn bộ ảnh.
- Lược đồ màu tương đối bất biến đối với phép tịnh tiến, xoay ảnh, và nhất là sự kéo nhỏ, kéo giãn, thay đổi kích thước của ảnh.
- Lƣợc đồ màu của một ảnh màu có thể là một cách miêu tả rất có ý nghĩa cho việc truy tìm ảnh hay nhận dạng đối tƣợng trong ảnh.
2.1.4.1. Lược đồ màu RGB
Lƣợc đồ màu đƣợc xác định bằng một tập các bin, trong đó mỗi bin biểu thị xác suất của các pixel trong ảnh. Một lƣợc đồ màu H của một ảnh đã cho đƣợc xác định bởi véc tơ:
H={H[0], H[1], H[2], ..., H[i],... H[N],},
Ở đây i biểu diễn một màu trong lược đồ màu và tương ứng với một khối con trong không gian màu RGB, H[i] là số các pixel có màu i trong ảnh, và N là số các bin trong lƣợc đồ màu. Mỗi pixel trong ảnh sẽ thuộc về một bin của lƣợc đồ màu của ảnh, vì thế với lƣợc đồ màu của một ảnh, giá trị của mỗi bin là số các pixel cùng màu. Để so sánh các ảnh có các kích cỡ khác nhau, các lƣợc đồ màu đƣợc chuẩn hóa. Lƣợc đồ màu chuẩn hóa H’ đƣợc xác định bằng:
H’={H’[0], H’[1], H’[2], ..., H’[i],... H’[N],},
Ở đây
p [i] H[i]
H' , p là tổng số các pixel trong ảnh.
Trong lược đồ lượng hóa không gian màu lý tưởng, các màu riêng biệt không được định vị trong cùng hình khối con và các màu tương tự được gán vào cùng hình khối con. Sử dụng một số màu sẽ giảm khả năng các màu tương tự được gán vào các bin khác nhau, nhƣng cũng tăng khả năng các màu riêng biệt đƣợc gán vào cùng các bin, nội dung thông tin của các ảnh sẽ giảm. Mặt khác, các lƣợc đồ màu với một số lƣợng lớn các bin sẽ chứa nhiều thông tin về nội dung của ảnh, theo đó giảm khả năng các màu riêng biệt sẽ đƣợc gán vào cùng các bin. Tuy nhiên, chúng tăng khả năng các màu tương tự sẽ được gán vào các bin khác nhau và tăng không gian lưu trữ biểu diễn ảnh, thời gian tính toán khoảng cách giữa các lƣợc đồ màu. Do đó, cần có sự thỏa hiệp trong việc xác định số lƣợng các bin sẽ đƣợc sử dụng trong các lƣợc đồ màu.
2.1.4.2. Lược đồ màu HSI
Mô hình màu HSI có những ƣu điểm lớn cho việc tìm kiếm hình ảnh dựa vào nội dung và nhất là trong công việc tìm kiếm dựa vào màu sắc. Nhƣng những ảnh màu thông thường được lưu trữ ở dạng kỹ thuật số trong máy tính thường theo chuẩn RGB, do đó để có đƣợc ảnh màu HSI ta phải qua công đoạn chuyển đổi. Chuyển từ hệ màu RGB sang hệ màu HSI là một thuật giải có rất nhiều trong hầu hết những sách về xử lý ảnh cổ điển.
Thuật toán chuyển đổi từ RGB sang HIS
Gọi R,G,B là giá trị nhập của RGB với giá trị trong khoảng [0,1] hay [0,255]
I : Giá trị xuất của cường độ intensity [0,1]
S : Giá trị xuất của độ bảo hòa saturation [0,1]
H : Giá trị xuất của màu sắc hue [0,2Π]
R, G, B, H, I, S: Tất cả đều là những giá trị số thực.
Procedure RGB_to_HSI(in R,G,B; out H,S,I)
{
I:=Max(R,G,B);
Min:=Min(R,G,B);
If (I>=0) then S:=(I-Min)/I;
Else S:=0;
If (S<=0) then {
H:=-1;
Return;
}
Diff:= I-Min;
If (R=I) then H:=(Π/3)*(G-R) /Diff;
Else if (G=I) then H:=(2*Π/3)+Π/3*(B-R)/diff;
Else if (B=I) then H:=(4*Π/3)+Π/3*(R-G)/diff;
If (H<=0) H:=H+Π/2;
}
Theo các phương pháp truyền thống, việc tạo lược đồ màu chỉ đơn giản bằng cách chia không gian màu thành những ngăn riêng biệt, sau đó đếm những pixel có màu sắc phù hợp trong những ngăn này. Cách làm này rất đơn giản, nhƣng không phù hợp cho việc so sánh, tìm kiếm ảnh. Vì những thay đổi nhỏ về điều kiện chiếu sáng, sự thay đổi về cường độ có thể gây nên những thay đổi lớn trong lược đồ màu. Do đó, hai ảnh rất giống nhau về màu sắc có thể có lƣợc đồ màu hoàn toàn khác nhau.
Ví dụ: không gian màu HSI, thành phần màu trong nhiều trường hợp mang giá trị nhưng không thể hiện được màu sắc trong hiển thị. Khi giá trị cường độ màu nằm trong khoảng 0 - 0.2, màu mang bất kỳ giá trị nào thì màu mà mắt người nhìn thấy vẫn là màu đen. Vì vậy đối với các cách tính lược đồ màu thông thường, điểm ảnh A có
màu bằng 2π, cường độ màu bằng 0.1 và điểm ảnh B có màu bằng π, cường độ màu bằng 0.1 sẽ nằm trong những bin khác nhau. Nhƣng thật ra, điểm ảnh A và điểm ảnh B đều có giá trị hiển thị là màu đen.
2.1.4.3. Lược đồ HSI cải tiến
Một phương pháp được đề xuất để giải quyết cho trường hợp trên là ta dựa vào cường độ màu để lọc trước những giá trị mà màu không thể biểu thị được. Sau đó dùng độ bão hòa để lọc những giá trị có sắc màu xám. Phần còn lại của không gian màu ta sẽ chia đều mỗi thành phần thành những khoảng nhất định có sự tương đồng về màu sắc.
Để giá trị của lƣợc đồ màu HSI đƣợc tính một cách phù hợp nhất đối với việc tìm kiếm, chúng ta cần chia nhỏ không gian 24 bit màu, tương ứng với 224 màu, xuống một con số có thể chấp nhận đƣợc. Một con số đƣợc đề nghị là 5 giá trị mức xám, 162 cho giá trị sắc màu, tổng cộng là ta chỉ cần lưu trữ 167 bin màu.
Hình 2.3: Lƣợc đồ màu HIS cải tiến.
2.1.5. Đo khoảng cách giữa các lƣợc đồ màu
Bước tiếp theo của quá trình tra cứu dữ liệu ảnh dựa vào nội dung là xác định độ trùng khớp của hai lược đồ màu vừa tính được ở bước trên. Do đó, phát sinh ra một giá trị để biểu thị cho sự trùng khớp và có nhiều cách để tính giá trị này. Ta gọi những giá trị đƣợc tính từ những cách khác nhau này là các loại độ đo màu. Một cách đơn giản, độ đo màu đƣợc coi là một giá trị để biểu thị cho độ so khớp sự trùng khớp của hai lược đồ màu. Tùy theo từng trường hợp, từng loại độ đo màu giá trị này có thể âm hoặc dương, lớn hoặc nhỏ tương ứng với mức độ giống nhau như thế nào của các loại lược đồ màu. Mỗi loại độ đo màu có những ưu và khuyết điểm riêng, trong từng trường hợp cụ thể.
2.1.5.1 Khoảng cách dạng Minkowski
Độ đo này chỉ so sánh các bin giống nhau giữa các lƣợc đồ màu (xem hình 2.4) đƣợc xác định:
N r
i
I
Q i H i
H I
Q d
1
] [ ]
[ )
,
( (2-1) Ở đây Q và I là hai ảnh, N là số các bin trong lƣợc đồ màu, HQ[i] là giá trị của bin i trong lƣợc đồ màuHQ, và HI[i] là giá trị của bin i trong lƣợc đồ màu HI[4].
Hình 2.4: Khoảng cách dạng Minkowski.