Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu

Một phần của tài liệu Nghiên cứu kỹ thuật tra cứu ảnh và ứng dụng trong tra cứu cây thuốc (Trang 25 - 83)

1.5.1. Hệ thống QBIC

Hệ thống QBIC (Query By Image Content) của hãng IBM là một hệ thống tra cứu ảnh thƣơng mại đầu tiên và nổi tiếng nhất trong số các hệ thống tra cứu ảnh dựa trên nội dung. Nó cho phép ngƣời sử dụng tra cứu ảnh dựa vào màu sắc, hình dạng và kết cấu. Các thuộc tính trực quan có đƣợc từ các ảnh tự giữa các bins màu đƣợc xem xét khi tính toán tính tƣơng tự. Đặc trƣng texture đƣợc biểu diễn với độ thô, tƣơng phản. Đặc trƣng hình dạng đƣợc mô tả bằng diện tích, hình dáng tròn, độ lệch, hƣớng trục chính và tập các bất biến moment đại số.

1.5.2. Hệ thống Photobook

Hệ thống này đƣợc phát triển ở viện kỹ thuật Massachusetts. Nó cho phép ngƣời sử dụng tra cứu ảnh dựa trên màu sắc, hình dạng và kết cấu. Hệ thống này cung cấp một tập các thuật toán đối sánh gồm: Euclidean, mahalanobis, vector space angle, histogram, Fourier peak, và wavelet tree distance nhƣ là những độ đo khoảng cách. Hệ thống nhƣ là một công cụ bán tự động và có thể sinh ra một mẫu truy vấn dựa vào những ảnh mẫu đƣợc cung cấp bởi ngƣời sử dụng.

1.5.3. Hệ thống VisualSEEK và WebSEEK

Cả hai hệ thống này đều đƣợc phát triển tại Trƣờng Đại học Colombia. VisualSEEK là hệ thống cơ sở dữ liệu ảnh. Nó cho phép ngƣời sử dụng tra cứu ảnh dựa trên màu sắc, không gian miền và đặc điểm kết cấu. Thêm vào đó VisualSEEK còn cho phép ngƣời sử dụng tạo truy vấn bằng việc chỉ định vùng màu và những không gian vị trí của chúng. WebSEEK đƣợc thiết kế để tìm kiếm ảnh và video trên internet. Trong WebSEEK, các ảnh đƣợc phân tích theo hai tiến trình riêng biệt. Tiến trình thứ nhất trích chọn và chỉ mục các đặc trƣng trực quan nhƣ biểu dồ màu và texture. Tiến trình thứ hai chia sẻ text kết hợp và phân lớp các ảnh theo các lớp chủ đề, ví dụ nhƣ lớp cây cối, lớp trƣờng học…

1.5.4. Hệ thống RetrievalWare

Hệ thống này đƣợc phát triển bởi tập đoàn công nghệ Excalibur cho phép ngƣời sử dụng tra cứu ảnh bởi nội dung màu, hình dạng, kết cấu, độ sáng, kết cấu màu và hệ số co. Ngƣời sử dụng có thể điều chỉnh tỷ trọng của những đặc điểm này trong suốt quá trình tra cứu.

1.5.5. Hệ thống Imatch

Hệ thống này cho phép ngƣời sử dụng tra cứu ảnh bởi nội dung màu, hình dạng, và kết cấu. Nó cung cấp một số phƣơng pháp để tra cứu ảnh tƣơng tự: Màu tƣơng tự, màu và hình dạng, màu và hình dạng mờ, và phân bố màu. Màu tƣơng tự để tra cứu những ảnh tƣơng tự với ảnh mẫu dựa trên sự phân bố màu toàn cục. Màu và hình dạng thực hiện tra cứu bởi việc kết hợp cả hình dạng, kết cấu và màu. Màu và hình dạng mờ thực hiện thêm những bƣớc xác định đối tƣợng trong ảnh mẫu.

Phân bố màu cho phép ngƣời sử dụng vẽ ra sự phân bố màu hoặc xác định tỷ lệ phần trăm của một màu trong hình ảnh mong muốn. Imatch cũng cung cấp những đặc điểm khác nội dung để xác định ảnh: ảnh nhị phân, lƣu trữ trong những định dạng khác và những ảnh có tên tƣơng tự.

1.5.6. Mô tơ tìm kiếm WWW ImageRover

ImageRover đƣợc thiết kế để tìm kiếm ảnh trên World Wide Web. Các đặc trƣng trực quan bao gồm màu, hƣớng, sƣờn, texture và hình dạng. Sự khác nhau chính giữa ImageRover và các hệ thống khác là nó sử dụng phản hồi liên quan. Phản hồi liên quan cho phép ngƣời sử dụng lọc, lặp truy vấn thông qua đặc tả.

Các hệ thống khác nhau nhƣ QBIC cũng sử dụng phản hồi liên quan, ngƣời sử dụng có thể sử dụng một trong các ảnh hiển thị (kết quả của tìm kiếm trƣớc) là ảnh truy vấn mới. Nhƣng ImageRover sử dụng thuật toán phản hồi liên quan đặc biệt. Ngƣời sử dựng có thể chọn nhiều ảnh liên quan. Thuật toán đó tính toán véctơ đặc trƣng tổ hợp từ các ảnh này. Véctơ đặc tƣng tổ hợp đƣợc sử dụng nhƣ câu truy vấn mới.

Chƣơng 2

MỘT SỐ KỸ THUẬT TRA CỨU ẢNH DỰA VÀO NỘI DUNG

2.1. Tra cứu ảnh dựa vào màu sắc

Tra cứu ảnh dựa trên màu sắc hầu hết là biến đổi dựa trên ý tƣởng giống nhau của các biểu đồ màu. Mỗi ảnh khi đƣa vào tập hợp ảnh đều đƣợc phân tích, tính toán một biểu đồ màu. Sau đó, biểu đồ màu của mỗi ảnh sẽ đƣợc lƣu trữ trong cơ sở dữ liệu. Khi tra cứu, ngƣời sử dụng có thể xác định tỷ lệ của mỗi màu mong muốn (ví dụ 75% Blue, 25% Red) hoặc đƣa ra một ảnh mẫu với biểu đồ màu đã đƣợc tính toán. Quá trình tra cứu sẽ đối sánh biểu đồ màu này với biểu đồ màu trong cơ sở dữ liệu để tìm ra kết quả tƣơng tự nhất. Kỹ thuật đối sánh đƣợc sử dụng phổ biến nhất là biểu đồ màu giao nhau đƣợc phát triển đầu tiên bởi Swain. Những kỹ thuật cải tiến từ kỹ thuật này ngày nay đƣợc sử dụng rộng rãi trong các hệ thống tra cứu ảnh hiện thời. Kết quả của các hệ thống này đã tạo những ấn tƣợng khá sâu sắc.

2.1.1. Màu sắc

Sự nhận thức về màu sắc là quá trình quan trọng của con ngƣời. Sự nhận thức về màu sắc phụ thuộc vào cả tính chất vật lý của ánh sáng và quá trình xử lý của thị giác với sự góp phần rất quan trọng của kinh nghiệm. Con ngƣời dùng thông tin màu sắc để phân biệt đối tƣợng, vật liệu, đồ ăn, vị trí và ngay cả thời gian của ngày. Với sự phát triển mạnh mẽ của các thiết bị kinh tế, máy móc xử lý màu sắc trở nên thông dụng. Chúng ta có các thiết bị nhƣ máy quay phim màu, thiết bị chiếu màu và những phần mềm xử lý ảnh màu. Máy móc có thể dùng màu sắc cho những mục đích nhƣ là con ngƣời. Đặc biệt, màu sắc thuận tiện bởi vì nó cung cấp phép đo lƣờng đa dạng tại mỗi điểm ảnh đơn, có thể phân lớp, phân loại mà không cần đến những xử lý không gian phức tạp để đƣa đến quyết định.

2.1.2. Một số đặc tính đặc biệt về màu sắc

Con ngƣời chỉ có khả năng nhận thức đƣợc ánh sáng có bức xạ điện từ với bƣớc sóng trong khoảng 400 – 700 nanomet. Cơ quan thị giác cảm nhận đƣợc ánh sáng là do bề mặt đối tƣợng phát ra ánh sáng, là kết quả của sự tƣơng tác giữa năng lƣợng chiếu sáng và những phân tử của bề mặt đối tƣợng. Một đối tƣợng màu xanh dƣơng sẽ có bề mặt màu xanh dƣơng khi chiếu ánh sáng trắng vào. Nhƣng đối tƣợng đó sẽ có màu tím khi chiếu ánh đỏ vào.

2.1.3. Các không gian màu

Một không gian màu chỉ rõ các màu nhƣ các bộ số, theo các đặc tả nào đó. Các không gian màu có thể dùng để sinh ra các biểu diễn màu, đặc biệt trong các biểu diễn số, nhƣ in số hoặc hiển thị điện tử số. Mục đích của không gian màu là để phục vụ đặc tả các màu theo một số cách chuẩn, đƣợc chấp nhận chung.

Mỗi điểm ảnh trên một bức ảnh có thể đƣợc biểu diễn bằng một điểm trong một không gian màu 3 chiều. Những không gian màu đƣợc sử dụng nhiều nhất trong các hệ thống tra cứu ảnh là RGB, CIE L*a*b, CIE L*u*v, HSV, YUV, YIQ và không gian màu đối lập.

Ngƣời ta cũng chƣa chỉ ra đƣợc rằng không gian màu nào đƣợc sử dụng tốt hơn cho việc tra cứu ảnh. Tuy nhiên tính chất quan trọng nhất để một không gian màu phù hợp để sử dụng trong một hệ thống tra cứu ảnh là tính đồng nhất. Một không gian màu đƣợc gọi là có tính đồng nhất nếu các cặp 2 màu tƣơng tự nhau trong không gian màu thì cũng đƣợc con ngƣời cảm nhận nhƣ nhau. Nói một cách khác, khoảng cách đo đƣợc giữa hai màu bất kỳ phải có liên quan trực tiếp với độ tƣơng tự sinh học giữa hai màu đó.

2.1.3.1. Không gian màu RGB

RGB là không gian màu đƣợc sử dụng phổ biến nhất để hiển thị ảnh. Không gian RGB bao gồm 3 thành phần màu là Đỏ (Red), Xanh lá cây (Green) và Xanh lam (Blue). Các thành phần này gọi là màu cộng bởi vì các màu sắc trong không

gian RGB đều có thể thu đƣợc bằng cách cộng 3 thành phần màu này lại với nhau. Một màu trong không gian màu RGB đại diện cho một véc tơ với ba tọa độ. Khi tất cả ba giá trị đều bằng 0 thì cho màu Black, khi tất cả ba giá trị đều bằng 1 thì cho màu White.

Lƣu ý rằng R,G, và B là viết tắt của các từ đỏ (Red), xanh lục (Green), và xanh lơ (Blue). Đây là không gian màu cộng đỏ, xanh lục, và xanh lơ đƣợc kết hợp lại để tạo ra các màu khác. Không gian này không đồng nhất về nhận thức. Không gian màu RGB có thể đƣợc trực quan hoá nhƣ một hình khối, nhƣ đƣợc minh hoạ trong hình 2.1.

Hình 2.1: Mô tả không gian màu RGB

Mỗi trục màu (R, G, và B) có độ quan trọng nhƣ nhau. Do đó, mỗi trục nên đƣợc lƣợng hoá với cùng một độ chính xác. Khi không gian màu RGB đƣợc lƣợng hoá, số các bin sẽ luôn luôn là một hình khối. Thông thƣờng, 8 (23

), 64 (43), 216 (63), 512 (83) bin đƣợc sử dụng trong lƣợng hoá không gian màu RGB. Chuyển đổi từ một ảnh RGB sang một ảnh cấp xám nhận đƣợc tổng của R, G, và B rồi chia kết quả cho ba.

2.1.3.2. Không gian màu HSx

Các không gian màu HSI, HSV, HSB, và HSL (qui ƣớc gọi là HSx) là gần với nhận thức của ngƣời hơn không gian màu RGB, nhƣng vẫn không là đồng nhất nhận thức.

Các trục từ các không gian màu HSx biểu diễn các đặc trƣng màu (hue), độ bão hoà (saturation), và độ sáng (lightness) (cũng đƣợc gọi là value, brightness và intensity). Sự khác biệt giữa các không gian màu trong HSx là cách chúng biến đổi từ không gian màu RGB. Chúng thƣờng đƣợc biểu diễn bởi các hình khác nhau (ví dụ, hình nón, hình trụ). Trong hình 2.2 không gian màu HSV đƣợc trực quan hoá nhƣ một hình nón.

Hình 2.2: Mô tả không gian màu HSV

Hue là thành phần màu của các không gian màu HSx. Hue là một góc giữa một đƣờng tham chiếu và điểm màu trong không gian RGB, phạm vi của giá trị này giữa 00

và 3600, thí dụ blue là 2400

. Theo uỷ ban quốc tế về màu sắc CIE (Commission International d'E clairage), hue là “thuộc tính của cảm giác trực quan theo đó một vùng xuất hiện là tƣơng ứng với một vùng màu đƣợc nhận thức, đỏ (red), vàng (yellow),

xanh lục (green), và xanh lơ (blue), hoặc kết hợp của hai trong chúng”. Nói cách khác, hue là loại màu, nhƣ đỏ hoặc xanh lục. Cũng theo CIE, độ bão hoà là “màu đầy của một vùng đƣợc xem xét tƣơng xứng với độ sáng của nó”. Trong hình nón, độ bão hoà là khoảng cách từ tâm của mặt cắt ngang tròn của hình nón, “chiều cao” nơi mặt cắt ngang này nhận đƣợc đƣợc xác định bởi giá trị – Value, nó là khoảng cách từ điểm cuối của hình nón. Giá trị là độ sáng của một màu, điều này đƣợc định nghĩa bởi CIE nhƣ “thuộc tính của cảm giác trực quan theo đó một vùng xuất hiện để phát ra nhiều hoặc ít ánh sáng”. Khi độ bão hoà đƣợc đặt đến 0, Hue không đƣợc xác định. Trục giá trị biểu diễn ảnh cấp xám.

Không gian màu HSV có thể đƣợc lƣợng hoá dễ dàng, hue là đặc điểm quan trọng nhất của màu, thành phần này nhận đƣợc lƣợng hoá tốt nhất. Trong vòng tròn hue, các màu chính đỏ, xanh lục, và xanh lơ đƣợc tách bởi 0

120 . Các màu phụ, yellow, magenta, và cyan, cũng đƣợc tách bởi 0

120 và 600 cách xa hai màu chính gần nhất. Lƣợng hoá màu chung nhất của không gian màu HSV thành 162 bin, ở đây hue nhận 18 bin và độ bão hoà và giá trị nhận 3 bin. Khi hue đƣợc chia ra thành 18 bin, mỗi màu chính và màu phụ đƣợc biểu diễn bởi ba phần nhỏ.

2.1.3.3. Không gian màu CMY

Hệ thống màu CMY theo mô hình in trên giấy trắng và theo khuôn mẫu trừ từ màu trắng thay vì thêm vào từ màu đen nhƣ hệ thống màu RGB. CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam, màu đỏ tƣơi, màu vàng), đó là ba màu chính tƣơng ứng với ba màu mực in. Cyan hấp thu sự chiếu sáng của màu đỏ, Magenta hấp thu màu xanh lục, Yellow hấp thu màu xanh dƣơng. Do đó, tạo ra sự phản ánh tƣơng ứng nhƣ khi in ảnh đƣợc chiếu sáng với ánh sáng trắng. Hệ thống dƣới dạng âm tính vì mã hóa theo dạng hấp thụ màu. Có một số mã hóa nhƣ sau trắng (0,0,0) vì không có ánh sáng trắng đƣợc hấp thụ, đen (255,255,255) vì tất cả các thành phần của màu trắng đều đƣợc hấp thụ.

Hệ thống màu CMY dƣờng nhƣ là một sự đảo ngƣợc của hệ thống màu RGB. Đặc tính của nó là sự đơn giản, ứng dụng nhiều trong thực tế. Tuy nhiên khuyết điểm của nó cũng tƣơng tự nhƣ không gian màu RGB, tức là cách mã hóa khác với cách mà con ngƣời cảm nhận về màu sắc. Không thích hợp cho bài toán tìm kiếm ảnh dựa vào nội dung.

2.1.3.4. Các không gian màu YUV và YIQ

Các không gian màu YUV và YIQ đƣợc phát triển cho truyền hình vô tuyến. Không gian màu YIQ là giống nhƣ không gian màu YUV, ở đây mặt phẳng I-Q là một

mặt phẳng quay 0

33 của mặt phẳng U-V. Tín hiệu Y biểu diễn độ chói của một pixel và là kênh duy nhất đƣợc sử dụng trong ti vi đen trắng. U và V cho YUV và I và Q cho YIQ là các thành phần màu.

Kênh Y đƣợc định nghĩa bởi các giá trị năng lƣợng có trọng số của R(0.299), G(0.587) và B(0.144). Các không gian màu YUV và YIQ không là đồng nhất nhận thức. Khi các không gian màu YUV và UIQ đƣợc lƣợng tử hoá, mỗi trục đƣợc lƣợng tử hoá với cùng độ chính xác.

2.1.3.5. Các không gian màu CIE XYZ và LUV

Không gian màu đầu tiên đƣợc phát triển bởi CIE là không gian màu XYZ. Thành phần Y là thành phần độ chói đƣợc xác định bởi các tổng có trọng số của R(0:212671), G(0:715160), và B(0:072169). X và Y là các thành phần màu. Không gian màu XYZ là không đồng nhất nhận thức. Trong lƣợng tử hoá không gian màu XYZ, mỗi trục đƣợc lƣợng tử hoá với cùng độ chính xác.

Không gian màu CIE LUV là một biến đổi xạ ảnh của không gian màu XYZ là đồng nhất nhận thức. Kênh L của không gian màu LUV là độ chói của màu. Các kênh U và V là các thành phần màu. Vậy, khi U, và V đƣợc đặt bằng 0, kênh L biểu diễn một ảnh cấp xám.

Trong lƣợng tử hoá không gian LUV, mỗi trục đƣợc lƣợng tử hoá với cùng độ chính xác. Với cả không gian màu XYZ và LUV, các lƣợc đồ lƣợng tử hoá thƣờng đƣợc sử dụng 8 (23

), 27 (33), 64 (43), 125 (53) bin.

2.1.3.6. Hệ thống màu L*a*b

Mô hình L*a*b đƣợc đề cử bởi CIE cho việc lƣợng hóa sự khác biệt của màu sắc trong vật chiếu sáng của ánh sáng ban ngày. Tuy nhiên nó có một sự chuyển đổi đƣợc ghi vào để mà tính toán cho việc thích nghi với những nguồn sáng. Đây là hệ thống màu có sự tách riêng ánh sáng và màu sắc ra riêng. Do đó, cũng có khả năng lớn cho việc tìm kiếm dựa vào nội dung.

2.1.4. Lƣợng tử hóa màu và lƣợc đồ màu

Lƣợng tử hoá màu

Lƣợng tử hóa màu là quá trình làm giảm số màu sắc đƣợc sử dụng để mô tả ảnh. Việc lƣợng tử hóa màu trong không gian màu RGB đƣợc thực hiện bằng cách chia khối hình lập phƣơng lớn thành những khối nhỏ và mỗi khối nhỏ có thể đại diện cho một màu đơn. Ví dụ chia hình lớn thành 64(43) hình nhỏ bằng cách chia các trục Red, Green, Blue mỗi trục thành 4 phần nhỏ và tất cả các màu sắc đƣợc xác định trong một hình khối nhỏ sẽ đại diện cho một màu đơn.

Với hệ thống máy tính hiện thời thì không gian RGB thƣờng thể hiện bởi hệ thống màu thực 24 bit. Trong hệ thống màu 24 bit thì mỗi màu đƣợc xác định bằng 3 số nguyên:{Red, Green và Blue} và 3 số nguyên này nằm trong khoảng từ 0 – 23

Một phần của tài liệu Nghiên cứu kỹ thuật tra cứu ảnh và ứng dụng trong tra cứu cây thuốc (Trang 25 - 83)

Tải bản đầy đủ (PDF)

(83 trang)