Đặc điểm hình dạng với việc tìm kiếm ảnh

Một phần của tài liệu Nghiên cứu kỹ thuật tra cứu ảnh và ứng dụng trong tra cứu cây thuốc (Trang 41 - 83)

Hình dạng là một cấp cao hơn màu sắc và vân. Nó đòi hỏi sự phân biệt giữa các vùng để tiến hành xử lý về độ đo của hình dạng. Trong nhiều trƣờng hợp, sự phân biệt này cần thiết phải làm bằng tay. Nhƣng sự tự động hóa trong một số trƣờng hợp có thể khả thi. Trong đó, vấn đề chính yếu nhất là quá trình phân đoạn ảnh. Nếu quá trình phân đoạn ảnh đƣợc làm một cách chính xác, rõ ràng và nhất là hiệu quả thì sự tìm kiếm thông tin dựa vào hình dạng có thể có hiệu lực rất lớn. Nhận dạng ảnh hai chiều là một khía cạnh quan trọng của quá trình phân tích ảnh. Tính chất hình dạng toàn cục ám chỉ đến hình dạng ảnh ở mức toàn cục. Hai hình dạng có thể đƣợc so sánh với nhau theo tính chất toàn cục bởi những phƣơng pháp nhận dạng theo hoa văn, mẫu vẽ. Sự so khớp hình dạng ảnh cũng có thể dùng những kỹ thuật về cấu trúc, trong đó một ảnh đƣợc mô tả bởi những thành phần chính của nó và quan hệ không gian của chúng. Vì sự hiển thị ảnh là một quá trình liên quan đến đồ thị, do đó những phƣơng pháp so

khớp về đồ thị có thể đƣợc dùng cho việc so sánh hay so khớp. Sự so khớp về đồ thị rất chính xác, vì nó dựa trên những quan hệ không gian hầu nhƣ bất biến trong toàn thể các phép biến đổi hai chiều. Tuy nhiên, quá trình so khớp về đồ thị diễn ra rất chậm, thời gian tính toán tăng theo cấp số mũ tƣơng ứng với số lƣợng các phần tử. Trong việc tìm kiếm dữ liệu ảnh dựa vào nội dung, ta cần những phƣơng pháp có thể quyết định sự giống và khác nhau một cách nhanh chóng. Thông thƣờng, chúng ta luôn đòi hỏi sự bất biến cả đối với kích thƣớc của ảnh cũng nhƣ hƣớng của ảnh trong không gian. Vì vậy, một đối tƣợng có thể đƣợc xác định trong một số hƣớng. Tuy nhiên, tính chất này không thƣờng đƣợc yêu cầu trong tìm kiếm ảnh. Trong rất nhiều cảnh vật, hƣớng của đối tƣợng thƣờng là không đổi. Ví dụ nhƣ cây cối, nhà cửa, ... Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý ảnh. Chúng trải rộng từ những độ đo toàn cục dạng thô với sự trợ giúp của việc nhận dạng đối tƣợng, cho tới những độ đo chi tiết tự động tìm kiếm những hình dạng đặc biệt. Lƣợc đồ hình dạng là một ví dụ của độ đo đơn giản, nó chỉ có thể loại trừ những đối tƣợng hình dạng không thể so khớp, nhƣng điều đó sẽ mang lại khẳng định sai, vì chỉ nhƣ là việc làm của lƣợc đồ màu. Kỹ thuật dùng đƣờng biên thì đặc hiệu hơn phƣơng pháp trƣớc, chúng làm việc với sự hiện hữu của đƣờng biên của hình dạng đối tƣợng và đồng thời cũng tìm kiếm những hình dạng đối tƣợng gần giống với đƣờng biên nhất. Phƣơng pháp vẽ phác họa có thể là phƣơng pháp có nhiều đặc trƣng rõ ràng hơn, không chỉ tìm kiếm những đƣờng biên đối tƣợng đơn, mà còn đối với tập những đối tƣợng đã đƣợc phân đoạn trong một ảnh mà ngƣời dùng vẽ hay cung cấp.

Các hệ thống tìm kiếm ảnh theo nội dung thƣờng khai thác hai nhóm biểu diễn hình dạng sau :

Biểu diễn hình dạng theo đƣờng biên (cotour-based descriptor): Biểu diễn các đƣờng biên bao bên ngoài.

Biểu diễn theo vùng (region-based descriptor): Biểu diễn một vùng toàn vẹn.

2.2.3. Lƣợc đồ hình dạng

Lƣợc đồ hình dạng đƣợc cho rằng là dễ dàng trong tính toán và nhanh trong thi hành. Chúng sử dụng cả sự so sánh về màu sắc và vân. Vấn đề chính là định nghĩa biến cho lƣợc đồ hình dạng đƣợc định nghĩa. Xem nhƣ hình dạng trong ảnh là một vùng những giá trị một trong ảnh nhị phân, trong khi toàn thể những giá trị khác đều là giá trị không. Một kiểu của so khớp hình dạng ảnh là so khớp hình chiếu thông qua hình chiếu đứng và hình chiếu nằm của hình dạng. Giả sử rằng hình dạng có n hàng và có m cột. Mỗi hàng và mỗi cột là một bin trong lƣợc đồ hình dạng. Tổng số đƣợc lƣu trữ trong một bin là tổng số những giá trị 1 đƣợc lƣu trữ trong dòng hoặc cột tƣơng ứng đó. Điều này đƣa đến một lƣợc đồ gồm có m+n bin, nhƣng điều này cũng chỉ có ý nghĩa khi tất cả những ảnh chúng ta xem xét phải có cùng một kích thƣớc. Để làm cho việc so khớp hình chiếu bất biến đối với kích thƣớc, số lƣợng bin của dòng và số lƣợng bin của cột phải ổn định. Bằng cách định nghĩa những bin từ góc trái trên đến góc phải dƣới của hình dạng, sự chuyển đổi bất biến đã đạt đƣợc. Việc so khớp hình chiếu không bất biến đối với phép xoay ảnh, nhƣng nó có thể làm việc tốt với sự xoay nhỏ và sự thiếu chính xác thuộc về hình học ở mức độ nhỏ. Một cách khác để làm nó bất biến đối với phép quay là tính toán theo trục toạ độ elip vừa nhất và xoay chúng cho đến khi trục chính là trục nằm ngang. Vì chúng ta không biết nơi đâu là phía trên cùng của hình dạng, xoay hai khả năng có thể xảy ra để thử. Hơn nữa, nếu trục chính và trục phụ có cùng chiều dài, thì 4 khả năng xoay phải đƣợc xem xét. So khớp hình chiếu đƣợc sử dụng thành công trong tìm kiếm ảnh logo. Những khả năng khác để xây dựng lƣợc đồ thông qua góc tiếp tuyến tại mỗi điểm ảnh trên đƣờng bao của hình dạng. Độ đo này thì hoàn toàn tự động về mặt kích thƣớc và bất biến đối với sự dịch chuyển, nhƣng nó cũng không bất biến đối với xoay đối tƣợng, bởi vì góc tiếp tuyến đƣợc tính từ hình dạng đối với một hƣớng xác định. Có một số cách khác nhau để giải quyết vấn đề này. Cách thứ nhất là xoay hình dạng về trục chính nhƣ đã mô tả ở trên. Một cách khác đơn giản hơn là xoay lƣợc đồ hình dạng. Nếu lƣợc đồ có K bin, thì sẽ có K khả năng xoay.

Những vị trí xoay không đúng có thể làm ảnh hƣởng tốc độ của việc tính toán, đặc biệt là trong trƣờng hợp lƣợc đồ và ảnh có kích thƣớc lớn. Hoặc là lƣợc đồ có thể đƣợc tiêu chuẩn hoá bởi cách chọn bin với số đếm lớn nhất là bin đầu tiên. Một vài bin lớn nhất nên đƣợc thử vì có thể có sự tồn tại của nhiễu.

2.2.4. Biểu diễn hình dạng trên cơ sở vùng và thƣớc đo đồng dạng

Tổng quát thì việc đo hình đồng dạng trên cơ sở biểu diễn hình dạng mô tả trên đây không phù hợp với cảm nhận của con ngƣời. Các nghiên cứu đã so sánh đo tính tƣơng tự của hình dạng bằng mô men đại số, khoảng cách đƣờng cong spline, góc quay tích lũy, dấu độ cong, khoảng cách Hausdorff với kết luận đồng dạng của con ngƣời. Đã chứng minh rằng đồng dạng tính toán trên cơ sở các thƣớc đo này không phù hợp hoàn toàn với đánh giá của con ngƣời.

Phƣơng pháp biểu diễn hình dạng trên cơ sở vùng và thƣớc đo đồng dạng đƣợc xem là có hiệu năng truy tìm cao.

Ý tƣởng chính của biểu diễn hình dạng trên cơ sở vùng

Cho trƣớc hình dạng, hãy xếp chồng lƣới trên chúng nhƣ hình dƣới đây

Hình 2.6: Hình dạng sau khi đã chồng lƣới

Không gian lƣới bao gồm các tế bào vuông kích thƣớc cố định, nó đủ lớn để phủ hoàn toàn hình dạng. Một vài tế bào lƣới phủ hoàn toàn hay phủ một phần một tế bào khác không phủ hình dạng. Gán giá trị 1 cho tế bào có ít nhất 15% điểm ảnh bị phủ và giá trị 0 cho các tế bào còn lại. Sau đó đọc các giá trị 1 và 0 từ góc trên trái của hình

dạng để có trình tự nhị phân cho hình dạng. Thí dụ với hình 2.6 đƣợc biểu diễn bởi dãy nhị phân 111000001 11110 0001111110 01111111.

Rõ ràng tế bào càng nhỏ thì độ chính xác biểu diễn hình dạng càng cao nhƣng đòi hỏi tính toán, lƣu trữ càng lớn. Kích thƣớc tế bào thích hợp là 10x10 đến 20x20 pixel. Biểu diễn trên đây đảm bảo hƣớng duy nhất nhƣng co dãn và xoay là không bất biến. Do vậy dãy nhị phân đƣợc chuẩn hóa cho co dãn và quay nếu chúng ta muốn sử dụng nó để biểu diễn hình dạng.

Chuẩn hóa quay

Mục đích của chuẩn hóa quay là đặt hình dạng vào hƣớng chung duy nhất. Chúng ta quay hình dạng sao cho trục chính của nó song song với trục x. Còn hai khả năng đặt hình dạng: một trong các điểm xa nhất đặt bên trái hay bên phải. Điều này đòi hỏi quay

. Ví dụ ở trên có thể đặt vào 1 trong hai vị hƣớng nhƣ trên hình dƣới đây.

Biểu diễn hai hƣớng hình dạng nhƣ hình vẽ dƣới đây cần hai dãy nhị phân khác nhau. Vì các dãy nhị phân đƣợc dung để chỉ mục các dãy trong hệ thống truy tìm, việc lƣu trữ cho mỗi hình dạng cần gấp đôi không gian lƣu trữ. Để tiết kiệm không gian lƣu trữ ta chỉ cần có và lƣu trữ một trong hai dãy nhị phân. Sử dụng dãy nào là không quan trọng, nó đƣợc xác định khi cài đặt. Hai hƣớng đƣợc quan tâm khi truy tìm bằng cách biểu diễn nó trong câu truy vấn hình dạng bằng hai dãy nhị phân, chúng đƣợc so sánh với từng chỉ mục hình dạng bằng hay dãy nhị phân, chúng đƣợc so sánh với từng chỉ mục hình dạng lƣu trữ trong CSDL.

Chuẩn hóa co dãn

Để đạt đƣợc chuẩn hóa co dãn, ta phải co dãn mọi hình dạng sao cho các trục chính của chúng có cƣờng độ dài cố định. Ví dụ nhƣ độ dài cố định có thể là 192 pixel.

Biểu diễn hình dạng cây duy nhất- chỉ mục hình dạng

Sau khi chuẩn hóa quay và co dãn, chọn lựa kích thƣớc lƣới tế bào, chúng ta có đƣợc dãy nhị phân này đƣợc sử dụng để biểu diễn hay chỉ mục hình dạng, ví dụ nhƣ chỉ mục hình dạng trên hình 2.6 sẽ là 11111111 01111110 00011000 hay 00111110 111111111 11111111

Hình 2.7: Hình dạng trên hình 2.6 sau khi đã đƣợc chuẩn hóa

Vì ta sử dụng lƣới tế bào đủ lớn để bao trùm hình dạng chuẩn hóa, khi quyết định kích thƣớc tế bào, tổng số tế bào lƣới theo trục x là cố định. Tổng số tế bào theo hƣớng y phụ thuộc vào độ lệch tâm của hình dạng. Giá trị cực đại là cùng giá trị với trục x. Ví dụ khi kích thƣớc lƣới tế bào là 24x24 pixel, tổng số tế bào theo trục x là 8, tổng số tế bào theo trục y là từ 1 đến 8, phụ thuộc vào độ lệch tâm.

Đo độ tƣơng tự

Nhiệm vụ tiếp theo là đo độ tƣơng tự giữa các hình dạng trên cơ sở chỉ mục của chúng nhƣ thế nào. Vì chỉ mục chỉ ta vị trí của tế bào bao phủ hình dạng, khoảng cách giữa hai hình dạng đƣợc xác định bằng số các vị trí các tế bào không cùng bao phủ hai hình dạng này. Quay 1800 và các thao tác hình dạng khác đƣợc xem xét sau. Trên cơ sở độ lệch tâm có ba cách tính toán độ tƣơng tự nhƣ sau:

Nếu hay hình dạng chuẩn hóa có cùng chữ nhật cơ sở, chúng ta so sánh từng bít các chỉ mục của hai hình dạng, khoảng cách giữa chúng sau đó sẽ bằng tổng vị trí các giá trị khác nhau. Ví dụ hình dạng A và B có cùng độ lệch tâm là 4 và dãy nhị phân là 11111111 11100000 và 11111111 11111100 thì khoảng cách giữa A và B là 3.

Nếu hai hình dạng chuẩn hóa có chữ nhật rất khác nhau, chúng ta không cần tính toán độ tƣơng tự của chúng vì ta có thể kết luận rằng hình dạng này rất khác nhau. Ví dụ độ lệch tâm của A là 8 và của B là 2 thì ta có thể kết luận hình dạng này khác nhau và không có ý nghĩa khi tiếp tục truy tìm hình dạng. Ngƣỡng khác nhau giữa các trục nhỏ phụ thuộc vào từng ứng dụng và kích thƣớc tế bào. Thông thƣờng, nếu hiệu số độ dài các trục nhỏ của hai hình lớn hơn 3 thì hai hình đƣợc xem là khác nhau.

Nếu hai hình dạng chuẩn hóa có hình chữ nhật cơ sở không khác nhau nhiều thì có khả năng cảm giác chúng là tƣơng tự. Ta bổ sung các số 0 vào chỉ mục hình dạng của trục bé ngắn hơn sao cho chỉ mục có cùng độ dài với hình kia. Khoảng cách giữa hai hình dạng đƣợc tính toán nhƣ trƣờng hợp thứ nhất.

Ví dụ trên với độ dài của trục nhỏ và dãy nhị phân của hình A là 2 và 11111111 11110000 và độ dài và dãy nhị phân của hình B là 3 và 11111111 111111000 11100000 thì ta kéo dài số nhị phân của hình A thành 11111111 11110000 00000000 khoảng cách giữa A và B sẽ là 4.

Các thao tác hình dạng khác

Để bổ sung vào quay hình dạng 1800, hai thao tác khác là flip ngang và dọc. Hình 2.8 chỉ ra hai kết quả của hai thao tác trên hình dạng từ hình 2.7. Hai hình dạng này cảm nhận tƣơng tự với hình dạng trên hình 2.6.

Để sử dụng hai thao tác này và vẫn tiết kiệm lƣu trữ, ta chỉ cần lƣu một chỉ mục cho mỗi hình nhƣng ta sẽ sinh ra bốn dãy nhị phân cho mỗi hình dạng trong câu truy vấn khi truy tìm. Trong trƣờng hợp này, hình dạng cảm giác tƣơng tự đƣợc tìm ra từ kết quả của quay 1800, lật flip ngang và lật dọc.

2.3. Tra cứu ảnh dựa vào vân 2.3.1. Vân là gì? 2.3.1. Vân là gì?

Vân (texture), đến này vẫn chƣa có một định nghĩa chính xác cụ thể về vân. Vân là một đối tƣợng dùng để phân hoạch ảnh ra thành những vùng đƣợc quan tâm và để phân lớp những vùng đó. Vân cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc và cƣờng độ của một ảnh. Vân đƣợc đặc trƣng bởi sự phân bổ không gian của những mức cƣờng độ trong một khu vực láng giềng với nhau của ảnh màu và vân đối với ảnh xám là nhƣ nhau. Vân gồm nhiều vân gốc hay vân phần tử gộp lại, đôi khi đƣợc gọi là texel. Xét về vấn đề phân tích vân, có hai đặc trƣng chính yếu nhất:

- Cấu trúc vân đƣợc định nghĩa nhƣ sau vân là tập hợp những texel đƣợc sắp xếp theo một số quy luật nhất định hay có cấu trúc không gian lặp đi lặp lại.

- Sự thống kê vân đƣợc định nghĩa nhƣ sau vân là một độ đo về số lƣợng của sự sắp xếp những mức xám hay cƣờng độ sáng trong vùng. Cấu trúc vân, một vân bất kỳ có thể coi nhƣ là một tập của những texel thô trong một quan hệ không gian đặc biệt nào

đó. Một cấu trúc không gian của một vân bất kỳ sau đó có thể bao gồm một sự mô tả của texel và một đặc tả về không gian. Những texel đƣơng nhiên phải đƣợc phân đoạn và quan hệ không gian phải đƣợc tính toán một cách thật hiệu quả. Texel là những vùng ảnh có thể trích rút từ một số hàm phân ngƣỡng đơn giản.

5% xéo Xéo ngắn Zíc Zắc

Cỏ gạch lợp ván Ca rô

Vân giấy Vân đá Vân dệt Vân nƣớc

2.3.2. Tra cứu ảnh dựa vào vân

Trong hầu hết các trƣờng hợp, phân đoạn những ảnh thật ra những texel khó hơn nhiều đối với trƣờng hợp tự nhiên sinh ra những hoa văn thiên nhiên. Thay vì vậy, việc

Giấy thô Vân cát Vân gỗ Vân sợi

định lƣợng về số hay thông tin thống kê bằng số mô tả cho một vân có thể đƣợc tính từ mức chính xác, hay mức màu của chúng. Tuy cách tiếp cận này ít trực quan nhƣng nó có hiệu suất tính toán cao, hơn nữa cách tiếp cận này cũng phù hợp với đồng thời cho việc phân đoạn vân và phân loại vân.

2.3.3. Phân hoạch vùng nhị phân cục bộ

Một phần của tài liệu Nghiên cứu kỹ thuật tra cứu ảnh và ứng dụng trong tra cứu cây thuốc (Trang 41 - 83)

Tải bản đầy đủ (PDF)

(83 trang)