Luận văn thạc sĩ Khoa học máy tính: Truy vấn ảnh trong tập dữ liệu ảnh lớn dựa trên nội dung

Nghiên cứu phương pháp tìm kiếm ảnh dựa trên nội dung sử dụng SURF Speeded Up Robust Features để trích rút đặc trưng cục bộ, nhưng vì phương pháp SURF có nhược điểm là chỉ áp dụng cho ản

GIỚI THIỆU

Giới thiệu đề tài

Trong những năm gần đây, số lượng hình ảnh phát triển rất nhanh, do đó việc khai thác những thông tin ảnh này để ứng dụng vào thực tế nhằm đáp ứng một số nhu cầu ngày nay ví dụ như tìm kiếm nhận dạng ảnh hay phục vụ mục đích y tế như tìm kiếm, chuẩn đoán bệnh hoặc đăng kí ảnh thương hiệu nhằm xác định xem hình ảnh này đã được đăng kí trên thị trường Bên cạnh đó một số phương pháp tìm kiếm ảnh dựa trên văn bản hiện nay vẫn gặp phải một số hạn chế do tính chất ảnh là vô cùng đa dạng, khó khăn trong việc nhận diện và chú thích

Việc tìm kiếm ảnh trước kia đơn thuần chỉ dựa vào việc đánh chú thích văn bản vào hình ảnh và dựa trên những từ khóa để tìm kiếm, thì hiện nay với nhu cầu tìm kiếm ảnh ngày càng một phong phú, người ta mong muốn tìm ảnh một cách khách quan hơn dựa trên chính nội dung của hình ảnh đó Tương tự như một số hệ thống tìm kiếm ảnh hiện nay, điển hình là hệ thống tìm kiếm Google cho phép tìm kiếm dựa trên từ khóa thì Google cũng cho phép bạn tìm kiếm ảnh tương tự bằng cách đưa vào một bức ảnh và hệ thống sẽ trả về những hình ảnh tương tự dựa trên nội dung của hình ảnh đó mà không cần bất kì một phương pháp đánh chỉ mục chủ quan nào Phương pháp tìm kiếm đó được gọi là phương pháp tìm dựa trên nội dung ảnh Nội dung ảnh ở đây hiểu là những đặc trưng của hình ảnh Do đó cần một phương pháp để trích rút những đặc trưng này một cách hiệu quả để nâng cao độ chính xác của quá trình tìm kiếm ảnh.

Mục tiêu đề tài

Mục tiêu của luận văn này là hiện thực phương pháp tìm kiếm ảnh dựa trên nội dung sử dụng đặc trưng bất biến cục bộ kết hợp đặc trưng màu sắc và đặc trưng kết cấu Nghiên cứu mô hình phù hợp để giảm số chiều vectơ đặc trưng và phương pháp đánh chỉ mục trên tập dữ liệu lớn.

Nội dung đề tài

Để đạt được mục tiêu đã nêu trên thì luận văn này sẽ tập trung vào một số nội dung chính sau đây:

➢ Tìm hiểu về hệ thống tìm kiếm ảnh dựa trên nội dung cơ bản

➢ Tìm hiểu về một số phương pháp trích rút đặc trưng ảnh dựa trên nội dung trong những năm gần

➢ Phân tích ưu nhược điểm của từng phương pháp trích rút đặc trưng

➢ Đề xuất phương pháp tìm kiếm ảnh dựa trên nội dung sử dụng phương pháp SURF (Speeded Up Robust Features) để trích rút đặc trưng cục bộ kết hợp với đặc trưng màu sắc Color Moment Sau đó áp dụng mô hình Bag of Feature để giảm không gian chiều đặc trưng nhưng vẫn giữ được tính chính xác và ổn định của những đặc trưng này nhằm giảm thiểu không gian lưu trữ đặc trưng ảnh đồng thời nâng cao tốc độ tìm kiếm Sau khi giảm chiều vectơ đặc trưng thì kết hợp vectơ đặc trưng này với đặc trưng kết cấu sử dụng phương pháp Gabor Filter Cuối cùng sử dụng giải thuật Randomized KD-Tree để đánh chỉ mục tập dữ liệu và so trùng ảnh

➢ Tiến hành hiện thực và đánh giá hiệu quả của phương pháp đã đề xuất trên một tập dữ liệu chuẩn.

Giới hạn đề tài

Vấn đề tìm kiếm ảnh theo nội dung hiện nay bao gồm nhiều vấn đề khó khăn đang cần phải nghiên cứu, chẳng hạn như phương pháp trích rút đặc trưng, phương pháp phân loại ảnh dựa trên các giải thuật học máy, phương pháp đo độ tương đồng ảnh hay phương pháp tăng cường kết quả truy vấn ảnh bằng cách nhận phản hồi từ người dùng Luận văn này chỉ tập trung nghiên cứu phương pháp trích rút đặc trưng ảnh dựa trên các đặc trưng bất biến cục bộ, màu sắc, kết cấu Nghiên cứu mô hình Bag of Feature để giảm chiều vectơ đặc trưng qua đó làm không gian lưu trữ đặc trưng, đồng thời kết hợp thêm đặc trưng màu sắc sử dụng phương pháp trích rút Color Moment và đặc trưng kết cấu sử dụng phương pháp trích rút Gabor Filter để tăng cường thêm thông tin đặc trưng cho ảnh giúp nâng cao kết quả tìm kiếm.

Cấu trúc báo cáo

Luận văn được chia thành 5 chương có cấu trúc như sau:

Trong chương này, tôi giới thiệu về đề tài, trình bày tầm quan trọng và những mặt khó khăn hiện nay trong việc tìm kiếm ảnh dựa trên nội dung Đồng thời giới thiệu mục tiêu, nội dung và giới hạn nghiên cứu của đề tài

Chương 2 Cơ sở lý thuyết và các công trình nghiên cứu liên quan

Trong chương này, tôi giới thiệu về hệ thống tìm kiếm ảnh dựa trên nội dung Tìm hiểu một số phương pháp tìm kiếm đã có bao gồm các phương pháp trích rút đặc trưng ảnh dựa trên màu sắc, hình dạng, kết cấu, đặc trưng bất biến cục bộ Đánh giá ưu nhược điểm của các phương pháp nêu trên

Chương 3 Phương pháp truy vấn ảnh đề xuất

Trong chương này, tôi đề xuất phương pháp truy vấn ảnh sử dụng đặc trưng bất biến cục bộ SURF kết hợp phương pháp trích đặc trưng màu sắc Color Moment và phương pháp trích rút đặc trưng kết cấu Gabor Filter, đồng thời áp dụng mô hình Bag of Feature để giảm chiều vectơ đặc trưng ảnh và sử dụng giải thuật Randomized KD-Tree để đánh chỉ mục tập cơ sở dữ liệu ảnh Đánh giá ưu nhược điểm của phương pháp đề xuất

Chương 4 Hiện thực và đánh giá

Trong chương này, tôi tiến hành hiện thực phương pháp đề xuất và đánh giá phương pháp đề xuất trên một tập dữ liệu ảnh chuẩn, đồng thời so sánh với phương pháp tìm kiếm hiện có trên cùng tập ảnh này để đánh giá một cách khách quan độ hiệu quả của phương pháp đề xuất

Trong chương này, tôi trình bày kết quả đạt được của luận văn, những đóng góp chính của luận văn và hướng phát triển trong tương lai

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Cơ sở lý thuyết

Hiện nay hệ thống tìm kiếm dựa trên văn bản bằng cách sử dụng từ khóa chú thích vào hình ảnh có một số hạn chế sau: việc tạo từ khóa cho một số lượng lớn ảnh là vô cùng tốn thời gian, từ khóa ngắn thì không thể mô tả hết về những thông tin trực quan của ảnh, đồng thời văn bản cũng không thích hợp cho việc so sánh độ tương đồng trực quan, những mô tả bằng văn bản chỉ phản ánh quan điểm chủ quan của người chú thích chứ không phải người dùng cuối tương tác với hệ thống, nhưng việc nhận thức là một vấn đề chủ quan của từng người dẫn đến độ chính xác không cao Do những hạn chế trên đã dẫn đến sự ra đời của hệ thống truy vấn ảnh dựa trên nội dung

2.1.1 Giới thiệu khái niệm truy vấn ảnh dựa trên nội dung

Truy vấn ảnh dựa trên nội dung (CBIR) là phương pháp truy vấn dựa trên các đặc trưng trực quan cơ bản của hình ảnh như: màu sắc, kết cấu, hình dạng hoặc đặc trưng bất biến cục bộ Do đó việc truy vấn chỉ dựa trên những đặc trưng vốn có của chính hình ảnh đó mà không cần can thiệp bằng các phương pháp đánh chú thích vào hình ảnh Mỗi hình ảnh trong tập cơ sở dữ liệu sẽ được trích rút thông tin đặc trưng và dùng những thông tin này trong việc tìm kiếm và so trùng ảnh

2.1.2 Mô hình hệ thống truy vấn ảnh dựa trên nội dung

Hệ thống truy vấn ảnh dựa trên nội dung bao gồm những thành phần chính sau đây và được biểu diễn như hình 2-1:

• Trích rút thông tin đặc trưng ảnh (Feature Extraction)

• So sánh độ tương đồng giữa hai đặc trưng ảnh (Similarity Matching)

• Đánh chỉ mục cơ sở dữ liệu ảnh (Image Database Indexing)

• Ngoài ra còn có thành phần phân loại ảnh (Image Classification) giúp tăng hiệu quả tìm kiếm

Hình 2-1 Mô hình hệ thống truy vấn ảnh dựa trên nội dung cơ bản [1]

2.1.3 Phương pháp trích rút và so trùng đặc trưng Ý tưởng của phương pháp trích rút đặc trưng ảnh là sử dụng các giá trị điểm ảnh để trích rút các đặc trưng cấp thấp chẳng hạn như đặc trưng màu sắc, hình dạng, kết cấu và kết hợp chúng thành một đặc trưng tổng quát cho nội dung hình ảnh Sự thành công của một hệ thống CBIR liên quan chặt chẽ đến chất lượng của các đặc trưng được trích rút Nếu hệ thống không thể xây dựng được một mô tả tốt về nội dung hình ảnh thì hình ảnh tương tự có thể được coi là khá khác nhau, do đó hình ảnh thu được sẽ không đáp ứng được mong đợi của người dùng Tuy nhiên, do vấn đề khoảng cách ngữ nghĩa, ngay cả những hệ thống CBIR tốt nhất cũng không nắm bắt tốt được những thông tin hình ảnh như con người

Khi các vectơ đặc trưng được đại diện cho hình ảnh thì hai hình ảnh có thể được so sánh độ tương đồng hoặc độ khác nhau bằng cách so sánh hai vectơ đặc trưng để thực hiện truy vấn hình ảnh Về cơ bản, phương pháp để so sánh hình ảnh là bằng cách đo khoảng cách giữa hai vectơ đặc trưng của chúng Ví dụ, hai hình ảnh được so sánh bằng cách tính toán khoảng cách giữa hai vectơ đặc trưng, khoảng cách càng ngắn càng giống nhau và sự khác biệt nhỏ hơn Đo khoảng cách thường được sử dụng là khoảng cách Euclidean:

2.1.4 Các chức năng cơ bản của hệ thống truy vấn ảnh dựa trên nội dung

Những chức năng chính của một hệ thống truy vấn ảnh dựa trên nội dung bao gồm:

▪ Phân tích tập dữ liệu ảnh và biểu diễn dưới dạng tập vectơ đặc trưng

▪ Đánh chỉ mục tập vectơ đặc trưng

▪ Phân tích ảnh truy vấn và biểu diễn thành vectơ đặc trưng phù hợp với tập dữ liệu ảnh lưu trữ

▪ Xác định phương pháp so trùng ảnh truy vấn với ảnh lưu trữ trong cơ sở dữ liệu

▪ Thu thập phản hồi người dùng đối với mỗi lần truy vấn nhằm cũng cố ngữ nghĩa cho lần truy vấn tiếp theo Thu thập phản hồi là một cơ chế tương tác để người dùng dần dần tinh chỉnh kết quả tìm kiếm bằng cách đánh dấu các hình ảnh trong kết quả là "liên quan" hoặc "không liên quan" cho truy vấn tìm kiếm và lặp lại tìm kiếm bằng thông tin bổ sung này Thông qua phản hồi liên quan, người sử dụng có thể tìm được hình ảnh mong muốn của mình bằng cách tương tác với hệ thống

2.1.5 Ứng dụng của hệ thống truy vấn ảnh dựa trên nội dung

Sau đây là một số ứng dụng của CBIR trong thực tế:

▪ Web tìm kiếm: Một số lượng lớn các hình ảnh kỹ thuật số được truy cập bởi những người sử dụng internet do đó hệ thống CBIR có thể giúp người sử dụng tìm kiếm một cách hiệu quả những gì họ đang tìm kiếm

▪ Tìm kiếm ảnh y tế: Hầu hết hình ảnh y tế đã được lưu trữ bởi các bệnh viện Do đó, hệ thống CBIR thể được sử dụng để hỗ trợ tìm kiếm các trường hợp tương tự đã xảy ra trong quá khứ

▪ Báo chí và quảng cáo: Các sản phẩm, hình ảnh, video trong những tờ báo, tạp chí hoặc TV được truy vấn bằng cách sử dụng hệ thống CBIR

▪ Quân sự: Có thể dung CBIR để truy vấn cơ sở dữ liệu của tất cả hình ảnh trong các ứng dụng quân sự như dữ liệu viễn thám, vũ khí, máy bay, nhận dạng mục tiêu tự động, v.v

▪ Sở hữu trí tuệ: Đa số các công ty có hình ảnh thương hiệu riêng, bất cứ khi nào một hình ảnh thương hiệu mới được đăng ký, nó phải được so sánh với hình ảnh thương hiệu hiện tại để loại bỏ trùng lặp

▪ Phòng chống tội phạm: Sau khi xảy ra vụ án tội phạm, cơ quan thực thi pháp luật sẽ tìm kiếm bằng chứng trong kho lưu trữ của họ Tài liệu lưu trữ thường bao gồm hình ảnh chứng cứ, dấu vân tay, dấu lốp, dấu giày v.v trong những

7 trường hợp gần đây Do đó, một hệ thống CBIR có thể giúp họ tìm ra những bằng chứng liên quan

2.1.6 Một số hệ thống truy vấn ảnh dựa trên nội dung

Dưới đây là một số hệ thống truy vấn ảnh dựa trên nội dung:

▪ Hệ thống QBIC (Query by Image Content): Đây là bản thương mại được phát triển bởi IBM Hệ thống này sử dung các đặc trưng màu sắc, hình dạng và kết cấu để đại diện cho hình ảnh, đồng thời sử dụng giải thuật R-Tree để đánh chỉ mục đa chiều

▪ Hệ thống Virage: Đây cũng là một hệ thống tìm kiếm ảnh thương mại được phát triển bởi Virage Inc Virage là một hệ thống dựa trên module cho phép các lập trình viên có thể tạo thêm module của riêng họ

▪ Hệ thống Photobook: Đây là một hệ thống thử nghiệm được phát triển bởi một nhóm nghiên cứu tại Viện Công nghệ Massachusetts Việc phát hành ban đầu được thiết kế để hỗ trợ người sử dụng trong việc chú thích Tìm kiếm được hiện thực bằng cách sử dụng đặc trưng hình dạng hai chiều và đặc trưng kết cấu

▪ Hệ thống VisualSeek: VisualSeek được phát triển tại Đại học Columbia Hệ thống truy vấn hình ảnh dựa trên mối quan hệ không gian của vùng ảnh.

Các công trình nghiên cứu liên quan

2.2.1 Các đặc trưng cấp thấp của hình ảnh

2.2.1.1 Đặc trưng màu sắc Đặc trưng màu sắc là một đặc trưng trực quan cấp thấp rất cơ bản được sử dụng để tìm kiếm hình ảnh dựa trên sự tương đồng về màu sắc Hình ảnh được phân biệt chủ yếu dựa trên các đặc điểm màu sắc bởi con người, do đó đặc trưng này tương đối mạnh mẽ và không phụ thuộc vào kích thước hình ảnh, hướng hay thay đổi tỉ lệ Dưới đây là một vài phương pháp khác nhau trong việc trích rút đặc trưng màu sắc:

Hình dạng có thể được coi như một hình bóng của vật thể, do đó hình dạng cung cấp thông tin khá quan trọng, do con người có khả năng nhận ra vật thể thông qua hình dạng của chúng hơn là màu sắc Đặc trưng hình dạng là một trong những đặc trưng trực quan cấp thấp được sử dụng để đại diện và tìm kiếm hình ảnh Đặc trưng hình dạng rất cần thiết vì nó đại diện cho các khu vực quan tâm trong hình ảnh

Mỗi đối tượng hoặc vùng trong một hình ảnh được lập chỉ mục bởi vectơ đối tượng hình dạng hoặc các vùng liên quan Vectơ đặc trưng hình dạng là bất biến đối với phép dịch, xoay và thay đổi tỷ lệ Có rất nhiều ứng dụng hình ảnh sử dụng đặc trưng hình dạng phân tích hình ảnh Để xác định hình dạng, chúng ta phải tìm đâu là các cạnh của nó, đó là nơi xảy ra thay đổi lớn về cường độ xám Sự thay đổi cường độ xám có thể được tính bằng phương pháp gradient Gradient có thể được xấp xỉ bằng cách tích chập hình ảnh với toán tử phát hiện cạnh (ví dụ như Sobel, Prewitt) hoặc sử dụng các phương pháp đạo hàm bậc hai như phát hiện cạnh Gaussian Hình ảnh được tích chập thường có các phân đoạn bị cô lập, có hai loại đặc trưng hình dạng có thể được trích rút từ hình ảnh đó là:

▪ Đặc trưng toàn cục (ví dụ như chu vi) phụ thuộc vào toàn bộ hình dạng được tính toán, do đó chúng nhạy cảm với nhiễu

▪ Đặc trưng cục bộ (ví dụ như độ cong) có thể được tính trên các vùng đơn lẻ, do đó chúng có đặc tính mạnh hơn, nhưng chi phí tính toán đắt hơn

Các phương pháp được sử dụng để trích rút các đặc trưng hình dạng có thể được phân thành 2 loại:

Một số phương pháp trích rút đặc trưng hình dạng như:

Kết cấu là cũng là một đặc trưng khá quan trọng của nhận thức thị giác của con người Cũng giống như đặc trưng màu sắc, kết cấu cũng là một đặc trưng cần thiết để xem xét khi truy vấn ảnh trong tập cơ sở dữ liệu Mọi người đều có thể nhận ra kết cấu, nhưng khó để định nghĩa chúng Không giống như màu sắc, kết cấu xảy ra trên một vùng hơn là tại một điểm Nó thường được xác định bởi sự chênh lệch các mức màu xám

Kết cấu mô tả đặc trưng bề mặt và cấu trúc của một đối tượng hoặc một khu vực nhất định Vì một hình ảnh được tạo thành từ các điểm ảnh, kết cấu có thể được định nghĩa như một thực thể bao gồm các điểm ảnh liên quan đến nhau hoặc một nhóm các điểm ảnh Nhóm điểm ảnh này được gọi là các thuộc tính kết cấu hoặc các phần tử kết cấu (texel) Do kết cấu là một thước đo định lượng về sự sắp xếp của các texel trong một vùng nên các phương pháp để xác định cấu trúc được chia

9 thành hai loại chính: thống kê và cấu trúc Các phương pháp thống kê mô tả cấu trúc bằng cách thống kê phân bố cường độ ảnh Phân bố không gian các giá trị xám là một trong những phương pháp xác định của kết cấu Các phương pháp thống kê phân tích việc phân bố không gian các giá trị màu xám, bằng cách tính toán các đặc trưng cục bộ tại mỗi điểm trong hình ảnh và lấy ra một bộ thống kê từ các bản phân phối các đặc trưng cục bộ Các phương pháp kết cấu mô tả kết cấu bằng cách xác định cấu trúc nguyên thủy và các quy tắc sắp đặt texel của chúng Phương pháp này phù hợp cho những kết cấu mà trong đó kích thước không gian của chúng có thể được mô tả bằng nhiều thuộc tính

Vì vậy kết cấu là một trong những tính năng quan trọng thường được sử dụng trong các hệ thống CBIR ngày nay Các phương pháp mô tả đặc tính kết cấu chia thành hai phương pháp chính đó là: phương pháp dựa trên thống kê và phương pháp dựa trên cấu trúc, tiêu biểu là những phương pháp sau đây:

▪ Phương pháp Gray Level Co-Occurrence Matrix

▪ Phương pháp Local Binary Pattern

2.2.1.4 Đặc trưng bất biến cục bộ

Do đặc trưng toàn cục khá nhạy cảm với những phép biến đổi như xoay, co giãn, thay đổi ánh sáng và hướng nhìn, đồng thời đặc trưng toàn cục có thể gây ra dư thừa thông tin Trong khi đó đặc trưng cục bộ của hình ảnh cung cấp những thông tin tốt hơn mà không phụ thuộc vào các phép biến đổi ảnh Đặc trưng cục bộ có thể được trích rút bằng một trong ba phương pháp sau đây:

• Hình ảnh được phân đoạn thành các vùng và tương ứng mỗi vùng được trích rút vectơ đặc trưng

• Hình ảnh được phân chia thành các khối có kích thước cố định và mỗi khối tương ứng được trích rút thành các vectơ đặc trưng

• Phát hiện các điểm cục bộ trong hình ảnh và một vectơ đặc trưng được trích rút từ một vùng xung quanh điểm cục bộ

Hình 2-2 dưới đây biểu diễn ba hướng tiếp cận để trích rút đặc trưng cục bộ:

Hình 2-2 Những hướng tiếp cận khác nhau để trích rút đặc trưng cục bộ [10]

Các tính chất của đặc trưng cục bộ:

• Tính lặp (repeatability): nếu hai ảnh của cùng một đối tượng nhưng với hai hướng nhìn khác nhau cũng tìm được các đặc trưng cục bộ gần giống nhau

• Tính phân biệt (distinctiveness): Nếu hai ảnh khác nhau thì các đặc trưng cục bộ tìm được đủ khác nhau

• Tính đáp ứng hiệu năng (efficiency): thời gian tìm các đặc trưng cục bộ phải thoả mãn ngưỡng cho phép

➢ Trong đó tính lặp là quan trọng nhất với bài toán tìm kiếm, phân lớp, nhận dạng Để đảm bảo tính lặp các đặc trưng cục bộ có thể thu được bằng 2 cách

❖ Bất biến (invariance): Bất biến theo một tiêu chí nào đó

▪ Mô hình hóa các phép biến đổi bằng công thức toán

▪ Tìm các đặc trưng hoặc cách mô tả đặc trưng không bị ảnh hưởng bởi phép biến đổi

▪ Tìm các đặc trưng hoặc cách mô tả đặc trưng ít bị ảnh hưởng bởi các phép biến đổi

Phương pháp trích rút đặc trưng cục bộ gồm 2 bước chính sau:

Bộ phát hiện đặc trưng sẽ xác định các vùng của một hình ảnh có hình dạng nổi bật và khác biệt, ví dụ như các góc, các cạnh hoặc các đốm sáng trong ảnh Bộ phát hiện đặc trưng được sử dụng để tìm các interest point (hay còn gọi là keypoint) trong hình ảnh mà vẫn giữ được tính bất biến cục bộ

Bộ phát hiện điểm hấp dẫn có thể phát hiện các điểm này ngay cả khi chúng có sự thay đổi như xoay, thay đổi tỉ lệ ảnh hoặc hướng nhìn Trong khi đó, mô tả đặc trưng liên quan đến tính toán mô tả cục bộ được thực hiện trên các vùng điểm ảnh xung quanh điểm keypoint đã phát hiện trước đó Mô tả đặc trưng cục bộ phụ thuộc vào quá trình xử lý hình ảnh để biến đổi một vùng điểm ảnh cục bộ lân cận thành một biểu diễn vectơ nhỏ gọn

Bộ mô tả đặc trưng cục bộ còn được sử dụng rộng rãi trong nhiều nghiên cứu về thị giác máy tính chẳng hạn như so trùng đặc trưng, truy vấn hình ảnh, phát hiện và phân loại đối tượng Hơn nữa, sử dụng bộ mô tả đặc trưng cho phép các thuật toán thị giác máy tính có thể giải quyết triệt để vấn đề quay ảnh và thay đổi tỉ lệ ảnh Các thuật toán liên quan đến đặc trưng cục bộ phụ thuộc vào ý tưởng là làm sao có thể xác định các interest point trong ảnh và thực hiện phân tích các đặc trưng cục bộ cho các điểm này làm sao cho chúng có thể không phụ thuộc vào việc quay ảnh hay co giản, thay vì việc phải dò tìm và phân tích trên toàn bộ hình ảnh Một số phương pháp trích rút đặc trưng cục bộ là:

▪ Phương pháp Moravec Corner Detector

▪ Phương pháp Harris Corner Detector

▪ Phương pháp Scale Invariant Feature Transform

▪ Phương pháp Speeded Up Robust Features

2.2.2 Độ đo tương đồng ảnh

Thông thường một hình ảnh được so sánh với một cơ sở dữ liệu hình ảnh với các đặc trưng đã được trích rút để tìm và lấy ra những hình ảnh tương tự Phép so sánh giữa các hình ảnh dựa trên một ngưỡng điểm và thấp hơn điểm số này là thì hai ảnh gần giống nhau

Giả sử ta có ba ảnh: Ix, Iy, Iz và x̅, y̅, z̅ là đặc trưng tương ứng của Ix, Iy, Iz Một hình ảnh Ix được xem là tương đồng với ảnh Iy hơn là ảnh Iz trong tập dữ liệu I khi

PHƯƠNG PHÁP TRUY VẤN ẢNH ĐỀ XUẤT

Yêu cầu bài toán

Yêu cầu đặt ra đó là làm sao tìm kiếm ảnh tương tự trong một tập dữ liệu ảnh lớn với dữ liệu đầu vào là một hình ảnh, dữ liệu đầu ra là tập các ảnh liên quan Làm thế nào để từ một hình ảnh ta có thể lấy ra nhưng thông tin quan trọng để làm dữ liệu cho quá trình so sánh độ tương đồng như hình 3-1 dưới đây:

Hình 3-1Mô hình CBIR cơ bản

Hiện nay có rất nhiều phương pháp để trích rút thông tin đặc trưng của ảnh như phương pháp trích rút dựa trên đặc trưng màu sắc, hình dạng, kết cấu Mỗi phương pháp đều có ưu và nhược điểm riêng Đối với mỗi phương pháp trích rút, phương pháp này có thể tốt cho tập dữ liệu này nhưng lại bất lợi cho tập dữ liệu khác Nổi trội hiện nay là phương pháp trích rút đặc trưng bất biến cục bộ vì đặc trưng của nó ít bị ảnh hưởng bởi phép quay, thay đổi tỉ lệ, thay đổi cường độ ánh sáng và hướng nhìn Hiện nay có 2 phương pháp trích rút dựa trên các đặc trưng bất biến cục bộ điển hình là phương pháp SIFT và SURF Phương pháp SURF được coi là phương pháp cải tiến của SIFT với tốc độ tính toán nhanh hơn Nhưng hiện tại cả hai phương pháp SIFT và SURF chỉ xử lý dựa trên ảnh mức xám, do đó thông tin màu sắc đã bị loại bỏ ra khỏi giải thuật Nhưng những thông tin màu sắc này là khá hữu ích trong việc tìm kiếm ảnh Nên yêu cầu bài toán là tính toán đặc trưng màu sắc cho các điểm keypoint cục bộ SURF, đối với một số hình ảnh có hình dạng gần giống nhau nhưng cấu trúc bề mặt thường khác nhau thì để tìm kiếm những ảnh như

38 vậy thì đặc trưng kết cấu cũng khá quan trọng, do đó để nâng cao kết quả tìm kiếm luận văn sẽ kết hợp thêm đặc trưng kết cấu cho ảnh

Khó khăn thứ hai là đối với tập ảnh dữ liệu lớn thì việc lưu trữ thông tin ảnh là tương đối lớn cộng thêm việc so trùng ảnh giữa ảnh truy vấn với từng ảnh trong tập dữ liệu Giai đoạn so trùng là một quá trình đối sánh sự giống nhau giữa 2 ảnh Để so trùng sự giống nhau giữa 2 ảnh ta đi đối sánh các đặc trưng của 2 ảnh nghĩa là ta đi so sánh từng đặc trưng của ảnh này với tất cả các đặc trưng của ảnh kia như hình 3-2 Từ đó ra quyết định 2 ảnh này có giống nhau hay không

Hình 3-2Quá trình so trùng ảnh

Ví dụ như đặc trưng SIFT là một vectơ 128 chiều còn đặc trưng SURF là 64 chiều tương ứng cho từng điểm keypoint, nếu 1 hình ảnh trích rút khoảng 1000 đến 3000 keypoint tùy theo kích thức và độ phân giải của ảnh thì số lượng đặc trưng là rất lớn Do đó chúng ta cần phải làm sao để giảm số chiều vectơ đặc trưng của ảnh mà vẫn giữ được tính chính xác và ổn định của kết quả truy vấn.

Phương pháp truy vấn ảnh đề xuất

Do phương pháp SIFT có nhược điểm đó là bộ mô tả đặc trưng SIFT gồm 128 phần tử nên việc tính toán và so trùng ảnh cần thời gian lâu hơn phương pháp SURF với bộ mô tả đặc trưng chỉ gồm 64 phần tử, cộng thêm SURF tính toán dựa trên ảnh tích phân nên tốc độ tính toán nhanh hơn Do đó hệ thống đề xuất này sẽ áp dụng phương pháp SURF để trích rút đặc trưng ảnh

Nhưng vì phương pháp SURF có nhược điểm chỉ hoạt động trên các hình ảnh mức xám do đó để tăng cường thêm thông tin về màu sắc, luận văn đề xuất áp dụng phương pháp trích rút đặc trưng màu sắc đó là Color Moment Phương pháp Color Moment sẽ tính toán trong không gian vùng 5x5 điểm ảnh xung quanh điểm keypoint của phương pháp SURF Vì hầu hết thông tin đặc trưng hữu ích chỉ tập

39 trung vào các moment thấp, chỉ những moment cấp một (giá trị Mean) và moment cấp hai (giá trị Standard Deviation) và moment cấp ba (giá trị Skewness) sẽ được sử dụng làm các đặc trưng màu sắc Giả sử giá trị của kênh màu thứ i tại điểm ảnh thứ j là Pij Các giá trị moment liên quan đến kênh màu này được tính bằng công thức sau:

▪ Giá trị trung bình (Mean):

▪ Độ lệch chuẩn (Standard Deviation): σ i = √(1

▪ Độ lệch phân bố (Skewness):

Trong đó N là số điểm ảnh trong vùng ảnh

Moment màu cấp một, cấp hai và cấp ba được kết hợp với đặc trưng SURF để tạo thành một vectơ đặc trưng có số chiều là 73 (64 chiều của đặc trưng SURF, 3 chiều của giá trị trung bình, 3 chiều của độ lệch chuẩn, 3 chiều của độ lệch phân bố) Mục tiêu của việc sử dụng các moment màu sắc kết hợp đặc trưng SURF là cung cấp sự khác biệt tối đa cho những điểm keypoint

Do số lượng điểm keypoint và vectơ đặc trưng tương ứng là rất lớn dẫn đến khó khăn trong việc đánh chỉ mục tập dữ liệu và quá trình so trùng, vậy nên phương pháp đề xuất sẽ áp dụng mô hình Bag of Feature và phương pháp đánh chỉ mục Randomized KD-Tree để giải quyết các vấn đề trên Phương pháp đề xuất được mô tả như hình 3-3 dưới đây:

Hình 3-3Phương pháp truy vấn ảnh đề xuất

Phương pháp đề xuất gồm 2 giai đoạn chính sau đây:

Với mỗi ảnh trong tập dữ liệu tiến hành trích rút đặc trưng sử dụng SURF kết hợp Color Moment, qua quá trình Bag of Feature với k cụm (k = 100) giúp giảm chiều vectơ đặc trưng xuống còn 100 chiều Đồng thời trích rút đặc trưng kết cấu sử dụng Gabor Filter thu được vectơ đặc trưng gồm 48 chiều Sau đó kết hợp 2 đặc trưng BoF và Gabor Filter ta được 1 vectơ đặc trưng 148 chiều Sau đó tiến hành đánh chỉ mục tập dữ liệu sử dụng giải thuật Randomized KD-Tree

Với mỗi ảnh truy vấn ta cũng tiến hành trích rút đặc trưng sử dụng SURF kết hợp Color Moment, áp dụng BoF để giảm chiều Đồng thời cũng kết hợp đặc trưng kết cấu Gabor Filter, kết hợp 2 đặc trưng và tiến hành tìm kiếm K-Nearest Neighbors dựa trên chỉ mục Randomized KD-Tree ở giai đoạn trên

❖ Chi tiết về các phương pháp : SURF kết hợp Color Moment, Bag of Feature và

Gabor Filter, thuật toán Randomized KD-Tree sẽ được trình bày chi tiết trong các phần dưới đây:

3.2.1 Phương pháp trích rút đặc trưng SURF kết hợp Color Moment

SURF là một phương pháp tìm kiếm đặc trưng cục bộ mạnh mẽ được đưa ra bởi Herbert Bay vào năm 2006 SURF được sử dụng để nhận dạng đối tượng Phương pháp phát hiện đặc trưng của SURF hoạt động dựa trên phương pháp phát hiện Hessian Blob SURF là bộ phát hiện và bộ mô tả các điểm keypoint bất biến với tỷ lệ và góc xoay Phương pháp này tương đương hoặc thậm chí nhanh hơn so với các phương pháp trước đây mà liên quan đến tính lặp đi lặp lại, tính riêng biệt và tính vững chắc, nó còn giúp việc tính toán và so sánh nhanh hơn

Dữ liệu đầu vào của giải thuật SURF là một ảnh mức xám Và dữ liệu đầu ra là một danh sách các điểm ảnh nhưng liên kết với một vectơ đặc trưng (descriptor) đây cũng chính là 1 vectơ tập hợp các đặc trưng của điểm ảnh đó Những điểm như vậy được gọi là keypoint và bộ mô tả (descriptor) của chúng thì bất biến đối với phép quay, thay đổi tỉ lệ, hướng nhìn và cường độ ánh sáng Chúng ta sẽ dùng những điểm keypoint này so trùng ảnh hoặc nhận diện đối tượng trong ảnh

1.1 Khái niệm ảnh tích phân

Hình ảnh tích phân (Integral Image) được Viola giới thiệu vào năm 2001 [17] Hình ảnh tích phân được sử dụng như một cách nhanh chóng và hiệu quả để tính tổng của các giá trị điểm ảnh trong một hình ảnh nhất định hoặc tổng hình chữ nhật con bên trong hình ảnh Công thức tính Integral tại điểm ảnh x = (x,y) T như sau:

(3.4) Hình 3-4 dưới đây là công thức tính tổng điểm ảnh trong hình chữ nhật con bất kì:

Hình 3-4Công thức tính tổng giá trị điểm ảnh trong hình chữ nhật con

1.2 Ma trận Hessian phát hiện điểm nổi bật Điểm khác biệt giữa SURF và SIFT trong bước này là phương pháp SIFT, sử dụng

Difference of Gaussian (DoG) để phát hiện điểm keypoint thì phương pháp SURF sử dụng xấp xỉ định thức của ma trận Hessian để phát hiện blob (đốm sáng) Đặc trưng của SURF được phát hiện dựa trên ma trận Hessian Định thức của ma trận Hessian được sử dụng để xác định vị trí và tỉ lệ đặc trưng Ma trận Hessian được định nghĩa là H(x, σ) với x là một điểm cho trước x=(x,y) trong hình ảnh I như sau:

Với Lxx(x,σ) là tích chập đạo hàm bậc hai hàm Gaussian 𝜕 2

𝜕𝑥 2 𝑔(𝜎) với ảnh I tại điểm x và tương tự với Lxy(x,σ) và Lyy(x,σ) Nếu như SIFT xấp xỉ việc tính Laplacian của hàm Gaussian (LoG) bằng việc tính Difference của hàm Gaussian (DoG) thì SURF xấp xỉ việc tính đạo hàm bậc hai của hàm Gaussian bằng các hộp lọc (box filters) Hình 3-5 dưới đây là một ví dụ của việc tính xấp xỉ đạo hàm cấp hai của hàm Gaussian với hệ số tỉ lệ thấp nhất bằng hộp lọc:

Hình 3-5Xấp xỉ đạo hàm bậc 2 hàm Gaussian bằng hộp lọc [3]

Trong hình 3-5, ảnh thứ nhất là ma trận đạo hàm bậc 2 Gaussian theo trục y (kí hiệu

Lyy), ảnh thứ hai theo trục x và trục y (kí hiệu Lxy) Ảnh thứ ba và thứ tư lần lượt là các hộp lọc xấp xỉ tương ứng (kí hiệu Dxx, Dxy) Máu xám tương ứng với giá trị 0 Với hộp lọc 9x9 ở hình 3-5 là xấp xỉ của hàm Gaussian với 𝜎 = 1.2 và đại diện cho tỉ lệ thấp nhất (tương ứng độ phân giải cao nhất) được định nghĩa Dxx, Dyy, Dxy Định thức xấp xỉ của ma trận Hessian được tính theo công thức sau:

Trọng số tương đối w của phản hồi bộ lọc được sử dụng để cân bằng biểu thức tính định thức Hessian Điều này là cần thiết cho việc chuyển đổi năng lượng giữa Gaussian kernel và Gaussian kernel xấp xỉ

Các điểm nổi bật cần được tìm trên không gian tỉ lệ khác nhau Không gian tỉ lệ

43 thường được hiện thực như hình kim tự tháp ảnh Hình ảnh sẽ được lặp để làm mờ với hàm Gaussian, sau đó giảm kích thước (sampling) hình ảnh để đạt được tầng cao hơn của kim tự tháp Trong phương pháp SIFT, Lowe [2] trừ hai hình ảnh được làm mờ trong cùng lớp kim tự tháp để đạt được Difference of Gaussian của ảnh, nơi là các điểm nổi bật được tìm thấy Đối với phương pháp SURF, do việc sử dụng hộp lọc kết hợp với sử dụng hình ảnh tích phân, do đó không phải áp dụng cùng một bộ lọc với đầu ra của một lớp được lọc trước đó, mà thay vào đó có thể áp dụng các hộp lọc có kích thước bất kỳ với tốc độ chính xác cùng một tốc độ trực tiếp trên hình ảnh ban đầu và thậm chí song song Do đó, không gian tỉ lệ được phân tích bằng cách mở rộng tỉ lệ bộ lọc thay vì giảm kích thước hình ảnh như hình 3-6 dưới đây Kết quả của bộ lọc 9 × 9, được giới thiệu trong phần trên, được coi là lớp tỉ lệ ban đầu, phương pháp sử dụng tỉ lệ s = 1,2 (xấp xỉ các đạo hàm Gaussian với σ 1,2) Các lớp sau được thu được bằng cách lọc hình ảnh với các mặt nạ lớn hơn

Hình 3-6Không gian tỉ lệ [3]

Phương pháp đánh giá

Việc đánh giá và so sánh tính hiệu quả của các phương pháp truy vấn bằng cách sử dụng 2 thông số Precision và Recall

Precision = Số ảnh truy vấn liên quan

Tổng số ảnh truy vấn được trả về

Recall= Số ảnh truy vấn liên quan

Tổng sổ ảnh liên quan trong cở sở dữ liệu

(3.16) Đồng thời vẽ biểu đồ trực quan Precision, Recall và F-measure Để tạo ra một biểu đồ như vậy, tiến hành truy vấn với mỗi bộ dữ liệu đánh giá khác nhau bao gồm khoảng 40 tập test và tiến hành tính toán giá trị trung bình của 3 giá trị trên Đối với mỗi bộ kết quả này, Precision trung bình, Recall trung bình và F-measure trung bình được xác định và dùng ba giá trị này để vẽ đồ thị

Giá trị của Precision, Recall và F-measure càng cao thì phương pháp truy vấn càng tốt

HIỆN THỰC VÀ ĐÁNH GIÁ PHƯƠNG PHÁP ĐỀ XUẤT

Tập dữ liệu đánh giá

ALOI (Amsterdam Library of Object Images) [13] là một tập hình ảnh màu sắc của một ngàn đối tượng nhỏ dành cho mục đích khoa học Để nắm bắt được sự thay đổi của đối tượng, tất cả các đối tượng trong tập ảnh ALOI được chụp với góc nhìn, góc chiếu sáng và màu sắc ánh sáng khác nhau Trong luận văn này tôi chọn 11 đối tượng ngẫu nhiên trong tập ảnh ALOI và tiến hành đánh giá và so sánh kết quả giữa phương pháp đề xuất với phương pháp SURF truyền thống và phương pháp Gabor Filter

Tập dữ liệu huấn luyện bao gồm 1188 hình:

Hình 4-1Tập dữ liệu huấn luyện mẫu

Tập ảnh dùng để truy vấn gồm 40 tập ảnh: Dưới đây là 10 tập hình mẫu trong 40 tập hình

Hình 4-2Tập ảnh dùng để truy vấn

Kết quả hiện thực

Cấu hình máy dùng để thực nghiệm:

• Vi xử lý Intel(R) Core(TM) i5-5257U CPU @ 2.7GHz

Hệ thống hiện thực sử dụng Qt Creator 2.7.2 trên nền Qt 5.1.0 và thư viện OpenCV 2.4.5

❖ Hiện thực phương pháp Color Moment sử dụng thư viện OpenCV:

• Bước 1: Load ảnh kiểu RGB sử dụng imload()

• Bước 2: Khoanh vùng không gian 5x5 xung quanh điểm (x,y) cho trước

• Bước 3: Tiến hành tách ảnh thành 3 kênh màu riêng biệt R,G,B sử dụng hàm split()

• Bước 4: Tính toán Mean , Standard Deviation sử dụng meanStdDev() và tính toán Skew

❖ Hiện thực phương pháp SURF cải tiến kết hợp mô hình Bag of Feature sử dụng thư viện OpenCV:

• Bước 1: Load ảnh mức xám sử dụng hàm imread() trong OpenCV input = imread(filename, CV_LOAD_IMAGE_GRAYSCALE);

• Bước 2: Phát hiện điểm keypoint sử dụng hàm detect() keypoint SURF trong OpenCV:

SurfDescriptorExtractor detector(400,4,2,false); detector.detect(input, keypoints);

• Bước 3: Tương ứng với mỗi điểm keypoint (x,y) trong keypoints ở bước 2, tính toán Color Moment

• Bước 4: Giảm chiều vectơ đặc trưng sử dụng BoF sử dụng thư viện trong OpenCV:

Ptr matcher(new FlannBasedMatcher);

BOWImgDescriptorExtractor bowDE(extractor,matcher); bowDE.setVocabulary(dictionary);

Mat bowDescriptor; bowDE.computes(descriptor,bowDescriptor);

❖ Hiện thực phương pháp trích rút đặc trưng kết cấu sử dụng Gabor Filter sử dụng thư viện OpenCV:

• Bước 1: Load ảnh màu Imàu(x,y)

• Bước 2: Chuyển ảnh RGB sang ảnh mức xám Ixám(x,y)

• Bước 3: Áp dụng Gabor Filter lên ảnh xám với các hướng và độ lớn khác nhau: 6 hướng và 4 độ lớn

• Bước 4: Tính giá trị kì vọng và giá trị độ lệch chuẩn sử dụng hàm meanStdDev()

• Bước 5: Tổng hợp thành 1 vectơ đặc trưng gồm 6x4x2 = 48 chiều

❖ Hiện thực phương pháp đánh chỉ mục Randomized KD-Tree sử dụng thư viện FLANN (Fast Library for Approximate Nearest Neighbors) trong OpenCV: Thư viện FLANN là thư việc chứa 1 tập các thuật toán tối ưu cho việc tìm kiếm hàng xóm gần nhất trong tập dữ liệu lớn và vectơ đặc trưng nhiều chiều

• Bước 1: Sử dụng hàm khởi tạo GenericIndex() để khởi tạo Randomized KD- Tree với dữ liệu đầu vào là tập các vectơ đặc trưng của tập dữ liệu ảnh

• Bước 2: Sử dụng hàm knnSearch() để các tìm kiếm đặc trưng gần nhất với dữ liệu đầu vào là vectơ đặc trưng ảnh truy vấn flann::GenericIndex< cvflann::L2 > kdtrees(features, cvflann::SavedIndexParams("kdtree_index_proposed.fln")); kdtrees.knnSearch(feature_query, matches, distances, knearest, cvflann::SearchParams(148));

Giao diện chương trình như hình 4-3 dưới đây:

Hình 4-3 Giao diện chương trình

Đánh giá

Tương ứng với mỗi tập test tôi sẽ có bảng kết quả như sau: Bảng kết quả gồm 3 thông số chính đó là Precision, Recall và F-measure Tôi sẽ đánh giá phương pháp truy vấn ảnh đề xuất với phương pháp truy vấn chỉ sử dụng SURF truyền thống và phương pháp Gabor Filter

❖ Đầu tiên là quá trình huấn luyện:

+ Bước 1: Chọn thư mục ảnh muốn huấn luyện như hình 4-4:

Hình 4-4Chọn thư mục ảnh training

+ Bước 2: Chọn phương pháp trích rút đặc trưng như hình 4-5:

Hình 4-5 Chọn phương pháp trích rút đặc trưng

+ Bước 3: Ấn Start để bắt đầu huấn luyện, khi quá trình huấn luyện hoàn thành thì thanh progress bar sẽ hiển thị 100% như hình 4-6:

Hình 4-6 Ấn Start để bắt đầu training

❖ Thứ hai là quá trình truy vấn:

+ Bước 1: Chọn ảnh truy vấn như hình 4-7:

Hình 4-7 Chọn ảnh truy vấn

+ Bước 2: Chọn phương pháp trích rút đặc trưng như hình 4-8:

Hình 4-8Chọn phương pháp trích rút đặc trưng

+ Bước 3: Load dataset vừa huấn luyện ở trên như hình 4-9

Hình 4-9Chọn tập dataset tương ứng

+ Bước 3: Chọn số ảnh trả về mặc định là 10 ảnh như hình 4-10:

Hình 4-10Chọn số ảnh trả về

+Bước 4: Ấn Query để truy vấn như hình 4-11:

Hình 4-11Ấn nút truy vấn ảnh

Dưới đây là bảng đánh giá của 40 tập ảnh truy vấn: Cột đầu tiên là tập ảnh truy vấn bao gồm 11 hình được chọn ngẫu nhiên 3 cột lớn tiếp theo tương ứng với 3 thông số: Precision, Recall, F-measure Giá trị của 3 thông số này càng lớn thì phương pháp truy vấn càng tốt Ta có thể nhận thấy đa số phương pháp đề có kết quả tốt hơn phương pháp SURF truyền thống và phương pháp Gabor Filter

Bảng 4-1: Kết quả thực nghiệm tập test 1 và 2

❖ Từ kết quả thực nghiệm ở trên tôi tiến hành trực quan hóa kết quả trung bình Mean bằng đồ thị Hình 4-12, 4-13, 4-14 dưới đây là 3 đồ thị Precision, Recall, F-Measure Trục y tương ứng là các giá trị trung bình của Precision, Recall, F-Measure Trục x tương ứng là số lần test Đường vẽ gạch hình thoi tương ứng là phương pháp SURF truyền thống, đường vẽ gạch hình vuông là phương pháp Gabor Filter và đường vẽ hình tam giác là phương pháp đề xuất Hình 4-15 tương ứng là đồ thị Precision và Recall

Hình 4-15 Đồ thị Precision và Recall

Từ 3 đồ thị trên ta có thể nhận thấy rằng đa phần đường vẽ của phương pháp đề xuất (SURF +Color Moment + Gabor Filter) nằm trên đường vẽ SURF truyền thống và phương pháp Gabor Filter, tương tự đối với đồ thị Precision-Recall do đó phương pháp cải tiến có kết quả tốt hơn Một số lần thử nghiệm với hình ảnh có độ chiếu sáng thấp do đó một phần vật thể cùng màu với phông nền đen thì phương pháp đề xuất có kết quả thấp hơn phương pháp SURF truyền thống, lý do là phương pháp đề xuất sử dụng kết hợp phương pháp trích rút Gabor Filter không phân biệt được phần ảnh bị khuyết do chiếu sáng thấp với phông nền Nhưng ngược lại đối với vật thể có độ chiếu sáng cao thì đa phần phương pháp cải tiến có kết quả tốt hơn

Tiêu đề	Truy vấn ảnh trong tập dữ liệu ảnh lớn dựa trên nội dung
Tác giả	Hoàng Văn Nhật Vũ
Người hướng dẫn	TS. Nguyễn Thanh Bình
Trường học	Trường Đại học Bách Khoa - Đại học Quốc gia Tp. HCM
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2017
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	93
Dung lượng	5,63 MB