1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ VNU UET nghiên cứu một số kỹ thuật tra cứu ảnh và ứng dụng vào bài toán kiểm chứng cổ vật luận văn ths công nghệ thông tin 1 01 10

86 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận Văn Thạc Sĩ VNU UET Nghiên Cứu Một Số Kỹ Thuật Tra Cứu Ảnh Và Ứng Dụng Vào Bài Toán Kiểm Chứng Cổ Vật
Trường học VNU UET
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2023
Định dạng
Số trang 86
Dung lượng 1,14 MB

Cấu trúc

  • 1.1. VẤN ĐỀ TRA CỨU ẢNH (7)
  • 1.2. MỘT SỐ PHƯƠNG PHÁP TRA CỨU ẢNH (8)
    • 1.2.1. Tra cứu ảnh theo nội dung (9)
    • 1.2.2. Tra cứu ảnh theo bản thể (ontology-based image retrieval) (11)
    • 1.2.3. Tra cứu ảnh theo đồ thị (graph based image retrieval) (13)
  • CHƯƠNG 2: TRA CỨU ẢNH THEO NỘI DUNG (15)
    • 2.1. GIỚI THIỆU .............................................................................................................19 U 2.2. MÔ HÌNH HỆ THỐNG TRA CỨU ẢNH THEO NỘI DUNG (15)
    • 2.3. CÁC PHƯƠNG PHÁP MÔ TẢ NỘI DUNG ẢNH (17)
      • 2.3.1. Mô tả các đặc điểm màu sắc (18)
      • 2.3.2. Mô tả các đặc điểm kết cấu (25)
      • 2.3.3. Mô tả các đặc điểm hình dạng (36)
      • 2.3.4. Thông tin về không gian (51)
    • 2.4. ĐÁNH GIÁ ĐỘ TƯƠNG TỰ VÀ XÂY DỰNG SƠ ĐỒ ĐÁNH CHỈ SỐ (55)
      • 2.4.1. Đánh giá độ tương tự (55)
      • 2.4.2. Xây dựng sơ đồ đánh chỉ số (58)
    • 2.5. TƯƠNG TÁC VỚI NGƯỜI SỬ DỤNG (63)
      • 2.5.1. Đặc tả truy vấn (63)
      • 2.5.2. Xử lý phản hồi (65)
    • 2.6. HIỆU NĂNG CỦA HỆ THỐNG TRA CỨU ẢNH (66)
  • CHƯƠNG 3: ỨNG DỤNG (69)
    • 3.1. GIỚI THIỆU BÀI TOÁN TRA CỨU CỔ VẬT (69)
    • 3.2. PHÂN TÍCH BÀI TOÁN (70)
    • 3.3. XÂY DỰNG CHƯƠNG TRÌNH QUERYIMAGE (71)
      • 3.3.1. Sơ đồ khối tổng quát (71)
      • 3.3.2. Tra cứu theo hình dạng (72)
      • 3.3.3. Tra cứu theo màu sắc (77)
      • 3.3.4. Sử dụng chương trình QueryImage (78)
    • 3.4. KHẢ NĂNG MỞ RỘNG CỦA CHƯƠNG TRÌNH (80)
      • 3.4.1. Những hạn chế của chương trình (80)
      • 3.4.2. Khả năng mở rộng (80)
  • KẾT LUẬN (82)
  • TÀI LIỆU THAM KHẢO (85)

Nội dung

VẤN ĐỀ TRA CỨU ẢNH

Những năm gần đây, vấn đề tra cứu ảnh số nhận được sự quan tâm ngày càng lớn Nguyên nhân một phần là do sự phát triển của công nghệ chế tạo thiết bị thu nhận và lưu trữ ảnh số cũng như sự phát triển mạnh mẽ của mạng Internet Người sử dụng trong nhiều lĩnh vực khác nhau có cơ hội để truy cập và sử dụng các kho lưu trữ ảnh thuộc đủ loại chủ đề và với nhiều kiểu định dạng ảnh khác nhau Tuy nhiên người ta cùng nhận thấy rằng việc tìm được một bức ảnh mong muốn trong bộ sưu tập ảnh đa dạng có kích thước lớn là rất khó khăn

Tra cứu ảnh là một quá trình tìm kiếm trong một cơ sở dữ liệu ảnh những ảnh thoả mãn một yêu cầu nào đó Ví dụ, người sử dụng có thể tìm kiếm tất cả các ảnh về chủ đề về biển trong một cơ sở dữ liệu ảnh hoặc một người sử dụng khác lại muốn phân loại cơ sở ảnh của mình thành các bộ sưu tập có chủ đề khác nhau Một ví dụ khác về tra cứu ảnh là một người muốn tìm tất cả các ảnh tương tự với một bức ảnh mẫu nào đó trong một cơ sở dữ liệu ảnh

Vấn đề tra cứu ảnh đã được nhìn nhận rộng rãi và việc tìm kiếm các giải pháp cho vấn đề này trở thành một lĩnh vực rất sôi động, thu hút sự quan tâm của nhiều nhà nghiên cứu và phát triển

Những kỹ thuật tra cứu ảnh số đã được nghiên cứu từ cuối những năm 70 của thế kỷ 20 Năm 1979 một cuộc hội thảo chuyên đề về "Các kỹ thuật tổ chức cơ sở dữ liệu cho các ứng dụng đồ hoạ" được tổ chức ở thành phố Florence, Italia Từ đó đến nay, khả năng ứng dụng cao của các kỹ thuật quản lý cơ sở dữ liệu ảnh đã thu hút sự quan tâm của nhiều nhà nghiên cứu [1].

MỘT SỐ PHƯƠNG PHÁP TRA CỨU ẢNH

Tra cứu ảnh theo nội dung

Đầu những năm 1990, do sự phát triển của Internet và các công nghệ ảnh số tiên tiến, số lượng ảnh số trong các lĩnh vực khoa học, giáo dục, y tế, công nghiệp được tung ra cho người sử dụng truy cập tăng lên một cách nhanh chóng Điều này làm cho những khó khăn của các hệ thống tra cứu ảnh dựa theo văn bản càng thêm khó giải quyết Sự cần thiết phải có một hệ thống quản lý hiệu quả các thông tin trực quan là vô cùng cấp bách Nhu cầu đó chính là động lực thúc đẩy các nhà nghiên cứu vào cuộc mạnh mẽ hơn và cũng là nguyên nhân dẫn đến sự ra đời của phương pháp tra cứu ảnh theo nội dung

Năm 1992, Quỹ Khoa học Quốc gia (National Science Foundation) của Hoa

Kỳ đã tổ chức một buổi Hội thảo về các hệ thống quản lý thông tin trực quan để xác định hướng đi mới cho các hệ thống quản lý cơ sở dữ liệu ảnh Tại buổi hội thảo này người ra phải công nhận với nhau rằng cách hiệu quả nhất để thể hiện và sắp xếp các thông tin trực quan của một bức ảnh là phải dựa trên các thuộc tính được trích chọn từ chính những bức ảnh đó Các nhà nghiên cứu từ các lĩnh vực khác nhau như thị giác máy tính (computer vision), quản lý cơ sở dữ liệu, giao diện người-máy và tra cứu thông tin đã cùng bị hấp dẫn bới hướng nghiên cứu này [1]

Từ đó đến nay, những công trình nghiên cứu về tra cứu ảnh theo nội dung được triển khai rất nhiều

Từ năm 1997 những kết quả nghiên cứu về tra cứu ảnh theo nội dung như các kỹ thuật trích chọn thông tin trực quan, tổ chức, sắp xếp, thiết kế truy vấn, tương tác với người dùng, quản lý cơ sở dữ liệu được công bố ngày một nhiều Tương tự như vậy, một số lượng lớn các mô hình nghiên cứu cũng như sản phẩm thương mại các hệ thống tra cứu ảnh theo nội dung đã được các trường đại học, các cơ quan nghiên cứu và các công ty tin học cho ra đời

M ộ t s ố h ệ th ố ng tra c ứ u ả nh theo n ộ i dung tiêu bi ể u: o QBIC hay Query By Image Content do hãng IBM và Trung tâm nghiên cứu Almaden hợp tác phát triển Hệ thống này cho phép người sử dụng dùng các công cụ đồ hoạ để mô tả và hiệu chỉnh truy vấn dựa trên nhiều thuộc tính trực quan như màu sắc, kết cấu và hình dạng của đối tượng ảnh QBIC hỗ trợ các kiểu truy vấn dựa trên ảnh mẫu, dựa trên hình phác thảo hoặc dựa trên các mẫu màu hoặc mẫu kết cấu [17] o VIR Image Engine do Công ty Virage Inc phát triển, cũng giống như

QBIC, hệ thống này cho phép tra cứu ảnh dựa trên các thuộc tính màu sắc, kết cấu và cấu trúc [17] o VisualSEEK và WebSEEK do trường Đại học Tổng hợp Columbia

(Mỹ) phát triển Cả hai hệ thống này đều hỗ trợ các cách tìm kiếm theo màu sắc, kết cấu và bố cục không gian [17] o NeTra do trường Đại học Tổng hợp California (Mỹ) phát triển Hệ thống này hỗ trợ tìm kiếm theo màu sắc, hình dạng, bố cục không gian và kết cấu cũng như theo sự phân mảnh của ảnh [17] o MARS hay Multimedia Analysis and Retrieval System do trường Đại học Tổng hợp Illinois phát triển, hỗ trợ tìm kiếm theo màu sắc, bố cục không gian, kết cấu và hình dạng [17] o Viper hay Visual Information Processing for Enhanced Retrieval do trường Đại học Geneva phát triển, tìm kiếm theo màu sắc và kết cấu [17]

Ngoài ra người ta còn giới thiệu nhiều phương pháp tra cứu ảnh khác như tra cứu ảnh theo nhận thức (Perception based image retrieval), tra cứu ảnh theo phân đoạn (Segment based image retrieval), tra cứu ảnh theo đồ thị (Graph based image retrieval), tra cứu ảnh theo bản thể (Ontology based image retrieval) Tuy nhiên phần lớn trong số các phương pháp đó lại sử dụng các nguyên tắc cơ bản của tra cứu ảnh theo nội dung.

Tra cứu ảnh theo bản thể (ontology-based image retrieval)

Cách đơn giản nhất để xuất bản một ảnh lên kho lưu trữ là tạo một giao diện truy vấn dựa trên từ khoá cho một cơ sở dữ liệu Ở đó người sử dụng có thể chọn giá trị lọc hoặc sử dụng từ khoá cho các trường khác nhau của cơ sở dữ liệu, chẳng hạn như "người tạo" hoặc "thời gian" hoặc cho các mô tả nội dung bao gồm phân loại và nội dung văn bản Nhiều truy vấn có thể kết hợp bằng cách sử dụng các biểu thức logic [8]

Các phương pháp tìm kiếm theo từ khoá có rất nhiều hạn chế: một từ khoá trong văn bản không chỉ ra được văn bản đó có thích hợp hay không và các văn bản thích hợp lại có thể không chứa một từ khoá nhất định Các từ đồng nghĩa làm giảm độ thu hồi, các từ đồng âm làm giảm độ chính xác và các quan hệ ngữ nghĩa như quan hệ thượng hạ vị, trái nghĩa, phản nghĩa chưa được đề cập đến

Việc tìm kiếm theo từ khoá có ích cho những người sử dụng đã những từ khoá nào được sử dụng để đánh chỉ số ảnh và do đó có thể dễ dàng tạo truy vấn Tuy nhiên cách tiếp cận này khá khó khăn khi người sử dụng chưa có mục đích rõ ràng, không biết có gì trong cơ sở dữ liệu và kiểu khái niệm ngữ nghĩa có liên quan đến lĩnh vực đang quan tâm Các vấn đề nảy sinh khi sử dụng phương pháp tìm kiếm bằng từ khoá:

• Cấu thành thông tin cần thiết: người sử dụng không biết chính xác cần phải đặt câu hỏi gì

• Cấu thành truy vấn: người sử dụng không biết phải sử dụng từ khoá gì liên quan với thông tin mà họ muốn tìm kiếm

• Cấu thành kết quả: tạo danh sách các ảnh phù hợp với từ khoá có thể bỏ qua mất một phương diện hay nhất của việc lưu trữ là quan hệ giữa các ảnh trong cơ sở dữ liệu rất đa dạng và phong phú

Công nghệ web ngữ nghĩa (semantic web) hứa hẹn có thể giải quyết được những khó khăn trên

Các cách tiếp cận sau thường được sử dụng để chú giải ảnh:

- Từ khoá: danh sách các từ được phép sử dụng để chú giải ảnh được hạn chế làm cho việc tìm kiếm dễ dàng hơn

- Phân loại: có nhiều hệ thống phân loại có khả năng phân loại theo nhiều phương diện khác nhau thành các cây phân cấp theo chủ đề Một ảnh có thể chú thích bằng một tập các chủ đề mô tả ảnh đó Ví dụ, ảnh trên một chiếc phong bì vẽ một toà lâu đài có thể liên quan tới lớp “phong bì” và lớp “lâu đài”

- Mô tả ảnh: Sử dụng những câu mô tả các đối tượng ảnh có trong ảnh Hệ thống tra cứu thông tin có nhiệm vụ đánh chỉ số các văn bản này để có thể tìm kiếm bằng từ khoá

Các bản thể tạo thành hạt nhân của của các hệ thống tra cứu ảnh ngữ nghĩa được sử dụng cho ba mục đích: o Thuật ngữ chú giải: mô hình bản thể cung cấp thuật ngữ và các khái niệm để diễn tả dữ liệu về dữ liệu (metadata) của các ảnh o Tìm kiếm theo cách nhìn: các bản thể của một mô hình, chẳng hạn Sự kiện, Con người hoặc Vị trí cho ta các cách nhìn khác nhau vào cùng một nội dung giới thiệu Mỗi cách nhìn bao gồm các lớp và các trường hợp ví dụ biểu diễn bằng metaphor của một trình duyệt hệ thống file trong đó các lớp tương ứng với các thư mục và các trường hợp ví dụ tương ứng với các file o Duyệt ngữ nghĩa: Sau khi tìm kiếm được tâm điểm chú ý là một ảnh nào đó, mô hình bản thể ngữ nghĩa cùng với dữ liệu ảnh ví dụ có thể được sử dụng để tìm ra mối quan hệ giữa ảnh được lựa chọn và các ảnh trong cơ sở dữ liệu ảnh Các ảnh này sẽ được đưa ra cho người sử dụng chọn Những ảnh đó có thể không phù hợp hoàn toàn với truy vấn nhưng nói chung là tương đối phù hợp.

Tra cứu ảnh theo đồ thị (graph based image retrieval)

Hạn chế cơ bản của phương pháp tra cứu ảnh theo nội dung và phản hồi thích hợp là chúng dựa trên các đặc điểm mức thấp (màu sắc, kết cấu, hình dạng) của ảnh mà những đặc điểm mức thấp lại rất hạn chế khi thể hiện không chỉ sự tương tự về mặt nội dung mà cả sự tương tự về mặt khái niệm và ngữ cảnh giữa các ảnh với nhau

Mặt khác, các công cụ tra cứu ảnh dựa trên văn bản (text-based) lại bị hạn chế bởi không phải lúc nào ảnh cũng được chú thích đầy đủ và những chú thích nếu có cũng rất khó mô tả đầy đủ được nội dung của một tấm ảnh

Phần sau đây giới thiệu một cách tiếp cận mới xây dựng một hệ thống tra cứu theo nội dung, khái niệm và ngữ cảnh cho phép sử dụng những phản hồi của người sử dụng về sự thích hợp giữa các ảnh chỉ sử dụng các liên kết giữa các ảnh mà không dựa vào các đặc điểm của ảnh hay các lời chú thích

Như đã giới thiệu ở phần 1.2.1, kỹ thuật tra cứu ảnh theo nội dung dựa vào những đặc điểm mức thấp như màu sắc, kết cấu và hình dạng của đối tượng ảnh

Trong khi các phương pháp mô tả ảnh mức cao có khả năng mô tả gần gũi hơn với trực giác của người sử dụng nhưng việc phát triển những phương pháp đó mới dừng ở mức thử nghiệm và đòi hỏi rất nhiều quá trình xử lý phức tạp

Mặc dù việc mô tả ảnh bằng các đặc điểm mức thấp có thể thực hiện khá hiệu quả và đơn giản nhưng nhược điểm lớn nhất của phương pháp này là không gần gũi với sự cảm nhận trực quan của hầu hết người sử dụng và do đó thường không đủ đáp ứng nhu cầu của người sử dụng Những ảnh mà ta cảm nhận được sự giống nhau bằng mắt thường nhưng đôi khi lại rất khác nhau nếu so sánh bằng các đặc điểm mức thấp Động lực của phương pháp này dựa trên một thực tế là những ảnh thích hợp về mặt trực giác thường không có chung những đặc điểm mức thấp nhưng vẫn có sự tương tự về mặt khái niệm và về mặt ngữ cảnh đối với con người Ví dụ, những ảnh chụp người trong bộ đồ tắm thường có màu sắc, hình dạng và kết cấu rất đa dạng nhưng về mặt khái niệm thì lại được con người cảm nhận là tương tự nhau

Vì vậy phương pháp tra cứu ảnh theo đồ thị được giới thiệu ở đây không dựa trên các đặc điểm ở mức thấp (trừ giai đoạn khởi tạo) mà dựa vào những sự liên kết có tính trực giác giữa các ảnh được thiết lập bởi người sử dụng bằng cách phản hồi thích hợp

Mục tiêu của phương pháp này là xây dựng một sơ đồ để tích luỹ thông tin do những tương tác với người sử dụng theo cách đơn giản hơn phản hồi thích hợp và sử dụng những thông tin này để việc tra cứu ảnh cho những kết quả có ý nghĩa trực giác hơn [8, 9].

TRA CỨU ẢNH THEO NỘI DUNG

GIỚI THIỆU .19 U 2.2 MÔ HÌNH HỆ THỐNG TRA CỨU ẢNH THEO NỘI DUNG

Phương pháp tra cứu ảnh theo nội dung (Content-Based Image Retrieval) sử dụng các nội dung trực quan của ảnh như màu sắc, hình dạng, kết cấu (texture) và phân bố không gian để thể hiện và đánh chỉ số các ảnh [1, 6, 7, 11] Trong một hệ thống tra cứu ảnh theo nội dung điển hình (hình vẽ 2.1) các nội dung trực quan của ảnh được trích chọn và mô tả bằng những véc tơ đặc trưng nhiều chiều Tập hợp các vec tơ đặc trưng của các ảnh trong một cơ sở dữ liệu ảnh tạo thành cơ sở dữ liệu đặc trưng Quá trình tra cứu ảnh được tiến hành như sau: người sử dụng cung cấp cho hệ thống tra cứu một ảnh mẫu cụ thể hoặc hình vẽ phác thảo của đối tượng ảnh cần tìm Sau đó hệ thống sẽ chuyển những mẫu này thành các véc tơ đặc trưng và tính toán sự giống nhau (hay độ tương tự) giữa véc tơ đặc trưng của ảnh mẫu và véc tơ đặc trưng của các ảnh trong cơ sở dữ liệu Sau cùng việc tra cứu được tiến hành với sự trợ giúp của các sơ đồ đánh chỉ số Sử dụng sơ đồ đánh chỉ số là cách hiệu quả để tìm kiếm trong các cơ sở dữ liệu ảnh Một số hệ thống tra cứu ảnh mới phát triển gần đây còn tích hợp cả chức năng xử lý phản hồi của người sử dụng để cải tiến các qui trình tra cứu để đưa ra những kết quả tra cứu tốt hơn

2.2 MÔ HÌNH HỆ THỐNG TRA CỨU ẢNH THEO NỘI DUNG

Hình 2.1: Mô hình hệ thống Tra cứu ảnh theo nội dung

Trong mô hình này, người sử dụng sẽ tạo truy vấn bằng cách chọn một ảnh mẫu trong một cơ sở dữ liệu ảnh cho trước hoặc phác thảo một hình vẽ mô tả đối tượng ảnh cần tìm bằng cách sử dụng một giao diện đồ hoạ của hệ thống Ảnh mẫu đó được đưa qua khối mô tả nội dung trực quan, trong đó người ta sử dụng một phương pháp mô tả nội dung trực quan nào đó để trích chọn một đặc điểm nội dung trực quan để xây dựng thành một véc tơ đặc trưng

Véc tơ đặc trưng của ảnh mẫu sẽ được so sánh với véc tơ đặc trưng tương ứng của các ảnh trong cơ sở dữ liệu ảnh Kết quả của phép so sánh là một chỉ số đánh giá độ tương tự giữa ảnh mẫu và ảnh lấy ra để so sánh

Dựa vào chỉ số độ tương tự tính toán được ở trên, hệ thống sẽ sắp xếp các ảnh tìm được trong cơ sở dữ liệu ảnh theo một sơ đồ đánh chỉ số nào đó Danh sách các ảnh tìm được (đã được sắp xếp) được đưa ra đầu ra của hệ thống

Mô tả Nội dung Trực quan

Cơ sở Dữ liệu ảnh Mô tả

Cơ sở Dữ liệu Đặc trưng Đánh giá độ tương tự

Tra cứu và Đánh chỉ số

Người sử dụng Đầu ra

CÁC PHƯƠNG PHÁP MÔ TẢ NỘI DUNG ẢNH

Nếu nhìn một cách tổng quát thì nội dung của một bức ảnh có thể bao gồm cả nội dung trực quan và nội dung ngữ nghĩa [1]

Nội dung trực quan của ảnh lại được phân làm hai loại là nội dung tổng quan và nội dung đặc tả Nội dung tổng quan bao gồm màu sắc, kết cấu, hình dạng và các quan hệ không gian giữa các đối tượng ảnh hoặc giữa các vùng ảnh Nội dung đặc tả thì tuỳ vào từng ứng dụng cụ thể, ví dụ với các ứng dụng tra cứu ảnh người thì mặt người hoặc con mắt là các nội dung đặc tả; với các ứng dụng tra cứu ảnh ô tô thì bánh xe là một nội dung đặc tả [1]

Nội dung ngữ nghĩa có thể phát hiện thông qua các chú thích hoặc sử dụng các phương pháp suy diễn từ nội dung trực quan

Trong khuôn khổ của luận văn này chúng tôi chỉ tập trung vào việc mô tả nội dung trực quan tổng quan của ảnh

Một phương pháp mô tả nội dung trực quan được thiết kế tốt phải có tính bất biến đối với các biến đổi bất thường sinh ra trong quá trình xử lý ảnh (ví dụ như những biến đổi bất thường của độ sáng của cảnh vật) Tuy nhiên cũng cần phải chú ý tới sự cân bằng giữa tính bất biến và khả năng đáp ứng những thay đổi tuỳ ý của các đặc trưng trực quan của ảnh, bởi vì một hệ thống có tính bất biến lớn thì thường là không có tính nhạy cảm, mất khả năng phản ánh những thay đổi nhỏ nhưng rất quan trọng

Một phương pháp mô tả nội dung trực quan có thể là phương pháp toàn cục hoặc phương pháp cục bộ Phương pháp mô tả nội dung toàn cục sử dụng các đặc trưng trực quan của toàn bộ bức ảnh còn phương pháp mô tả nội dung cục bộ lại sử dụng những đặc trưng trực quan của các vùng ảnh hoặc các đối tượng ảnh để mô tả nội dung của ảnh Để mô tả được nội dung cục bộ trước hết người ta phải chia ảnh thành các phần riêng biệt Cách đơn giản nhất để phân chia ảnh là sử dụng một bộ phân hoạch chia ảnh thành các ô có kích thước và hình dạng giống nhau Cách phân chia đơn giản như vậy không tạo ra được những vùng ảnh có ý nghĩa thực sự nhưng nó là cách đơn giản để biểu diễn nội dung toàn cục của ảnh với độ chính xác cao hơn

Một phương pháp phân chia tốt hơn là phân chia ảnh thành các vùng đồng nhất dựa vào các tiêu chí sử dụng các thuật toán phân vùng ảnh đã được nghiên cứu và áp dụng trong ngành thị giác máy tính

Một cách phức tạp hơn để phân chia ảnh là thực hiện phân chia theo các đối tượng ảnh để tách ra các đối tượng ảnh có nghĩa thực sự (như quả bóng, cái ô tô hay con ngựa) [1, 10]

Phần tiếp theo giới thiệu một số một số kỹ thuật đang được sử dụng rộng rãi để trích chọn các đặc điểm màu sắc, kết cấu, hình dạng và các quan hệ không gian của các đối tượng ảnh

2.3.1 Mô tả các đặc điểm màu sắc [1, 3, 6]

Trên thực tế thì màu sắc được sử dụng nhiều nhất để mô tả nội dung trực quan của ảnh Lý do là vì màu sắc của ảnh có tác động lớn đến nhận thức của con người về nội dung của ảnh hơn là các đặc điểm khác như hình dạng của các đối tượng ảnh, kết cấu của ảnh hay sự phân bố không gian của các đối tượng ảnh

Màu sắc được biểu diễn thông qua một véc tơ 3 chiều sẽ có khả năng biểu diễn tốt hơn so với việc chỉ sử dụng giá trị độ xám của ảnh (1 chiều) Trước khi xem xét kỹ hơn về các phương pháp mô tả nội dung màu sắc, chúng ta cùng tìm hiểu sơ lược về các không gian màu

Mỗi điểm ảnh trên một bức ảnh có thể được biểu diễn bằng một điểm trong một không gian màu 3 chiều Những không gian màu được sử dụng nhiều nhất trong các hệ thống tra cứu ảnh là RGB, CIE L*a*b, CIE L*u*v, HSV và không gian màu đối lập

Người ta cũng chưa chỉ ra được rằng không gian màu nào được sử dụng tốt hơn cho việc tra cứu ảnh Tuy nhiên tính chất quan trọng nhất để một không gian màu phù hợp để sử dụng trong một hệ thống tra cứu ảnh là tính đồng nhất Một không gian màu được gọi là có tính đồng nhất nếu các cặp 2 màu tương tự nhau trong không gian màu thì cũng được con người cảm nhận như nhau Nói một cách khác, khoảng cách đo được giữa hai màu bất kỳ phải có liên quan trực tiếp với độ tương tự sinh học giữa hai màu đó

RGB là không gian màu được sử dụng phổ biến nhất để hiển thị ảnh Không gian RGB bao gồm 3 thành phần màu là Đỏ (Red), Xanh lá cây (Green) và Xanh lam (Blue) Các thành phần này gọi là màu cộng bởi vì các màu sắc trong không gian RGB đều có thể thu được bằng cách cộng 3 thành phần màu này lại với nhau

Ngược lại, CMY là không gian màu thường sử dụng trong in ấn Ba thành phần màu của không gian CMY là màu xanh lơ (Cyan), hồng sẫm (Magenta) và vàng (Yellow) Ba thành phần này gọi là các thành phần màu trừ vì mỗi màu trong không gian CMY được sinh ra bởi sự hấp thụ các thành phần màu đó

Cả RGB và CMY đều phụ thuộc thiết bị và không có tính đồng nhất

Các không gian màu CIE L*a*b và CIE L*u*v là các không gian màu không phụ thuộc thiết bị và có thể coi là đồng nhất Bao gồm các thành phần độ sáng (L) và hai thành phần độ kết tủa màu (sắc độ màu) là a và b hoặc u và v CIE L*a*b được thiết kế để làm việc với việc trộn các thành phần màu trừ còn CIE L*u*v được thiết kế để làm việc với việc trộn các thành phần màu cộng

Các không gian màu RGB và CIE có thể chuyển đổi với nhau, tức là chúng ta có thể sử dụng các công thức để chuyển đổi một giá trị màu từ không gian màu này sang không gian màu khác

Không gian màu HSV được sử dụng rộng rãi trong đồ hoạ máy tính và được coi là một phương pháp biểu diễn màu sắc trực quan hơn Ba thành phần màu là sắc màu (hue), độ bão hoà màu (s) và giá trị độ sáng (v) Thành phần sắc màu không thay đổi khi ta thay đổi độ chiếu sáng hay góc quan sát vì vậy thích hợp để sử dụng trong việc nhận dạng đối tượng ảnh Cũng có thể dễ dàng chuyển đổi các giá trị từ không gian HSV sang RGB và ngược lại

ĐÁNH GIÁ ĐỘ TƯƠNG TỰ VÀ XÂY DỰNG SƠ ĐỒ ĐÁNH CHỈ SỐ

2.4.1 Đánh giá độ tương tự [1, 6, 7]

Thay vì việc so sánh chính xác hai ảnh với nhau, phương pháp tra cứu ảnh theo nội dung sẽ tính toán sự tương tự trực quan giữa một ảnh mẫu và các ảnh trong một cơ sở dữ liệu và do đó kết quả của sự tra cứu không chỉ trả về một tấm ảnh mà nó trả về một danh sách các ảnh được xếp hạng dựa trên độ tương tự với ảnh mẫu

Người ta đã phát triển nhiều phương pháp đánh giá độ tương tự áp dụng cho việc tra cứu ảnh Phương pháp đánh giá độ tương tự có ảnh hưởng rất lớn đến hiệu năng của hệ thống tra cứu ảnh

Phần này sẽ giới thiệu một vài phương pháp đo độ tương tự thường được sử dụng Để thuận tiện cho việc trình bày chúng ta đưa ra một số ký hiệu chung được dùng trong tất cả các phương pháp dưới đây: ký hiệu D(I,J) là số đo khoảng cách (về độ tương tự) giữa ảnh mẫu I và một ảnh J bất kỳ và f i (I) là số điểm ảnh trong bin thứ i của ảnh I

Nếu mỗi kích thước của véc tơ đặc trưng của ảnh là độc lập với nhau và có độ quan trọng như nhau thì khoảng cách Minkowski L p là thích hợp để tính toán khoảng cách giống nhau giữa hai ảnh Khoảng cách này được tính như sau: p i p i i I f J f J

= ∑ (2.46) trong đó p = 1, 2 và ∞, D(I, J) tương ứng là L 1 , L 2 (còn gọi là khoảng cách Euclide) và L ∞

Khoảng cách Minkowski là phép đo được sử dụng nhiều nhất trong tra cứu ảnh Ví dụ như hệ thống MARS sử dụng khoảng cách Euclide (một trường hợp riêng của khoảng cách Minkowski) để tính sự tương tự giữa các đặc điểm kết cấu; hệ thống Netra cũng sử dụng khoảng cách Euclide để tính sự tương tự về màu sắc và hình dạng và khoảng cách L 1 cho kết cấu

Một trường hợp đặc biệt của khoảng cách L 1 là tập giao nhau của các histrogram Giao của hai histogram I và J được định nghĩa như sau:

Nhìn vào công thức này có thể thấy giao của histogram hầu như không bị ảnh bởi sự thay đổi độ phân giải của ảnh, kích thước histogram, độ sâu, độ bị che phủ và điểm quan sát

2.4.1.2 Kho ả ng cách toàn ph ươ ng

Cách đo khoảng cách Minkowski coi tất cả các bin của histogram đặc trưng độc lập hoàn toàn với nhau và không dựa trên một thực tế là có các cặp bin xác định tương ứng với những đặc trưng quan trọng hơn trong việc đánh giá sự tương tự giữa hai ảnh hơn là các cặp khác Để khắc phục nhược điểm này, người ta đưa ra cách tính khoảng cách toàn phương như sau:

D = − − (2.48) trong đó A = [a ij ] là ma trận độ tương tự và mỗi phần tử a ij là độ tương tự giữa bin i và bin j

F I và F J là các véc tơ liệt kê tất cả các đề mục của f i (I) và f i (J)

Khoảng cách toàn phương được sử dụng trong nhiều hệ thống tra cứu dựa trên histogram màu

Phương pháp đo khoảng cách Mahalanobis sử dụng thích hợp nhất khi các chiều của véc tơ đặc trưng không độc lập với nhau và có độ quan trọng khác nhau

Công thức định nghĩa khoảng cách Mahalanobis là:

D = − − − (2.49) trong đó C là ma trận hiệp biến của các véc tơ đặc trưng

Cách tính khoảng cách Mahalanobis có thể được đơn giản hoá nếu các chiều của véc tơ đặc trưng độc lập với nhau, chỉ một phương sai của mỗi thành phần đặc trưng ci là cần thiết, khi đó:

2.4.1.4 Độ phân k ỳ Kullback-Leibler và độ phân k ỳ Jeffrey Độ phân kỳ Kullback-Leibler giữa hai ảnh I và J được định nghĩa là:

KL thường được sử dụng để đánh giá độ tương tự về kết cấu Độ phân kỳ Jeffrey được định nghĩa là:

Khác với độ phân kỳ KL, độ phân kỳ Jeffrey có tính đối xứng

2.4.2 Xây dựng sơ đồ đánh chỉ số [1, 10]

Một vấn đề quan trọng khác trong kỹ thuật tra cứu ảnh theo nội dung là xây dựng cách đánh chỉ số hiệu quả và cách tìm kiếm ảnh nhanh dựa trên các đặc điểm trực quan Do các véc tơ đặc trưng có xu hướng có nhiều chiều nên không phù hợp với các cấu trúc đánh chỉ số cổ điển, do đó để xây dựng một sơ đồ đánh chỉ số hiệu quả người ta thường phải tìm cách giảm số chiều của véc tơ đặc trưng trước khi khởi tạo sơ đồ đánh chỉ số

Một kỹ thuật hay được sử dụng để giảm số chiều là phương pháp phân tích thành phần chính (PCA) PCA là một kỹ thuật tối ưu, nó ánh xạ tuyến tính dữ liệu đầu vào vào một không gian toạ độ sao cho các trục toạ độ được điều chỉnh để phản ánh được tối đa sự biến đổi của dữ liệu

Bên cạnh kỹ thuật PCA, nhiều nhà nghiên cứu còn sử dụng phép biến đổi Karhumen-Loeve (KL) để giảm số chiều của không gian đặc trưng Mặc dù biến đổi

KL có một số thuộc tính hữu ích, chẳng hạn như khả năng định vị được hầu hết các không gian con quan trọng nhưng các thuộc tính đặc trưng quan trọng trong việc xác định sự tương tự của các mẫu lại có thể bị mất trong quá trình giảm số chiều

Biến đổi KL có nguồn gốc từ khai triển chuỗi của các quá trình ngẫu nhiên liên tục do Karhumen và Loeve đưa ra Đối với những quá trình ngẫu nhiên rời rạc, Hotelling là người đầu tiên tìm hiểu phương pháp của các thành phần cơ bản, một phiên bản rời rạc của khai triển chuỗi KL Vì vậy biến đổi KL đôi khi còn được gọi là biến đổi Hotelling hoặc phương pháp của các thành phần cơ bản

Với một ảnh thực U kích thước M×N, các véc tơ cơ bản của biến đổi KL là các véc tơ riêng trực giao của ma trận tự tương quan R u

U MxN : ma trận điểm ảnh u n : véc tơ cột thứ n của ảnh U (0 ≤ n ≤ N-1)

V MxN : ma trận ảnh đã biến đổi v n : véc tơ cột thứ n của ảnh đã biến đổi (0 ≤ n ≤ N-1)

R u : ma trận tự tương quan của ảnh U

R v : ma trận tự tương quan của ảnh đã biến đổi

Biến đổi KL của U là: v n = Φ T u n (2.53) trong đó Φ là ma trận biến đổi KL

Biến đổi KL ngược là: u n = Φ.v n (2.54) Ở đây ma trận Φ chứa các véc tơ riêng của ma trận R u là ma trận tự tương quan của ma trận U

Trong công thức biểu diễn ma trận tự tương quan R v của ảnh đã biến đổi V thì

R v là ma trận đường chéo nếu Φ T chứa các véc tơ riêng của R u Nếu ma trận V có một ma trận tự tương quan là ma trận đường chéo thì tất cả các thành phần véc tơ của V là trực giao và không tương quan:

2.4.2.2 Phân tích thành ph ầ n c ơ b ả n (PCA) [3, 4, 5]

TƯƠNG TÁC VỚI NGƯỜI SỬ DỤNG

Đối với hệ thống tra cứu ảnh theo nội dung, sự tương tác của người sử dụng với hệ thống tra cứu có ý nghĩa quyết định bởi vì sự thay đổi và định dạng linh hoạt các truy vấn chỉ có thể được thực hiện khi có sự tham gia của người dùng vào hệ thống

Giao diện người sử dụng của các hệ thống tra cứu ảnh thường có một phần xây dựng truy vấn và một phần hiển thị kết quả

Có thể có nhiều cách để người sử dụng mô tả kiểu của ảnh mà họ muốn tra cứu từ cơ sở dữ liệu Các cách tạo truy vấn phổ biến là: duyệt theo thể loại, truy vấn theo khái niệm, truy vấn bằng ví dụ mẫu

Duyệt theo thể loại là duyệt toàn bộ cơ sở dữ liệu dựa theo thể loại của ảnh Để làm được điều này thì các ảnh trong cơ sở dữ liệu phải được phân loại thành các thể loại khác nhau dựa vào nội dung ngữ nghĩa hoặc nội dung trực quan của chúng

Truy vấn theo khái niệm là tra cứu ảnh dựa trên các mô tả mang tính khái niệm gắn với mỗi ảnh trong cơ sở dữ liệu

Truy vấn dựa theo hình vẽ phác hoạ và truy vấn dựa theo ảnh mẫu là người sử dụng phải vẽ một phác hoạ hoặc chỉ ra một ảnh mẫu mà từ đó các ảnh có các đặc trưng trực quan tương tự sẽ được tìm kiếm trong cơ sở dữ liệu

Hai kiểu truy vấn đầu liên quan tới mô tả ngữ nghĩa của ảnh và không được đề cập trong luận văn này

Phần sau đây chỉ đi chi tiết vào kiểu truy vấn thứ ba là truy vấn dựa vào phác thảo hoặc dựa vào ảnh mẫu

Truy vấn bằng phác thảo là cho phép người sử dụng vẽ một hình phác thảo của một bức ảnh bằng một công cụ soạn thảo đồ hoạ của chính hệ thống tra cứu hoặc sử dụng công cụ đồ hoạ của phần mềm khác Các truy vấn có thể được tạo ra bằng cách vẽ một vài đối tượng ảnh với những thuộc tính xác định như màu sắc, kết cấu, hình dạng, kích thước và vị trí Trong hầu hết các trường hợp thì chỉ cần một hình vẽ thô là đủ bởi vì các truy vấn này sau đó có được hiệu chỉnh dựa theo kết quả truy vấn trả về

Truy vấn bằng ví dụ mẫu là cho phép người sử dụng tạo truy vấn bằng cách chỉ ra một ảnh mẫu Hệ thống sẽ chuyển đổi ảnh mẫu này thành dạng biểu diễn nội tại bằng các đặc trưng của ảnh Các ảnh trong cơ sở dữ liệu có đặc trưng tương tự sẽ được tìm kiếm

Truy vấn bằng ví dụ mẫu lại có thể chia tiếp thành hai loại là truy vấn theo ví dụ mẫu ở ngoài cơ sở dữ liệu và truy vấn theo ví dụ mẫu có mặt trong cơ sở dữ liệu Đối với truy vấn bằng ví dụ mẫu ở trong cơ sở dữ liệu thì tất cả các mối quan hệ của các ảnh trong cơ sở dữ liệu có thể được tính toán trước cho nên tốc độ truy vấn có thể được cải thiện Ưu điểm chính của truy vấn theo ví dụ mẫu là người sử dụng không cần phải mô tả rõ ràng đối tượng cần tìm mà hệ thống tra cứu sẽ phải làm điều đó Điều này phù hợp với các ứng dụng mà ảnh cần tìm có cùng đối tượng ảnh với ảnh mẫu hoặc là tập các đối tượng ảnh nằm dưới những góc nhìn khác nhau

Hầu hết các hệ thống tra cứu ảnh hiện nay trang bị cách xây dựng truy vấn bằng ảnh mẫu

Truy vấn bằng một nhóm ảnh mẫu là cho phép người sử dụng lựa chọn nhiều ảnh mẫu Hệ thống sẽ phải tìm những ảnh phù hợp nhất với các đặc điểm chung của nhóm ảnh mẫu đó Bằng cách này, mục tiêu cần tìm có thể được định nghĩa một cách chính xác hơn bằng cách xác định được những biến thể hợp lý và loại bỏ những biến thể không hợp lý trong truy vấn Ngoài ra sử dụng nhóm các ảnh mẫu còn cho phép hiệu chỉnh các thuộc tính bằng cách bổ sung thêm các ví dụ phủ định

Nhận thức của con người về sự giống nhau của các ảnh thường mang tính chủ quan, tính ngữ nghĩa và phụ thuộc vào từng hoàn cảnh Mặc dù phương pháp tra cứu ảnh theo nội dung đưa ra được một định hướng rất sáng sủa nhưng nói chung những kết quả truy vấn chỉ dựa vào sự tương tự của các đặc điểm trực quan thì lại thường không có nhiều ý nghĩa về mặt nhận thức và ngữ nghĩa Ngoài ra mỗi đặc điểm trực quan lại có xu hướng phản ánh chỉ một khía cạnh nào đó của thuộc tính của ảnh và điều đó thường gây khó khăn cho người sử dụng có thể xác định một cách rõ ràng làm thế nào để kết hợp các khía cạnh khác nhau lại với nhau Để giải quyết vấn đề này, người ta giới thiệu một kỹ thuật đã sử dụng trong các hệ thống tra cứu thông tin văn bản truyền thống đó là kỹ thuật phản hồi thích hợp tương tác Với phản hồi thích hợp, hệ thống có thể tạo ra được những mối liên kết giữa những khái niệm ở mức cao với những đặc điểm trực quan ở mức thấp

Phản hồi thích hợp là kỹ thuật học tích cực có giám sát sử dụng để tăng cường hiệu quả của các hệ thống thông tin Ý tưởng chính là sử dụng các mẫu tích cực và các mẫu phủ định do người sử dụng cung cấp để cải thiện hiệu năng hệ thống Đối với một truy vấn cho trước, đầu tiên hệ thống sẽ một danh sách các ảnh được xếp hạng theo hệ đo độ tương tự đã được định nghĩa trước Sau đó, người sử dụng sẽ đánh dấu những kết quả nào là thích hợp (những ví dụ tích cực) với truy vấn và những kết quả nào không thích hợp (những ví dụ phủ định) Hệ thống sẽ

"làm mịn" lại kết quả tìm kiếm dựa trên những phản hồi của người sử dụng và đưa ra một danh sách mới các ảnh phù hợp hơn

Vấn đề chính ở đây là làm thế nào để sử dụng kết hợp các ví dụ tích cực và các ví dụ phủ định để làm mịn truy vấn và điều chỉnh hệ đo độ tương tự.

HIỆU NĂNG CỦA HỆ THỐNG TRA CỨU ẢNH

Để đánh giá hiệu năng của hệ thống tra cứu, người ta đưa ra hai số đo đó là độ thu hồi (recall) và độ chính xác (precision) Các số đo này được mượn từ hệ thống tra cứu thông tin truyền thống [1, 13] Đối với một truy vấn q, tập hợp các ảnh trong cơ sở dữ liệu thích hợp với truy vấn q được ký hiệu là R(q) còn kết quả tra cứu của truy vấn q được ký hiệu là Q(q) Độ chính xác của việc tra cứu được định nghĩa là tỉ lệ những kết quả thu được thực sự thích hợp với truy vấn

= (2.59) Độ thu hồi là tỉ lệ những kết quả thích hợp do truy vấn trả lại:

Thông thường phải có sự thoả hiệp giữa hai số đo này bởi vì nếu muốn tăng cường số đo này thì lại phải chịu giảm số đo kia và ngược lại Trong các hệ thống tra cứu điển hình thì độ thu hồi có xu hướng tăng lên khi số lượng các kết quả thu được tăng lên trong khi đó thì độ chính xác dường như lại bị giảm đi

Ngoài ra, việc lựa chọn R(q) lại rất không ổn định do sự đa đạng của cách hiểu về một bức ảnh Hơn nữa, khi số lượng ảnh thích hợp lại lớn hơn số lượng ảnh hệ thống tìm được thì lúc đó khái niệm độ thu hồi trở thành vô nghĩa

Do đó, độ chính xác và độ thu hồi chỉ là các mô tả ở dạng thô về hiệu năng của một hệ thống truy vấn mà thôi

Gần đây MPEG7 có khuyến nghị một cách đánh giá mới về hiệu năng của các hệ thống tra cứu gọi là ANMRR (average normalized modified retrieval rank) Theo cách này độ chính xác và độ thu hồi được kết hợp thành một số đo duy nhất

Ký hiệu số lượng ảnh hoàn toàn đúng với truy vấn q là N(q) và số lượng lớn nhất của các ảnh hoàn toàn đúng với tất cả Q truy vấn tức là max{N(q 1 ), N(q 2 ), ,N(q Q )} là M Sau đó đối với mỗi truy vấn q thì mỗi bức ảnh hoàn toàn đúng k được gán một giá trị xếp hạng rank(k) giá trị này là thứ hạng của nó trong số những ảnh hoàn toàn đúng nếu ảnh đó nằm trong K kết quả truy vấn đầu tiên (ở đây

K = min{4N(q), 2M}) hoặc có giá trị K+1 nếu ảnh đó không nằm trong K kết quả truy vấn đầu tiên

Thứ hạng trung bình AVR(q) đối với truy vấn q được tính như sau:

Thứ hạng tra cứu sửa đổi MRR(q) được tính là:

MRR(q) nhận giá trị 0 khi tất cả các ảnh hoàn toàn đúng đều nằm trong K kết quả truy vấn đầu tiên

Thứ hạng tra cứu sửa đổi và chuẩn hoá NMRR(q) nhận giá trị từ 0 đến 1 được tính như sau:

Thứ hạng tra cứu sửa đổi và chuẩn hoá trung bình ANMRR xét trên tất cả các truy vấn Q là:

ỨNG DỤNG

GIỚI THIỆU BÀI TOÁN TRA CỨU CỔ VẬT

Trong thực tế, cổ vật trên thế giới vô cùng đa dạng và phong phú Giá trị của cổ vật thường được đánh giá dựa vào niên đại, chất liệu và sự quý hiếm của chúng

Số lượng cổ vật thuộc sở hữu của các cá nhân là rất lớn Không phải tất cả các cổ vật đều có thể được bảo quản dài lâu, vì vậy ở một số viện bảo tàng người ta đã phải tìm cách chụp và lưu trữ ảnh của những cổ vật, sau đó có thể đưa lên Internet để giới thiệu Vấn đề làm thế nào xác định chính xác một đồ vật có đúng là một cổ vật hay không là không dễ dàng ngay cả đối với những chuyên gia khảo cổ học

Ngày nay với các công nghệ tiên tiến người ta đã có thể dễ dàng phát hiện được tuổi thọ cũng như chất liệu, niên đại của cổ vật Tuy nhiên không phải lúc nào và ở đâu cũng có thể trang bị được các thiết bị để xác định được chính xác những thông số đó Để giải quyết vấn đề này chúng ta có thể sử dụng phương pháp đơn giản hơn là tìm cách so sánh ảnh mẫu cổ vật cần xác định với ảnh các cổ vật đã được lưu trữ để tìm ra những cổ vật "giống" với cổ vật cần xác định nhất Các kết quả tìm được có thể sẽ giúp các nhà nghiên cứu dự đoán được một cách tương đối chính xác niên đại và các thông tin khác liên quan

Mặt khác, cũng vì các cổ vật thường có giá trị lớn nên rất dễ bị đánh cắp Giả sử khi một vụ đánh cắp cổ vật bị phát hiện, người ta có thể phải tìm cách xác định chủ sở hữu thực sự của những cổ vật được tìm thấy Nếu có một công cụ cho phép tìm kiếm trong các cơ sở dữ liệu ảnh của các viện bảo tàng những ảnh giống với ảnh mẫu nhất thì công cụ đó sẽ có thể giúp tìm ra chủ nhân đích thực của cổ vật một cách dễ dàng hơn

Từ những thực tế trên đặt ra một bài toán tra cứu ảnh cổ vật như sau: tìm trong một cơ sở dữ liệu ảnh cổ vật những ảnh có nội dung (màu sắc, hình dạng, kết cấu) giống với một ảnh cổ vật mẫu nhất, sau đó sắp xếp theo thứ tự giảm dần của độ tương tự.

PHÂN TÍCH BÀI TOÁN

Với mục đích là lưu trữ hình ảnh của các cổ vật nên thông thường mỗi ảnh cổ vật chỉ có một đối tượng ảnh duy nhất trên nền ảnh đồng nhất và có màu sắc tương phản rõ rệt để làm nổi đối tượng ảnh

Chúng ta cũng nhận thấy rằng để so sánh, phân loại cổ vật thì hai đặc điểm quan trọng nhất là hình dạng và màu sắc của đối tượng ảnh

Các cổ vật thường có các đặc điểm kết cấu rất phức tạp và không phản ánh được đặc trưng của đối tượng còn bố cục không gian thì rõ ràng là không có ý nghĩa đối với các trường hợp ảnh chỉ có một đối tượng ảnh

Từ những phân tích trên có thể áp dụng một số giới hạn sau với bài toán tra cứu cổ vật:

Nhiệm vụ của bài toán là xây dựng hệ thống tra cứu ảnh cổ vật có một số các chức năng sau: o Khi người sử dụng cung cấp một ảnh mẫu cổ vật cần tra cứu có định dạng thông dụng JPEG, BMP, GIF Hệ thống có nhiệm vụ tìm kiếm trong một cơ sở dữ liệu ảnh đã có sẵn và cho ra một danh sách tất cả các ảnh tương tự như ảnh mẫu theo thứ tự ảnh nào được coi là giống với ảnh mẫu hơn thì được xếp phía trên o Người sử dụng có thể lựa chọn theo một trong hai đặc điểm để so sánh: so sánh theo màu sắc, so sánh theo hình dạng hoặc kết hợp cả hai đặc điểm để so sánh o Người sử dụng có thể thiết lập khoảng cách ngưỡng cho từng đặc điểm: chương trình chỉ trả lại các kết quả mà khoảng cách giữa ảnh kết quả và ảnh mẫu không vượt quá ngưỡng o Hoặc người sử dụng có thể qui định số lượng ảnh kết quả trả lại Để đơn giản, chúng ta chỉ xét bài toán trong những hạn chế sau: o Chỉ xét những ảnh có một đối tượng ảnh duy nhất trên nền có màu đồng nhất o Các đối tượng ảnh có hình dạng không quá phức tạp và có đường biên tương đối đơn giản o Ảnh có định dạng phổ biến JPG, BMP, GIF, PCX, đã qua khâu tiền xử lý để loại bỏ nhiễu.

XÂY DỰNG CHƯƠNG TRÌNH QUERYIMAGE

3.3.1 Sơ đồ khối tổng quát Đọc ảnh mẫu Trích chọn đặc điểm Tạo Véc tơ đặc trưng Đọc ảnh từ cơ sở DL

Tạo Véc tơ đặc trưng

Thêm vào danh sách ở vị trí thích hợp

Hình 3.1: Sơ đồ khối tổng quát của chương trình

Sơ đồ này thể hiện các khối chức năng chính của mỗi modul chương trình: o Đọc ảnh: sử dụng các thư viện chuẩn của Windows để đọc ảnh mẫu hoặc ảnh trong cơ sở dữ liệu vào một cấu trúc DIB o Trích chọn đặc điểm: tuỳ thuộc vào đặc điểm cần trích chọn là màu sắc hay hình dạng mà khối này sử dụng các thuật toán trích chọn tương ứng o Tạo véc tơ đặc trưng: các đặc điểm được trích chọn ra dưới dạng các véc tơ đặc trưng nhiều chiều o Tính khoảng cách: dựa vào một trong số những phương pháp tính khoảng cách đã được trình bày ở chương 2 để tính khoảng cách tương ứng giữa các véc tơ đặc trưng của ảnh mẫu và ảnh trong cơ sở dữ liệu o Cuối cùng dựa theo khoảng cách đã tính được, chương trình sẽ sắp xếp các kết quả theo chiều giảm dần của độ tương tự giữa các véc tơ đặc trưng

3.3.2 Tra cứu theo hình dạng Đọc ảnh mẫu

FFT Tạo Véc tơ đặc trưng Đọc ảnh từ cơ sở DL

256x256 FFT Tạo Véc tơ đặc trưng

Thêm vào danh sách ở vị trí thích hợp

Hình 3.2: Sơ đồ khối phần tra cứu ảnh theo hình dạng o Ảnh mẫu được đọc vào cấu trúc DIB bằng hàm DisplayImage o Sử dụng thuật toán dò biên gián tiếp để phân vùng ảnh o Thực hiện co/giãn (resample) để chuẩn hoá kích thước (cả hai kích thước đều là luỹ thừa của 2) trước khi sao chép sang một ma trận số phức làm đầu vào của hàm biến đổi Fourier nhanh FFT o Hàm FFT trả lại một ma trận số phức o Việc tạo véc tơ đặc trưng của ảnh được thực hiện trên ma trận số phức này Véc tơ đặc trưng là một vector có 256 chiều o Đọc từng ảnh trong cơ sở dữ liệu, thực hiện các bước giống như với ảnh mẫu để được vector đặc trưng của ảnh vừa đọc o So sánh vector đặc trưng của ảnh mẫu và ảnh đọc từ cơ sở dữ liệu bằng cách tính khoảng cách Euclide của 2 vector đặc trưng bằng hàm

GetShape Distance o Thêm ảnh vừa đọc vào danh sách ảnh tìm thấy, ảnh có sai khác so với ảnh mẫu nhỏ hơn được xếp lên trên

3.2.2.1 Đọ c ả nh Ảnh được đọc vào cấu trúc DIB và hiển thị bằng thủ tục DisplayImage, đầu vào là tên và đường dẫn đến file cần đọc, nếu đọc ảnh thành công thủ tục DisplayImage hiển thị ảnh lên khung ảnh được chỉ định

Việc thao tác với cấu trúc DIB được thực hiện thông qua cấu trúc DIBSection đã được định nghĩa trong thư viện GDI32 của Windows [15, 16]

3.2.2.2 Dò biên đố i t ượ ng ả nh

Phần dò biên đối tượng ảnh sử dụng thuật toán dò biên gián tiếp bằng cách xác định chu tuyến của đối tượng ảnh như được trình bày ở chương 2

Chúng ta đã biết là để thực hiện biến đổi Fourier nhanh thì kích thước của dãy số đầu vào phải là luỹ thừa của 2 Tuy nhiên các ảnh cần đọc lại có số điểm ảnh khác nhau và thường là không thoả mãn yêu cầu này, vì vậy thủ tục Resample phải thực hiện một phép nội suy để thêm/bớt điểm ảnh để được một ảnh mới có số điểm ảnh thoả mãn yêu cầu mà không làm thay đổi chất lượng ảnh Các điểm ảnh được thêm vào theo nguyên tắc nội suy

Màu và mật độ của các điểm ảnh nội suy được tính toán dựa trên giá trị của các điểm ảnh có sẵn ở trong ảnh

Có nhiều cách để xây dựng thủ tục Resample, trong đó có 3 phương pháp thông dụng nhất [4]: o Nearest Neighbor: điểm ảnh mới được sinh ra dựa vào thông tin của các điểm ảnh ở một phía của điểm ảnh mới, đây là phương pháp resample nhanh nhất nhưng độ chính xác thấp nhất (trong 3 phương pháp) o Bilinear: lấy thông tin từ những điểm ảnh phía trên và bên cạnh điểm ảnh mới Chất lượng ảnh mới tốt hơn so với phương pháp Nearest Neighbor o Bicubic: Là phương pháp chính xác nhất vì thông tin về điểm ảnh mới được suy ra từ 8 điểm ảnh xung quanh

Trong chương trình này chúng tôi sử dụng phương pháp đơn giản nhất Nearest Neighbor Kích thước mảng dữ liệu đầu ra là 256×256 phần tử

Hàm biến đổi FFT được cải tiến từ chương trình của Randy Crane liệt kê trong cuốn "A Simplified Approach to Image Processing" [4] Đầu vào là một ma trận số phức 2 chiều được sinh ra từ ma trận điểm ảnh đã đọc bằng cách gán phần ảo của tất cả các số phức bằng 0, phần thực được gán bằng giá trị của điểm ảnh Đầu ra là ma trận số phức hai chiều biểu diễn khai triển Fourier của ma trận đầu vào

Trong hàm FFT 2 chiều (hàm twoD_FFT() ), từng hàng của ma trận đầu vào được biến đổi Fourier bằng hàm biến đổi 1chiều (hàm oneD_FFT() ), sau đó mới tính FFT 1 chiều cho các cột

Hai hàm cơ sở để xây dựng oneD_FFT là Scramble() và Butterflies() Trong đó Scramble() sử dụng để sắp xếp lại dãy đầu vào theo thứ tự đảo bit, còn hàm Butterflies() là thuật toán cơ sở, được gọi đệ qui để tính FFT

3.2.2.5 T ạ o véc t ơ đặ c tr ư ng hình d ạ ng cho ả nh

Véc tơ đặc trưng của ảnh là một vector 256 chiều, chứa 256 giá trị số double double* m_Signature; m_Signature = new double[256];

Hàm sinh chữ ký GenerateSignature(): Đầu vào: Ma trận vuông kích thước 256x256 các số phức (sinh ra do hàm biến đổi FFT 2 chiều twoD_FFT()) biểu diễn ảnh trong miền tần số Đầu ra: vector chữ ký 256 chiều hay là một mảng 256 số double là signature của ảnh

Tính modul (magnitude) của từng phần tử trong mảng hai chiều 256x256 phần tử theo công thức:

Magnitude = + trong đó: Magnitude(i,j) là modul của số phức tại vị trí hàng i, cột j của ma trận, Re(i,j) là phần thực của số phức tại vị trí hàng i và cột j, Im(i,j) là phần áo của số phức tại vị trí hàng i, cột j

Chia ảnh đầu vào thành những khối kích thước 16x16

Khởi tạo mảng image_Signature[] gồm 256 phần tử Tính signature cho từng khối theo công thức:

Trong đó: block_Signature là giá trị signature của khối, iBlockRow (0 - 255) là chỉ số hàng của phần tử đầu tiên trong khối, iBlockCol (0 - 255) là chỉ số cột của phần tử đầu tiên của khối, i là chỉ hàng của phần tử trong khối (i = 0, ,15) , j là chỉ số cột của phần tử trong khối (j = 0, ,15) Mag[i,j] là modul của số phức tại vị trí hàng i, cột j của ma trận đầu vào

Lưu chữ ký block_Signature được lưu vào mảng image_Signature[];

Sau khi tính xong signature cho cả 256 khối, tiến hành chuẩn hóa mảng image_Signature[]

3.2.2.6 So sánh ả nh b ằ ng cách tính kho ả ng cách Euclide

Khoảng cách giữa ảnh Query_Image và ảnh Found_Image được định nghĩa là khoảng cách Euclide giữa hai chữ ký query_Signature[] và found_Signature[] theo công thức:

( i i Signature query i Signature found diff

Khoảng cách diff càng nhỏ thì hai ảnh được coi là càng giống nhau

3.3.3 Tra cứu theo màu sắc

Hình 3.3: Sơ đồ khối phần tra cứu ảnh theo màu sắc

Sử dụng phương pháp histogram màu như trình bày trong chương 2 o Ảnh mẫu được đọc vào cấu trúc DIB và hiển thị bằng thủ tục

DisplayImage o Giảm số lượng bin màu xuống 256 bằng cách chuyển đổi màu thực của mỗi điểm ảnh thành một trong số những màu trong bảng màu chuẩn của Windows bằng hàm GetClosetIndex o Tính toán số điểm ảnh của từng bin màu bằng hàm

GenerateColorSignature, thu được một véc tơ 256 chiều chính là véc tơ đặc trưng màu sắc của ảnh o Làm các bước tương tự như trên với từng ảnh trong cơ sở dữ liệu o Tính khoảng cách Euclide giữa véc tơ đặc trưng của ảnh mẫu và từng ảnh trong cơ sở dữ liệu bằng hàm GetColorDistance sắp xếp vào trong danh sách với khoảng cách nhỏ nhất được xếp trước tiên Đọc ảnh mẫu

Tính histogram màu Đọc ảnh từ cơ sở DL

Thêm vào danh sách ở vị trí thích hợp

3.3.4 Sử dụng chương trình QueryImage o Khởi động chương trình, chọn file ảnh mẫu, ảnh mẫu sẽ được hiển thị ô khung "Sample Image" o Chọn phương pháp so sánh: bằng hình dạng hay bằng màu sắc, nhập số đo khoảng cách tối đa (giá trị ngưỡng) trong hộp Similarity Distance o Nhấn nút Find, chương trình sẽ yêu cầu người dùng chọn thư mục chứa các file ảnh cần tìm Chương trình sau đó sẽ liệt kê tất cả các ảnh có khoảng cách Euclide nhỏ hơn giá trị ngưỡng theo thứ tự tăng dần của khoảng cách Euclide, những ảnh được coi là giống hơn được xếp trước Khi chọn một ảnh trong danh sách ảnh tìm thấy (Found Image List), chương trình sẽ hiển thị ảnh đó trong khung Retrieved Image

Hình 3.4 trong trang sau là kết quả chạy chương trình để tìm kiếm các ảnh tương tự với ảnh mẫu là một bình cổ từ đời nhà Minh (Trung Quốc)

Hình 3.4: Một số kết quả chạy thử chương trình

KHẢ NĂNG MỞ RỘNG CỦA CHƯƠNG TRÌNH

3.4.1 Những hạn chế của chương trình o Chương trình được giới thiệu mới chỉ đưa ra một thuật toán khá đơn giản để trích chọn đặc điểm (sinh véc tơ đặc trưng) nên chắc chắn sẽ không thể cho kết quả so sánh tốt o Các ảnh ban đầu chưa được xử lý “sơ chế” như lọc nhiễu và yêu cầu ở một định dạng đơn giản nên phạm vi so sánh bị hạn chế o Chương trình thiết lập kích thước cố định cho ảnh trước khi xử lý là 256×256, kích thước các khối là 16×16, số chiều của vector đặc trưng là 256 làm hạn chế tính mềm dẻo của chương trình

3.4.2 Khả năng mở rộng o Kỹ thuật “tra cứu ảnh theo nội dung” có rất nhiều hướng nghiên cứu phát triển tạo ra những thuật toán rất hiệu quả làm cho máy tính “hiểu” được nội dung của ảnh Chúng ta hoàn toàn có thể xây dựng một thuật toán tốt hơn để trích chọn được những đặc điểm đặc trưng khác như màu sắc, kết cấu, hình dạng của đối tượng ảnh để phát triển cho bài toán nhận dạng vật thể o Thuật toán resample trong chương trình sử dụng phương pháp đơn giản nhất để thực hiện nội suy, nếu sử dụng các thuật toán cho độ chính xác cao hơn thì chắc chắn sẽ cải thiện đáng kể chất lượng chương trình o Sử dụng các phương pháp làm giảm số chiều của véc tơ đặc trưng sẽ làm tăng đáng kể tốc độ tra cứu Đối với các hệ thống máy tính có trang bị nhiều bộ vi xử lý hoặc có bộ xủ lý lõi kép thì có thể xây dựng các thuật toán cho phép phân phối các tác vụ cho nhiều vi xử lý đồng thời cũng là một giải pháp tốt để tăng tốc độ tra cứu o Sử dụng các phương pháp tính toán độ tương tự phù hợp hơn cho từng loại đặc điểm để có được những kết quả so sánh gần với trực giác hơn.

Ngày đăng: 05/12/2022, 16:21

HÌNH ẢNH LIÊN QUAN

Biến đổi dạng sóng kiểu hình chóp - Luận văn thạc sĩ VNU UET nghiên cứu một số kỹ thuật tra cứu ảnh và ứng dụng vào bài toán kiểm chứng cổ vật  luận văn ths  công nghệ thông tin 1 01 10
i ến đổi dạng sóng kiểu hình chóp (Trang 2)
2.2. MƠ HÌNH HỆ THỐNG TRA CỨU ẢNH THEO NỘI DUNG  - Luận văn thạc sĩ VNU UET nghiên cứu một số kỹ thuật tra cứu ảnh và ứng dụng vào bài toán kiểm chứng cổ vật  luận văn ths  công nghệ thông tin 1 01 10
2.2. MƠ HÌNH HỆ THỐNG TRA CỨU ẢNH THEO NỘI DUNG (Trang 16)
Hình 2.2: Biểu diễn hình dạng theo đường biên và theo vùng - Luận văn thạc sĩ VNU UET nghiên cứu một số kỹ thuật tra cứu ảnh và ứng dụng vào bài toán kiểm chứng cổ vật  luận văn ths  công nghệ thông tin 1 01 10
Hình 2.2 Biểu diễn hình dạng theo đường biên và theo vùng (Trang 37)
Xét một ví dụ đơn giản: tín hiệu đầu vào có dạng hình cosin được biểu diễn - Luận văn thạc sĩ VNU UET nghiên cứu một số kỹ thuật tra cứu ảnh và ứng dụng vào bài toán kiểm chứng cổ vật  luận văn ths  công nghệ thông tin 1 01 10
t một ví dụ đơn giản: tín hiệu đầu vào có dạng hình cosin được biểu diễn (Trang 42)
Hình vẽ sau mô tả ảnh của một điểm sáng và ảnh thu được sau phép biến đổi Fourier:  - Luận văn thạc sĩ VNU UET nghiên cứu một số kỹ thuật tra cứu ảnh và ứng dụng vào bài toán kiểm chứng cổ vật  luận văn ths  công nghệ thông tin 1 01 10
Hình v ẽ sau mô tả ảnh của một điểm sáng và ảnh thu được sau phép biến đổi Fourier: (Trang 43)
Hình 2.5 sau đây là một minh hoạ đơn giản cho phương pháp PCA, trong đó chỉ ra thành phần cơ bản thứ nhất của một tập dữ liệu hai chiều - Luận văn thạc sĩ VNU UET nghiên cứu một số kỹ thuật tra cứu ảnh và ứng dụng vào bài toán kiểm chứng cổ vật  luận văn ths  công nghệ thông tin 1 01 10
Hình 2.5 sau đây là một minh hoạ đơn giản cho phương pháp PCA, trong đó chỉ ra thành phần cơ bản thứ nhất của một tập dữ liệu hai chiều (Trang 62)
o Các đối tượng ảnh có hình dạng không quá phức tạp và có đường biên - Luận văn thạc sĩ VNU UET nghiên cứu một số kỹ thuật tra cứu ảnh và ứng dụng vào bài toán kiểm chứng cổ vật  luận văn ths  công nghệ thông tin 1 01 10
o Các đối tượng ảnh có hình dạng không quá phức tạp và có đường biên (Trang 71)
sắc hay hình dạng mà khối này sử dụng các thuật tốn trích chọn tương ứng.  - Luận văn thạc sĩ VNU UET nghiên cứu một số kỹ thuật tra cứu ảnh và ứng dụng vào bài toán kiểm chứng cổ vật  luận văn ths  công nghệ thông tin 1 01 10
s ắc hay hình dạng mà khối này sử dụng các thuật tốn trích chọn tương ứng. (Trang 72)
Hình 3.3: Sơ đồ khối phần tra cứu ảnh theo màu sắc - Luận văn thạc sĩ VNU UET nghiên cứu một số kỹ thuật tra cứu ảnh và ứng dụng vào bài toán kiểm chứng cổ vật  luận văn ths  công nghệ thông tin 1 01 10
Hình 3.3 Sơ đồ khối phần tra cứu ảnh theo màu sắc (Trang 77)
Hình 3.4: Một số kết quả chạy thử chương trình - Luận văn thạc sĩ VNU UET nghiên cứu một số kỹ thuật tra cứu ảnh và ứng dụng vào bài toán kiểm chứng cổ vật  luận văn ths  công nghệ thông tin 1 01 10
Hình 3.4 Một số kết quả chạy thử chương trình (Trang 79)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w