Tra cứu thông tin và thông tin trực quan

Thuật ngữ “Tra cứu thông tin” được đưa ra vào năm 1952 và được phổ biến trong cộng đồng nghiên cứu từ năm 1961. Một hệ thống tra cứu thông tin được xem như một hệ thống lưu trữ và tìm kiếm thông tin, vì thế nó được cấu tạo bởi một tập các thành phần tương tác, mỗi thành phần lại được thiết kế để đáp ứng một chức năng cụ thể cho một mục tiêu cụ thể, và tất cả các thành phần này được liên hệ với nhau để đạt được một mục tiêu, đó là tra cứu thông tin trong một phạm vi nào đó. Trước đây, tra cứu thông tin có nghĩa là tra cứu thông tin văn bản, định nghĩa trên vẫn được giữ khi áp dụng đối với tra cứu thông tin trực quan (VIR). Tuy nhiên, có một sự khác biệt giữa loại thông tin và bản chất của tra cứu văn bản với các đối tượng trực quan. Thông tin văn bản là một chiều trong khi hình ảnh là hai chiều, và video là ba chiều (chiều thứ ba là thời gian).

Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề VIR dựa trên dạng thông tin trực quan đó là các phương pháp dựa trên đặc trưng và các phương pháp

dựa trên văn bản mô tảảnh. Các phương pháp dựa trên văn bản mô tảảnh dựa trên các phương pháp tra cứu thông tin văn bản truyền thống và hệ quản trị CSDL cũng như sự can thiệp của con người để trích rút siêu dữ liệu về một đối tượng trực quan và kết hợp nó cùng với đối tượng trực quan như một chú thích văn bản. Tuy nhiên, gán các thuộc tính văn bản một cách thủ công cần nhiều thời gian và chi phí. Hơn nữa, các chú thích thủ công thường phụ thuộc rất nhiều vào nhận thức chủ quan của con người. Nhận thức chủ quan và chú thích thiếu chính xác là nguyên nhân tra cứu không chính xác trong các quá trình tra cứu sau này. Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩy nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung. Với giải pháp này, thay vì được chú thích một cách thủ công bởi các từ khoá dựa vào văn bản, các ảnh có thể được trích rút sử dụng một số đặc trưng trực quan như màu, kết cấu, hình dạng, và quan hệ không gian giữa các vùng và được đánh chỉ số dựa trên các các đặc trưng trực quan này. Cách tiếp cận này dựa chủ yếu vào các kết quả từ thị giác máy. Tuy nhiên, không có đặc trưng riêng lẻ tốt nhất mà cho các kết quả chính xác. Thông thường một sự kết hợp các đặc trưng một cách tuỳ biến là cần thiết để cung cấp các kết quả tra cứu thích hợp cho ứng dụng tra cứu ảnh dựa vào nội dung. Tuy nhiên, vì mang tính chất tìm hiểu và nghiên cứu, nên trong luận văn này chỉ tập trung vào một đặc trưng chính cụ thể, đó là đặc trưng màu cho ứng dụng tra cứu ảnh dựa vào nội dung.

1.2.2. Truy vấn người sử dụng

Có nhiều cách gửi một truy vấn trực quan. Một phương pháp truy vấn tốt là một phương pháp tự nhiên đối với người sử dụng cũng như thu được đủ thông tin từ người sử dụng để trích rút các kết quả có ý nghĩa. Các phương pháp truy vấn dưới đây được sử dụng phổ biến trong tra cứu ảnh dựa vào nội dung:

1.2.2.1. Truy vấn bởi ảnh mẫu (QBE)

Trong loại truy vấn này, người sử dụng hệ thống chỉ rõ một ảnh truy vấn đích, dựa trên ảnh truy vấn đó hệ thống sẽ tìm kiếm trong CSDL ảnh các ảnh tương tự nhất. Ảnh truy vấn có thể là một ảnh thông thường, một bản quét của một ảnh có độ phân giải thấp, hoặc một phác thảo của người sử dụng dùng các công cụ mô tả giao

diện đồ hoạ để tạo ra nó. Ưu điểm chính của loại hệ thống này là nó tự nhiên cho những người sử dụng chung và chuyên gia để tìm kiếm một CSDL ảnh.

1.2.2.2. Truy vấn bởi đặc trưng (QBF)

Trong hệ thống QBF tiêu biểu, những người sử dụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm. Ví dụ, một người sử dụng có thể truy vấn một CSDL ảnh bằng việc đưa ra một lệnh để tra cứu tất cả các ảnh có góc phần tư trái chứa 25% pixel màu xanh. Truy vấn này được chỉ rõ bằng việc sử dụng các công cụ giao diện đồ hoạ chuyên dụng. Những người sử dụng hệ thống tra cứu ảnh chuyên biệt có thể thấy loại truy vấn này là bình thường, nhưng những người sử dụng chung thì không thể. QBIC là một ví dụ về một hệ thống tra cứu ảnh dựa vào nội dung sử dụng loại phương pháp truy vấn này.

1.2.2.3. Truy vấn dựa vào thuộc tính

Loại truy vấn này sử dụng các chú thích văn bản, trích rút trước bởi nỗ lực của con người, như một khoá tra cứu chính. Loại biểu diễn này đòi hỏi độ trừu tượng cao và khó thực hiện một cách tựđộng hoàn toàn do một ảnh có một lượng lớn các thông tin và khó tóm tắt bởi một số ít các từ khoá. Phương pháp này nhìn chung là nhanh hơn và dễ hơn để thực hiện, nhưng có một độ chủ quan và nhập nhằng cao.

Người sử dụng thích truy vấn các hệ thống tra cứu ảnh dựa vào nội dung bằng việc yêu cầu các câu hỏi tự nhiên như “Đưa ra các bức ảnh về Trường Đại học Thái Nguyên”, hoặc “Tìm các ảnh liên quan đến các lớp Thạc sĩ Tin học của Trường Đại học Thái Nguyên”. Ánh xạ truy vấn ngôn ngữ tự nhiên này đến một truy vấn trên CSDL ảnh là vô cùng khó so với việc sử dụng các phương pháp chú thích. Khả năng của các máy tính để thực hiện nhận dạng đối tượng tựđộng trên các ảnh chung vẫn là một vấn đề nghiên cứu mở. Do đó hầu hết các nỗ lực nghiên cứu và thương mại tập trung vào xây dựng các hệ thống thực hiện tốt với các phương pháp QBE.

1.3. Đánh chỉ số nhiều chiều 1.3.1. Khái niệm 1.3.1. Khái niệm

Để thực hiện tra cứu ảnh dựa vào nội dung đối với các CSDL ảnh lớn, các kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng. Có ba cộng đồng nghiên cứu chính

đóng góp vào lĩnh vực này: hình học tính toán, quản trị CSDL và nhận dạng mẫu. Các kỹ thuật đánh chỉ số nhiều chiều phổ biến đã có gồm thuật toán bucketing, cây k-d, cây k-d ưu tiên, cây tứ phân, cây K-D-B, cây hB, cây R-tree, .... Ngoài các phương pháp trên, clustering và mạng lưới thần kinh, được dùng rộng rãi trong nhận dạng mẫu cũng là hướng nghiên cứu đầy hứa hẹn.

Để việc đánh chỉ số nhiều chiều được hiệu quả, cần để ý đến hai tham số:

• Highdimensionality: Là số chiều của vectơđặc trưng, thường là 102.

• Non-Euclidean similarity measure: Các độ đo tương tự phi Euclide, thực hiện mô phỏng nhận thức con người về một nội dung trực quan nhất định, ví dụ như giao điểm biểu đồ, cosin, tương quan. Để giải quyết những vấn đề này, một cách tiếp cận đầy hứa hẹn là đầu tiên thực hiện giảm số chiều và sau đó sử dụng các kỹ thuật lập chỉ mục thích hợp đa chiều để giải quyết bài toán đặt ra.

1.3.2. Giảm số chiều

Mặc dù kích thước của các vectơ đặc trưng trong tra cứu ảnh là rất lớn, số chiều nhúng là thấp hơn nhiều [12]. Kỹ thuật lập chỉ mục có lợi ích đầu tiên là giảm kích thước. Có ít nhất hai cách tiếp cận là biến đổi Karhunen-Loeve (KLT) và phân nhóm theo cột.

KLT và biến thể của nó được dùng trong nhận diện khuôn mặt, phân tích các biến thể thông tin của nó, phân tích thành phần chính (PCA), được nghiên cứu trong việc giảm kích thước thực hiện. Trong [2] Faloutsos và Lin đã đề xuất một xấp xỉ nhanh KLT để thực hiện việc giảm kích thước. Thử nghiệm các kết quả từ nghiên cứu của họ cho thấy rằng tập hợp dữ liệu thực tế có thể được giảm đáng kể trong không gian mà chất lượng thu được hầu như không giảm [2], [17], [12]. Vì hệ thống tra cứu ảnh luôn được cập nhật ảnh mới nên hệ thống chỉ mục cũng cần phải linh động. Thuật toán này là một công cụ cung cấp cách thức đánh chỉ mục.

Ngoài KLT, phân cụm (cluster) là một công cụ mạnh mẽ trong việc giảm kích thước thực hiện, kỹ thuật này được sử dụng trong rất nhiều ngành khác nhau. Thông thường nó được sử dụng cho các đối tượng cluster tương tự với nhau (mô hình, tín hiệu, và các văn bản) để thực hiện công nhận hoặc phân nhóm. Kiểu của các cụm

này gọi là cụm row-wise. Tuy nhiên, cụm cũng có thể sử dụng column-wise để giảm chiều của không gian chức năng [4]. Các thực nghiệm cho thấy rằng đây là một phương pháp đơn giản và hiệu quả, tuy nhiên việc giảm kích thước có thể dẫn tới sự mất mát thông tin khi thực hiện cần xác định rõ các trạng thái của hệ thống.

1.3.3. Kỹ thuật đánh chỉ số nhiều chiều

Sau khi xác định kích thước nhúng của các vectơ đặc trưng, ta cần lựa chọn các thuật toán lập chỉ mục đa chiều phù hợp với chỉ số vectơđặc trưng.

Lịch sử của các kỹ thuật đánh chỉ số nhiều chiều có thể quay lại giữa những năm 1970, khi các phương pháp khối, cây tứ phân, và cây k-d được giới thiệu lần đầu tiên, tuy nhiên hiệu quả chưa thật sự tốt so với mong muốn. Bị thúc đẩy bởi nhu cầu cấp bách của đánh chỉ số không gian từ các hệ thống thông tin địa lý (GIS) và CAD, Beckmann [13] và cộng sựđã đề xuất cấu trúc đánh chỉ mục R-tree trong năm 1990. Dựa trên nghiên cứu của ông, nhiều biến thể khác của R-tree đã được phát triển như R+ tree, R* tree [13], tuy nhiên R* tree không thực hiện tốt với số chiều lớn hơn 20.

Rất khó thực hiện việc so sánh các kỹ thuật lập chỉ mục khác nhau trong tra cứu ảnh [12], [17]. Thúc đẩy bởi cây kd và R-tree, White và Jain nghiên cứu các thuật toán lập chỉ mục cho các lĩnh vực khác nhau, và qua đó đề xuất VAM kd tree và VAMSplit R-tree. Họ thấy rằng các VAMSplit R-tree cung cấp hiệu suất tốt nhất, việc cân bằng lại làm mất tính chất động của R-tree. Trong [17], Ng và Sedighian đề xuất một chiến lược ba bước hướng tới chỉ mục tra cứu ảnh là giảm số chiều, đánh giá các phương pháp lập chỉ mục hiện có, và tuỳ biến của phương pháp lập chỉ mục được chọn. Sau khi giảm kích thước bằng cách sử dụng các phương pháp tiếp cận eigenimage, kích thước mới hoặc số chiều của ảnh có thể được dùng để chọn thuật toán lập chỉ mục tốt hơn. Trên bộ dữ liệu thử nghiệm của họ, họ thấy rằng các BA-KD-tree đã cho hiệu suất tốt nhất.

Cho đến nay, các phương pháp trên chỉ tập trung vào việc làm thế nào để xác định và cải thiện các kỹ thuật lập chỉ mục được mở rộng bằng chiều cao của vectơ đặc trưng trong tra cứu ảnh. Các tính chất khác của vectơ đặc trưng trong tra cứu ảnh, ví dụ như các độ đo tương tự phi Euclide, chưa được khai thác tốt. Có hai kỹ

thuật đầy hứa hẹn đối với việc giải quyết vấn đề này là phân cụm (clustering) và mạng nơron. Trong [11], Charikar và cộng sựđã đề xuất kỹ thuật phân cụm gia tăng cho thu hồi thông tin năng động, còn trong [6], Zhang và Zhong đã đề xuất sử dụng sơ đồ tự tổ chức (SOM) lưới thần kinh như là công cụđể xây dựng cấu trúc chỉ mục cây trong tra cứu ảnh. Kết quả thực nghiệm của họ trong bộ sưu tập kết cấu Brodatz chứng minh rằng SOM là một kỹ thuật lập chỉ mục đầy hứa hẹn.

1.4. Các chức năng của một hệ thống tra cứu ảnh dựa vào nội dung

Một hệ thống tra cứu ảnh dựa vào nội dung CBIR tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở các khuôn dạng khác nhau (ví dụ, văn bản, hình ảnh và video) mà còn giải quyết các nhu cầu của người sử dụng. Về cơ bản, hệ thống phân tích cả các nội dung của nguồn thông tin cũng như các truy vấn sử dụng, sau đó so sánh các nội dung này để tra cứu các mục tin liên quan. Các chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung thường bao gồm:

a. Phân tích các nội dung của nguồn thông tin và biểu diễn các nội dung của các nguồn được phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng (không gian của nguồn thông tin được biến đổi thành không gian đặc trưng cho mục tiêu so sánh nhanh trong bước tiếp theo). Bước này thông thường cần rất nhiều thời gian do nó phải xử lý lần lượt tất cả thông tin nguồn (các ảnh) trong CSDL. Tuy nhiên, bước này được thực hiện chỉ một lần và có thểđược thực hiện ngoại tuyến.

b. Phân tích các truy vấn người sử dụng và biểu diễn chúng ở dạng thích hợp cho so sánh với CSDL nguồn. Bước này là tương tự với bước trước, nhưng chỉ được áp dụng với ảnh truy vấn, do đó nó sẽđược thực hiện trực tuyến.

c. Định nghĩa một chiến lược để so sánh các truy vấn tìm kiếm với thông tin trong CSDL được lưu trữ. Tra cứu thông tin liên quan một cách hiệu quả. Bước này được thực hiện trực tuyến và được yêu cầu rất nhanh. Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại không gian đặc trưng để tăng tốc quá trình đối sánh và tra cứu.

d. Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng điều chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ người sử dụng và / hoặc các ảnh được tra cứu.

Hình 1.3. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung.

Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa vào nội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau và trên mặt kia có các truy vấn người sử dụng. Hai mặt này được liên kết thông qua một chuỗi các tác vụ nhưđược minh họa trong hình 1.3. Hai tác vụ “phân tích truy vấn người sử

dụng” và “đánh chỉ số nhiều chiều” đã được giới thiệu khái quát ở trên, trong khi hai tác vụ quan trọng “trích rút đặc trưng” và “các độ đo tương tự” sẽ được mô tả sau, trong đó tập trung vào đặc trưng màu của ảnh.

1.5. Đánh giá hiệu năng tra cứu

Để đánh giá hiệu năng của hệ thống tra cứu, người ta đưa ra hai số đo đó là độ triệu hồi (recall) và độ chính xác (precision). Các sốđo này được mượn từ hệ thống tra cứu thông tin truyền thống.

Đối với một truy vấn q, tập hợp các ảnh trong CSDL thích hợp với truy vấn q được ký hiệu là R(q) còn kết quả tra cứu của truy vấn q được ký hiệu là Q(q). Độ chính xác của việc tra cứu được định nghĩa là tỉ lệ những kết quả thu được thực sự thích hợp với truy vấn.

) ( ) ( ) ( q Q q R q Q precision= Ι (1-34) Độ triệu hồi là tỉ lệ những kết quả thích hợp do truy vấn trả lại: ) ( ) ( ) ( q R q R q Q recall Ι = (1-35)

Thông thường phải có sự thoả hiệp giữa hai số đo này bởi vì nếu muốn tăng cường sốđo này thì lại phải chịu giảm sốđo kia và ngược lại. Trong các hệ thống tra cứu điển hình thì độ triệu hồi có xu hướng tăng lên khi số lượng các kết quả thu được tăng lên trong khi đó thì độ chính xác dường như lại bị giảm đi.

Ngoài ra, việc lựa chọn R(q) thường không ổn định do sự đa đạng của cách hiểu về một bức ảnh. Hơn nữa, khi số lượng ảnh thích hợp lớn hơn lượng ảnh hệ thống tìm được thì khái niệm độ triệu hồi trở thành vô nghĩa. Do đó, recall và precision chỉ là các mô tảở dạng thô về hiệu năng của một hệ thống truy vấn mà thôi.

Tra cứu thông tin và thông tin trực quan

Kỹ thuật đánh chỉ số nhiều chiề u