NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG THÔNG TIN PHẢN HỒI TỪ NGƯỜI DÙNG Chương 1: Tổng quan về tra cứu ảnh sử dụng phản hồi liên quan: Chương này nêu những nét chính của tra cứu ảnh dựa vào nội dung, phản hồi liên quan trong tra cứu thông tin và tra cứu ảnh. Chương 2 : Phương pháp tra cứu ảnh sử dụng thông tin phản hồi từ người dùng: Chương này giới thiệu các kỹ thuật sử dụng trong tra cứu ảnh dựa vào nội dung sử dụng phản hồi liên quan bao gồm kỹ thuật phân vùng ảnh, trích rút đặc trưng và đánh lại trọng số vùng. Chương 3: Chương trình thử nghiệm: Xây dựng mô hình, chạy thử với tập cơ sở dữ liệu gồm 1000 ảnh và đánh giá hiệu quả của phương pháp tra cứu.
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Nguyễn Thị Tâm NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG THÔNG TIN PHẢN HỒI TỪ NGƯỜI DÙNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2014 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS. Nguyễn Hữu Quỳnh Phản biện 1: TS Hoàng Lê Minh. Phản biện 2: PGS.TS Đặng Văn Chuyết. Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: 14h15 ngày 15 tháng 02 năm 2014 Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông MỞ ĐẦU Trong thập kỷ số, hàng triệu các ảnh đã được lưu trữ trong các cơ sở dữ liệu khổng lồ và trên Internet, để tìm các ảnh quan tâm trong các tập ảnh này đòi hỏi một cách tiếp cận mới. Hầu hết các ảnh này không phải do chúng ta sở hữu, do đó chúng ta không có tri thức để có thể hỗ trợ tìm kiếm các ảnh quan tâm thuận lợi. Nếu tìm kiếm các ảnh trong các cơ sở dữ liệu này một cách thủ công, chúng ta có thể tìm kiếm được các ảnh mong muốn nhất bởi vì khả năng nhận dạng nội dung ảnh của con người là tuyệt vời (không có đối tượng nào có thể sánh kịp). Tuy nhiên, thách thức lớn nhất khi thực hiện tìm kiếm ảnh trong các cơ sở dữ liệu ảnh lớn bởi con người là vấn đề tốc độ. Nhiều hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image Retrieval) thực hiện tra cứu dựa chính vào các đặc trưng toàn cục. Nhiều khi các người dùng truy cập một hệ thống CBIR để tìm các đối tượng, nhưng các hệ thống này dường như thất bại, do một dấu hiệu đơn được tính cho toàn bộ ảnh không thể thu đủ các thuộc tính quan trọng của các đối tượng riêng biệt. Các hệ thống tra cứu ảnh dựa vào vùng (RBIR – Rigon Based Image Retrieval) cố gắng khắc phục hạn chế của các đặc trưng toàn cục bằng việc biểu diễn các ảnh ở mức đối tượng dẫn tới gần với nhận thức của con người. Các phương pháp CBIR ở trên cho phép máy tính có sự hiểu biết nào đó về các ảnh, thông qua tạo các biểu diễn của nội dung ảnh và nhóm các biểu diễn này dựa trên độ tương tự của chúng. Các phương pháp đó rất khó để có thể trả về các kết quả thỏa mãn với người dùng, bởi vì độ phức tạp và các biến đổi trong các ảnh trực quan làm cho việc tra cứu các ảnh thỏa mãn yêu cầu của người dùng như mò kim đáy biển. Một trong những kỹ thuật học tương tác là phản hồi liên quan (RF – Relevance Feedback) được phát triển ban đầu trong tra cứu văn bản. RF được đưa vào CBIR ở giữa những năm 1990 để cải tiến hiệu năng trong các hệ thống tra cứu ảnh. Ý tưởng chính của RF là để người dùng hướng dẫn hệ thống. Trong quá trình tra cứu, người dùng tương tác với hệ thống và đánh giá sự liên quan của các ảnh được tra cứu (theo ý chủ quan của người dùng). Với thông tin thêm vào này, hệ thống học sự quan tâm của người dùng và cho ra các kết quả tốt nhất. Mục tiêu chính của luận văn này là sử dụng thông tin mà người dùng quan tâm để nâng cao hiệu năng của hệ thống. Để thực hiện điều này, thuật toán đánh lại trọng số vùng dựa trên thông tin quan tâm của người dùng được đề xuất. Các trọng số vùng trùng với nhận thức người sẽ cải tiến độ chính xác. Các trọng số vùng được ghi nhớ lại để dùng cho các truy vấn sau. Nội dung luận văn được tổ chức như sau: Chương 1: Tổng quan về tra cứu ảnh sử dụng phản hồi liên quan: Chương này nêu những nét chính của tra cứu ảnh dựa vào nội dung, phản hồi liên quan trong tra cứu thông tin và tra cứu ảnh. Chương 2 : Phương pháp tra cứu ảnh sử dụng thông tin phản hồi từ người dùng: Chương này giới thiệu các kỹ thuật sử dụng trong tra cứu ảnh dựa vào nội dung sử dụng phản hồi liên quan bao gồm kỹ thuật phân vùng ảnh, trích rút đặc trưng và đánh lại trọng số vùng. Chương 3: Chương trình thử nghiệm: Xây dựng mô hình, chạy thử với tập cơ sở dữ liệu gồm 1000 ảnh và đánh giá hiệu quả của phương pháp tra cứu. CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH SỬ DỤNG PHẢN HỒI LIÊN QUAN 1.1 Tra cứu thông tin Tra cứu thông tin (IR – Information Retrieval) là việc thu thập các nguồn thông tin liên quan trong một tập các nguồn tài nguyên. Truy vấn hệ thống có thể là văn bản, hình ảnh, audio, bản đồ tư duy hoặc video. 1.2 Phản hồi liên quan trong tra cứu thông tin Phản hồi liên quan (RF – Relevance Feedback) trong tra cứu thông tin chứa người dùng trong quá trình tra cứu để cải thiện tập kết quả cuối cùng. Thủ tục cơ sở là: - Người dùng tạo một truy vấn. - Hệ thống trả lại một tập các kết quả tra cứu ban đầu. - Người dùng đánh dấu một số tài liệu được trả về là liên quan hoặc không liên quan. - Hệ thống tính toán một đại diện tốt nhất của nhu cầu thông tin dựa trên phản hồi của người dùng. - Hệ thống hiển thị một tập các kết quả tra cứu được hiệu chỉnh. Véc tơ truy vấn mà chúng ta muốn tìm được biểu thị bằng q , mà cực đại sự tương tự với các tài liệu liên quan trong khi cực tiểu sự tương tự với các tài liệu không liên quan được mô tả: Véc tơ truy vấn tối ưu: ),(),(maxarg nrrqopt CqsimCqsimq (1.1) Trong đó: C r là tập tài liệu liên quan, C nr là tập tài liệu không liên quan, ),( r Cqsim là độ tương tự cosin giữa q và r C . Véc tơ truy vấn tối ưu để tách tài liệu liên quan và không liên quan: nrr Cd j nr Cd j r opt d C d C q 11 (1.2) Thuật toán Rocchio nrjrj Dd j nr Dd j r m d D d D qq 11 0 (1.3) 1.3 Tra cứu ảnh dựa vào nội dung 1.3.1 Vấn đề tra cứu ảnh dựa vào nội dung Tra cứu ảnh dựa vào nội dung sử dụng những nội dung thị giác như màu sắc, hình dạng, kết cấu, không gian để biểu diễn ảnh . Các nội dung thị giác của ảnh được trích rút và mô tả bằng các vector đặc trưng đa chiều 1.3.2 Các chức năng của hệ thống tra cứu ảnh dựa vào nội dung tiêu biểu Chức năng của hệ thống CBIR bao gồm: trích rút đặc trưng, phân tích truy vấn người dùng, so sánh độ tương tự, thực hiện điều chỉnh cần thiết. 1.3.3 Trích rút đặc trưng Trích rút đặc trưng là trích rút các thông tin có ý nghĩa của ảnh 1.3.3.1 Đặc trưng màu sắc Mỗi ảnh có một biểu đồ màu riêng phản ánh tỷ lệ điểm ảnh của mỗi màu trong ảnh. Các phương pháp biểu diễn đặc trưng màu như: không gian màu ( bao gồm RGB, CIE, HSV); lược đồ màu. 1.3.3.2 Đặc trưng kết cấu Dùng để phân lớp các ảnh kết cấu từ các ảnh không kết cấu và sau đó được kết hợp với các thuộc tính đặc trưng khác như màu để làm cho tra cứu hiệu quả hơn 1.3.3.3 Đặc trưng hình dạng Hình dạng được xem như là một đặc trưng quan trọng trong mô tả các đối tượng nổi bật trong ảnh và có thể giúp phân biệt giữa hai ảnh. 1.3.4 Độ đo tương tự Là tính toán độ tương tự trực quan giữa ảnh truy vấn và ảnh trong cơ sở dữ liệu. Được xác định bằng khoảng cách Minkowski-Form: p p ii JfIfJID /1 ))()((),( Trong đó D(I,J) là khoảng cách đo giữa ảnh truy vấn I và ảnh J trong cơ sở dữ liệu; f i (I) là số pixel trong bin i của ảnh I. 1.3.5 Một số hệ thống CBIR tiêu biểu 1.3.5.1 Hệ thống Blobwold Hệ thống Blobwold của khoa Khoa học máy tính, Đại học California, Berkeley. Các đặc tính được sử dụng cho truy vấn là màu sắc, kết cấu, vị trí và hình dạng của vùng và nền 1.3.5.2 Hệ thống Query By Image Content (QBIC) QBIC hỗ trợ chính các truy vấn dựa vào các ảnh mẫu, các phác thảo và các bản vẽ được người sử dụng xây dựng, và các mẫu kết cấu và màu được lựa chọn. 1.3.5.3 Hệ thống VisualSeek VisualSEEk là một máy tìm kiếm đặc trưng trực quan và WebSEEk là một máy tìm kiếm văn bản/ảnh trên web. Các đặc trưng trực quan được sử dụng trong các hệ thống của họ là các tập màu và các đặc trưng kết cấu dựa vào biến đổi sóng 1.4 Tra cứu ảnh sử dụng phản hồi liên quan Phản hồi liên quan được giới thiệu trong CBIR nhằm giải quyết một số hạn chế của CBIR: Khoảng trống giữa các đặc trưng mức thấp và các khái niệm mức cao (khoảng cách ngữ nghĩa); Sự nhận thức chủ quan của con người mà thực tế chủ yếu góp phần làm cho phản hồi liên quan là chủ đề nghiên cứu tích cực nhất trong CBIR là do độ chính xác của các máy tìm kiếm CBIR nói chung rất thấp. Phản hồi liên quan được giới thiệu trong CBIR trong đó người và máy tính tương tác nhiều lần với nhau để cải tiến các truy vấn mức cao đối với các biểu diễn dựa trên các đặc trưng ảnh mức thấp. Một ngữ cảnh trong hệ thống phản hồi liên quan (Relevance Feedback - RF) là: Bước 1: Người dùng đưa ra một ảnh mẫu truy vấn và/hoặc từ khóa mô tả đối đối với hệ thống. Bước 2: Hệ thống cung cấp các kết quả tra cứu khởi tạo dựa trên các độ đo tương tự nào đó đã được xác định trước. Bước 3: Người dùng đánh dấu các ảnh được tra cứu bằng việc đánh giá chúng có liên quan đến truy vấn hay không. Bước 4: Dựa trên thông tin phản hồi bởi người dùng, hệ thống điều chỉnh truy vấn và tra cứu một danh sách mới các ảnh cho người dùng. Thuật toán lặp lại Bước 3. 1.5 Đánh giá hiệu năng Để đánh giá hiệu suất của hệ thống tra cứu sử dụng hai phép đo là recall (độ triệu hồi) và precision (độ chính xác): )( )()( qQ qRqQ precision (1.4) )( )()( qR qRqQ recall (1.5) Trong đó R(q) là tập dữ liệu liên quan tới truy vấn q, Q(q) là kết quả tra cứu của truy vấn q. 1.6 Kết luận chương 1 Trong chương này, chúng tôi đã giới thiệu một số khái niệm cơ bản của phản hồi liên quan trong tra cứu thông tin, tra cứu ảnh dựa vào nội dung, một số hệ thống tra cứu ảnh dựa vào nội dung, phản hồi liên quan trong tra cứu ảnh đánh giá hiệu năng tra cứu. Đặc biệt tôi muốn nhấn mạnh vào phản hồi liên quan trong tra cứu thông tin và tra cứu ảnh. CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG THÔNG TIN PHẢN HỒI TỪ NGƯỜI DÙNG 2.1 Giới thiệu Tra cứu ảnh dựa vào nội dung sử dụng đặc trưng mức thấp như màu sắc, kết cấu, hình dạng…là một lĩnh vực nghiên cứu tích cực trong một vài năm qua. Tuy nhiên, các hệ thống này thường cho các kết quả không gần với nhận thức của con người. Phần này chúng tôi xin trình bày phương pháp tra cứu ảnh dựa vào nội dung sử dụng thông tin mà người dùng quan tâm để nâng cao hiệu năng của hệ thống tra cứu. Để thực hiện điều này, thuật toán đánh lại trọng số vùng dựa trên thông tin quan tâm của người dùng được đề xuất. Các trọng số vùng trùng với nhận thức của người dùng sẽ cải tiến độ chính xác. Các trọng số vùng được ghi nhớ lại để dùng cho các truy vấn sau. 2.2 Phân vùng ảnh 2.2.1 Phân cụm dựa vào màu sắc (CBC – Color based Clustering) Ý tưởng chính của kỹ thuật phân cụm dựa vào màu sắc là: mỗi ảnh được chia thành các vùng, mỗi vùng có một véc tơ đặc trưng riêng và có kích thước lớn hơn hoặc bằng ngưỡng cỡ s 0 , tất cả các pixel của vùng đã được xác định trước độ tương tự màu theo ngưỡng khoảng cách màu d 0 . Ngưỡng d 0 , s 0 của vùng CBC(d 0 , s 0 ) là các tham số được xác định bởi người dùng. 2.2.2 Thuật toán phân cụm Thuật toán phân cụm với ảnh đầu vào là I. Thuật toán trả về số vùng R của ảnh I. Thuật toán RS (Region Segmentation) Đầu vào: I - ảnh gồm n pixel d 0 – ngưỡng khoảng cách T – ngưỡng cỡ của vùng Đầu ra: R – tập các vùng của ảnh I 1. G ConvertGraph(I); 2. V GetVertexSet(G); 3. E GetEdgeSet(G); 4. For mỗi đỉnh v E do 4.1 CreateRegion(v) 5. For mỗi (u,v) E do 5.1 w u,v Distance(u,v) 6. E SortIncreasingOrder(E); 7. For mỗi (u,v) E do 7.1 If (d(Find-Region(u), Find-Region(v)<d 0 ) 7.1.1 If (Find-Region(u) Find-Region(v)) Merge(u,v) 7.1.2 else break; 8. For mỗi vùng R i R 8.1 If (Size(R i )<T) 8.1.1 R j GetNeighborRegion(R i ) 8.1.2 Merge(R i , R j ) 9. Return R Thủ tục ConvertGraph() chuyển ảnh cần phân đoạn I thành đồ thị G, hàm GetVertexSet() trả về tập đỉnh của đồ thị G, hàm GetEdgeSet(G) trả lại tập cạnh của đồ thị G, thủ tục CreateRegion() tạo ra vùng gồm đỉnh được chỉ ta, hàm Distance() trả về khoảng cách của hai đỉnh theo giá trị màu, thủ tục SortIncreasingOrder() sắp xếp các cạnh theo thứ tự tăng dần của trọng số w, hàm Find-Region() trả về trọng tâm của vùng, thủ tục Merge() nhập hai vùng thành một vùng, hàm Size() trả về cỡ của vùng được chỉ ra và hàm GetNeighborRegion() trả về vùng lân cận có độ tương tự cao nhất. 2.2.3 Hàm tính khoảng cách Sau khi phân vùng, hai ảnh được so sánh sử dụng hàm tính khoảng cách. Khoảng cách giữa 2 ảnh A và B là d(A, B, α), là thành phần trọng số của khoảng cách giữa vùng A i , B j tương ứng của ảnh A và B – Rd (A i , B j , α). Hàm khoảng cách vùng Rd (A i , B j , α) được xác định như sau: ).,.()1().,.(),,( 22 centerBcenterALcolorBcolorALBARd jijiji (2.1) Trong đó: A i , B j là vùng chứa ảnh A, B tương ứng, L 2 (.,.) là hàm trả về khoảng cách L 2 giữa các đối số của nó. Thuật toán tính khoảng cách giữa hai ảnh A và B. Hàm trả về khoảng cách giữa các vùng tương ứng của ảnh A và B. [...]... thay đổi ảnh và cho tập ảnh kết quả gần với nhận thức của con người KẾT LUẬN Bản luận văn đã trình bày phương pháp tra cứu ảnh sử dụng thông tin phản hồi từ người dùng, phương pháp này cho kết quả gần với mong muốn của người dùng và hiệu quả Các kết quả đạt được trong luận văn: Nghiên cứu tổng quan về phản hồi liên quan trong tra cứu thông tin và tra cứu ảnh Nghiên cứu tổng quan về tra cứu ảnh dựa... o Người sử dụng chọn ảnh truy vấn và ấn nút tra cứu ảnh o Hệ thống sẽ tiến hành tìm kiếm và hiển thị kết quả ra màn hình Tác nhân phản hồi ảnh: Mô tả công việc: o Người sử dụng cung cấp ảnh tích cực và ảnh tiêu cực từ kết quả hiển thị ở bước tra cứu ảnh và ấn nút phản hồi o Hệ thống sẽ tiến hành tính toán và cập nhật lại các trọng số (bất lợi vùng và đặc trưng ảnh truy vấn) o Người sử dụng ấn nút tra. .. thống tra cứu ảnh được mô tả Hơn nữa, một số kết quả của hệ thống được mô tả rõ ràng Qua các kết quả thu được, chúng ta nhận thấy, sử dụng kỹ thuật máy học vào quá trình tra cứu sẽ cho kết quả gần với nhận thức của con người 3.4 Kết luận chương 3 Chúng tôi đã phát triển LU, một phương pháp tra cứu ảnh dựa vào vùng sử dụng kỹ thuật học từ thông tin người dùng Phương pháp LU có hai ưu điểm: giảm sự ảnh. .. mãn với người dùng, bởi vì độ phức tạp và các biến đổi trong các ảnh trực quan làm cho việc tra cứu các ảnh thỏa mãn yêu cầu người dùng như mò kim đáy biển Từ thực tế Để giải quyết vấn đề này, kỹ thuật học tương tác đã được giới thiệu Trong quá trình tra cứu, người dùng tương tác với hệ thống và đánh giá sự liên quan của các ảnh được tra cứu Từ những thực tế trên đặt ra một bài toán tra cứu ảnh như... được người dùng gán sẽ được sử dụng để cập nhật trọng số của các vùng Sử dụng trọng số các vùng vừa được cập nhật, hệ thống hiệu chỉnh tập các ảnh kết quả trả về Quá trình này dừng lại khi người dùng thỏa mãn yêu cầu Hình 3.1 Sơ đồ hệ thống tra cứu ảnh sử dụng phản hồi liên quan 3.2.2 Xây dựng chương trình 3.2.2.1 Biểu đồ Use case 3.2.2.2 Biểu đồ trình tự và biểu đồ hoạt động Tác nhân tra cứu ảnh: ... nút tra cứu để đưa ra kết quả sau lần phản hồi Tác nhân upload ảnh: Mô tả công việc: o Người sử dụng chọn một file ảnh để upload: Hệ thống tiến hành lấy thông tin và trích rút đặc trưng của các vùng ảnh Nếu không có lỗi thì cập nhật vào cơ sở dữ liệu (CSDL), ngược lại thông báo lỗi o Người sử dụng chọn nhiều file ảnh để upload: Chọn một thư mục chứa ảnh cần đưa vào CSDL Duyệt từng file ảnh trong... dạng phổ biến nhất của ảnh số Tập ảnh thử nghiệm CSDL gồm 1000 ảnh jpeg CSDL ảnh này là tập con của tập ảnh của GS Wang và chúng tôi tập hợp từ Internet được sử dụng để đánh giá hiệu năng tra cứu Các ảnh trong CSDL có kích cỡ là 128× 85 điểm ảnh hoặc 85×128 điểm ảnh Các ảnh gồm 256 màu CSDL gồm các loại ảnh chính: ngựa, cảnh hoàng hôn, vườn hoa, rừng, phong cảnh, nhà cửa và các loại ảnh khác 3.3.2 Một... nghiên cứu tìm hiểu thuật toán em đã xây dựng một hệ thống tra cứu ảnh thử nghiệm với một tập ảnh cơ sở dữ liệu thử nghiệm như đã trình bày phần trên Hệ thống thử nghiệm đã cho một số kết quả khá tốt 3.3.3 Thực nghiệm thu hồi ảnh bằng thông tin phản hồi Thử nghiệm hệ thống CBIR với tập ảnh CSDL gồm 1.000 ảnh đa dạng: Một số kết quả về độ chính xác tra cứu khi hiển thị đếm top 100 ảnh tương tự với ảnh. .. nội dung Ứng dụng kỹ thuật phân cụm vào quá trình phân đoạn ảnh Xây dựng giao diện tra cứu ảnh có sử dụng phản hồi liên quan Thực nghiệm trên tập cơ sở dữ liệu gồm 1000 ảnh và cho kết quả khá hiệu quả KIẾN NGHỊ VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO - Thử nghiệm trên tập ảnh có kích cỡ lớn và đa dạng chủ đề hơn - Cải tiến kỹ thuật học để nâng cao chất lượng của phương pháp - Từng bước đưa vào ứng dụng thực tế... 0 3 Tính độ tương tự của hai ảnh 3.1 for I 1 to n do 3.1.1 for j 1 to m do 3.1.1.1 SI SI + si,j x wi,j 4 Return SI Thuật toán SI trả về độ tương tự của hai ảnh A và B 2.5 Kết luận chương 2 Chương này trình bày phương pháp tra cứu ảnh dựa vào vùng kết hợp với thông tin mà người dùng quan tâm để nâng cao hiệu năng của hệ thống tra cứu Kỹ thuật được sử dụng: phân vùng ảnh, trích rút đặc trưng và . và cập nhật lại trọng số của ảnh và đưa ra kết quả sau phản hồi. 3.2 Thi t kế hệ thống và xây dựng chương trình 3.2.1 Thi t kế hệ thống Hệ thống tra cứu ảnh CBIR sử dụng RF có 4 khối chính:. luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: 14h15 ngày 15 tháng 02 năm 2014 Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông . Chương 2 : Phương pháp tra cứu ảnh sử dụng thông tin phản hồi từ người dùng: Chương này giới thi u các kỹ thuật sử dụng trong tra cứu ảnh dựa vào nội dung sử dụng phản hồi liên quan bao gồm