Trình bày nguyên lý hoạt động, một số kỹ thuật tìm kiếm thông tin truyền thống, đánh giá ưu nhược điểm của các mô hình. Nguyên lý hoạt động của hệ thống tìm kiếm ảnh dựa trên nội dung, phương pháp trích chọn đặc trưng ảnh. Ứng dụng các kỹ thuật tìm kiếm thông tin trong tìm kiếm ảnh dựa trên nội dung.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI TRẦN THỊ HẢI YẾN ỨNG DỤNG CÁC KỸ THUẬT TÌM KIẾM THƠNG TIN VÀO HỆ THỐNG TÌM KIẾM ẢNH DỰA TRÊN NỘI DUNG LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS NGUYỄN KIM ANH TS NGUYỄN THỊ OANH Hà Nội - năm 2013 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn thạc sĩ Công nghệ thông tin “Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung” cơng trình nghiên cứu thực cá nhân, thực sở nghiên cứu lý thuyết hướng dẫn khoa học PGS.TS Nguyễn Kim Anh TS Nguyễn Thị Oanh Các kết Luận văn tốt nghiệp trung thực, không chép tồn văn cơng trình khác Tơi xin chịu trách nhiệm lời cam đoan Hà Nội, ngày 18 tháng năm 2013 Học viên: Trần Thị Hải Yến Lớp : Cao học 10BCNTTHV 10-12 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung LỜI CẢM ƠN Để hồn thành chương trình cao học viết luận văn này, xin chân thành cảm ơn đến q thầy Viện Cơng nghệ thơng tin Truyền Thông, trường Đại học Bách Khoa Hà Nội tận tình dạy bảo tơi thời gian học Tôi xin gửi lời biết ơn sâu sắc đến PGS.TS Nguyễn Kim Anh TS Nguyễn Thị Oanh viện Công nghệ thông tin Truyền thông, trường Đại học Bách khoa Hà Nội, khuyến khích tận tình hướng dẫn tơi suốt q trình thực luận văn Nhờ quan tâm bảo ý kiến đóng góp q báu cơ, tơi hồn thành luận văn Tơi xin cảm ơn Ban giám hiệu đồng nghiệp trường Đại học Hùng Vương tạo điều kiện thời gian để tơi học tập hồn thành luận văn Cuối xin chân thành cảm ơn gia đình, người thân hết lịng giúp đỡ, hỗ trợ vật chất lẫn tinh thần giúp yên tâm học tập nghiên cứu suốt trình học tập thực luận văn Mặc dù tơi cố gắng để hồn thiện luận văn, nhiên chắn cịn nhiều thiếu sót, mong góp ý q báu q thầy bạn Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC THUẬT NGỮ, TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG MỞ ĐẦU Lý chọn đề tài 1.1 Mục đích, phạm vi nghiên cứu 1.2 Nội dung đề tài, vấn đề cần giải quyết: 1.3 Phương pháp nghiên cứu: 10 Cấu trúc luận văn 10 CHƯƠNG 1: TỔNG QUAN VỀ KỸ THUẬT TÌM KIẾM THƠNG TIN 11 1.1 Vấn đề tìm kiếm thông tin 11 1.2 Mộ số mơ hình tìm kiếm thông tin 12 1.2.1 Mơ hình Boolean 13 1.2.2 Mơ hình Boolean mở rộng (Advanced Boolean Model) 14 1.2.3 Mơ hình không gian vecto (VSM- Vector Space Model) 15 1.2.4 Mơ hình xác suất (Probability Model) 19 Tổng kết chương: 20 CHƯƠNG 2: 21 TỔNG QUAN VỀ TÌM KIẾM HÌNH ẢNH DỰA TRÊN NỘI DUNG 21 2.1 Giới thiệu[4] 21 2.2 Mô tả nội dung ảnh 22 2.3 Phương pháp biểu diễn ảnh (trích chọn đặc trưng) 22 2.3.1 Màu sắc (Color) 22 2.3.2 Kết cấu (Texture) 25 2.3.3 Hình dạng (Shape) 27 2.3.4 Đặc trưng cục 28 2.5 Đo tương tự lập mục 33 2.5.1 Đo tương tự / khoảng cách 33 2.5.2 Lập mục 35 2.6 Tương tác người dùng 35 2.6.1 Đặc điểm truy vấn 35 2.6.2 Phản hồi thích đáng (RF) 36 1.7 Đánh giá hiệu suất 36 Tổng kết chương: 37 CHƯƠNG 3: 38 ỨNG DỤNG KỸ THUẬT TÌM KIẾM VĂN BẢN TRONG 38 TÌM KIẾM ẢNH DỰA TRÊN NỘI DUNG 38 3.1 Biểu diễn văn 38 3.2 Mơ hình túi từ trực quan (bag of visual word) 38 3.3 Các khác biệt từ văn từ trực quan 40 3.3.1 Từ vựng 40 3.3.2 Ngữ nghĩa từ 41 3.3.3 Độ dài văn tần số từ văn 41 3.3.4.Các truy vấn 43 3.5 Ứng dụng mơ hình tìm kiếm thơng tin để tìm kiếm vật thể video 43 3.5.2 Xây dựng từ vựng hình ảnh 45 3.5.3 Lập mục hình ảnh sử dụng phương pháp tìm kiếm văn 46 3.5.4 Đánh giá thí nghiệm khớp cảnh sử dụng từ trực quan 47 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung 3.6 Dị tìm vật thể 48 3.6.1 Danh sách dừng (stop – list) 50 3.6.2 Ràng buộc không gian 52 3.6.3 Tìm kiếm vật thể 52 Tổng kết chương: 56 KẾT LUẬN 57 Các nội dung hoàn thành luận văn 57 Hạn chế luận văn 57 TÀI LIỆU THAM KHẢO 58 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung DANH MỤC CÁC THUẬT NGỮ, TỪ VIẾT TẮT STT Thuật Diễn giải ngữ Information Retrieval (Tìm kiếm thơng tin) IR CBIR Content based image tretrieval CCV Color coherence vector (Vecto liên kết màu) RF TF*IDF DoG Difference of Gaussian SIFT Scale-invariant feature transform BoW Bag of Words (Túi từ) Relevence Feedback (Phản hồi thích đáng) Term Frequency – Inverse Document Frequency Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung DANH MỤC CÁC HÌNH VẼ STT Hình vẽ Diễn giải Hình 1.1 Kiến trúc tổng thể hệ thống IR Hình 1.2 Các phương pháp tìm kiếm thơng tin Hình 2.1 Sơ đồ tìm kiếm ảnh dựa nội dung Hình 2.2 Khơng gian màu RGB Hình 2.3 Mơ hình màu CMY Hình 2.4 Minh họa bước giải thuật SIFT Hình 2.5 Q trình tính khơng gian đo (L) hàm sai khác DOG Hình 2.6 Quá trình tìm điểm cực trị hàm sai khác DOG Hình 2.7 Quá trình trích xuất keypoint 10 Hình 2.8 Biểu diễn vecto đặc trưng 11 Hình 3.1 Kiến trúc điển hình hệ thống tìm kiếm ảnh 12 Hình 3.2 Xây dựng vốn từ vựng hình ảnh 13 Hình 3.3 Mơ tả hình ảnh vecto tần số từ hình ảnh 14 Hình 3.4 Số vùng phát theo kích thước hình ảnh 15 Hình 3.5 Phát vùng khác ảnh kích thước 16 Hình 3.6 Một khu vực phát nhiền lần hình ảnh xe máy 17 Hình 3.7 Miêu tả điểm nhìn bất biến phân vùng MS SA 18 Hình 3.8 Mẫu từ cụm tương ứng với từ hình ảnh 19 Hình 3.9 Ground truth data 20 Hình 3.10 21 Hình 3.11 22 Hình 3.12 Thu điểm xếp hạng Khung 61 64 từ tập liệu Ground truth Tần số MS từ trực quan tất 3768 khung Run Rola Run Bước kết hợp Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung 23 Hình 3.13 Ví dụ truy vấn vật thể I 24 Hình 3.14 Ví dụ truy vấn đối tượng II Run Lola Run 25 Hình 3.15 Ví dụ truy vấn đối tượng III Groundhog Day Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung DANH MỤC CÁC BẢNG STT Diễn giải Bảng 1.1 Trọng số cục thuật ngữ t i văn d j Bảng 1.2 Trọng số toàn cục thuật ngữ ti Bảng 2.1 Tính trích xuất từ ma trận đồng xuất cấp độ màu xám Bảng 3.1 Trung bình phép đo xếp hạng tính từ 164 hình ảnh Ground truth cho phương pháp trọng số khác Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung MỞ ĐẦU Lý chọn đề tài Ngày nay, với bùng nổ ứng dụng Internet tăng nhanh sở liệu ảnh Với sở liệu lớn khơng thể sử dụng phương pháp thủ cơng để tìm kiếm ảnh Chính vậy, cần phải có phương pháp tổ chức sở liệu ảnh tốt với kỹ thuật tìm kiếm ảnh hiệu quả, có độ xác cao hiệu suất tốt Song song với phát triển phương tiện kỹ thuật số, tương lai, số lượng ảnh tăng nhanh nữa, nhiều Do đó, nhu cầu địi hỏi phải có cơng cụ hỗ trợ cho việc tìm kiếm trở nên cấp thiết “Tìm kiếm liệu ảnh dựa vào nội dung” gì? Mục đích lấy hình ảnh từ sở liệu phù hợp với tiêu chí truy vấn Hệ thống tìm kiếm ảnh sử dụng đặc trưng thị giác để tìm kiếm hình ảnh Chúng cho phép phân tích đối tượng, tự động trích chọn đặc trưng Tìm kiếm thơng tin lĩnh vực nghiên cứu phát triển từ lâu, việc tìm kiếm thơng tin văn (text) Do vậy, với kiểu liệu này, nhiều kỹ thuật tìm đánh giá hiệu Trong đó, liệu ảnh video tiếp cận muộn có đặc thù riêng Các kỹ thuật tìm kiếm ảnh xếp vào hai nhóm tìm kiếm dựa từ khóa (như Google Images) dựa nội dung (ví dụ: TinEye) Mặc dù tìm kiếm ảnh dựa nội dung thu hút nhiều nghiên cứu, việc xây dựng phương pháp tìm kiếm đánh số hiệu vấn đề khó khăn Một xu hướng quan tâm ứng dụng kỹ thuật phát triển tốt tìm kiếm thơng tin vào tìm kiếm liệu ảnh Do đó, đề tài “Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung” đưa để tìm hiểu, nghiên cứu 1.1 Mục đích, phạm vi nghiên cứu - Hiểu nguyên lý hoạt động hệ thống tìm kiếm ảnh dựa nội dung - Tìm hiểu ứng dụng kỹ thuật tìm kiếm thơng tin liệu truyền thống vào liệu ảnh Đánh giá đề xuất cải tiến 1.2 Nội dung đề tài, vấn đề cần giải quyết: Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung Mục đích: Tìm kiếm khung hình chủ chốt đoạn video chứa vật thể cụ thể cách dễ dàng, nhanh chóng xác Việc xác định vật thể (hay vùng đồng nhất) ngân hàng liệu hình ảnh vấn để khó vật thể khác biệt khác góc nhìn, độ sáng bị che khuất Cách phổ biến nhất: Vật thể thể tập vùng chồng lên nhau, vùng thể vecto tìm biểu diễn vùng Bộ miêu tả phân vùng xây dựng có kiểm sốt góc nhìn độ chiếu sáng Các miêu tả giống tính tốn cho tất hình ảnh sở liệu Tập hợp vecto thể tài liệu xếp file nghịch đảo nhằm tiến hành tìm kiếm cách hiệu Một file nghịch đảo bố cục danh mục sách lý tưởng Nó có mục lục cho từ tài liệu, theo sau danh sách tài liệu (và vị trí tài liệu) mà từ xuất Mặc dù nghiên cứu trước mượn ý tưởng tìm kiếm văn áp dụng tìm kiếm ảnh, lần ý tưởng áp dụng cho tìm kiếm vật thể video 3.5.1 Miêu tả điểm nhìn bất biến Có hai loại vùng điểm nhìn tính tốn cho khung hình Loại thứ xây dựng cách tạo hình elip quanh điểm quan tâm Phương pháp bao gồm việc xác định cách tương tác tâm, tỉ lệ hình dạng hình elip Loại vùng nhắc đến Shape Adapted -SA Loại thứ hai tạo cách lựa chọn vùng từ phân khúc hình ảnh Các vùng chọn vùng gần ổn định Loại vùng biết đến Maximally Stable - MS Hai loại vùng sử dụng chúng phát vùng ảnh khác biệt cung cấp miêu tả bổ sung khung hình Các vùng SA có xu hướng tập trung vào điểm góc cạnh, vùng MS tương ứng với điểm tương phản cao so với môi trường xung quanh Cả loại vùng thể hình elip Chúng tính tốn với diện tích gấp đơi diện tích vùng phát ban đầu giúp cho hình ảnh thêm rõ ràng Đối với khung video 720x576 pixel, số vùng tính vào khoảng 1600 vùng Một ví dụ thể hình 3.7 44 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung Hình 3.7 Miêu tả điểm nhìn bất biến phân vùng MS SA Hàng trên: Hai khung hình cho thấy cảnh từ góc nhìn khác máy ảnh (từ phim "Run Lola Run) Hàng giữa: Khung hình với việc phát khu vực bất biến affine Khu vực (MS) màu vàng, khu vực (SA) màu lục lam Hàng dưới: khu vực sau lập mục thống không gian Mỗi vùng elip bất biến thể véc tơ 128 chiều sử dụng miêu tả SIFT Khác với miêu tả khác, SIFT thiết kế để bất biến di chuyển vài pixel vị trí vùng Kết hợp miêu tả SIFT với vùng tạo véc tơ miêu tả vùng đồng với biến đổi đồng dạng hình ảnh Để giảm bớt nhiễu loại bỏ vùng bất ổn, thông tin tập hợp lại thành chuỗi Vùng không tồn giây loại bỏ 3.5.2 Xây dựng từ vựng hình ảnh Mục tiêu lượng tử hoá véc tơ miêu tả trở thành cụm coi từ trực quan tìm kiếm văn Khi khung hình phim quan sát, miêu tả khung hình cụm gần nhất, hình thành cặp so sánh cho tất khung hình suốt phim Bộ từ vựng xây dựng từ phần phim, độ xác việc so sánh khả biểu thị đánh giá phần lại phim 45 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung Việc lượng tử hoá véc tơ đảm nhiệm quy tắc phân cụm trung bình (Kmeans clustering) Hình 3.8 Mẫu từ cụm tương ứng với từ trực quan (a) Hai ví dụ cụm vùng Shape Adapted (b) Hai ví dụ cụm vùng Maximally Stable 3.5.3 Lập mục hình ảnh sử dụng phương pháp tìm kiếm văn Trong tìm kiếm văn bản, tài liệu thể vecto tần suất từ Tuy nhiên, thường thành phần vecto gán trọng số thay sử dụng trực tiếp vecto tần suất cho việc lập mục Quá trình trọng số chuẩn sử dụng, tương đồng tìm kiếm văn tìm kiếm khung hình Trọng số biết tới “Tần suất từ - tần số văn ngược” TF - IDF, tính sau Giả sử có từ vựng bao gồm k từ, tài liệu đươc thể vecto k hướng V d = (t , ,t i , t k ) T tần số từ gắn trọng số với thành phần ti = nid N log nd ni Với n id số lần xuất từ i tài liệu d, n d tổng số từ tài liệu d, n i số lần xuất từ i toàn sở liệu N số tài liệu có sở liệu Việc đánh giá mức độ quan trọng kết phần: tần xuất từ n id / n d tần xuất tài liệu đảo ngược Có thể nhận thấy tần xuất từ nhấn mạnh từ xuất thường xuyên tài liệu cụ thể, 46 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung miêu tả tốt hơn, tần xuất tài liệu đảo ngược làm giảm tầm quan trọng từ xuất thường xuyên sở liệu Ở mức độ tìm kiếm, tài liệu xếp hạng dựa theo tích vơ hướng (cơ-sin góc) vecto truy vấn V q tất véc tơ tài liệu V d sở liệu Trong trường hợp này, vecto truy vấn đưa từ trực quan chứa tập khung hình người dùng đưa khung khác xếp hạng dựa độ quen thuộc vecto khung vecto truy vấn 3.5.4 Đánh giá thí nghiệm khớp cảnh sử dụng từ trực quan Phương pháp đánh giá dựa 164 khung hình từ 48 hình chụp 19 địa điểm chiều khác phim Run Lola Run Có khoảng đến khung hình cho địa điểm Ví dụ: số địa điểm thể hình 3.9 (a) Có thay đổi lớn điểm ảnh ảnh đưa địa điểm Mỗi khung hình lấy từ ảnh khác (có chênh lệch thời gian) phim Trong thực nghiệm tìm kiếm, tồn khung sử dụng vùng truy vấn Hiệu suất tìm kiếm đo suốt 164 khung hình, sử dụng khung vùng truy vấn Việc tìm bao gồm tất khung hình khác thể địa điểm, “ground truth” xác định thủ công suốt 164 khung Hiệu suất tìm kiếm đo cách sử dụng “average normalized rank” hình liên quan Với N rel số hình liên quan với hình truy vấn, N kích cỡ sở liệu hình ảnh, R i thứ hạng hình liên quan thứ i tất Nrel hình ảnh trả Hàm xếp hạng cho kết chạy từ đến 1, với 0.5 thể tìm kiếm ngẫu nhiên Các kết từ hình ảnh “Ground truth” Hình 3.9 (b) thể “average normalized rank” sử dụng hình ảnh tập liệu hình ảnh truy vấn với phương pháp tf-idf Hiệu suất loại đặc trưng khác khung địa điểm khác Ví dụ, 47 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung khung 46-49 vùng MS thể tốt ngược lại, với khung 126-127 vùng SA chiếm ưu Việc xếp loại tìm kiếm tốt cho 17 tổng số 19 địa điểm, có thay đổi lớn điểm nhìn Kết xếp loại ấn tượng với hình 61-70 119-121, trường hợp việc so sánh hình khơng bị ảnh hưởng, ảnh hưởng tới thứ hạng hình Điều thiếu vùng phần bị lặp cảnh, xem hình 3.9 (c) Bảng 3.1 Trung bình phép đo xếp hạng tính từ 164 hình ảnh Ground truth cho phương pháp trọng số khác Bảng 3.1 thể giá trị trung bình phép tính tính từ tất 164 hình cho phương pháp đánh giá tìm kiếm văn tiêu chuẩn Phương pháp đánh giá tfidf vượt trội phương pháp đánh giá nhị phân (tức thành phần vecto hình ảnh chứa miêu tả, ko chứa) phương pháp đánh giá tần xuất từ (thành phần tần xuất xuất từ) Sự khác biệt không đáng kể cho xếp hạng trung bình tồn liệu ground truth Tuy nhiên, vài khung cụ thể (ví dụ khung 49) khác biệt lớn gần 0.1 Đường cong thu hồi xác cho tất khung thể hình 3.9(c) Với khung sử dụng làm câu hỏi, chúng tơi tính độ xác số ảnh liên quan (tức địa điểm tương tổng số khung hình tìm đươc, thu hồi số lượng khung tìm xác tương số khung liên quan Một lần nữa, ích lợi việc kết hợp loại khung rõ ràng Các kết tìm kiếm chứng tỏ khơng có thiếu hụt hiệu suất sử dụng lượng tử hoá vecto (các từ trực quan) so với láng giềng trực tiếp gần ghép cặp bất biến Bộ “ground truth” sử dụng để tìm hiểu thông số hệ thống bao gồm: số tâm nhóm; độ dài ngắn nét đặc trưng ổn định; cân đối miêu tả khơng ổn định để loại bỏ dựa tính tổng hợp chúng 3.6 Dị tìm vật thể 48 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung Trong phần đánh giá việc tìm kiếm vật thể thông suốt phim Vật thể ý tới xác định người dùng tập khung hình Một đoạn phim thường gồm 100000 -150000 khung hình Để giảm thiểu độ rắc rối, sử dụng khung cho giây đoạn video Bộ miêu tả tính tốn cho vùng ổn định khung giá trị trung bình tính cách sử dụng hai mặt khung Bộ miêu tả lượng tử hoá vecto cách sử dụng tâm nhóm từ “ground truth” 49 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung Hình 3.9 Dữ liệu Ground truth (a) Mỗi hàng cho thấy khung hình từ ba ảnh khác vị trí tập liệu ground truth (b) xếp hạng trung bình chuẩn hóa cho vị trí so khớp tập ground truth (c) đường cong trung bình Precision-recall cho vị trí so khớp tập ground truth Hình 3.10 Hàng đầu: Khung 61 64 từ tập liệu Ground truth Thu điểm xếp hạng Dưới cùng: phát khu vực bất biến affine Lưu ý rằng, điểm nhìn khác nhau, nên có hai số 564 (trái) khu vực 533 (phải) khu vực tương ứng khung hình Đánh giá tính biểu đạt từ vựng hình ảnh khung “ground truth” chứa vật thể cảnh mới, vùng dò chúng khơng có việc hình thành cụm 3.6.1 Danh sách dừng (stop – list) Sử dụng danh sách dừng để loại bớt từ hình ảnh thường gặp xuất tất hình ảnh 50 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung Hình 3.11.Tần số MS từ trực quan tất 3768 khung Run Rola Run (a) trước, (b) sau, ứng dụng stoplist Hình 3.11 thể tần xuất từ hình ảnh tồn khung Lola Danh sách dừng xác định xác để giảm thiểu số lượng cặp khơng trùng kích cỡ file nghịch đảo đồng thời giữ từ vựng hình ảnh đủ lớn Hình 3.12 Bước kết hợp 51 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung Hàng đầu: (trái) kết hợp vùng truy vấn (phải) cận cảnh Hàng thứ 2: So sánh từ nguyên Hàng thứ 3: Kết hợp sử dụng Stoplist Hàng cuối: Các kết hợp cuối sau lọc qn khơng gian Hình 3.12 thể ưu điểm việc sử dụng danh sách dừng – từ trực quan thường xuyên xuất nơi hình ảnh 3.6.2 Ràng buộc khơng gian Ràng buộc mặt khơng gian đo đơn giản cách yêu cầu cặp lân cận gần vùng truy vấn nằm khoảng biên khung tìm Nó đo nghiêm ngặt cách yêu cầu cặp lân cận có bố trí khơng gian vùng hỏi khung tìm Trong trường hợp này, vùng trùng lặp cung cấp ánh xạ affine hình ảnh truy vấn ảnh tìm nên lập đồ điểm tới điểm cho phương pháp đo nghiêm ngặt Một vùng tìm kiếm định nghĩa 15 vùng lân cận gần cặp, vùng trùng lặp tính phiếu cho khung Các cặp cịn lại loại bỏ Tổng số phiếu đinh thứ hạng khung Nó hoạt động tốt thể hàng cuối hình 3.12, thể việc loại bỏ ràng buộc cặp khơng Ví dụ việc tìm kiếm vật thể hình 3.13 đến hình 3.15 áp dụng phép xếp hạng thể đầy đủ tính hữu dụng Các phép đo khác tính đến việc lập đò ánh xạ affin hình ảnh u cầu số tình huống, nhiên cần phải tính tốn nhiều 3.6.3 Tìm kiếm vật thể Áp dụng – việc sử dụng file nghịch đảo: Trong cấu trúc file cổ điển, tất từ ngữ lưu trữ văn mà xuất Một cấu trúc file nghịch đảo có mục lục từ cho nơi xuất từ tất tài liệu lưu trữ file nghịch đảo có mục từ cho từ hình ảnh, nơi lưu trữ tất cặp trùng lặp, nghĩa xuất từ tất khung Vecto tài liệu thưa thớt việc sử dụng file nghịch đảo giúp cho việc tìm kiếm trở nên nhanh chóng Hỏi sở liệu gồm 4k khung khoảng 0.1 giây với hỗ trợ Matlab máy tính có cấu hình pentium 2GHz Câu hỏi mẫu: Hình 3.13 hình 3.14 thể kết câu hỏi vật thể phim “Run Lola Run”, hình 3.15 thể kết câu hỏi vật thể phim “Groundhog day” Cả phim chứa khoảng 4000 khung 52 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung Khung thực trả lại hai thứ hạng tốt – nói khơng có khung hình chứa vật thể bị bỏ sót (khơng có phủ định sai), khung xếp loại cao chứa vật thể (tính xác cao) Kết truy vấn vật thể chứng minh sức mạng biểu đạt từ vựng hình ảnh Các từ ngữ hình ảnh học cho Lola sử dụng không thay đổi cho việc tìm kiếm “Groundhog day” Loại bớt ảnh tìm kiếm văn cho kết tốt: kết cho vật thể cần tìm suốt sở liệu phim, có thay đổi lớn góc nhìn nhiều khung hình Vật thể rõ tập hình ảnh, điều chứng minh dị tìm vật rắn Vẫn cịn có cải tiến tạo nhằm khắc phục đề q tình phân tích hình ảnh Việc xếp hạng không đạt hiệu thiếu miêu tả cho loại số cảnh Tuy vậy, khung ảnh giúp vùng ánh xạ tồn thêm vào ( chúng định nghĩa từ vựng hình ảnh mở rộng) Một tiến khác để định nghĩa vật thể quan tâm khung hình đơn phép chúng tìm kiếm bề mặt Trong hệ thống tìm kiếm văn bản, từ vựng ngun văn ln thay đổi mà phát triển đồng thời tài liệu thêm vào sưu tập Tương tự, khơng thể nói lương tử hố véc tơ đồng cho hình ảnh Biết việc lượng tử hoá véc tơ cho phim, việc nâng cấp từ vựng hình ảnh cần phải tìm Cũng nghĩ đến việc thêm từ vựng hình ảnh cho loại cảnh khác (ví dụ thành phố hay rừng) 53 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung Hình 3.13.Ví dụ truy vấn đối tượng I Hàng 1: (trái) khung cảnh với vùng truy vấn quy định người dùng (1 áp phích) màu vàng (phải) cận cảnh vùng truy vấn Bốn hàng lại thể hiện: (trái) khung ảnh thứ 1,12, 16, 20 truy vấn với vùng quan tâm tô màu vàng (phải) cận cảnh hình ảnh với vùng elip phù hợp tìm thấy Trong trường hợp 20 khung ảnh tìm kiếm: từ số hình giống với hình ảnh truy vấn, phần cịn lại khác với khung hình Tất khung hình tìm kiếm có vật thể cụ thể Lưu ý: Áp phích xuất nhiều chỗ (Berlin) 54 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung Hình 3.14 Ví dụ truy vấn đối tượng II Run Lola Run Hàng (trái) vùng truy vấn (phải) cận cảnh Các hàng tiếp theo: Khung hình tìm thứ 9, 16 25 (trái) cận cảnh đối tượng (phải) với vùng phù hợp 33 khung hình tìm thấy 31 có đối tượng Hai khung hình xác xếp vị trí 29 30 55 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung Hình 3.15 Ví dụ truy vấn đối tượng III Groundhog Day Hàng (trái) vùng truy vấn (phải) cận cảnh Các hàng tiếp theo: Khung hình tìm thứ 12, 35 50 (trái) cận cảnh đối tượng với vùng phù hợp (phải) 73 khung hình tìm thấy 53 có bao gồm đối tượng Khung hình xếp vị trí 27 Tổng kết chương: Trong chương này,luận văn đề cập tới khác biệt từ văn từ trực quan (về từ vựng, ngữ nghĩa, truy vấn….) Tìm kiếm ảnh dựa nội dung tìm kiếm ảnh dựa từ khóa (được trình bày phần ứng dụng tìm kiếm thơng tin để tìm kiếm vật thể video) 56 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung KẾT LUẬN Các nội dung hoàn thành luận văn Sau hoàn thành luận văn này, thu số kết sau: - Hiểu nguyên lý hoạt động hệ thống tìm kiếm thơng tin, hiểu số kỹ thuật tìm kiếm thơng tin (mơ hình Boolean, mơ hình khơng gian vecto), khái niệm TFx IDF - Hiểu nguyên lý hoạt động hệ thống tìm kiếm ảnh dựa nội dung, hiểu số khái niệm: trích chọn đặc trưng ảnh dựa vào màu sắc, kết cấu, khái niệm biểu đồ màu (color histogram), đặc trưng cục bất biến SIFT - Các khác biệt từ văn từ trực quan, ứng dụng mơ hình vecto khơng gian vào tìm kiếm ảnh video Hạn chế luận văn Tìm kiếm ảnh dựa nội dung kiến thức tơi liên quan đến nhiều vấn đề phức tạp Việc nghiên cứu tổng hợp lý thuyết gặp nhiều khó khăn trình độ ngoại ngữ phần lực thân nên đóng góp mới, nghiên cứu chuyên sâu luận văn hạn chế Việc tổng hợp lý thuyết từ nhiều tài liệu nên luận văn nhiều phần mang tính giới thiệu Tuy có hướng dẫn tận tình PSG.TS Nguyễn Kim Anh TS Nguyễn Thị Oanh xong tìm hiểu kỹ thuật tìm kiếm thơng tin dừng lại mức độ tìm hiểu lý thuyết 57 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung TÀI LIỆU THAM KHẢO [1] ChengXiang Zhai (February 6, 2007), A Brief Review of Information Retrieval Modesl [2] David G.Lowe (January 5, 2004), Distinctive Image Features from ScaleInvariant Keypoints, Computer Science Department university of British Columbia Vancouver, B.C, Canada [3] Dr Fuhui Long, Dr Hongjiang Zhang and Prof David Dagan Feng, Fundamentals of content-base image retrieval [4] Ed Greengrass, (30 November 2000), Information Retrieval [5] Jason calemons, SIFT:Scale invariant feature transform by david lowe [6] John Eakins, Margaret Graham, Content – Based Image Retrieval, University of Northumbria at Newcastle [7] Josef Sivic and Andrew Zisserman, Video Google: A Text Retrieval Approach to Object Matching in Videos, Robotics Research Group, Department of Engineering Science University of Oxford, United Kingdom [8] Nhu Van Nguyen, Jean-Marc OGIER, Salvatore Tabbone and Alain BOUCHER (2009) Text Retrieval Relevance Feedback Techniques for Bag of Words in CBIR [9] Mrs Smita Jawale, Gabor Wavelet Transform And Co-occurrence Matrix Based Texture Features For CBIR, Vidyavardhini’s college of Engg.&Tech Vasai(W) 401201 [10] Pierre Tirilly, Vincent Claveau, Patrick, A review of weighting schemes for bag of visual words image retrieval [11] Yu Meng and Dr.Bernard Tiddeman(supervisor), Implementing the Scale Invariant Feature Transform (SIFT) method, Department of Computer Science University of St.Andrews [12] TS.Nguyễn Thị Oanh, Bài giảng mơn học: Tìm kiếm liệu đa phương tiện Bộ môn Hệ thống thông tin- Viện CNTT & TT Trường Đại học Bách khoa Hà Nội 58 ... 20 Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung CHƯƠNG 2: TỔNG QUAN VỀ TÌM KIẾM HÌNH ẢNH DỰA TRÊN NỘI DUNG 2.1 Giới thiệu[4] Tìm kiếm ảnh dựa vào nội dung kĩ thuật. . .Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống tìm kiếm ảnh dựa nội dung LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn thạc sĩ Cơng nghệ thơng tin ? ?Ứng dụng kỹ thuật tìm kiếm thơng tin vào hệ thống. .. tin vào hệ thống tìm kiếm ảnh dựa nội dung CHƯƠNG 3: ỨNG DỤNG KỸ THUẬT TÌM KIẾM VĂN BẢN TRONG TÌM KIẾM ẢNH DỰA TRÊN NỘI DUNG 3.1 Biểu diễn văn Các hệ thống tìm kiếm văn nhìn chung sử dụng bước