Bố cục của Đồ án này được chia làm 3 chương: Chương 1 - Các khái niệm cơ bản về tra cứu ảnh dựa trên nội dung; chương 2 - Tra cứu ảnh dựa trên nội dung với phản hồi liên quan; chương 3 - Áp dụng cài đặt thử nghiệm. Mời các bạn cùng tham khảo!
Đồ án tốt nghiệp Trường ĐHDL Hải Phòng MỤC LỤC MỤC LỤC DANH MỤC HÌNH VẼ DANH SÁCH CÁC TỪ VIẾT TẮT LỜI CẢM ƠN MỞ ĐẦU CHƢƠNG 1: CÁC KHÁI NIỆM CƠ BẢN VỀ TRA CỨU ẢNH DỰA TRÊN NỘI DUNG 1.1 Giới thiệu 1.2 Những thành phần hệ thống tra cứu ảnh dựa nội dung 1.2.1 Trích chọn đặc trưng (Features Extraction): 1.2.2 Đánh số (Indexing): 11 1.2.3 Giao diện truy vấn (Query Interface): 12 1.3 Khoảng cách ngữ nghĩa tra cứu ảnh dựa nội dung 12 1.4 Các phương pháp làm giảm khoảng cách ngữ nghĩa 13 1.4.1 Kỹ thuật thể đối tượng 14 1.4.2 Kỹ thuật máy học 16 1.4.3 Kỹ thuật phản hồi liên quan 22 1.4.4 Mẫu ngữ nghĩa 23 1.4.5 Tra cứu ảnh web 25 1.5 Các lĩnh vực ứng dụng tra cứu ảnh dựa nội dung 27 CHƢƠNG 2: TRA CỨU ẢNH DỰA TRÊN NỘI DUNG VỚI PHẢN HỒI LIÊN QUAN 28 2.1 Giới thiệu phương pháp phản hồi liên quan 28 2.2 Kiến trúc tổng quan hệ thống 29 2.2.1 Trích chọn đặc trưng 30 2.2.2 Đo độ tương tự 31 2.2.3 Phản hồi từ người dùng 32 2.3 Các phương pháp phản hồi liên quan 32 2.3.1 Kỹ thuật cập nhật truy vấn 32 Trương Thanh Tùng - CT1401 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng 2.3.2 Những kỹ thuật học thống kê 33 2.4 Những thách thức phản hồi liên quan 35 2.5 CBIR với phản hồi liên quan sử dụng SVM 36 2.5.1 Support Vector Machine 36 2.5.2 Phản hồi bị động học chủ động 37 CHƢƠNG 3: ÁP DỤNG CÀI ĐẶT THỬ NGHIỆM 38 3.1 Cài đặt 38 3.1.1 Cơ sở liệu 38 3.1.2 Trích chọn đặc trưng đối sánh 38 3.2 Các chức chương trình 38 3.2.1 Mở ảnh truy vấn 38 3.2.2 Tra cứu ảnh 38 3.2.3 Phản hồi liên quan 39 3.3 Kết thử nghiệm 40 3.3.1 Giao diện chương trình 40 3.3.2 Một số kết thử nghiệm 41 3.4 Một số nhận xét chương trình 44 KẾT LUẬN 45 TÀI LIỆU THAM KHẢO 46 Trương Thanh Tùng - CT1401 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng DANH MỤC HÌNH VẼ Hình 1-1: Kiến trúc tổng quan hệ thống tra cứu ảnh Hình 1-2: Sơ đồ minh họa thể đối tượng 15 Hình 1-3: Sơ đồ mơ tả kỹ thuật SVM 17 Hình 1-4: Lược đồ mơ tả phương pháp “CLUE” 20 Hình 1-5: Sơ đồ mô tả phương pháp RF 23 Hình 1-6: Hệ thống tra cứu ảnh Worldnet sử dụng Semantic template 25 Hình 2-1: Kiến trúc hệ thống tra cứu ảnh dựa nội dung với phản hồi liên quan 30 Hình 3-1: Giao diện chương trình 40 Hình 3-2: Người dùng chọn ảnh truy vấn 41 Hình 3-3: Kết tra cứu ban đầu 41 Hình 3-4: Người dùng chọn ảnh liên quan lần 42 Hình 3-5: Kết sau vòng lặp phản hồi thứ 42 Hình 3-6: Kết sau vòng lặp phản hồi thứ hai 43 Hình 3-7: Người dùng chọn ảnh liên quan lần 43 Hình 3-8: Kết sau vịng lặp phản hồi thứ ba 44 Trương Thanh Tùng - CT1401 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng DANH SÁCH CÁC TỪ VIẾT TẮT STT Từ viết tắt Mô tả APC Affinity Propagation Clustering ARE Augmented Relation Embedding CBIR Content-Based Image Retrieval CNS Color Naming System CRT Composite Region Template FSVM Fuzzy Support Vector Machine HSL Hue-Saturation-Luminance KL Karhunen-Loeve LGRM Local and Global Regressive Mapping 10 LPC Locality Preserving Clustering 11 MRBIR Manifold-Ranking Based Image Retrieval 12 MSRA Microsoft Research Asia 13 NCut Normalized Cut 14 PCA Principal Component Analysis 15 RF Relevance Feedback 16 RGB Red-Green-Blue 17 ST Semantic Template 18 SVM Support Vector Machine 19 SVT Semantic Visual Template Trương Thanh Tùng - CT1401 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng LỜI CẢM ƠN Em xin chân thành cảm ơn Thầy giáo, Thạc sĩ Ngô Trường Giang, người hướng dẫn tận tình bảo em nhiều suốt trình tìm hiểu nghiên cứu hồn thành đồ án từ lý thuyết đến ứng dụng Sự hướng dẫn thầy giúp em có thêm kiến thức lập trình kiến thức lĩnh vực xử lý ảnh Đồng thời, em xin chân thành cám ơn thầy cô khoa Công nghệ thông tin – Trường Đại Học Dân Lập Hải Phịng, thầy trường trang bị cho em kiến thức cần thiết suốt thời gian học tập trường để em hoàn thành tốt đồ án Em xin chân thành cảm ơn GS.TS.NGƯT Trần Hữu Nghị, Hiệu trưởng Trường Đại học Dân Lập Hải Phòng, ban giám hiệu nhà trường, khoa Công nghệ thông tin, phòng ban nhà trường tạo điều kiện tốt suốt thời gian em học tập làm tốt nghiệp Trong trình học suốt thời gian làm đồ án tốt nghiệp không tránh khỏi thiếu sót, em mong góp ý quý báu thầy cô tất bạn để kết em hoàn thiện Sau cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè tạo điều kiện để em xây dựng thành công đồ án Em xin chân thành cảm ơn! Hải Phòng, ngày tháng 12 năm 2014 Sinh viên thực Trương Thanh Tùng Trương Thanh Tùng - CT1401 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng MỞ ĐẦU Từ mạng internet tồn cầu hoá kéo theo mở rộng nội dung đa phương tiện như: ảnh, âm nhạc, video, v.v…, khiến cho nhu cầu chia sẻ tìm kiếm loại tài nguyên tăng theo cách nhanh chóng Và số tài nguyên phải kể đến liệu hình ảnh Mỗi người tìm kiếm hình ảnh theo mục đích khác nhau, lại người dùng muốn tìm kiếm thơng tin kèm theo hình ảnh mà họ cần số khác lại tìm kiếm hình ảnh để xác nhận tính xác thơng tin họ nhận Các liệu hình ảnh phục vụ cho nhiều lĩnh vực quan trọng sống hệ thống bảo mật, an ninh, y tế, hay hệ thống phát chuyển động … Vì việc nghiên cứu phát triển hệ thống tra cứu ảnh ngày trở nên cấp thiết Đồ án trình bày kỹ thuật phản hồi liên quan ứng dụng tra cứu ảnh dựa nội dung để thu hẹp khoảng cách ngữ nghĩa, cải thiện hiệu tra cứu Báo cáo chia làm chương: Chƣơng 1: Các khái niệm tra cứu ảnh dựa nội dung Giới thiệu khái niệm hệ thống tra cứu ảnh dựa nội dung thành phần Chƣơng 2: Tra cứu ảnh dựa nội dung với phản hồi liên quan Giới thiệu phương pháp phản hồi liên quan máy học SVM Chƣơng 3: Áp dụng cài đặt thử nghiệm Cài đặt chương trình thử nghiệm dựa lý thuyết từ chương chương Trương Thanh Tùng - CT1401 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng CHƢƠNG 1: CÁC KHÁI NIỆM CƠ BẢN VỀ TRA CỨU ẢNH DỰA TRÊN NỘI DUNG 1.1 Giới thiệu Trong thời đại bùng nổ tìm kiếm thơng tin nay, ngồi việc tìm kiếm văn nội dung việc tìm kiếm ảnh có xu hướng trở nên phổ biến Với nguồn tài nguyên ảnh vơ to lớn mạng internet, việc tìm kiếm xác ảnh với u cầu người dùng khó khả thi Chúng ta khó tìm kiếm ảnh theo cách thơng thường, có nghĩa việc tìm kiếm thực ảnh tìm thấy ảnh có nội dung cần tìm Với lại nguồn tài nguyên ảnh mạng internet ngày nhiều theo phát triển công nghệ số tương lai Do đó, nhu cầu thật địi hỏi phải có cơng cụ hỗ trợ cho việc tìm kiếm ảnh sớm tốt Có hai kiểu tìm kiếm liệu ảnh tìm kiếm theo từ khố tìm kiếm theo nội dung ảnh Tìm kiếm theo từ khố dễ thoả mãn nhu cầu người dùng với nhu cầu tìm kiếm hình ảnh theo mong muốn thân họ Và thêm nữa, tìm kiếm theo từ khố nhanh tìm kiếm theo nội dung hoạt động việc phân tích so sánh từ cụm từ tương ứng với để đưa kết Kiểu liệu dạng văn bản, từ ngữ kết đưa nhanh chóng, khơng địi hỏi người dùng phải có ảnh mẫu Tuy nhiên, phương pháp có nhược điểm kết hình ảnh khơng phải lúc xác so với mong muốn người dùng Và phù hợp với việc đáp ứng nhu cầu người dùng thông qua mô tả từ ngữ Để khắc phục nhược điểm tìm kiếm theo từ khố, phương pháp khác đời tìm kiếm ảnh theo nội dung Ý tưởng phương pháp tạo mô tả ảnh cách tự động trực tiếp từ nội dung ảnh phân tích nội dung ảnh mà khơng có can thiệp thủ cơng Ưu điểm phương pháp so với phương pháp dựa từ khóa việc trích chọn đặc trưng thực cách tự động nội dung ảnh ln ln qn Trong thực tế, người có xu hướng sử dụng đặc trưng mức cao (khái niệm), chẳng hạn từ khóa, mơ tả văn để giải thích hình ảnh đo độ tương tự chúng Trong đặc trưng trích chọn cách tự động cách sử dụng kỹ thuật thị giác máy chủ yếu đặc trưng mức thấp (màu sắc, kết cấu, hình dạng, vị trí khơng gian…) Mặc dù nhiều thuật tốn phức tạp thiết kế để mơ tả màu sắc, hình dáng đặc trưng kết cấu thuật toán phản ánh thỏa đáng ngữ nghĩa ảnh Trương Thanh Tùng - CT1401 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng Do vậy, khoảng cách ngữ nghĩa đặc trưng mức thấp khái niệm mức cao lớn nên hiệu suất CBIR xa với mong đợi người dùng Để thu hẹp khoảng cách ngữ nghĩa, phản hồi liên quan (RF) xem công cụ hiệu để cải thiện hiệu hệ thống CBIR Nói chung, RF nhằm mục đích cải thiện hiệu tra cứu thông qua việc học điều chỉnh người dùng kết tra cứu Theo cách này, hệ thống cần phải thực thông qua số vòng lặp Trong vòng lặp, hệ thống trả lại danh sách ngắn ảnh tương tự với ảnh truy vấn dựa khoảng cách Euclidean Sau đó, ảnh đưa cho người sử dụng gán nhãn liên quan không liên quan với ảnh truy vấn Sử dụng ảnh gán nhãn hạt giống, kỹ thuật học máy áp dụng để xây dựng mơ hình phân lớp tất ảnh sở liệu thành hai lớp liên quan không liên quan với ảnh truy vấn Hàm phân lớp sau sử dụng hàm xếp hạng để đo độ liên quan ảnh sở liệu 1.2 Những thành phần hệ thống tra cứu ảnh dựa nội dung Một hệ thống tra cứu ảnh địi hỏi thành phần hình 1-1 [5] Hình 1-1: Kiến trúc tổng quan hệ thống tra cứu ảnh Trong có ba thành phần quan trọng tra cứu ảnh dựa nội dung: Trích chọn đặc trưng, đánh số giao diện truy vấn cho người dùng Trương Thanh Tùng - CT1401 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng 1.2.1 Trích chọn đặc trƣng (Features Extraction): Các đặc trưng ảnh bao gồm đặc tính đặc tính ngữ nghĩa/logic Các đặc tính là: màu sắc (color), hình dạng (shape), kết cấu (texture), vị trí khơng gian (spatial location) Chúng trích xuất tự động bán tự động Đặc tính logic cung cấp mô tả trừu tượng liệu hình ảnh cấp độ khác Thơng thường, đặc tính logic chiết xuất tay bán tự động Một nhiều đặc trưng sử dụng ứng dụng cụ thể 1.2.1.1 Đặc trƣng màu sắc (color): Đặc trưng màu sắc đặc tính sử dụng phổ biến tra cứu ảnh Màu sắc định nghĩa không gian màu lựa chọn Sự đa dạng không gian màu có sẵn, chúng thường dùng cho ứng dụng khác Không gian màu thể gần gũi với nhận thức người sử dụng rộng rãi RGB, LAB, HSV, … Đặc trưng màu sắc phổ biến mô tả hệ thống CBIR bao gồm: ma trận hiệp biến màu, biểu đồ màu, moment màu, véc-tơ kết hợp màu [5] Vào năm 1999, Gevers cộng quan tâm đến đối tượng lấy từ điểm quan sát khác chiếu sáng Theo kết quả, tập điểm bất biến đặc trưng màu tính tốn Các bất biến màu xây dựng sở “hue”, “cặp hue-hue”, ba đặc trưng màu tính tốn từ mơ hình đối xứng Việc lựa chọn đặc trưng màu phụ thuộc vào kết phân đoạn Ví dụ, việc phân đoạn cung cấp đối tượng mà khơng có màu đồng nhất, rõ ràng màu trung bình khơng phải lựa chọn tốt Với ứng dụng đặc biệt sở liệu khn mặt người, miền tri thức khai thác để gán trọng số cho điểm ảnh việc tính tốn vùng màu 1.2.1.2 Đặc trƣng kết cấu (texture): Kết cấu không định nghĩa đầy đủ đặc trưng màu sắc, mà số hệ thống khơng sử dụng đặc trưng kết cấu Tuy nhiên, kết cấu cung cấp thông tin quan trọng việc phân loại ảnh, mơ tả nội dung nhiều ảnh thực là: vỏ trái cây, mây, cây, gạch, vải Do đó, kết cấu tính quan trọng việc định nghĩa ngữ nghĩa mức cao cho mục đích tra cứu ảnh [5] Các đặc trưng kết cấu thường sử dụng hệ thống tra cứu ảnh bao gồm đặc trưng phổ, chẳng hạn đặc trưng bao gồm sử dụng lọc Gabor biến đổi wavelet, thống kê đặc trưng kết cấu cách đo độ thống kê cục bộ, sáu đặc trưng kết cấu Tamura, đặc trưng wold đề xuất Liu cộng vào năm 1996 Trương Thanh Tùng - CT1401 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng 1.2.1.3 Đặc trƣng dựa hình dạng (shape): Hình dạng khái niệm định nghĩa tốt Đặc trưng hình dạng ứng dụng nói chung bao gồm: tỷ lệ aspect, tuần hồn, mơ tả Fourier, bất biến thời điểm, phân đoạn đường bao liên tiếp, … Đặc trưng hình dạng đặc trưng ảnh quan trọng, chúng chưa sử dụng rộng rãi CBIR đặc trưng màu đặc trưng kết cấu [5] Đặc trưng hình dạng thể tính hữu ích nhiều miền ảnh đặc biệt đối tượng nhân tạo Đối với ảnh màu sử dụng hầu hết loại giấy tờ, nhiên, lại khó khăn để áp dụng đặc trưng hình dạng so với màu sắc kết cấu thiếu xác phân đoạn Mặc dù gặp khó khăn, đặc trưng hình dạng sử dụng số hệ thống cho thấy tiềm có ích cho CBIR Ví dụ, vào năm 2003, Mezaris cộng sử dụng đặc trưng hình dạng đơn giản chẳng hạn như: độ lệch tâm định hướng Một hệ thống mà Wang cộng vào năm 1999 sử dụng tiêu chuẩn hố qn tính thứ tự từ 1-3 để mơ tả hình dạng khu vực 1.2.1.4 Đặc trƣng không gian (spatial location): Các vùng đối tượng với thuộc tính màu sắc kết cấu tương tự nhận cách dễ dàng ràng buộc khơng gian [5] Ví dụ, vùng có bầu trời biển màu xanh có biểu đồ màu tương tự, lại có vị trí khơng gian ảnh khác Vì thế, vị trí khơng gian vùng (hoặc đối tượng) mối liên hệ không gian nhiều vùng ảnh hữu dụng cho việc tra cứu ảnh Một biểu diễn mối liên hệ không gian sử dụng rộng rãi “2D strings” Chang cộng đưa vào năm 1987 Kỹ thuật xây dựng cách chiếu ảnh theo trục x y Cho hai tập ký hiệu V A, định nghĩa phép chiếu Cứ ký hiệu V biểu diễn đối tượng ảnh Còn ký hiệu A biểu diễn loại liên hệ không gian đối tượng Nếu chúng khác nhau, kỹ thuật “2D G-string” cắt tất đối tượng dọc theo đường bao hộp nhỏ mở rộng mối liên hệ không gian vào hai tập tốn tử khơng gian Một tập tốn tử định nghĩa mối liên hệ khơng gian cục Và tập cịn lại định nghĩa mối liên hệ khơng gian tồn cục, phép chiếu hai đối tượng tách ra, nối liền xác định vị trí Ngồi ra, kỹ thuật “2D C-string” đề xuất Lee cộng vào năm 1990 để cực tiểu số đối tượng cắt Còn kỹ thuật “2D B-string” lại giới thiệu vào năm 1992 Yang cộng Kỹ thuật biểu diễn đối tượng hai ký hiệu, thay cho việc mở đầu kết thúc đường bao đối tượng Trương Thanh Tùng - CT1401 10 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng metric khác như: Manhattan, weighted mean-variance, Euclidean, Chebychev, Mahanobis, v.v… khoảng cách cho tra cứu kết cấu ảnh với đánh giá thực nghiệm Họ nhận thấy số liệu khoảng cách Canberra and Bray-Curtis thực tốt số liệu khoảng cách khác 2.2.3 Phản hồi từ ngƣời dùng Sau có kết tra cứu, người dùng cung cấp phản hồi kết liên quan không liên quan Nếu kết khơng liên quan vịng lặp phản hồi lặp lại nhiều lần người dùng hài lòng 2.3 Các phƣơng pháp phản hồi liên quan Trong hệ thống CBIR với phản hồi liên quan, người dùng đóng vai trị quan trọng Các thơng tin phản hồi xác từ người dùng góp phần làm tăng đáng kể hiệu hệ thống tra cứu Do vậy, nhà nghiên cứu tập trung áp dụng kỹ thuật học máy phản hồi người dùng để cải thiện hiệu tra cứu Kỹ thuật cập nhật truy vấn kỹ thuật học thống kê kỹ thuật sử dụng phổ biến hệ thống CBIR với phản hồi liên quan 2.3.1 Kỹ thuật cập nhật truy vấn Kỹ thuật cập nhật truy vấn cải thiện việc biểu diễn truy vấn cách sử dụng thông tin gắn nhãn chủ quan người dùng Các ví dụ kỹ thuật cập nhật truy vấn bao gồm cập nhật trọng số truy vấn di chuyển truy vấn, mở rộng truy vấn Cập nhật trọng số truy vấn làm thay đổi trọng số tương đối đặc trưng khác biểu diễn truy vấn Kỹ thuật cập nhật véc-tơ trọng số cho phép hệ thống học giải thích người dùng hàm khoảng cách Ý tưởng trung tâm đằng sau phương pháp cập nhật trọng số đơn giản trực quan Mỗi ảnh đại diện véc-tơ đặc trưng N chiều Nó xem điểm không gian N chiều Các chiều đặc trưng quan trọng để giúp tra cứu ảnh liên quan nâng cấp tầm quan trọng chiều khác mà cản trở tiến trình bị giảm tầm quan trọng Vào năm 2004, Kushki cộng sử dụng kỹ thuật cập nhật trọng số để học ánh xạ tối ưu đặc trưng trực quan mức thấp khái niệm ngữ nghĩa mức cao ảnh Kỹ thuật hoạt động cách tinh chỉnh trọng số (hoặc quan trọng) thành phần đặc trưng cách thay đổi đo độ tương tự cách tương ứng Cũng năm 2004, Muneesawang cộng áp dụng kỹ thuật di chuyển truy vấn phép người dùng thay đổi trực tiếp đặc trưng ảnh truy vấn cách định Trương Thanh Tùng - CT1401 32 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng thuộc tính ảnh liên quan khơng liên quan đánh dấu người dùng Có nghĩa là, đặc trưng nội dung ảnh truy vấn thay đổi theo hướng biểu diễn ngữ nghĩa xác cung cấp người dùng suốt trình tra cứu Vào năm 2005, Widyantoro cộng áp dụng kỹ thuật mở rộng truy vấn để thêm vào tập ảnh liên quan mà không gắn nhãn người dùng để bù đắp cho thiếu hụt ảnh gắn nhãn người dùng giúp hệ thống nắm bắt ý nghĩa ảnh truy vấn cách xác 2.3.2 Những kỹ thuật học thống kê Kỹ thuật học thống kê cải thiện giới hạn phân loại ảnh liên quan không liên quan dự đoán ảnh liên quan mà chưa gắn nhãn suốt q trình huấn luyện Các ví dụ kỹ thuật học thống kê bao gồm học quy nạp học chuyển đổi Học quy nạp định nghĩa trình tiếp thu tri thức cách vẽ suy luận quy nạp từ giáo viên môi trường cung cấp kiện Đây trình liên quan đến hoạt động khái quát, biến đổi, hiệu chỉnh, tinh chỉnh biểu diễn tri thức Phương pháp học quy nạp áp dụng hệ thống CBIR nhằm tạo phân lớp khác để phân tách thành ảnh có liên quan (mẫu dương) khơng có liên quan (mẫu âm), khái quát tốt ảnh chưa gán nhãn Ở đây, ảnh có liên quan khơng có liên quan nhãn ảnh tra cứu dương âm cách tương ứng người dùng suốt phiên tra cứu Các kỹ thuật học quy nạp điển hình bao gồm Mạng neural, Học định, học Bayesian, Boosting, support vector machine (SVM), học SVM mờ (FSVM) Vào năm 2000, MacArthur cộng sử dụng định ứng dụng CBIR Các ảnh liên quan không liên quan đánh dấu người dùng sử dụng để phân chia không gian đặc trưng tất ví dụ phân vùng lớp Năm 2003, Su cộng cung cấp phản hồi liên quan không liên quan từ người dùng vào Phân loại Bayesian Những ảnh liên quan sử dụng để ước lượng phân bố Gaussian Phân bố dùng để biểu diễn ảnh mà người dùng mong muốn ảnh khơng liên quan lại sử dụng để duyệt lại việc xếp hạng ứng cử tra cứu Năm 2001, Tong cộng đề xuất hệ thống CBIR với trợ giúp SVM để học đường bao thích hợp sử dụng mẫu liên quan không liên quan thu thập từ vịng lặp tra cứu trước Đường bao sau sử dụng để phân tách ảnh sở liệu thành hai phân vùng liên quan không liên quan Năm 2006, Wu cộng áp dụng FSVM để học đường bao định để Trương Thanh Tùng - CT1401 33 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng phân tách ảnh huấn luyện dương âm dựa trọng số mờ tương ứng Đường bao định sau dùng để phân chia sở liệu ảnh thành ảnh liên quan không liên quan Những ảnh liên quan với khoảng cách lớn tới đường bao định coi ảnh tương tự với ảnh truy vấn Năm 2004, Tieu cộng đề xuất hệ thống CBIR mà sử dụng kỹ thuật học “boosting” để sinh số lượng lớn đặc trưng chọn lọc cao cho việc nắm bắt nhiều dạng khái niệm trực quan ảnh Một loạt phương pháp học yếu dựa số lượng nhỏ đặc trưng huấn luyện suốt thời gian truy vấn Bằng việc kết hợp phân loại yếu, hệ thống cuối thu phân loại mạnh có độ tương quan tốt với phân lớp lý tưởng Kỹ thuật học truyền dẫn khai thác mối liên quan tất ảnh sở liệu không gian đặc trưng lan truyền độ xếp hạng ảnh gắn nhãn với ảnh chưa gắn nhãn thông qua đồ thị trọng số Bằng cách này, thơng tin tồn sở liệu sử dụng cách hiệu để tạo thuận lợi cho việc học tương lai Năm 2004, He cộng đề xuất thuật toán Tra cứu ảnh dựa xếp hạng Đa tạp (MRBIR) để biểu diễn ảnh mối liên kết chúng đồ thị Hệ thống lan truyền thông tin ảnh gán nhãn thông qua cấu trúc đồ thị sở liệu ảnh khai thác phân bố ảnh chưa gắn nhãn để cải thiện độ xác tra cứu Năm 2008, Wang cộng áp dụng thuật toán phân cụm lan truyền (APC) làm giảm đa dạng đồ thị bảo tồn cấu trúc đa dạng Đồ thị làm lu mờ ảnh hưởng ảnh nhiễu làm bật ảnh hưởng ảnh tin cậy Tuy nhiên, hiệu tra cứu bị suy giảm cụm khơng giống với khái niệm ngữ nghĩa Năm 2007, Lin cộng đề xuất phương pháp Augmented Relation Embedding-ARE để biến đổi không gian ảnh vào ngữ nghĩa đa tạp Bằng việc áp dụng cấu trúc đa tạp ngữ nghĩa này, hệ thống thu sở thích truy vấn người dùng Trong đó, biểu diễn ảnh dựa đặc trưng tăng cường triển khai để thích ứng với phương pháp học ARE Năm 2013, Wan cộng đề xuất phân chia sở liệu ảnh thành khối có kích cỡ nhau, sau áp dụng thuật tốn MRBIR khối Điểm số tra cứu ảnh hợp điểm số xếp hạng tất khối ảnh Cũng vào năm 2013, Liu cộng đề xuất hệ thống xếp hạng đa tạp “Bidirectional-Isomorphic Manifold Learning” để thu nhiều biểu diễn ngữ nghĩa từ ảnh web để khắc phục biểu diễn nội dung ngữ nghĩa thiếu xác nhiễu thơng tin dư thừa khía cạnh văn trực quan Phương Trương Thanh Tùng - CT1401 34 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng pháp tối ưu đặc trưng trực quan không gian văn điều chỉnh hợp hai không gian với cấu trúc tô-pô gọi ánh xạ đa tạp đảo ngược Hệ thống kết hợp thích ảnh phân tích tương quan từ khố để tăng độ xác tra cứu cuối Năm 2012, Han cộng đưa framework phân lớp ảnh sử dụng ánh xạ đệ quy cục toàn cục (Local and Global Regressive MappingLGRM) học đa tạp để học liệu đầu vào hàm ánh xạ liệu mẫu đầu thời điểm Cuối cùng, dự đoán nhãn lớp cho ảnh đưa vào kiểm tra cách áp dụng phân lớp có giám sát đa tạp chiều học Năm 1995, Xu cộng đề xuất chiếu xếp hạng đa tạp thông thường vào framework tối ưu phân tán Bregman cách sử dụng ma trận kernel tối ưu tương đương Dựa phát biểu họ, hai phương pháp “hiệu quả” “hiệu mở rộng” gọi DMRE DMRC tạo để tăng độ xác tra cứu rút ngắn thời gian tính tốn Tất phương pháp học chuyển đổi đạt độ tra cứu xác tốt bước lặp Tuy nhiên, phương pháp không áp dụng lịch sử thông tin RF tích luỹ người dùng để cải thiện đồ thị đa tạp Phương pháp chạy máy tính mà số lượng ảnh sở liệu đạt đến mức độ định sử dụng số ma trận vuông lớn Hơn nữa, tất kỹ thuật học ngắn hạn nắm bắt ý nghĩa ngữ nghĩa ảnh khơng thể đạt kết tra cứu thoả đáng Và kỹ thuật ghi nhớ lịch sử phản hồi người dùng khơng thể sử dụng thơng tin tra cứu tương lai 2.4 Những thách thức phản hồi liên quan Kỹ thuật Phản hồi liên quan đạt nhiều tiến vượt bậc từ giới thiệu vào năm 2007 Liu cộng Các phương pháp đưa để khắc phục nhược điểm tồn Tuy nhiên, với nhược điểm nguyên thủy kỹ thuật phản hồi liên quan CBIR đến phải nhà khoa học nghiên cứu thêm Các hạn chế phản hồi liên quan hệ thống CBIR sau: Khơng thể trích chọn ngữ nghĩa mức cao: Hầu hết kỹ thuật RF CBIR khó để trích chọn ngữ nghĩa mức cao ảnh có đặc trưng mức thấp sử dụng RF Tuy nhiên, cách hoạt động tốt việc Trương Thanh Tùng - CT1401 35 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng tra cứu thơng tin văn Bởi vì, việc tra cứu dựa từ khố khơng phải đặc trưng mức thấp Sự khan cân mẫu phản hồi: Mỗi người dùng không muốn thao tác nhiều số lần lặp phản hồi để có kết tốt Vì vậy, số lượng mẫu phản hồi gắn nhãn có từ người dùng phiên RF nhỏ so với chiều khơng gian đặc trưng Do đó, liệu huấn luyện nhỏ hầu hết thuật tốn máy học khơng thể cho kết xác Thêm là, số lượng mẫu âm có nhãn thường lớn số lượng mẫu dương có nhãn Các liệu huấn luyện cân đối luôn làm cho việc học phân lớp đáng tin cậy Vì thế, mẫu liệu huấn luyện nhỏ mà đặc biệt mẫu dương hiển nhiên làm giảm độ xác RF Xử lý thời gian thực: Quá trình học RF trực tuyến vịng lặp phản hồi bao gồm huấn luyện kiểm tra phải thực Vì mà hệ thống tốn nhiều thời gian để xử lý Có cách hợp lý để giải vấn đề sử dụng phương pháp biểu diễn ảnh cấu trúc lưu trữ cấu trúc phân cấp, v.v… 2.5 CBIR với phản hồi liên quan sử dụng SVM 2.5.1 Support Vector Machine SVM giới thiệu Vapnik vào cuối năm 90 đến quan tâm cộng đồng nghiên cứu học máy [6] Với tảng lý thuyết mạnh mẽ chặt chẽ, sử dụng cho nhiều ứng dụng phương pháp học mẫu nhỏ phổ biến có hiệu tốt cho tốn phân loại mẫu Giả sử có tập n mẫu gán nhãn biểu diễn ảnh không gian d chiều SVM tìm siêu phẳng , với nhãn Ý tưởng (2.1) để chia tách điểm có yi=1 điểm có yi=-1 cho siêu phẳng phân cách có lề cực đại tỷ lệ lỗi phân lớp nhỏ Đây tốn quy hoạch tồn phương giải tìm w b cho cực tiểu hóa hàm (2.2) Nếu viết điều kiện phân loại dạng đối ngẫu tốn đối ngẫu SVM là tốn tối ưu tìm tham αi (i=1 n) để cực đại hóa hàm Trương Thanh Tùng - CT1401 36 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng (2.3) Sao cho Ở ,0 C, i = 1…n, hàm kernel Khi hàm phân lớp SVM (2.4) đường bao định là: 2.5.2 Phản hồi bị động học chủ động Trong tra cứu ảnh với phản hồi liên quan dựa SVM, đường bao định sử dụng để đo liên quan ảnh truy vấn mẫu đưa vào Nói chung, mẫu có giá trị tuyệt đối hàm phân lớp lớn khả tin cậy dự đốn cao Trong phương pháp phản hồi liên quan dựa SVM truyền thống, người dùng chọn mẫu xếp hạng cùng, tức mẫu có giá trị lớn hàm SVM f(x) cho việc huấn luyện SVM (2.5) Chiến lược gọi phản hồi bị động Nó hướng tới việc chọn mẫu liên quan Tuy nhiên, mẫu mẫu thông tin cho huấn luyện SVM, đường bao định SVM khơng cải thiện Ngược lại với phương pháp học SVM chủ động quan tâm có nhiều hứa hẹn năm gần Học chủ động hướng tới việc chọn mẫu khơng chắn, mẫu gần với đường bao định SVM: (2.6) Với phương pháp này, đường bao định cập nhật tốt Tuy nhiên việc tìm mẫu thông tin cho huấn luyện SVM thách thức Trương Thanh Tùng - CT1401 37 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng CHƢƠNG 3: ÁP DỤNG CÀI ĐẶT THỬ NGHIỆM 3.1 Cài đặt 3.1.1 Cơ sở liệu Chương trình cài đặt Microsoft Visual Studio 2010 với ngôn ngữ C# Và thư viện liên kết LibSVMsharp.dll hỗ trợ cho việc áp dụng thuật toán SVM để huấn luyện Tập sở liệu thử nghiệm bao gồm 10800 ảnh lấy từ sở liệu ảnh COREL Cơ sở liệu bao gồm 80 lớp khác nhau, lớp khoảng 100 ảnh 3.1.2 Trích chọn đặc trƣng đối sánh Để trích chọn đặc trưng ảnh chương trình sử dụng thư viện FELib.dll Và sau đó, chương trình sử dụng loại đặc trưng để để biểu diễn cho ảnh chúng biểu diễn vector 809 phần tử: Color histogram, color moments từ phần tử từ đến 81 Edge histogram từ 82 đến 118 Gabor wavelets transform: phần tử từ 119 đến 238 Local Binary Pattern: phần tử từ 239 đến 297 GIST: phần tử từ 297 đến 809 Để đo độ tương tự hai ảnh, chương trình sử dụng độ đo Euclid Để huấn luyện SVM, chương trình sử dụng tham số mặc định thư viện LibSVMsharp.dll 3.2 Các chức chƣơng trình 3.2.1 Mở ảnh truy vấn Mở ảnh cách chọn File -> Open Menu chức Trích chọn đặc trưng ảnh truy vấn Hiển thị ảnh truy vấn lên picturebox 3.2.2 Tra cứu ảnh Tính tốn độ tương tự ảnh truy vấn với ảnh sở liệu ảnh thông qua hàm tính tốn khoảng cách Euclid Sắp xếp ảnh giảm dần theo đo độ tương tự Hiển thị ảnh xếp lên khung retrieval results Trương Thanh Tùng - CT1401 38 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng Chọn số ảnh gần với ảnh truy vấn hiển thị lên khung relevance feedback để người dùng gán nhãn Người dùng gán nhãn có liên quan (+1) cho ảnh gần với ảnh truy vấn cách kích vào ảnh đó, ảnh cịn lại khơng người dùng kích gán nhãn không liên quan (-1) 3.2.3 Phản hồi liên quan Các ảnh gán nhãn dùng để huấn luyện SVM để tìm đường bao định phân lớp Chương trình tính tốn khoảng cách từ ảnh chưa gán nhãn sở liệu đến đường bao định SVM (khoảng cách gọi disSVM) Hiển thị ảnh có giá trị disSVM lớn lên khung retrieval results (tức xếp ảnh chưa gán nhãn giảm dần theo giá trị disSVM) Chọn ảnh gần với đường bao định SVM để hiển thị lên khung relevance feedback (tức xếp ảnh chưa gán nhãn tăng dần theo giá trị tuyệt đối disSVM) Người dùng thực tiếp việc gán nhãn cho ảnh Quá trình lặp lặp lại người dùng hài lòng với kết tra cứu Trương Thanh Tùng - CT1401 39 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng 3.3 Kết thử nghiệm 3.3.1 Giao diện chƣơng trình Hình 3-1: Giao diện chương trình Các thành phần chương trình bao gồm: Menu chức Một picture box để hiển thị ảnh truy vấn mẫu Một khung retrieval results để hiển thị kết ảnh tra cứu Một khung relevance feedback để hiển thị ảnh liên quan để người dùng lựa chọn Nút “Browse” để chọn thư mục chứa sở liệu ảnh Nút “Retrieval” để tra cứu ảnh theo độ đo tương tự đặc trưng mức thấp Nút “Relevance Feedback” để thực phản hồi liên quan Nút “Cancel” để dừng trình Trương Thanh Tùng - CT1401 40 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng 3.3.2 Một số kết thử nghiệm Hình 3-2: Người dùng chọn ảnh truy vấn Hình 3-3: Kết tra cứu ban đầu Trương Thanh Tùng - CT1401 41 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng Hình 3-4: Người dùng chọn ảnh liên quan lần Hình 3-5: Kết sau vòng lặp phản hồi thứ Trương Thanh Tùng - CT1401 42 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng Hình 3-6: Kết sau vịng lặp phản hồi thứ hai Hình 3-7: Người dùng chọn ảnh liên quan lần Trương Thanh Tùng - CT1401 43 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng Hình 3-8: Kết sau vòng lặp phản hồi thứ ba 3.4 Một số nhận xét chƣơng trình Có thể thấy rằng, việc áp dụng kỹ thuật máy học SVM vào phản hồi liên quan làm tăng độ xác tra cứu ảnh dựa theo nội dung Tuy nhiên, tồn số mặt hạn chế phương pháp Các mặt hạn chế là: Máy tính nhiều thời gian để tính tốn Thiếu lịch sử thơng tin phản hồi người dùng để hệ thống học ý định người dùng dài hạn Chương trình áp dụng phương pháp máy học SVM, mà chưa áp dụng kết hợp thuật toán máy học khác nhằm nâng cao hiệu tra cứu ảnh Trương Thanh Tùng - CT1401 44 Đồ án tốt nghiệp Trường ĐHDL Hải Phịng KẾT LUẬN Sau thời gian tìm hiểu nghiên cứu đồ án đạt số kết sau: Tìm hiểu cấu trúc hệ thống tra cứu ảnh dựa nội dung Tìm hiểu số phương pháp làm giảm khoảng cách ngữ nghĩa tra cứu ảnh dựa nội dung Tìm hiểu phương pháp phản hồi liên quan Tìm hiểu thuật tốn máy học SVM áp dụng vào hệ thống phản hồi liên quan để học phản hồi người dùng Xây dựng chương trình thử nghiệm Tuy nhiên thời gian có hạn trình nghiên cứu đề tài nên dừng lại việc xây dựng chương trình thử nghiệm Ngồi ra, chương trình dừng lại mức áp dụng thuật toán máy học SVM cho phản hồi liên quan, chưa áp dụng thuật toán máy học khác vào chương trình thử nghiệm để so sánh hiệu tra cứu thuật toán với Do đó, em mong nhận đóng góp ý kiến từ Thầy Cơ bạn để em có thêm kiến thức kinh nghiệm tiếp tục hoàn thiện nội dung nghiên cứu đề tài Em xin chân thành cảm ơn! Trương Thanh Tùng - CT1401 45 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt: [1] Nguyễn Thị Hồn, “Phương pháp trích chọn đặc trưng ảnh thuật tốn học máy tìm kiếm ảnh áp dụng vào tốn tìm kiếm sản phẩm.” Khố luận tốt nghiệp, Đại học Công Nghệ, năm 2010 Tài liệu Tiếng Anh: [2] Khuat Thi Thu Ha, project: “Content-based image retrieval with relevance feedback”, Final report master in information and communication and technology, University of Science and Technology of Hanoi, September 2013 [3] Chang, Ran, "Effective graph-based content-based image retrieval systems for large-scale and small-scale image databases", Doctor of Philosophy, Utah State University 2013 [4] Ying Liu, Dengsheng Zhang, Guojun Lu, Wei-ying Ma, “A survey of content-based image retrieval with high-level semantics,” Pattern recognition, volume 40, issue 1, January, 2007, 262-282 [5] Dr Fuhui Long, Dr Hongjiang Zhang and Prof David Dagan Feng, “Fundamentals of content-based image retrieval”, International journal of computer science and information technologies, vol.3 (1), 2012, 3260 – 3263 [6] Ngo Truong Giang, Khuat Thi Thu Ha, Ngo Quoc Tao and Nguyen Duc Dung, “Interactive Image Retrieval with Active Support Vector Machine Learning”, Department of Information Technology, HaiPhong Private University, Institute of Information Technology, Vietnamese Academy of Sciences and Technology, University of Science and Technology of Hanoi FAIR - Thai Nguyen, 20-21/6/2014 Trương Thanh Tùng - CT1401 46 ... CT1401 27 Đồ án tốt nghiệp Trường ĐHDL Hải Phòng CHƢƠNG 2: TRA CỨU ẢNH DỰA TRÊN NỘI DUNG VỚI PHẢN HỒI LIÊN QUAN 2.1 Giới thiệu phƣơng pháp phản hồi liên quan So sánh với công nghệ dựa đặc trưng... cứu tra cứu ảnh dựa nội dung tập trung sâu vào nhiệm vụ 1.3 Khoảng cách ngữ nghĩa tra cứu ảnh dựa nội dung Trong lĩnh vực tra cứu ảnh có hai hệ thống phát triển là: hệ thống tra cứu dựa nội dung. .. Giới thiệu khái niệm hệ thống tra cứu ảnh dựa nội dung thành phần Chƣơng 2: Tra cứu ảnh dựa nội dung với phản hồi liên quan Giới thiệu phương pháp phản hồi liên quan máy học SVM Chƣơng 3: Áp