1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ công nghệ thông tin nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số của hàm khoảng cách

121 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 121
Dung lượng 4,53 MB

Nội dung

LỜI CAM ĐOAN Tôi xin cam đoan luận án “Nâng cao độ xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách” cơng trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận án hồn tồn trung thực chưa cơng bố cơng trình khác Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước quốc tế Ngoại trừ tài liệu tham khảo này, luận án hồn tồn cơng việc riêng tơi Trong cơng trình khoa học cơng bố luận án, tơi thể rõ ràng xác đóng góp đồng tác giả tơi đóng góp Luận án hồn thành thời gian tơi làm Nghiên cứu sinh phịng Nhận dạng Công nghệ tri thức, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam Tác giả luận án NCS Đào Thị Thúy Quỳnh i LỜI CẢM ƠN Luận án Tiến sĩ ―Nâng cao độ xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách‖ hoàn thiện cố gắng thân giúp đỡ Thầy hướng dẫn khoa học, Ban lãnh đạo Học viện Khoa học Cơng nghệ Việt Nam, Ban lãnh đạo Khoa TốnTin, trường Đại học Khoa học - Đại học Thái Nguyên, Ban lãnh đạo Khoa Công nghệ thông tin 1, Học viện Cơng nghệ Bưu Viễn thơng, chun gia nhà khoa học, đồng nghiệp, bạn bè người thân gia đình Trước tiên, nghiên cứu sinh xin bày tỏ lòng biết ơn chân thành đến Thầy hướng dẫn khoa học PGS.TS Ngô Quốc Tạo PGS.TS Nguyễn Hữu Quỳnh Nghiên cứu sinh nhận định hướng khoa học, học quý báu, hướng dẫn tận tình kinh nghiệm nghiên cứu khoa học quý giá nghiên cứu Tôi xin chân thành cảm ơn phịng Nhận dạng Cơng nghệ tri thức, Viện Công nghệ thông tin, Học viện Khoa học Công nghệ, Viện Hàn lâm Khoa học Công nghệ Việt Nam tạo điều kiện thuận lợi suốt trình nghiên cứu thực luận án Tôi xin chân thành cảm ơn Ban giám đốc Học viện Cơng nghệ Bưu Viễn thơng, Ban lãnh đạo Khoa, Bộ mơn Khoa học máy tính Thầy Cô Khoa Công nghệ thông tin quan tâm giúp đỡ để tơi hồn thành nhiệm vụ học tập Xin chân thành cảm ơn quan tâm, động viên đóng góp quý báu quý đồng nghiệp Cuối cùng, tơi xin bày tỏ lịng biết ơn vơ hạn tới thành viên gia đình, khuyến khích động viên gia đình động lực để tơi hồn thành luận án ii MỤC LỤC MỞ ĐẦU ix CHƢƠNG TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG 1.1 Giới thiệu 1.1.1 Tra cứu dựa vào văn .2 1.1.2 Tra cứu ảnh dựa vào nội dung 1.2 Trích rút đặc trƣng tra cứu ảnh 1.2.1 Đặc trƣng mầu .5 1.2.2 Đặc trƣng kết cấu 1.2.3 Đặc trƣng hình 11 1.2.4 Thông tin không gian 13 1.3 Đo khoảng cách .15 1.4 Phân cụm 19 1.5 Một số nghiên cứu liên quan giảm khoảng cách ngữ nghĩa tra cứu ảnh .20 1.6 Đánh giá hiệu 24 1.7 Kết luận Chƣơng định hƣớng nghiên cứu 25 CHƢƠNG PHƢƠNG PHÁP TRA CỨU ẢNH .27 LIÊN QUAN NGỮ NGHĨA 27 2.1 Giới thiệu 27 2.2 Sơ đồ ý tƣởng phƣơng pháp đề xuất 32 2.3 Phản hồi liên quan với truy vấn đa điểm 36 2.4 Thuật toán tra cứu ảnh đề xuất .38 iii 2.4.1 Phân cụm tập ảnh phản hồi 38 2.4.2 Thuật toán đề xuất cho phân cụm gia tăng 42 2.4.3 Cơng thức đề xuất cho tính khoảng cách cải tiến 47 2.4.4 Công thức đề xuất cho tính trọng số ngữ nghĩa truy vấn 47 2.4.5 Thuật toán đề xuất cho tính độ quan trọng đặc trƣng 48 2.4.6 Thuật toán đề xuất cho gộp danh sách kết 50 2.4.7 Thuật toán đề xuất chung cho tra cứu ảnh liên quan ngữ nghĩa 52 2.5 Đánh giá thực nghiệm 56 2.5.1 Môi trƣờng thực nghiệm 56 2.5.2 Chiến lƣợc mô phản hồi liên quan 58 2.5.3 Thực truy vấn đánh giá 58 2.6 Kết luận Chƣơng 61 CHƢƠNG PHƢƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG TRỌNG SỐ THÍCH NGHI .63 3.1 Giới thiệu 63 3.2 Thuật toán xác định điểm truy vấn tối ƣu trọng số thích nghi hàm khoảng cách cải tiến 68 3.3 Đề xuất thuật toán tra cứu ảnh sử dụng trọng số thích nghi 73 3.4 Thử nghiệm đánh giá kết .75 3.4.1 Môi trƣờng thực nghiệm 75 3.4.2 Các kết thực nghiệm thảo luận 76 3.5 Kết luận Chƣơng 83 KẾT LUẬN 84 iv DANH MỤC HÌNH VẼ Hình 1.1 Khoảng cách ngữ nghĩa Hình 1.2 Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung Hình 1.3: Sơ đồ phản hồi liên quan Hình 2.1 Hình dạng truy vấn (a) Dịch chuyển điểm truy vấn (b) Hình dạng lồi (đa điểm) (c) Hình dạng lõm (đa điểm) 29 Hình 2.2 Ba cụm khác (mầu đỏ, mầu vàng mầu trắng) cho chủ đề hoa hồng 30 Hình 2.3: Khoảng cách từ điểm đến truy vấn 31 Hình 2.4: Các điểm liệu khơng gian hai chiều 32 Hình 2.5 Cấu trúc phương pháp đề xuất 33 Hình 2.6 Bốn biểu diễn ảnh 35 Hình 2.7 Khơng gian đặc trưng ảnh xám 36 Hình 2.8 Minh họa tính trọng số ngữ nghĩa từ ảnh đến truy vấn 48 Hình 2.9 Mơ hình hệ thống 59 Hình 2.10 So sánh độ xác 61 Hình 3.1: Giao diện điển hình hệ thống CBIR với phản hồi liên quan 64 Hình 3.2 Minh họa vùng truy vấn tối ưu ngang (a) Hình bên trái: điểm truy vấn thứ (b) Hình bên phải: điểm truy vấn thứ hai 64 Hình 3.3 Sơ đồ tra cứu ảnh sử dụng trọng số thích nghi 66 Hình 3.4 Một hình ellip sinh từ mẫu phản hồi dương 71 Hình 3.5 Minh họa đưa danh sách kết bao gồm nhiều ảnh 72 không liên quan 72 Hình 3.6 Minh họa tính tốn hàm khoảng cách từ điểm hình ellip tương ứng với điểm truy vấn tối ưu 72 Hình 3.7 So sánh độ xác phương pháp 79 Hình 3.8 So sánh độ lệch chuẩn phương pháp 79 Hình 3.9 So sánh độ xác trung bình phương pháp Aweight với tập thực Aweight sử dụng nhận thức trực quan sinh viên 80 v Hình 3.10 So sánh độ xác trung bình phương pháp Aweight, Aweight_WLNR, Aweight_WIDF FGSSH 81 Hình 3.11 Thời gian thực tra cứu phương pháp đề xuất với hai trường hợp 82 Hình B.1 Giao diện frm_Class_Images 100 Hình B.2.Giao diện frm_Type_of_Features 100 Hình B.3 Giao diện frm_Images_Database 101 Hình B.4 Giao diện frm_Upload_Images 101 Hình B.5 Giao diện frm_Trainning 102 Hình B.6 Giao diện frm_Features 102 Hình B.7 Giao diện bước biến đổi ảnh tra cứu đa biểu diễn 103 Hình B.8 Giao diện bước gộp phản hồi lần 103 Hình B.9 Giao diện bước phân cụm tra cứu cụm 104 Hình B.10 Giao diện bước gộp kết tra cứu phản hồi lần 104 Hình B.11 Giao diện hệ thống 105 Hình B.12 Giao diện Load Dataset 105 Hình B.13 Giao diện đưa vào ảnh truy vấn chọn số lượng ảnh trả 106 Hình B.14 Kết truy vấn khởi vào người dùng phản hồi (ảnh có viền mầu đỏ) 107 Hình B.15 Thực phân cụm tập ảnh người dùng chọn hiển thị tập ảnh cụm 107 Hình B.16 Thực hiên tra cứu với trọng số thích nghi lần lặp thứ 108 Hình B.17 Thực hiên tra cứu với trọng số thích nghi lần lặp thứ hai 108 Hình B.18 Thực hiên tra cứu với trọng số thích nghi lần lặp thứ ba 109 vi DANH MỤC BẢNG BIỂU Bảng 2.1: Kết phân cụm ba phương pháp 46 Bảng 2.2 Các loại đặc trưng 57 Bảng 2.3 Bảng kết phương pháp theo số truy vấn lần phản hồi 60 Bảng 3.1 Các loại đặc trưng 75 Bảng 3.2 Bảng kết trung bình độ xác phương pháp theo số điểm truy vấn ba lần phản hồi 78 Bảng A1 Độ xác trung bình 34 loại truy vấn với lần lặp phản hồi phương pháp SRIR đề xuất chương 94 Bảng A2 Độ xác trung bình 80 loại truy vấn với lần lặp phản hồi phương pháp đề xuất chương 96 vii TỪ VIẾT TẮT Dạng viết tắt ARP AWEIGHT CBIR CLUE Diễn giải Average Retrieval Precision (Độ xác trung bình) An efficient image retrieval method using adaptive weights (Phương pháp tra cứu ảnh sử dụng trọng số thích nghi) Cotent-based image retrieval (Tra cứu ảnh dựa vào nội dung) Cluster-based Retrieval of Images by Unsupervised Learning CSDL Cơ sở liệu EM Expectation maximization FQM Finding an Optimal Query Point and Weight Matrix of the Distance Function (xác định truy vấn tối ưu ma trận trọng số hàm khoảng cách) GMM Gaussian mixture models IF Importance of Feature (độ quan trọng đặc trưng) INC Incremental Clustering (phân cụm gia tăng) Phương pháp JF Phương pháp đề xuất tác giả Jin&French Precision Độ xác Recall Độ triệu hồi RF Relevant feedback (Phản hồi liên quan) RGB Red, green, blue (Đỏ, xanh lá, xanh dương) SRIR Semantic–Related Image Retrieval method (Phương pháp tra cứu ảnh dựa vào ngữ nghĩa) SVM Support Vector Machine (máy véc tơ hỗ trợ) viii MỞ ĐẦU Tính cấp thiết luận án Cơ sở liệu ảnh ngày trở nên phổ biến lĩnh vực ứng dụng khác viễn thám, thời trang, phòng chống tội phạm, xuất bản, y học, kiến trúc,… Sự tiến triển kỹ thuật thu, truyền lưu trữ ảnh cho phép xây dựng sở liệu ảnh lớn Các nhân tố thúc đẩy quan tâm nghiên cứu phương pháp khai thác hiệu sở liệu ảnh lớn Tra cứu ảnh thực dựa vào mô tả ngắn ảnh Các ảnh mơ tả tập thuộc tính độc lập nội dung (tên file, khn dạng, loại, kích cỡ, tên tác giả, thiết bị thu nhận, ngày tạo vị trí ổ đĩa) mà quản lý thơng qua hệ quản trị sở liệu truyền thống Hạn chế cách tiếp cận truy vấn bị giới hạn vào thuộc tính có tệp ảnh Một cách tiếp cận thay sử dụng từ khóa thích ảnh Trong cách tiếp cận này, trước tiên ảnh thích thủ cơng từ khóa Sau đó, ảnh tra cứu thích tương ứng chúng Cách tiếp cận giới hạn cách tiếp cận trước Tuy nhiên, có ba khó khăn với cách tiếp cận này, yêu cầu số lượng lớn nhân công việc phát triển thích, khác biệt giải thích nội dung ảnh, khơng qn cách gán từ khóa người thực thích khác Cách tiếp cận thích từ khóa trở nên không khả thi cỡ tập ảnh gia tăng nhanh chóng Để khắc phục khó khăn cách tiếp cận dựa vào thích, cách tiếp cận thay tra cứu ảnh dựa vào nội dung đề xuất từ đầu năm 1990 Bên cạnh sử dụng từ khóa người gán, hệ thống tra cứu ảnh dựa vào nội dung sử dụng nội dung trực quan ảnh, đặc trưng mầu sắc, kết cấu, hình dạng, làm số ảnh Điều làm giảm đáng kể khó khăn cách tiếp cận túy dựa thích, q trình trích rút đặc trưng thực tự động Kể từ đời, tra cứu ảnh dựa vào nội dung thu hút quan tâm nghiên cứu lớn, phạm vi từ ix nghiên cứu tới thương mại Cho đến nay, số hệ thống nguyên mẫu thực nghiệm sản phẩm thương mại đề xuất xây dựng QBIC [71], MARS [85] Đến nay, có nhiều thuật tốn phức tạp thiết kế để mô tả đặc trưng mầu, hình dạng kết cấu, thuật tốn khơng thể mơ hình tương đương ngữ nghĩa ảnh có nhiều giới hạn giải sở liệu ảnh nội dung rộng [61] Các thực nghiệm hệ thống CBIR nội dung mức thấp thường thất bại mô tả khái niệm ngữ nghĩa mức cao ảnh [111] Do đó, hiệu tra cứu ảnh dựa vào nội dung xa so với kỳ vọng người dùng Để khắc phục hạn chế trên, năm gần hướng nghiên cứu tập trung tìm phương pháp giảm khoảng cách ngữ nghĩa đặc trưng mức thấp khái niệm mức cao Giảm khoảng cách ngữ nghĩa thường thực thông qua phản hồi liên quan Phản hồi liên quan (RF Relevance Feedback) trình học trực tuyến mà cố gắng học mục đích người dùng q trình tương tác; RF công cụ mạnh sử dụng hệ thống tra cứu thông tin [74,78] Mục đích mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa mà truy vấn biểu diễn người dùng nghĩ Bằng việc tiếp tục học thông qua tương tác với người dùng, giảm khoảng cách thông qua phản hồi liên quan cải tiến độ xác đáng kể hệ thống tra cứu ảnh dựa vào nội dung [58,59,64,80,90,118,119,126] Tuy nhiên, hầu hết phương pháp đề cập gặp phải vấn đề sau: (1) yêu cầu người dùng phải cung cấp đồng thời nhiều ảnh truy vấn đa dạng (các ảnh khác chủ đề ), tức là, tăng gánh nặng cho người dùng (2) chưa tận dụng thông tin phản hồi người dùng vào việc xác định độ quan trọng ngữ nghĩa truy vấn độ quan trọng đặc trưng (3) sử dụng chung véc tơ trọng số hàm khoảng cách cho tất điểm truy vấn tối ưu mà khơng xét đến tính chất địa phương điểm x 16 2680 15.88 17.96 18.09 18.20 18.25 17.96 17 2890 19.51 22.87 23.49 23.60 23.71 23.47 18 3260 19.57 22.65 23.07 22.86 23.11 22.58 19 3510 36.75 41.83 41.73 41.43 41.45 40.56 20 3540 49.34 55.73 55.98 55.96 55.99 54.76 21 3910 38.70 46.31 45.49 45.77 45.55 44.78 22 4150 29.18 33.23 33.81 33.50 33.31 33.85 23 4470 52.17 33.83 33.03 33.33 33.11 33.65 24 4580 40.90 33.63 33.51 33.43 33.65 34.46 25 4990 33.83 39.09 39.05 38.85 38.96 39.85 26 5210 29.57 34.59 35.29 36.05 35.98 37.43 27 5350 49.11 54.62 54.47 54.98 55.15 55.41 28 5530 43.41 48.03 48.37 48.84 48.87 48.88 29 5810 61.01 63.96 63.83 63.76 63.80 63.95 30 5910 47.59 52.28 52.61 52.55 52.73 52.58 31 6440 64.52 65.40 65.55 65.53 65.45 65.32 32 6550 57.25 61.05 60.96 61.04 60.91 61.51 33 6610 33.50 38.90 38.78 38.64 38.66 39.23 34 6840 61.23 63.26 63.18 63.47 63.52 63.25 95 Bảng A2 Độ xác trung bình 80 loại truy vấn với lần lặp phản hồi phƣơng pháp đề xuất chƣơng Độ xác trung bình theo loại (%) STT Tên loại 02 điểm truy vấn 04 điểm truy vấn 08 điểm truy vấn art_1 5.91 10.55 29.29 art_antiques 19.72 35.66 36.28 art_cybr 42.82 60.095 54.08 art_dino 97.69 97.02 99.25 art_mural 10.24 13.31 33.22 bld_castle 34.554 49.796 45.6 bld_lighthse 8.19 18.46 31.47 bld_modern 19.083 38.287 40.217 bld_sculpt 14.265 20.45 37.32 10 eat_drinks 40.41 56.63 56.65 11 eat_feasts 18.38 35.41 37.68 12 Fitness 95.425 99.885 97.92 13 obj_234000 15.44 25.24 34.55 14 obj_aviation 11.58 21.46 32.99 15 obj_balloon 8.7 18.32 31.8 16 obj_bob 7.35 18.533 30.367 17 obj_bonsai 9.69 19.77 30.84 96 18 obj_bus 43.26 57.74 66.53 19 obj_car 46.59 69.207 68.205 20 obj_cards 37.34 75.16 78.62 21 obj_decoys 86.78 90.39 83.54 22 obj_dish 40.86 62.04 41.08 23 obj_doll 71.74 81.65 79.73 24 obj_door 59.715 79.26 83.795 25 obj_eastregg 93.04 91.64 92.88 26 obj_flags 24.05 48.26 37.49 27 obj_mask 30.42 42.14 39.1 28 obj_mineral 38.17 59.03 49.67 29 obj_moleculr 31.42 51.2 50.38 30 obj_orbits 9.35 21.88 31.1 31 obj_ship 43.27 57.8 51.18 32 obj_steameng 37.86 51.77 45.96 33 obj_train 57.587 77.123 65.737 34 pet_cat 10.99 26.14 32.83 35 pet_dog 30.71 52.32 49.517 36 pl_flower 59.76 93.188 77.38 37 pl_foliage 4.9 11.67 29.34 38 pl_mashroom 7.87 18.47 30.36 97 39 sc_ 45.79 65.61 83.65 40 sc_autumn 10.146 21.874 31.903 42 sc_cloud 26.07 45.965 39.921 43 sc_firewrk 67.234 90.851 89.01 44 sc_forests 6.82 11.64 29.52 45 sc_iceburg 14.88 30.5 35.91 46 sc_indoor 27.34 46.39 44.57 47 sc_mountain 33.741 59.922 53.856 48 sc_night 14.72 29.02 35.1 49 sc_rockform 35.15 53.52 46.75 50 sc_rural 16.65 33.71 40.98 51 sc_sunset 55.848 69.676 80.552 52 sc_waterfal 11.479 23.41 31.829 53 sc_waves 24.13 39.18 37.33 54 sp_ski 9.42 19.17 30.07 55 texture_1 8.72 18 30.41 56 texture_2 56.71 72.35 69.04 57 texture_3 7.35 14.94 29.6 58 texture_4 21.9 39.42 36.28 59 texture_5 9.54 21.68 33.69 60 texture_6 61.42 75.24 91.22 98 61 wl_buttrfly 23.515 38.85 46.065 62 wl_cat 4.28 7.54 27.61 63 wl_cougr 4.09 6.79 26.79 64 wl_deer 12.845 27.95 35.59 65 wl_eagle 20.16 42.73 42.05 66 wl_elephant 14.18 32.8 34.17 67 wl_fish 10.58 22.78 33.527 68 wl_fox 4.3 7.2 27.74 69 wl_goat 5.15 9.02 28.32 70 wl_horse 33.91 52.63 44.06 71 wl_lepoad 18.15 30.62 36.2 72 wl_lion 13.69 31.96 33.67 73 wl_lizard 16.21 31.4 34.31 74 wl_nests 9.62 18.41 31.22 75 wl_owls 45.73 47.85 45.08 76 wl_porp 51.36 61.71 48 76 wl_primates 7.53 20.33 30.49 77 wl_roho 9.92 26.34 33 78 art_1 10.6 20.74 32.33 79 art_antiques 7.58 14.22 29.63 80 art_cybr 70.227 90.462 85.284 99 PHỤ LỤC B Phần mềm tra cứu theo đề xuất luận án Hình B.1 – B.10 hình ảnh giao diện hệ thống đề xuất chương Hình B.1 Giao diện frm_Class_Images Hình B.2.Giao diện frm_Type_of_Features 100 Hình B.3 Giao diện frm_Images_Database Hình B.4 Giao diện frm_Upload_Images 101 Hình B.5 Giao diện frm_Trainning Hình B.6 Giao diện frm_Features 102 Hình B.7 Giao diện bƣớc biến đổi ảnh tra cứu đa biểu diễn Hình B.8 Giao diện bƣớc gộp phản hồi lần 103 Hình B.9 Giao diện bƣớc phân cụm tra cứu cụm Hình B.10 Giao diện bƣớc gộp kết tra cứu phản hồi lần 104 Hình B.11 – B.10 hình ảnh hệ thống đề xuất chương Hình B.11 Giao diện hệ thống Hình B.12 Giao diện Load Dataset 105 Hình B.13 Giao diện đƣa vào ảnh truy vấn chọn số lƣợng ảnh trả 106 Hình B.14 Kết truy vấn khởi vào ngƣời dùng phản hồi (ảnh có viền mầu đỏ) Hình B.15 Thực phân cụm tập ảnh ngƣời dùng chọn hiển thị tập ảnh cụm 107 Hình B.16 Thực hiên tra cứu với trọng số thích nghi lần lặp thứ Hình B.17 Thực hiên tra cứu với trọng số thích nghi lần lặp thứ hai 108 Hình B.18 Thực hiên tra cứu với trọng số thích nghi lần lặp thứ ba 109

Ngày đăng: 19/04/2023, 12:34

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN