Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
2,01 MB
Nội dung
ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC NGUYỄN THỊ UYÊN NHI NÂNG CAO HIỆU QUẢ TÌM KIẾM DỮ LIỆU ẢNH THEO TIẾP CẬN NGỮ NGHĨA Ngành: Khoa học máy tính Mã số: 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS TS Lê Mạnh Thạnh HUẾ, NĂM 2021 Cơng trình hồn thành tại: Khoa Cơng nghệ Thơng tin, Trường Đại học Khoa học, Đại học Huế Người hướng dẫn khoa học: PGS TS Lê Mạnh Thạnh Phản biện 1: GS.TS Đặng Quang Á, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học công nghệ Việt Nam Phản biện 2: PGS.TS Lê Anh Phương, Trường Đại học Sư phạm, Đại học Huế Phản biện 3: PGS.TS Nguyễn Thanh Bình, Trường Đại học Cơng nghệ thơng tin Truyền thông Việt - Hàn, Đại học Đà Nẵng Luận án bảo vệ Hội đồng chấm luận án cấp Đại học Huế họp tại: ……………………………………… ……………………………………………………………… Vào hồi: ….giờ… .ngày… .tháng… .năm Có thể tìm hiểu luận án thư viện: Trung tâm thông tin thư viện, Trường Đại học Khoa học, Đại học Huế MỞ ĐẦU Lý chọn đề tài Ảnh số đóng vai trị quan trọng nhiều lĩnh vực sống Vì vậy, tìm kiếm ảnh nhanh chóng, xác kho ảnh lớn thách thức nhiệm vụ cấp thiết lĩnh vực thị giác máy tính Tìm kiếm ảnh gồm hai phương pháp [6]: tìm kiếm ảnh dựa văn TBIR (Text-Based Image Retrieval) tìm kiếm ảnh dựa nội dung CBIR (Content-Based Image Retrieval) TBIR đơn giản, nhanh chóng hiệu quả, thường thiếu xác chủ quan nhận thức người CBIR giới thiệu vào đầu năm 1980 để khắc phục nhược điểm Ảnh lập mục, lưu trữ, tìm kiếm dựa đặc trưng cấp thấp (màu sắc, kết cấu, hình dạng, ) Tuy nhiên, phương pháp CBIR khơng mơ tả ngữ nghĩa cấp cao, hiệu suất tìm kiếm chưa thỏa mãn yêu cầu người dùng Phương pháp tìm kiếm ảnh theo ngữ nghĩa SBIR (SemanticBased Image Retrieval) [8,31] nhằm mô tả khái niệm ngữ nghĩa đề xuất kết hợp với CBIR để nâng cao hiệu tìm kiếm Bài tốn tìm kiếm ảnh theo ngữ nghĩa có hiệu suất tốt, khả thi nhận nhiều quan tâm nhà nghiên cứu toàn giới Với mong muốn đóng góp phương pháp tìm kiếm ảnh theo ngữ nghĩa hiệu quả, luận án thực đề tài: “Nâng cao hiệu tìm kiếm liệu ảnh theo tiếp cận ngữ nghĩa” Tổng quan tình hình nghiên cứu Tìm kiếm ảnh theo nội dung [6] phương pháp tìm kiếm từ sở liệu đặc trưng cấp thấp, nhằm lập mục, giảm chiều ảnh gia tăng tốc độ xử lý Các phương pháp trích xuất đặc trưng cấp thấp cho CBIR bao gồm: Trích xuất đặc trưng theo màu sắc, kết cấu, hình dạng [12,32,66] Hệ thống CBIR sử dụng nhiều cấu trúc tổ chức liệu khác như: sử dụng phương pháp học không giám sát bán giám sát để phân cụm [12,35], phân loại liệu [32], tìm kiếm ảnh dựa cấu trúc cây, đồ thị, mạng tự tổ chức SOM [48,67,72], hay kỹ thuật học sâu [61,68], … Từ khảo sát cho thấy, phương pháp dựa kỹ thuật phân cụm phân cấp phân cụm phân hoạch liệu hiệu cho tốn tìm kiếm ảnh Tuy nhiên, vấn đề CBIR “khoảng cách ngữ nghĩa” [9] khái niệm cấp cao nội dung cấp thấp ảnh Tìm kiếm ảnh dựa ngữ nghĩa SBIR (Semantic-based image retrieval) [14,15] phương pháp hiệu để chuyển từ tìm kiếm dựa từ khóa, nội dung sang việc thu thập ảnh theo ngữ nghĩa, phổ biến là: (1) tìm kiếm dựa phương pháp học máy để liên kết đặc trưng cấp thấp ngữ nghĩa trực quan hình ảnh [7,67]; (2) tìm kiếm ảnh dựa ontology [31,44] Qua khảo sát cho thấy phương pháp tìm kiếm ảnh theo tiếp cận ngữ nghĩa dựa ontology hướng nghiên cứu khả thi hiệu Tuy nhiên, phương pháp thiếu hiểu biết nội dung ảnh, thực nghiệm ảnh nhỏ, đa số tạo thủ công nên nhiều công sức, thời gian Do phương pháp tìm kiếm ảnh theo ngữ nghĩa kết hợp đặc trưng cấp thấp để mô tả nội dung ảnh ngữ nghĩa cấp cao ontology bán tự động cho tập ảnh lớn định hướng nghiên cứu phù hợp, mang tính cấp thiết cao có khả ứng dụng hiệu thực tiễn Mục tiêu luận án Luận án có mục tiêu cụ thể sau: (1) Nghiên cứu cấu trúc phân cụm cân bằng đề xuất nguyên tắc xây dựng phân cụm (C-Tree) cho tốn tìm kiếm ảnh theo ngữ nghĩa; (2) Nghiên cứu mơ hình tìm kiếm ảnh theo tiếp cận ngữ nghĩa dựa đồ thị phân cụm láng giềng, mạng SOM kết hợp dựa ontology nhằm nâng cao độ xác; (3) Nghiên cứu tính hiệu mơ hình tìm kiếm ảnh theo tiếp cận ngữ nghĩa cho tập ảnh thực nghiệm Đối tượng phạm vi nghiên cứu: Đối tượng nghiên cứu: (1) Các phân cụm thuật toán phân cụm; (2) Cấu trúc liệu để lưu trữ đặc trưng nội dung hình ảnh; (3) Các thuật tốn tạo cấu trúc liệu tìm kiếm ảnh theo ngữ nghĩa; (4) Ontology; (5) Các tập ảnh phổ biến Phạm vi nghiên cứu: (1) Cây phân cụm cân bằng cấu trúc, thuật toán xây dựng nó; (2) Các phương pháp cải tiến phân cụm với đồ thị cụm láng giềng, mạng SOM; (3) Ontology truy vấn SPARQL; (4) Các tập ảnh: COREL, WANG, ImageCLEF Stanford Dogs Phương pháp nghiên cứu Phương pháp lý thuyết: Tổng hợp, phân tích cơng bố liên quan tìm kiếm ảnh theo nội dung theo ngữ nghĩa; đánh giá ưu nhược điểm cơng trình cơng bố để đề xuất mơ hình phù hợp Phương pháp thực nghiệm: Tìm kiếm kho liệu ảnh tin cậy Thực trích xuất đặc trưng cấp thấp, xây dựng cấu trúc khai phá liệu, cài đặt mơ hình đề xuất kho liệu nhằm minh chứng tính hiệu Đồng thời xây dựng ontology bán tự động cho kho liệu Thực nghiệm tìm kiếm ảnh theo tiếp cận ngữ nghĩa dựa đặc trựng cấp thấp kết hợp ontology Kết thực nghiệm phân tích, đánh giá so sánh với cơng trình khác Bố cục luận án Luận án trình bày 113 trang, mở đầu (07 trang), kết luận hướng phát triển (02 trang), danh mục cơng trình khoa học tác giả liên quan đến luận án (2 trang), tài liệu tham khảo (06 trang), luận án chia thành chương Chương (16 trang) trình bày sở lý thuyết cho tìm kiếm ảnh theo ngữ nghĩa Chương (27 trang) trình bày cấu trúc phân cụm cân bằng C-Tree nguyên tắc thêm, tách xóa Chương (22 trang) đề xuất phương pháp cải tiến C-Tree để nâng cao độ xác tìm kiếm ảnh Chương (31 trang) trình bày phương pháp tìm kiếm ảnh ontology bán tự động, đề xuất xây dựng từ tập ảnh thực nghiệm Đóng góp luận án Xây dựng cấu trúc phân cụm cân bằng C-Tree đề xuất mơ hình tìm kiếm ảnh C-Tree; Cải tiến C-Tree nhằm nâng cao độ xác: (1) cấu trúc đồ thị cụm láng giềng Graph-CTree; (2) cấu trúc mạng tự lắp ghép SgCTree dựa bằng kết hợp đồ thị cụm láng giềng Graph-CTree mạng SOM; (3) đề xuất mơ hình, phương pháp tìm kiếm ảnh dựa GraphCTree, SgC-Tree; Xây dựng khung ontology bán tự động cho tập ảnh mục tiêu phương pháp bổ sung làm giàu khung ontology với tập ảnh khác; đề xuất mơ hình phương pháp tìm kiếm ảnh dựa ontology So sánh kết tìm kiếm ảnh tập ảnh có ontology khơng có ontology Chương TỔNG QUAN TÌM KIẾM ẢNH THEO NGỮ NGHĨA 1.1 Giới thiệu Luận án tiếp cận phương pháp tìm kiếm ảnh theo ngữ nghĩa dựa vào đặc trưng cấp thấp kết hợp với ontology nhằm nâng cao độ xác Như vậy, tốn tìm kiếm ảnh thực theo hai tiếp cận: tìm kiếm ảnh theo nội dung CBIR dựa đặc trưng cấp thấp tìm kiếm ảnh theo ngữ nghĩa SBIR 1.2 Tìm kiếm ảnh dựa theo nội dung Trong CBIR, đặc trưng trực quan cấp thấp (màu sắc, hình dạng, kết cấu bố cục khơng gian) trích xuất từ sở liệu ảnh tạo thành vec-tơ đặc trưng, nhằm lập mục ảnh, giảm chi phí nhớ thời gian tìm kiếm nhanh Các đặc trưng trích xuất luận án kết hợp màu sắc MPEG-7, độ tương phản, phép lọc tần số cao, phép lọc Sobel, phép lọc Gaussian phương pháp LoG, Laplacian Với kết hợp này, tạo thành vec-tơ đặc trưng nhỏ gọn, với đặc trưng có 81 chiều 1.3 Tìm kiếm ảnh theo ngữ nghĩa Nhiều phương pháp tìm kiếm ảnh theo ngữ nghĩa đề xuất để giảm “khoảng cách ngữ nghĩa” nội dung cấp thấp hình ảnh với ngữ nghĩa cấp cao người, phổ biến [9,14]: (1) Các kỹ thuật học máy sử dụng nhằm liên kết đặc trưng cấp thấp với ngữ nghĩa hình ảnh (2) Tìm kiếm ảnh dựa ontology cung cấp cung cấp ngữ nghĩa chung Các khái niệm truy xuất cho hình ảnh dựa ontology gần gũi với ngữ nghĩa cấp cao người 1.4 Kiến trúc chung hệ thống tìm kiếm ảnh theo ngữ nghĩa Hình 1.1 Kiến trúc hệ thống tìm kiếm ảnh theo ngữ nghĩa Kiến trúc chung tìm kiếm ảnh theo ngữ nghĩa bao gồm hai khối: (a) Khối màu vàng – tìm kiếm hình ảnh theo ngữ nghĩa dựa phương pháp học máy, xây dựng cấu trúc để tổ chức liệu nhằm nâng cao độ xác tìm kiếm ảnh (b) Khối màu xanh – tìm kiếm ảnh dựa ontology: xây dựng khung ontology, bổ sung liệu để làm giàu, đồng thời tìm kiếm ngữ nghĩa cấp cao hình ảnh 1.5 Các phương pháp tổ chức thực nghiệm đánh giá Để xác định hiệu mơ hình đề xuất, phương pháp tổ chức thực nghiệm đánh giá luận án bao gồm: môi trường thực nghiệm, tập ảnh giá trị đánh giá hiệu suất 1.6 Tiểu kết chương Chương trình bày tổng quan tìm kiếm ảnh theo ngữ nghĩa dựa phương pháp học máy dựa ontology với đặc trưng kết hợp màu sắc, kết cấu hình dạng Một kiến trúc chung hệ thống tìm kiếm ảnh theo ngữ nghĩa đề xuất Ngoài ra, phương pháp tổ chức thực nghiệm trình bày bao gồm: mơi trường thực nghiệm, tập liệu thực nghiệm giá trị đánh giá Chương TÌM KIẾM ẢNH DỰA TRÊN CÂY C-TREE 2.1 Giới thiệu Trong chương này, cấu trúc phân cụm cân bằng C-Tree xây dựng cho toán tìm kiếm ảnh C-Tree tăng số nhánh cây, cân bằng tăng trưởng từ hướng gốc nên có khả lưu trữ liệu lớn, giảm độ phức tạp tính tốn, thời gian truy vấn nhanh 2.2 Cấu trúc C-Tree Cây phân cụm cân bằng C-Tree mô tả sau: Cây C-Tree bao gồm: nút gốc root, nút 𝐼 nút 𝐿 Các nút liên kết với thông qua đường dẫn (𝑙𝑖𝑛𝑘); Mọi nút có độ sâu (điều kiện cân bằng); C-Tree tăng trưởng chiều cao theo hướng gốc Các nút chứa phần tử tương tự phân cụm dựa độ đo Euclid; Nút 𝐿 nút khơng có nút con, chứa tối đa 𝑀 phần tử liệu: 𝐿 = {𝐸𝐷𝑖 , ≤ 𝑖 ≤ 𝑀}, với 𝐸𝐷𝑖 =< 𝑓, 𝐼𝐷, 𝑓𝑖𝑙𝑒, 𝑐𝑙𝑎 >, 𝑓 vec-tơ đặc trưng, 𝐼𝐷 định danh, tập tin chứa thích 𝑓𝑖𝑙𝑒 𝑐𝑙𝑎 phân lớp ảnh Nút I có nút con, chứa tối đa N phần tử trọng tâm 𝐼 = {𝐸𝐶𝑗 , ≤ 𝑗 ≤ 𝑁} với 𝐸𝐶 =< 𝑓𝑐 , 𝑖𝑠𝑁𝑒𝑥𝑡𝐿𝑒𝑎𝑓, 𝑙𝑖𝑛𝑘 >, 𝑓𝑐 vec-tơ trọng tâm vec-tơ đặc trưng 𝑓 nút có đường dẫn liên kết 𝑙𝑖𝑛𝑘 đến 𝐸𝐶 𝑖𝑠𝑁𝑒𝑥𝑡𝐿𝑒𝑎𝑓 giá trị kiểm tra nút lá; Hình 2.1 Minh họa cấu trúc C-Tree Dữ liệu lưu trữ nút lá, nút chứa phần tử trọng tâm liên kết đến nút 2.3 2.3.1 Các nguyên tắc thực thao tác C-Tree Nguyên tắc 1: Thêm phần tử liệu vào Ban đầu, nút gốc rỗng, nút gốc đóng vai trò nút lá, phần tử liệu 𝐸𝐷 thêm vào nút gốc Nếu 𝑖 > 𝑀 tách nút, tạo nút gốc 𝑟𝑜𝑜𝑡 = {𝐸𝐶𝑗 |𝑗 = 𝑁} Lúc này, nút gốc 𝑟𝑜𝑜𝑡 đóng vai trị nút trong, chứa hai phần tử 𝐸𝐶 Các phần tử liệu 𝐸𝐷 thêm vào theo quy tắc chọn nhánh có độ đo gần với tâm cụm Sau đó, tiến hành cập nhật đệ quy từ đến gốc C-Tree 2.3.2 Nguyên tắc 2: Tách nút Khi nút đầy, thực tách nút thành 𝑘-cụm dựa vào thuật toán K-means: Gọi 𝑁𝑠 nút cần tách Chọn 𝑘 = 2, lấy hai phần tử xa Nếu nút cần tách 𝑁𝑆 khơng có nút cha tạo thành nút cha 𝑁𝑃 , chứa phần tử 𝐸𝐶𝑅 𝐸𝐶𝐿 tâm hai nút vừa tách Nếu nút cần tách 𝑁𝑆 thuộc nút cha 𝑁𝑃 có sẵn, bổ sung vào nút cha hai phần tử tâm 𝐸𝐶𝑅 𝐸𝐶𝐿 Sau tách, tâm cũ 𝐸𝐶𝑆 nút xóa khỏi nút cha 𝑁𝑃 Các phần tử nút ban đầu phân bố vào hai nút theo Nguyên tắc 2.3.3 Nguyên tắc 3: Xóa phần tử hay nút Để xóa phần tử cây, trước hết phải xem xét phần tử phần tử liệu thuộc nút hay phần tử tâm thuộc nút Nếu phần tử thuộc nút lá: Nếu 𝑐𝑜𝑢𝑛𝑡(𝐸𝐷) > 1, xóa phần tử, cập nhật số lượng phần tử liệu 𝐸𝐷, cập nhật tâm Nếu 𝑐𝑜𝑢𝑛𝑡(𝐸𝐷) = 1, gán cho giá trị 𝑓 = 𝑛𝑢𝑙𝑙, cập nhật tâm khơng đưa f vào kết tìm kiếm Khi có phần tử thêm vào: 𝑐𝑜𝑢𝑛𝑡(𝐸𝐷) > 1, tiến hành xóa phần tử 𝑓 = 𝑛𝑢𝑙𝑙 Nếu phần tử thuộc nút trong, tiến hành xóa phần tử EC, đồng thời xóa nút tương ứng với đường dẫn 𝑙𝑖𝑛𝑘 lan truyền đến nút lá, đồng thời cập nhật số lượng 𝐸𝐶, cập nhật vec-tơ tâm đệ quy đến gốc 2.4 Mơ hình hệ tìm kiếm ảnh dựa C-Tree Hệ tìm kiếm ảnh dựa C-Tree bao gồm pha: (1) pha tiền xử lý thực trích xuất đặc trưng ảnh tổ chức lưu trữ CTree; (2) Pha truy vấn có nhiệm vụ tìm kiếm ảnh tương tự theo nội dung C-Tree trích xuất tập từ vựng thị giác hình ảnh 10 TVDB (64 bit), 2017 [65] DSSAH, 2020 [57] Phương pháp đề xuất (SBIR_CT) 0.731 0.667 0.6062 Bảng 2.9 So sánh độ xác phương pháp tập Stanford Dogs Phương pháp SCDA, 2017 [77] ResNet-18 + localication, 2019 [80] CCA-ITQ, 2019 [80] MLH, 2019 [80] DPSH, 2019 [80] FPH, 2019 [80] SOM+DNN, 2019 [37] DSaH, 2020 [36] Deep feature CNN + hash layer + crossentropy loss, 2020, [71] Phương pháp đề xuất (SBIR_CT) Độ xác trung bình 0.7886 0.7164 0.4402 0.4084 0.6080 0.6909 0.8362 0.6318 0.8220 0.5704 Hình 2.8 Hiệu suất tìm kiếm ảnh C-Tree tập COREL Hình 2.9 Hiệu suất tìm kiếm ảnh C-Tree tập WANG 11 Hình 2.10 Hiệu suất tìm kiếm ảnh C-Tree ImageCLEF Hình 2.11 Hiệu suất tìm kiếm ảnh C-Tree Stanford Dogs 2.6 Tiểu kết chương Cây C-Tree xây dựng chương nhằm tổ chức lưu trữ liệu, thời gian tìm kiếm nhanh độ xác tương đối cao Mỗi lần tách nút C-Tree, phần tử tương tự bị tách sang nút hay nhánh khác, nên việc tìm kiếm ảnh bị bỏ sót phần tử Nhằm nâng cao độ xác, phương pháp cải tiến C-Tree đề xuất chương Chương CÁC PHƯƠNG PHÁP CẢI TIẾN CÂY C-TREE 3.1 Giới thiệu Để nâng cao độ xác tìm kiếm ảnh, phương pháp cải tiến C-Tree đề xuất, bao gồm: (1) kết hợp C-Tree đồ thị cụm láng giềng (Graph-CTree); (2) kết hợp giữ Graph-CTree với mạng SOM (SgC-Tree) 12 3.2 Đồ thị phân cụm láng giềng Graph-CTree Đồ thị phân cụm láng giềng Graph-CTree tạo trình tách nút C-Tree đánh dấu mức láng giềng Graph-CTree mô tả sau: Đồ thị Graph-CTree 𝐺 =< 𝑉, 𝐸 > bao gồm: Đỉnh 𝑉 cụm nút C-Tree; Cạnh 𝐸 ⊆ 𝑉 × 𝑉 liên kết cặp nút lá, hình thành theo quan hệ láng giềng Các mức láng giềng cụm: Láng giềng mức 1: Cho 𝐸𝐶1 , 𝐸𝐶2 phần tử tâm nút 𝐿1 , 𝐿2 Nếu khoảng cách tâm hai cụm nhở 𝜃 (giá trị ngưỡng), 𝐿1 , 𝐿2 láng giềng mức Láng giềng mức 2: Cho 𝐶1 , 𝐶2 lớp đại diện nút 𝐿1 , 𝐿2 Nếu 𝐶1 ≡ 𝐶2 , 𝐿1 , 𝐿2 láng giềng mức Láng giềng mức 3: Nếu 𝐶1 ⊂ 𝐶2 , , 𝐿1 , 𝐿2 láng giềng mức 3, 𝐶1 , 𝐶2 lớp đại diện nút 𝐿1 , 𝐿2 Hình 3.1 Cấu trúc đồ thị phân cụm láng giềng Graph–CTree Hệ tìm kiếm ảnh Graph-CTree gọi SBIR_grCT, bao gồm hai giai đoạn: tìm kiếm ảnh C-Tree đồ thị phân cụm láng giềng Graph-CTree Kết tìm kiếm tập ảnh tương tự giao từ hai giai đoạn 13 3.3 Mơ hình kết hợp SgC-Tree Cấu trúc SgC-Tree kết hợp C-Tree, đồ thị cụm láng giềng Graph-CTree mạng SOM Hình 3.2 Mơ hình kết hợp SgC-Tree Mạng SOM lắp ghép từ cụm nút Graph-CTree, gọi grSOM, có ưu điểm sau: Bộ vec-tơ trọng số đầu vào ổn định, độ xác cao lấy trình huấn luyện C-Tree, nên thời gian huấn luyện nhanh so với SOM truyền thống Mạng grSOM linh hoạt hơn, dãn nở sau huấn luyện, vậy, phát sinh nút huấn luyện với trọng số riêng mà huấn luyện từ đầu tồn mạng Mơ hình tìm kiếm ảnh dựa SgC-Tree, gọi SBIR_SgC, gồm: Giai đoạn tiền xử lý trích xuất đặc trưng tập ảnh, lưu trữ cấu trúc SgC-Tree, giai đoạn tìm kiếm ảnh SgC-Tree nhằm truy xuất tập ảnh tương tự tập từ vựng thị giác 14 3.4 Thực nghiệm đánh giá hệ tìm kiếm ảnh Graph-CTree SgC-Tree Bảng 3.1 So sánh độ xác phương pháp tập COREL Phương pháp Hybrid feature with SOM, 2017 [66] HSV+Gabor Wavelet+Edge Detection, 2018 [12] Three-level TREE Hierarchical, 2018 [35] Multi-feature with neural network, 2020 [59] Fusion feature ResNet-34 + PCA + CNN, 2020 [38] Multi-feature and k-NN, 2021 [32] Multi-feature and Decision tree, 2021 [32] Multi-feature and SVM, 2021 [32] Texture features + CFBPNN, 2021 [27] Graph-CTree SgC-Tree Độ xác trung bình 0.67 0.6210 0.5819 0.7941 0.89 0.6044 0.6680 0.7657 0.82 0.8885 0.9132 Bảng 3.2 So sánh độ xác phương pháp tập WANG Phương pháp Combined feature HSV+LBP+Canny, 2018 [53] Color Difference Histogram + HSV+entropy, 2019 [56] Fusion feature ResNet-34 + PCA + CNN, 2020 [38] Image signature + BoSW (2021), [51] DSFH (low feature + deep feature VGG-16), 2021 [42] Combined feature HSV+LBP+Canny + SOM, 2018 [53] Graph-CTree SgC-Tree Độ xác trung bình 0.5998 0.703 0.5067 0.78 0.66 0.7894 0.766 0.824 Bảng 3.3 So sánh độ xác phương pháp tập ImageCLEF Phương pháp Độ xác trung bình Fusion hashing network + binary code matrix + CNN, 2017 [29] 0.8038 PAM with feature vector and text, 2018 [19] 0.3686 Region-based retrieval, 2018 [17] 0.59 CMHH (Hash Haming + CNN), 2018 [22] 0.703 UCH, 2019 [41] 0.485 TVDB (64 bit), 2017 [65] 0.731 DSSAH, 2020 [57] 0.667 Graph-CTree 0.8398 SgC-Tree 0.8744 Bảng 3.4 So sánh độ xác phương pháp tập Stanford Dogs Phương pháp Độ xác trung bình SCDA, 2017 [77] 0.7886 ResNet-18 + localication, 2019 [80] 0.7164 CCA-ITQ, 2019 [80] 0.4402 MLH, 2019 [80] 0.4084 DPSH, 2019 [80] 0.6080 FPH, 2019 [80] 0.6909 SOM+DNN, 2019 [37] 0.8362 DSaH, 2020 [36] 0.6318 Deep feature CNN + hash layer + cross-entropy loss, 2020, [71] 0.8220 Graph-CTree 0.826416 SgC-Tree 0.842674 15 Hình 3.9 Hiệu suất tìm kiếm dựa Graph-CTree SgC-Tree tập ảnh COREL Hình 3.10 Hiệu suất tìm kiếm dựa Graph-CTree SgC-Tree tập ảnh WANG 16 Hình 3.11 Hiệu suất tìm kiếm dựa Graph-CTree SgC-Tree tập ảnh ImageCLEF Hình 3.12 Hiệu suất tìm kiếm dựa Graph-CTree SgC-Tree tập ảnh Stanford Dogs 17 3.5 Tiểu kết chương Trong chương này, phương pháp cải tiến C-Tree xây dựng nhằm nâng cao hiệu tìm kiếm ảnh: đồ thị cụm láng giềng Graph-CTree mạng tự lắp ghép SgC-Tree Các thực nghiệm triển khai tập ảnh so sánh với phương khác, cho thấy đề xuất chương đắn nâng cao độ xác Tuy nhiên, phương pháp có “khoảng cách ngữ nghĩa” đặc trưng cấp thấp với ngữ nghĩa cấp cao người dùng Do đó, để nâng cao hiệu tìm kiếm ảnh, phương pháp tìm kiếm ảnh dựa ontology đề xuất chương Chương TÌM KIẾM ẢNH DỰA VÀO ONTOLOGY 4.1 Giới thiệu Phương pháp tìm kiếm ảnh theo tiếp cận ngữ nghĩa dựa ontology đánh giá hiệu nâng cao độ xác [31] Trong chương này, phương pháp kết hợp ngữ nghĩa ontology đặc trưng cấp thấp ảnh đề xuất Kết truy vấn không tương tự nội dung thị giác, mà tương tự mặt ngữ nghĩa Một khung ontology bán tự động nhằm giảm thời gian nhân lực xây dựng đề xuất cho tốn tìm kiếm ảnh theo ngữ nghĩa 4.2 Xây dựng ontology cho liệu ảnh 4.2.1 Xây dựng khung ontology bán tự động cho tập liệu ảnh Khung ontology xây dựng bao gồm giai đoạn tự động thủ công, cụ thể sau: Giai đoạn thủ công (màu vàng): tạo mẫu hệ thống phân cấp từ lớp, tạo thuộc tính cho lớp mối quan hệ lớp, kết hợp điều với thông tin số nhận dạng tài nguyên URI, số nhận dạng tài nguyên, v.v từ WWW, chẳng hạn Wordnet, BabelNet, Wikipedia Dbpedia; 18 Giai đoạn tự động (màu xanh): tạo mẫu lớp kế thừa từ tập liệu ảnh; tạo literals cho cá thể lớp; tạo cá thể theo lớp ảnh Mỗi hình ảnh thể thuộc nhiều lớp ontology Hình ảnh phân lớp dựa vào SgCTree tự động thêm vào lớp phù hợp ontology Hình 4.1 Mơ hình xây dựng khung ontology bán tự động 4.2.2 Phương pháp bổ sung liệu cho khung ontology Bổ sung liệu cho khung ontology làm giàu mô tả ngữ nghĩa mở rộng cấu trúc ontology Việc bổ sung liệu vào khung ontology phải đảm bảo tính đắn, quán cấu trúc kế thừa thơng tin sẵn có 4.3 Hệ tìm kiếm ảnh dựa ontology 4.3.1 Mơ hình tìm kiếm ảnh dựa ontology Hệ tìm kiếm ảnh theo ngữ nghĩa dựa ontology, OnSBIR, xây dựng bao gồm pha: (1) Pha tiền xử lý trích xuất đặc trưng ảnh tổ chức lưu trữ cấu trúc liệu SgC-Tree; xây dựng, bổ sung liệu cho ontology bán tự động; (2) Pha tìm kiếm trích xuất đặc trưng cho ảnh đầu vào tìm kiếm SgC-Tree, phân lớp tập ảnh tương tự với thuật tốn k-NN để tìm tập từ vựng thị giác, từ tự động tạo câu lệnh SPARQL truy vấn ontology để truy xuất ngữ nghĩa tập ảnh tương tự theo ngữ nghĩa 19 Hình 4.2 Mơ hình hệ tìm kiếm OnSBIR 4.3.2 Thực nghiệm đánh giá hệ tìm kiếm ảnh OnSBIR Bảng 4.1 So sánh hiệu suất tìm kiếm ảnh tập ảnh COREL Chỉ số đánh giá SBIR_SgC OnSBIR Precision 0.913212 0.943615 Recall 0.923649 0.914024 F-measure 0.9183137 0.928584 Query time (ms) 86.1635 94.0758 Bảng 4.2 So sánh hiệu suất tìm kiếm ảnh tập ảnh WANG Chỉ số đánh giá SBIR_SgC OnSBIR Precision 0.823569 0.878824 Recall 0.703982 0.869068 F-measure 0.758286 0.873919 Query time (ms) 181.5546 200.1585 Bảng 4.3 So sánh hiệu suất tìm kiếm ảnh tập ảnh ImageCLEF Chỉ số đánh giá SBIR_SgC OnSBIR Precision 0.874402 0.932574 Recall 0.864789 0.916225 F-measure 0.869484 0.926373 Query time (ms) 242.1663 248.5511 Bảng 4.4 So sánh hiệu suất tìm kiếm ảnh tập ảnh Stanford Dogs Chỉ số đánh giá SBIR_SgC OnSBIR Precision 0.842674 0.873852 Recall 0.837285 0.86537 F-measure 0.839827 0.86961 Query time (ms) 275.7742 284.3384 Bảng 4.5 So sánh độ xác tìm kiếm ảnh dựa theo ontology phương pháp tập ảnh ImageCLEF Phương pháp Image ontology model O-V-A [73] Pattern graph-based image on ontology [7] Phương pháp HDLA (hybrid deep learning architecture) [11] Phương pháp SDCH (Semantic Deep Crossmodal Hashing) [79] Phương pháp CPAH (Consistency Preserving Adversarial Hashing) [78] OnSBIR Năm 2016 2017 2018 Độ xác trung bình 0.46 0.3513 0.797 2019 0.803 2020 0.8324 0.932574 20 Hình 4.26 Hiệu suất tìm kiếm dựa OnSBIR tập ảnh COREL Hình 4.27 Hiệu suất tìm kiếm dựa OnSBIR tập ảnh WANG Hình 4.28 Hiệu suất tìm kiếm dựa OnSBIR tập ảnh ImageCLEF Hình 4.29 Hiệu suất tìm kiếm dựa OnSBIR tập ảnh Stanford Dogs 21 4.4 Tiểu kết chương Một khung ontology bán tự động cho tập ảnh xây dựng nhằm nâng cao hiệu tìm kiếm ảnh theo ngữ nghĩa Khung ontology này bổ sung liệu để làm phong phú thêm hình ảnh ngữ nghĩa Từ lý thuyết đề xuất, hệ tìm kiếm ảnh theo ngữ nghĩa dựa kết hợp kỹ thuật học máy ontology (OnSBIR) xây dựng Hệ tìm kiếm thực tìm kiếm tập hình ảnh tương tự nội dung ngữ nghĩa, đồng thời, kết xuất metadata, URI ngữ nghĩa cấp cao cho hình ảnh Độ xác phương pháp tìm kiếm ảnh ontology cao so phương pháp tìm kiếm ảnh dựa kỹ thuật học máy SgC-Tree cơng trình nghiên cứu Điều chứng tỏ đề xuất chương đắn hiệu KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Luận án nghiên cứu phương pháp tìm kiếm liệu ảnh theo tiếp cận ngữ nghĩa Đóng góp luận án xây dựng phương pháp nhằm nâng cao độ xác tìm kiếm ảnh theo ngữ nghĩa Kết thực nghiệm cho thấy phương pháp đề xuất luận án đắn nâng cao độ xác Trong luận án, cấu trúc phân cụm cân bằng C-Tree xây dựng nhằm tổ chức lưu trữ liệu Dữ liệu tổ chức vec-tơ đặc trưng cấp thấp trích xuất từ màu sắc, hình dạng kết cấu hình ảnh, từ tạo kho liệu đặc trưng nhỏ gọn cho tập liệu ảnh lớn Cấu trúc C-Tree sử dụng để liên kết đặc trưng cấp thấp với từ vựng ngữ nghĩa (lớp ảnh) cho tốn tìm kiếm ảnh C-Tree sử dụng phương pháp phân cụm phân cấp phân cụm phân hoạch để tạo cấu trúc đa nhánh, cân bằng, lưu trữ liệu lớn, thời gian tìm kiếm nhanh độ xác tương đối cao 22 Để nâng cao độ xác tìm kiếm ảnh theo ngữ nghĩa, phương pháp cải tiến C-Tree xây dựng luận án, bao gồm: (1) mơ hình kết hợp C-Tree đồ thị, gọi đồ thị phân cụm láng giềng Graph-CTree; (2) mơ hình mạng kết hợp SOM đồ thị cụm láng giềng (SgC-Tree); (3) mơ hình kết hợp phương pháp học máy dựa đặc trưng cấp thấp ngữ nghĩa cấp cao dựa ontology bán tự động Ontology xây dựng để tìm kiếm ảnh theo ngữ nghĩa cấp cao, đảm bảo tính tin cậy, đắn tối ưu hóa thời gian Các quy tắc bổ sung liệu cho khung ontology đề xuất nhằm đảm bảo tính quán cấu trúc ontology Từ đó, thuật tốn tìm kiếm ảnh đề xuất để xây dựng chương trình tìm kiếm ảnh theo tiếp cận ngữ nghĩa Luận án xây dựng thực nghiệm đánh giá tập liệu ảnh: COREL, WANG, ImageCLEF Stanford Dogs Kết thực nghiệm cho thấy, đề xuất cải tiến C-Tree nâng cao độ xác, tìm kiếm ảnh ontology có độ xác cao phương pháp tìm kiếm ảnh dựa nội dung Các kết thực nghiệm mơ hình tìm kiếm ảnh so sánh với số cơng trình gần liệu ảnh, với tiếp cận kỹ thuật đại khác Độ xác mơ hình tìm kiếm ảnh theo ngữ nghĩa dựa SgC-Tree ontology vượt trội so với phương pháp khác Điều chứng tỏ phương pháp đề xuất đắn nâng cao hiệu tìm kiếm liệu ảnh theo ngữ nghĩa, đáp ứng mục tiêu đề luận án Trên sở lý thuyết thực nghiệm xây dựng, định hướng nghiên cứu tương lai bao gồm: (1) Nghiên cứu phương pháp dựa DNN, CNN, R-CNN, GCN… để so sánh với phương pháp đề xuất luận án; 23 (2) Xây dựng chương trình ứng dụng cho lĩnh vực cụ thể như: xác định địa điểm du lịch từ ảnh, chẩn đoán bệnh từ ảnh y khoa, phân biệt loại đá thổ nhưỡng địa lý, tìm kiếm ảnh từ thơng tin mạng xã hội, … (3) Làm giàu ngữ nghĩa cho ontology với mối quan hệ ngữ nghĩa ảnh chặt chẽ mở rộng xác định vị trí đối tượng ảnh, xác định mối quan hệ hành động ảnh… (4) Hướng đến ontology cho tìm kiếm ảnh theo ngữ nghĩa bằng tiếng việt DANH MỤC CÁC CƠNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 1) Nhi, N T U., & Hạnh, H H., Thanh, M L (2017), Khảo sát đánh giá hướng tiếp cận ngữ nghĩa nâng cao hiệu tìm kiếm ảnh, Hue University Journal of Science: Techniques and Technology, 126(2A), tr 153-161 2) Nguyễn Thị Uyên Nhi, Văn Thế Thành, Lê Mạnh Thạnh (2018), Nâng cao hiệu truy vấn ảnh theo ngữ nghĩa phân cụm CTree, Kỷ yếu Hội thảo Quốc gia Nghiên cứu ứng dụng CNTT (FAIR-2018), tr 370-378, Đại học Thăng Long Hà Nội 3) Nhi, N T U., Thanh, V.T., Thanh, L.M (2020), A self-balanced clustering tree for semantic-based image retrieval, Journal of Computer Science and Cybernetics, 36(1), pp 49-67 4) Thanh, L M., N T U Nhi, V T Thanh (2020), A semantic-based image retrieval system using a hybrid method K-means and K-nearestneighbor, Annales Univ Sci Budapest Sect Comp., Vol 51, pp 253274 5) Huỳnh Thị Châu Lan, Nguyễn Thị Uyên Nhi, Văn Thế Thành, Lê Mạnh Thạnh (2020), Một phương pháp kết hợp K-Means k-NN cho 24 tốn tìm kiếm phân tích ngữ nghĩa, Kỷ yếu Hội thảo Quốc gia Nghiên cứu ứng dụng CNTT (FAIR-2020), tr 274-284, Đại học Nha Trang 6) Nhi, N T U., Van, T T., & Le, T M (2021), Semantic-Based Image Retrieval Using Balanced Clustering Tree, In Trends and Applications in Information Systems and Technologies, vol 2, pp 416-427, Springer International Publishing 7) Nguyễn Thị Uyên Nhi, Văn Thế Thành, Lê Mạnh Thạnh (2021), Tìm kiếm ảnh dựa vào ontology, Chun san Các cơng trình nghiên cứu, phát triển ứng dụng Công nghệ thông tin Truyền thông, vol 1, tr 22-32 8) Nguyễn Thị Uyên Nhi, Văn Thế Thành (2021), Một phương pháp trích xuất đặc trưng cho tốn tìm kiếm ảnh, Tạp chí Khoa học công nghệ, trường đại học Khoa học, Đại học Huế, Vol 18(1), tr 3346 9) Nhi, N T U., Van, T T., & Le, T M (2021 – accept), Improving the efficiency of semantic-based image retrieval based on a model combining neighbor graph and SOM, International Journal on Semantic Web and Information Systems, Vol 18(2), IGI Global Publishing ... thống tìm kiếm ảnh theo ngữ nghĩa Hình 1.1 Kiến trúc hệ thống tìm kiếm ảnh theo ngữ nghĩa Kiến trúc chung tìm kiếm ảnh theo ngữ nghĩa bao gồm hai khối: (a) Khối màu vàng – tìm kiếm hình ảnh theo ngữ. .. nghĩa hiệu quả, luận án thực đề tài: ? ?Nâng cao hiệu tìm kiếm liệu ảnh theo tiếp cận ngữ nghĩa? ?? Tổng quan tình hình nghiên cứu Tìm kiếm ảnh theo nội dung [6] phương pháp tìm kiếm từ sở liệu đặc... đó, để nâng cao hiệu tìm kiếm ảnh, phương pháp tìm kiếm ảnh dựa ontology đề xuất chương Chương TÌM KIẾM ẢNH DỰA VÀO ONTOLOGY 4.1 Giới thiệu Phương pháp tìm kiếm ảnh theo tiếp cận ngữ nghĩa dựa