Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), TP HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0062 MỘT PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NGỮ NGHĨA DỰA TRÊN MẠNG NƠRON TÍCH CHẬP VÀ ONTOLOGY Huỳnh Thị Châu Lan1, Nguyễn Thị Uyên Nhi2, Văn Thế Thành1, Nguyễn Minh Hải3, Nguyễn Hải Yến1 Khoa Công nghệ thông tin, Trường ĐH Cơng nghiệp thực phẩm TP Hồ Chí Minh Trường Đại học Kinh tế - Đại học Đà Nẵng Trường Đại học Sư phạm TP Hồ Chí Minh {lanhtc, yennh, thanhvt}@hufi.edu.vn, 2nhintu@due.edu.vn, 3hainm@hcmue.edu.vn TÓM TẮT: Truy vấn ảnh dựa ngữ nghĩa đóng vai trị quan trọng nhiều ứng dụng thực tế Trong báo này, phương pháp tìm kiếm ảnh theo ngữ nghĩa đề xuất kết hợp mạng nơron tích chập (CNN) ontology Đầu tiên, CNN sử dụng để trích xuất đặc trưng xác định phân lớp ảnh đầu vào Sau đó, từ khung ontology xây dựng, phương pháp làm giàu ontology đề xuất Câu lệnh SPARQL tự động tạo từ phân lớp ảnh thực truy vấn ontology xây dựng nhằm truy xuất tập ảnh tương tự ngữ nghĩa tương ứng Từ đó, mơ hình truy vấn ảnh dựa ngữ nghĩa đề xuất thực nghiệm ảnh CIFAR-10 (60.000 ảnh, 10 phân lớp) Caltech 256 (30.607 ảnh, 256 phân lớp) với độ xác lần lượt: 0,884094; 0,848326 Kết thực nghiệm so sánh với công trình liên quan khác tập liệu ảnh, chứng tỏ tính hiệu phương pháp đề xuất Từ khóa: Truy vấn ảnh dựa ngữ nghĩa, mạng nơron tích chập, phân lớp ảnh, ontology I GIỚI THIỆU Ngày nay, với phát triển vượt bậc việc sử dụng Internet thiết bị mobile, số lượng hình ảnh kỹ thuật số tăng lên nhiều Do đó, để quản lý tìm kiếm xác hình ảnh liệu ảnh khổng lồ này, cần có hệ thống truy vấn mạnh mẽ Hiện nay, nhiều lĩnh vực khác ứng dụng hệ thống tìm kiếm ảnh thực tế chẩn đốn bệnh lâm sàn lĩnh vực y học, truy vết tội phạm lĩnh vực an ninh, hay hệ thống thư viện số, Trong hệ thống truy vấn ảnh theo nội dung CBIR (Content-Based Image Retrival), trích xuất đặc trưng tác vụ vơ quan trọng Vì hình ảnh so sánh với theo đặc trưng cấp thấp chúng, chẳng hạn màu sắc, kết cấu, hình dạng,… để tìm tập ảnh tương tự, nên độ xác hệ thống CBIR chủ yếu phụ thuộc vào vectơ đặc trưng trích xuất từ tập sở liệu hình ảnh Nhiều kỹ thuật đại phát triển để nâng cao hiệu suất CBIR, mạng nơron tích chập (Convolution neural network - CNN) chứng tỏ tính ưu việt lĩnh vực rút trích đặc trưng ảnh, phân loại nhận dạng hình ảnh [1-3] Tuy nhiên, hệ thống CBIR tìm kiếm tập ảnh tương tự nội dung cấp thấp, có ngữ nghĩa hồn tồn khác Vì vậy, ln tồn “khoảng cách ngữ nghĩa” [4] đặc trưng cấp thấp ngữ nghĩa cấp cao người dùng Việc phân tích tìm kiếm ngữ nghĩa hình ảnh thách thức quan tâm nghiên cứu lĩnh vực thị giác máy tính Tìm kiếm ảnh dựa ontology phương pháp hiệu nhằm truy xuất ngữ nghĩa cấp cao hình ảnh thơng qua phân cấp miền, mối quan hệ miền, khái niệm Các ngữ nghĩa ontology gần gũi với ngữ nghĩa cấp cao người dùng mà máy tính hiểu truy xuất Trong báo này, đề xuất phương pháp kết hợp mạng nơron tích chập (CNN) ontology cho tốn tìm kiếm ảnh theo ngữ nghĩa Các đóng góp báo bao gồm: (1) Sử dụng mạng CNN để rút trích đặc trưng phân lớp cho sở liệu hình ảnh; (2) xây dựng phương pháp làm giàu khung ontology xây dựng; (3) tạo câu lệnh SPARQL từ phân lớp ảnh thực truy vấn ontology xây dựng để truy xuất tập ảnh tương tự ngữ nghĩa tương ứng Phần lại báo tổ chức sau: Phần II, chúng tơi khảo sát phân tích ưu nhược điểm cơng trình liên quan để minh chứng tính khả thi phương pháp đề xuất; Phần III, chúng tơi trình phương pháp truy vấn ảnh theo tiếp cận ngữ nghĩa; thực nghiệm đánh giá kết phương pháp đề xuất mô tả Phần IV; Phần V kết luận hướng phát triển II CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN Với gia tăng nhanh chóng liệu ảnh số kích thước lẫn độ phức tạp, địi hỏi cần phải có hệ thống truy vấn ảnh hiệu Nhiều phương pháp tìm kiếm ảnh theo ngữ nghĩa cho thấy độ xác cao truy vấn trích xuất ngữ nghĩa cấp cao hình ảnh Trong đó, tập trung chủ yếu vào hai vấn đề chính: trích xuất đặc trưng cấp thấp hình ảnh, đồng thời liên kết với ngữ nghĩa cấp cao truy xuất từ ontology Những nghiên cứu gần chủ yếu tập trung vào phương pháp rút trích đặc trưng phân lớp hình ảnh dựa mạng nơron tích chập học sâu (CNNs), kết hợp với cải tiến kiến trúc mạng thông qua kỹ thuật học máy nhằm nâng cao hiệu tìm kiếm ảnh [2, 5-11] Mạng học sâu CNNs sử dụng để trích xuất đặc trưng phân lớp ảnh nhiều nhóm nghiên cứu quan tâm Dingding Cai cộng (2017) đề xuất mạng nơron tích chập độ phân giải nhận biết (RACNNs) [5] Thực nghiệm ảnh Stanford Cars, Caltech-UCSD Birds-200-2011, Oxford 102 218 MỘT PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NGỮ NGHĨA DỰA TRÊN MẠNG NƠRON TÍCH CHẬP… Category Flower với độ xác phương pháp đề xuất 63,8% Stanford Cars, 58,1% CaltechUCSD Birds-200-2011 Manjunath Jogin nhóm cộng (2018) [6], sử dụng mạng nơron tích chập kỹ thuật học sâu để sinh đặc trưng cách tự động kết hợp với phân lớp Thực nghiệm tiến hành CIFAR-10 với độ xác thuật tốn phân lớp đạt 85,97% Hạn chế nghiên cứu khơng mã hóa vị trí định hướng đối tượng vào dự đoán hệ thống Busra Rumeysa Mete cộng (2019) biểu diễn hệ thống phân lớp cho liệu hình ảnh với kỹ thuật Deep CNN tăng cường liệu [2]; Nhóm nghiên cứu đánh giá hệ thống phân lớp đề xuất hai liệu: Oxford-17 Flowers, & Oxford-102 Flowers với độ xác cao 99,8% 98,5% MLP SVM Nhóm nghiên cứu Andres Mafla (2020) đề xuất kết hợp thị giác đặc trưng chất liệu tổng hợp cục việc phân lớp tra cứu ảnh chi tiết [8] Ưu điểm giải pháp tận dụng thông tin dạng văn để trích xuất thơng tin từ hình ảnh Khai thác tín hiệu văn mở đường cho mơ hình thị giác máy tính tồn diện (hiểu ngữ cảnh) Mơ hình thử nghiệm ảnh ConText Dataset; Drink Bottle Dataset với độ xác 64,52% 62,91% Một hướng tiếp cận khác xây dựng hệ thống tìm kiếm ảnh dựa ontology Thông qua tiếp cận đối tượng ảnh phân lớp phương pháp học máy quy tắc ngữ nghĩa, sau tập ảnh tương tự ngữ nghĩa lấy từ ontology [12-16] M N Asim cộng (2019), thực khảo sát phương pháp truy xuất thông tin dựa ontology áp dụng cho truy vấn văn bản, liệu đa phương tiện (hình ảnh, video, audio) liệu đa ngơn ngữ Nhóm tác giả so sánh hiệu suất với phương pháp tiếp cận trước truy vấn văn bản, liệu đa phương tiện liệu đa ngôn ngữ [17] Tuy nhiên, nhóm tác giả đề xuất mơ hình sử dụng ontology để truy vấn đa đối tượng, chưa đề cập đến kết thực nghiệm cụ thể để so sánh với cơng trình trước Chao Wang cộng (2020) đề xuất khung ontology tích hợp cho ảnh viễn thám [15] Ontology mở rộng dựa ontology mạng cảm biến ngữ nghĩa (SSN) ngôn ngữ OWL Tuy nhiên, ứng dụng mà liệu đa nguồn gặp phải nhiều trở ngại ngữ nghĩa Xu W cộng (2020) cung cấp hướng tiếp cận tương tự ngữ nghĩa dựa ontology cho toán truy xuất tập liệu ảnh y sinh bioCADDIE 2016 [16] Với nghiên cứu này, nhóm tác giả sử dụng phương pháp MeSH để rút trích khái niệm từ tập ảnh bioCADDIE Để truy xuất tập ảnh tương tự này, nhóm tác giả sử dụng hai độ đo Wu-Palmer Resnik để đo độ tương đồng ngữ nghĩa khái niệm Từ cơng trình nghiên cứu cho thấy, sử dụng mạng nơron tích chập nhằm trích xuất đặc trưng phân lớp hình ảnh cho hiệu suất truy vấn ảnh cao Đồng thời tìm kiếm ảnh dựa ontology để trích xuất ngữ nghĩa hình ảnh khả thi Trong báo này, đề xuất phương pháp tìm kiếm ảnh kết hợp mạng rơ-ron tích chập ontology nhằm nâng cao hiệu truy vấn ảnh III PHƯƠNG PHÁP TRUY VẤN ẢNH THEO TIẾP CẬN NGỮ NGHĨA A Mạng nơron tích chập Trong học sâu, mạng nơron tích chập (CNN) áp dụng cho ứng dụng thị giác máy tính liên quan đến phân loại hình ảnh nhận dạng đối tượng Ví dụ như: Nhận dạng lồi hoa kết hợp nhận dạng đối tượng phân loại hình ảnh, hệ thống phải phát hoa ảnh nhận biết lồi hoa thuộc lồi Để nhận biết phân lớp đối tượng, hệ thống phải huấn luyện với liệu ảnh lớn, để từ dự đốn đối tượng từ mẫu học Cách tiếp cận gọi học có giám sát Theo cách tiếp cận này, hệ thống cần phải có lượng lớn liệu hình ảnh đối tượng gán nhãn để dự đoán nhãn hay phân lớp cho đối tượng Trong báo này, mạng CNNs huấn luyện sử dụng để nhận dạng nhằm phân lớp hiệu đối tượng ảnh (hình 1) B Mạng OverFeat Hình Mạng nơron tích chập LeNet, AlexNet, GoogLeNet, VGGNet kiến trúc CNN phổ biến sử dụng nghiên cứu học sâu giải vấn đề khác thị giác máy tính phân loại hình ảnh, nhận dạng đối tượng, nhận dạng giọng nói,… Học sâu sử dụng việc huấn luyện lượng lớn liệu GPU Điều số lần lập lại lớn trình huấn luyện liệu, đặc biệt liệu hình ảnh Vì vậy, thay huấn luyện CNN từ đầu với số lượng lớn hình ảnh cho lớp, phương pháp gọi "Học chuyển giao" sử dụng mà mạng huấn luyện trước tập liệu lớn (ImageNet challenge) OverFeat, Inception-v3, Xception coi công cụ trích xuất đặc trưng cách giữ lại tất lớp huấn luyện trước ngoại trừ lớp kết nối đầy đủ cuối Trong cơng trình này, mơ hình huấn luyện trước OverFeat đề xuất cho việc trích xuất phân lớp cho ảnh đầu vào nhằm tăng độ xác cho việc phân lớp ảnh đầu vào Mạng OverFeat giới thiệu huấn luyện Sermanet et al [18] tập liệu huấn luyện ImageNet 2012 chứa 1,2 triệu hình ảnh 1000 phân lớp Kiến trúc mạng biểu thị bảng bao gồm lớp với kích Huỳnh Thị Châu Lan, Nguyễn Thị Uyên Nhi, Văn Thế Thành, Nguyễn Minh Hải, Nguyễn Hải Yến 219 hoạt phi tuyến tính ReLU áp dụng sau lớp tích chập lớp kết nối đầy đủ tương ứng Trong kiến trúc này, kích thước lọc giảm dần số lượng lọc bắt đầu nhỏ sau tăng lên lớp cấp cao mạng Bảng Kiến trúc mạng OverFeat Layer Stage #filters Conv + max Conv + max Conv Conv Conv + max Full Full Full 96 256 512 1024 1024 3072 4096 1000 Filter size 11x11 5x5 3x3 3x3 3x3 - Conv Stride 1 1 - Pooling size 2 - Pooling stride 2 - Spatial input size 231x231 24x24 12x12 12x12 12x12 6x6 1x1 1x1 Hình ảnh đầu vào từ tập liệu Flower thay đổi kích thước thành kích thước cố định [231x231x3] gửi đến mạng OverFeat Lớp thứ nơron mạng OverFeat bao gồm CONV => RELU => POOL với M = 96 lọc kích thước [11x11] Lớp thứ bao gồm CONV => RELU => POOL với M = 256 lọc kích thước [5x5] Lớp thứ thứ mạng bao gồm CONV => RELU => CONV => RELU với M = 512 1024 lọc kích thước [3x3] Lớp thứ bao gồm CONV => RELU => POOL M = 1024 lọc kích thước [3x3] Kết đầu lớp thứ ma trận đặc trưng, hàm làm phẳng sử dụng để biến ma trận đặc trưng thành véctơ đặc trưng Lớp thứ thứ lớp kết nối đầy đủ, theo sau phân loại SOFTMAX đưa xác suất dự đốn lớp Hình ví dụ trích xuất đặc trưng từ tập ảnh Caltech-256 thơng qua mạng OverFeat Hình Một ví dụ trích xuất đặc trưng sử dụng mạng OverFeat Trong báo này, chúng tơi sử dụng mạng OverFeat để trích xuất đặc trưng phân lớp cho tập liệu ảnh Flower-17, CUB-200 StanfordDogs Độ xác việc phân lớp tập liệu ảnh so sánh với mơ hình CNN đại khác trình bày bảng Bảng Độ xác trích xuất phân lớp tập liệu ảnh sử dụng cấu trúc mạng OverFeat Dataset CIFAR-10 Caltech-256 Mơ hình Inception-v3 Xception OverFeat Inception-v3 Xception OverFeat Độ xác 98,66% 98,66% 99,11% 89,68% 92,58% 90,58% Việc sử dụng kiến trúc CNN sâu (mạng Overfeat) giúp hệ thống trích xuất vectơ đặc trưng cách đầy đủ bao gồm đặc trưng cấp thấp đặc trưng cấp cao, từ làm tăng độ xác nhận dạng phân lớp đối tượng ảnh Điều giúp cho việc truy vấn ảnh tương tự ảnh đầu vào đạt hiệu suất cao Tham chiếu số liệu bảng Ngồi ra, mạng CNN có nhiệm vụ phân lớp cho hình ảnh Từ ảnh đầu vào qua mạng tích chập CNN ta phân lớp ảnh đó, ảnh gồm nhiều đối tượng thuộc nhiều phân lớp khác Hình số ví dụ phân lớp ảnh theo đối tượng 220 MỘT PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NGỮ NGHĨA DỰA TRÊN MẠNG NƠRON TÍCH CHẬP… Hình Một ví dụ phân lớp ảnh theo đối tượng CIFAR-10 Caltech-256 C Ontology Ontology cho hình ảnh ảnh thiết kế để nắm bắt nội dung ngữ nghĩa, lưu trữ thông tin phi cấu trúc theo hệ thống phân cấp, khái niệm, với thuộc tính quan hệ chúng Trong nghiên cứu trước chính chúng tơi [19], phương pháp xây dựng khung ontology bán tự động đề xuất dựa tập ảnh ImageCLEF Phương pháp có kết hợp thủ công tự động, phù hợp với liệu ảnh lớn, đảm bảo tính tin cậy cho ontology không nhiều thời gian, nhân lực Trong báo này, đề xuất phương pháp làm giàu khung ontology bán tự động với tập ảnh khác Standford Dogs, CUB-200 Oxford Flower-17 Các lớp, phân cấp lớp, thuộc tính, quan hệ, cá thể mô tả ngữ nghĩa tập ảnh cho trước bổ sung bán tự động cho khung ontology ban đầu Đối với ảnh từ WWW phân loại để xác định lớp, tự động bổ sung cá thể ảnh vào ontology Mơ hình làm giàu liệu cho khung ontology đề xuất hình Hình Mơ hình bổ sung liệu khung ontology Quá trình làm giàu liệu cho ontology thực sau: Bước Xác định tập ảnh để làm giàu cho khung ontology xây dựng (1) thông tin từ WWW (2) để tạo mẫu liệu dựa vào thành phần khung ontology; Bước Kiểm tra tự động trùng lặp lớp, cá thể, thuộc tính,… mẫu liệu cần bổ sung vào khung ontology cập nhật chỉnh sửa với tham gia chuyên gia (3); Bước Dữ liệu bổ sung vào khung ontology để làm phong phú thêm cho ngữ nghĩa (4); Bước Với ảnh từ WWW (5) thơng qua mơ hình phân lớp ảnh dựa CNN (6) để xác định lớp ảnh tự động bổ sung cá thể ảnh vào lớp ontology (7) Hình Làm giàu liệu lưu trữ file theo định dạng N3 Huỳnh Thị Châu Lan, Nguyễn Thị Uyên Nhi, Văn Thế Thành, Nguyễn Minh Hải, Nguyễn Hải Yến 221 Việc bổ sung liệu vào khung ontology phải đảm bảo tính đắn, quán cấu trúc kế thừa thơng tin sẵn có Q trình làm giàu ontology tạo tự động phần mềm OntologySBIR, triển khai ngôn ngữ C# Ontology tạo bổ sung lưu trữ tập tin SBIR-Ontology.n3 hình Để trực quan hóa cho q trình làm giàu liệu, SBIR-Ontology.n3 thực Protégé hình với tập ảnh Caltech-256 Từ hình cho thấy, việc làm giàu ontology đề xuất đảm bảo tính quán liệu, lớp bổ sung vào lớp cha sẵn có mà khơng làm thay đổi cấu trúc khung ontology Hình Một ví dụ làm giàu liệu cho khung ontology Như vậy, thấy ontology hiệu tìm kiếm trích xuất ngữ nghĩa hình ảnh Ontology xây dựng thủ cơng tự động, làm giàu theo thời gian Tuy nhiên, việc xây dựng làm giàu ontololy thủ công nhiều thời gian nhân lực Trong hình ảnh lượng liệu vô lớn gia tăng theo thời gian Vì thế, xây dựng ontology tự động hiệu quả, khơng đảm bảo tính tin cậy Do đó, báo này, việc kết hợp phương pháp xây dựng thủ công nhằm tạo khung cho ontology, sau kết hợp với việc phân lớp ảnh mạng CNN để tự động bổ sung hình ảnh (cá thể ontology) vào ontology nhằm tăng tốc cho việc tạo ontology đảm bảo tính tin cậy hiệu Các thuật toán tạo ontology bán tự động thực sau: Thuật toán Tạo lớp cho ontology Đầu vào: 𝐶 = {𝑐𝑙𝑎𝑠𝑠𝑖 , 𝑖 = 𝑁}, 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦; Đầu ra: 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦; Function 𝐶𝑂𝐶 (𝐶, 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦) Begin Foreach 𝑐𝑙𝑎𝑠𝑠 in 𝐶 𝑆𝑢𝑏 = "𝑠𝑏𝑖𝑟: " + 𝐶𝑙𝑎𝑠𝑠; 𝑃𝑟𝑒 = "𝑟𝑑𝑓: 𝑡𝑦𝑝𝑒"; 𝑂𝑏𝑗 = "𝑜𝑤𝑙: " + "𝐶𝑙𝑎𝑠𝑠"; 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦 = 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦 ⊇ 𝑇𝑟𝑖𝑝𝑙𝑒(𝑆𝑢𝑏, 𝑃𝑟𝑒, 𝑂𝑏𝑗); EndForeach Return 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦; End Thuật toán Tạo cá thể lớp cho ontology Đầu vào: 𝐶 = {𝑐𝑙𝑎𝑠𝑠𝑖 , 𝑖 = 𝑁}, 𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙, 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦; Đầu ra: 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦; Function 𝐶𝐼𝐶 (𝐶, 𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙, 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦) Begin Foreach 𝑐𝑙𝑎𝑠𝑠 in 𝐶 𝑆𝑢𝑏 = "𝑠𝑏𝑖𝑟: " + 𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙 𝐸𝑙𝑒𝑚𝑒𝑛𝑡𝐴𝑡(𝑖); 𝑃𝑟𝑒 = "𝑟𝑑𝑓: 𝑡𝑦𝑝𝑒"; 𝑂𝑏𝑗 = "𝑜𝑤𝑙: 𝑁𝑎𝑚𝑒𝑑𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙" ; 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦 = 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦 ⊇ 𝑇𝑟𝑖𝑝𝑙𝑒(𝑆𝑢𝑏, 𝑃𝑟𝑒, 𝑂𝑏𝑗); EndForeach Return 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦; End Thuật toán Tạo phân cấp lớp cho ontology Đầu vào: 𝐶 = {𝑐𝑙𝑎𝑠𝑠𝑖 , 𝑖 = 𝑁}, 𝑠𝑢𝑝𝑒𝑟𝑐𝑙𝑎𝑠𝑠, 𝑠𝑢𝑏𝐶𝑙𝑎𝑠𝑠, 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦; Đầu ra: 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦; Function 𝐶𝑂𝐶𝑆 (𝐶, 𝑠𝑢𝑝𝑒𝑟𝑐𝑙𝑎𝑠𝑠, 𝑠𝑢𝑏𝐶𝑙𝑎𝑠𝑠, 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦) Begin Foreach 𝑐𝑙𝑎𝑠𝑠 in 𝐶 𝑆𝑢𝑏 = "𝑠𝑏𝑖𝑟: " + 𝑠𝑢𝑏𝐶𝑙𝑎𝑠𝑠; 𝑃𝑟𝑒 = "𝑟𝑑𝑓𝑠: 𝑠𝑢𝑏𝐶𝑙𝑎𝑠𝑠𝑂𝑓"; 𝑂𝑏𝑗 = "𝑜𝑤𝑙: " + 𝑠𝑢𝑝𝑒𝑟𝐶𝑙𝑎𝑠𝑠; 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦 = 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦 ⊇ 𝑇𝑟𝑖𝑝𝑙𝑒(𝑆𝑢𝑏, 𝑃𝑟𝑒, 𝑂𝑏𝑗); EndForeach Return 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦; End Thuật tốn Tạo thuộc tính quan hệ cho ontology Đầu vào: 𝐶 = {𝑐𝑙𝑎𝑠𝑠𝑖 , 𝑖 = 𝑁}, 𝐿𝑂𝑏𝑃𝑟𝑜, 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦; Đầu ra: 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦; Function 𝐶𝑂𝑃𝐶 (𝐶, 𝐿𝑂𝑏𝑃𝑟𝑜, 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦) Begin Foreach 𝑐𝑙𝑎𝑠𝑠 in 𝐶 𝑆𝑢𝑏 = "𝑠𝑏𝑖𝑟: " + 𝐿𝑂𝑏𝑃𝑟𝑜 𝐸𝑙𝑒𝑚𝑒𝑛𝑡𝐴𝑡(𝑖); 𝑃𝑟𝑒 = "𝑟𝑑𝑓: 𝑡𝑦𝑝𝑒"; 𝑂𝑏𝑗 = "𝑜𝑤𝑙: 𝑂𝑏𝑗𝑒𝑐𝑡𝑃𝑟𝑜𝑝𝑒𝑟𝑡𝑦" ; 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦 = 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦 ⊇ 𝑇𝑟𝑖𝑝𝑙𝑒(𝑆𝑢𝑏, 𝑃𝑟𝑒, 𝑂𝑏𝑗); EndForeach Return 𝑂𝑛𝑡𝑜𝑙𝑜𝑔𝑦; End MỘT PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NGỮ NGHĨA DỰA TRÊN MẠNG NƠRON TÍCH CHẬP… 222 Thuật tốn thực thêm 𝑛 lần lớp 𝑐𝑙𝑎𝑠𝑠 vào ontology, độ phức tạp thuật toán 𝑂(𝑛) Thuật toán thực kiểm tra 𝑛 lần lớp 𝑐𝑙𝑎𝑠𝑠 để tạo phân cấp lớp, độ phức tạp thuật toán 𝑂(𝑛) Thuật toán thực thêm 𝑛 cá thể vào lần 𝑚 lớp 𝑐𝑙𝑎𝑠𝑠 ontology, đó, độ phức tạp thuật tốn 𝑂(𝑛 × 𝑚) Thuật tốn thực thêm 𝑛 thuộc tính quan hệ cho 𝑚 lớp 𝑐𝑙𝑎𝑠𝑠 ontology, độ phức tạp thuật tốn 𝑂(𝑛 × 𝑚) IV THỰC NGHIỆM VÀ ĐÁNH GIÁ Kiến trúc hệ thống CNN-SIR Kiến trúc hệ thống phân lớp truy vấn tập ảnh tương tự phân tích ngữ nghĩa hình ảnh CNN_SIR mơ tả hình Hệ thống thực tìm kiếm tập ảnh tương tự dựa vào kết phân lớp ảnh, phân cụm hình ảnh, từ phân tích ngữ nghĩa truy vấn hình ảnh dựa vào ontology A Hình Hệ truy vấn CNN_SIR bao gồm hai pha Pha tiền xử lý: Bước 1: Tập liệu ảnh huấn luyện qua mơ hình mạng CNN huấn luyện, kết thu tập phân lớp ảnh đầu vào (1); Bước 2: Làm giàu khung Ontology từ tập liệu ảnh (2) Wolrd Wide Web (3) dựa vào ngôn ngữ ba RDF/XML; Pha truy vấn ảnh: Bước 1: Với ảnh truy vấn (4), hệ thống thực trích xuất đặc trưng phân lớp ảnh thông qua mạng CNN huấn luyện pha tiền xử lý (5) Kết thu tập phân lớp ảnh đầu vào (6) Mỗi phân lớp ảnh tương ứng với tập từ vựng thị giác (7); Bước 2: Tự động tạo câu truy vấn SPARQL dựa vào tập từ vựng thị giác (8) để truy vấn ngữ nghĩa cho hình ảnh ontology (9) Kết trình truy vấn ontology URIs, metadata hình ảnh (10) tập hình ảnh tương tự ngữ nghĩa (11) B Mơi trường thử nghiệm Hệ truy vấn CNN_SIR xây dựng nhằm truy vấn hình ảnh dựa CNN ontology, dựa tảng dotNET Framework 4.8, ngơn ngữ lập trình C# Các đồ thị xây dựng Mathlab 2015 Cấu hình máy tính thực nghiệm: Intel(R) CoreTM i9-9200H, CPU 4,20GHz, RAM 16GB hệ điều hành Windows 10 Professional Tập liệu sử dụng thực nghiệm là liệu ảnh CIFAR-10, Caltech-256 C Ứng dụng Với ảnh đầu vào, hệ thống CNN_SIR trích xuất đặc trưng phân lớp ảnh CNN Hình kết tìm kiếm hình ảnh theo ngữ nghĩa hệ CNN_SIR Từ phân lớp ảnh đầu vào, câu truy vấn SPARQL (UNION AND) tự động tạo để truy vấn ontology Hình kết phân lớp truy vấn theo SPARQL hệ truy vấn CNN_SIR Với hình ảnh tập ảnh tương tự mơ tả ngữ nghĩa với metadata cho thích hình ảnh, định danh URI hình ảnh Huỳnh Thị Châu Lan, Nguyễn Thị Uyên Nhi, Văn Thế Thành, Nguyễn Minh Hải, Nguyễn Hải Yến 223 Hình Một kết tìm kiếm hình ảnh theo ngữ nghĩa hệ truy vấn CNN_SIR Hình Một kết ngữ nghĩa hình ảnh hệ truy vấn CNN_SIR D Đánh giá thực nghiệm Để đánh giá hiệu tìm kiếm hình ảnh, viết sử dụng yếu tố để đánh giá, bao gồm: precision, recall F-measure, thời gian truy vấn (milli seconds) Trên sở giá trị hiệu suất có, giá trị hiệu suất thời gian tìm kiếm trung bình tập liệu Caltech256 CIFAR-10 hệ CNN_SIR tổng hợp bảng Bảng Hiệu suất truy vấn ảnh hệ CNN_SIR Tên cấu trúc Caltech-256 CIFAR-10 Avg precision 0,848326 0,884094 Avg recall 0,849823 0,819823 Avg F-measure 0,854053 0,850746 Avg query time (ms) 966.884 1066.884 Dựa số liệu thực nghiệm, Hình 10 11 mô tả đồ thị Precision-Recall curve ROC curve thực để đánh giá độ xác hệ truy vấn ảnh CNN_SIR, đường cong mô tả liệu truy vấn; diện tích đường cong cho thấy độ xác việc truy vấn ảnh Hiệu suất truy vấn hình ảnh CNN_SIR tập ảnh Caltech-256 CIFAR-10 cho thấy phương pháp cải tiến đề xuất báo hiệu Hình 10 Hiệu suất truy vấn ảnh tập liệu ảnh Caltech-256 hệ CNN_SIR 224 MỘT PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NGỮ NGHĨA DỰA TRÊN MẠNG NƠ-RON TÍCH CHẬP… Hình 11 Hiệu suất truy vấn ảnh tập liệu ảnh CIFAR-10 hệ CNN_SIR Để đánh giá độ xác hiệu hệ truy vấn ảnh CNN_SIR, kết thực nghiệm so sánh với công trình nghiên cứu khác liệu ảnh Giá trị trung bình độ xác hệ CNN_SIR so sánh với phương pháp khác liệu mô tả bảng 4, cho thấy kết truy vấn phương pháp đề xuất xác so với hệ truy vấn ảnh theo ngữ nghĩa Bảng So sánh độ xác phương pháp liệu Caltech-256 Phương pháp Mean Average Precision (MAP) Feature fusion + BoW [20] (2019) LDA_DCT with Scaling 32x32 DWT (0.5) [21] (2020) Deep Feature Selection Network (DFS-Net) with InceptionV3 [22] (2020) CNN_SIR 0,7422 0,818 0,8391 0,848326 Bảng So sánh độ xác phương pháp liệu CIFAR-10 Phương pháp DSDH – 48 bits [23] (2019) A deep progressive quantization (DPQ) model [24] (2019) GM-NetVLAD [25] (2020) CNN_SIR Mean Average Precision (MAP) 0,82 0,834 0,645 0,884094 Qua số liệu bảng trên, cho thấy phương pháp đề xuất có độ xác cao so sánh với phương pháp truy vấn khác tập ảnh Kết chứng minh rằng, phương pháp đề xuất hiệu V KẾT LUẬN Trong báo này, phương pháp tìm kiếm ảnh theo ngữ nghĩa đề xuất với kết hợp mạng nơron tích chập (CNN) ontology Đầu tiên, mạng CNN huấn luyện sử dụng để trích xuất đặc trưng phân lớp cho ảnh Sau đó, dựa khung ontology xây dựng, phương pháp làm giàu ontology bán tự động đề xuất với việc bổ sung cá thể ảnh phân lớp ảnh, đảm bảo tính xác, thống cấu trúc Với hình ảnh đầu vào, đặc trưng hình ảnh trích xuất phân lớp dựa vào mạng CNN để tạo tập từ vựng thị giác Từ đó, câu lệnh SPARQL tự động tạo từ từ vựng thị giác; sau đó, thực truy vấn ontology nhằm truy xuất tập ảnh tương tự ngữ nghĩa tương ứng Một mơ hình truy vấn ảnh dựa mạng CNN ontology (CNN_SIR) đề xuất thực nghiệm ảnh CIFAR-10, Caltech-256 với độ xác 0,884094; 0,848326 Kết thực nghiệm so sánh với nghiên cứu khác tập ảnh, cho thấy, phương pháp đề xuất có độ xác cao Trong định hướng nghiên cứu tương lai, tiếp tục cải tiến phương pháp trích xuất đặc trưng, phân lớp ảnh làm giàu cho ontology Huỳnh Thị Châu Lan, Nguyễn Thị Uyên Nhi, Nguyễn Minh Hải, Nguyễn Hải Yến 225 LỜI CẢM ƠN Nhóm tác giả chân thành cảm ơn Trường Đại học Công nghiệp thực phẩm TP HCM tạo điều kiện để hoàn thành nghiên cứu Trân trọng cảm ơn nhóm nghiên cứu SBIR-HCM Trường Đại học Sư phạm TP HCM, Đại học Kinh tế - Đại học Đà Nẵng hỗ trợ chuyên môn sở vật chất để nhóm tác giả hồn thành nghiên cứu TÀI LIỆU THAM KHẢO Hiary, H., et al., Flower classification using deep convolutional neural networks IET Computer Vision, 12(6): p 855-862, 2018 Mete, B R and T Ensari Flower classification with deep CNN and machine learning algorithms 3rd International Symposium on Multidisciplinary Studies and Innovative Technologies (ISMSIT), 2019 IEEE Mohamed, O., O Mohammed, and A Brahim Content-based image retrieval using convolutional neural networks in First International Conference on Real Time Intelligent Systems, 2017 Springer Sezavar, A., H Farsi, and S Mohamadzadeh, Content-based image retrieval by combining convolutional neural networks and sparse representation Multimedia Tools and Applications, 78(15): p 20895-20912, 2019 Cai, D., et al., Convolutional low-resolution fine-grained classification Pattern Recognition Letters, 119: p 166-171, 2019 Jogin, M., et al Feature extraction using convolution neural networks (CNN) and deep learning 3rd IEEE international conference on recent trends in electronics, information & communication technology (RTEICT), 2018 IEEE Kido, S., Y Hirano, and N Hashimoto Detection and classification of lung abnormalities by use of convolutional neural network (CNN) and regions with CNN features (R-CNN) International workshop on advanced image technology (IWAIT), 2018 IEEE Mafla, A., et al Fine-grained image classification and retrieval by combining visual and locally pooled textual features Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2020 Nartey, O.T., et al., Semi-supervised learning for fine-grained classification with self-training IEEE Access, 8: p 2109-2121, 2019 10 Qin, J., et al., A biological image classification method based on improved CNN Ecological Informatics, 2020 58: p 101093 11 Wang, W., et al., Development of convolutional neural network and its application in image classification: a survey Optical Engineering, 58(4): p 040901, 2019 12 Filali, J., H B Zghal, and J Martinet, Ontology-based image classification and annotation International Journal of Pattern Recognition and Artificial Intelligence, 34(11): p 2040002, 2020 13 Shati, N M., N khalid Ibrahim, and T.M Hasan, A review of image retrieval based on ontology model Journal of Al-Qadisiyah for computer science and mathematics, 12(1): p Page 10-14-Page 10-14, 2020 14 Toro Icarte, R., et al., How a General-Purpose Commonsense ontology can improve performance of learning-based image retrieval arXiv e-prints, p arXiv: 1705.08844, 2017 15 Wang, C., et al., An ontology-based framework for integrating remote sensing imagery, image products, and in situ observations Journal of Sensors, 2020 16 Wang, X., Z Huang and F van Harmelen Ontology-based semantic similarity approach for biomedical dataset retrieval in International Conference on Health Information Science, 2020, Springer 17 Asim, M.N., et al., The use of ontology in retrieval: A study on textual, multilingual, and multimedia retrieval IEEE Access, 7: p 21662-21686, 2019 18 Mathieu, M., et al., Overfeat: Integrated recognition, localization and detection using convolutional networks, 2013 19 Nhi, N.T.U and T.M Le Semantic-based image retrieval using balanced clustering tree World Conference on Information Systems and Technologies, 2021, Springer 20 Ahmed, K T., Ummesafi, S., & Iqbal, A., Content based image retrieval using image features information fusion Information Fusion, 51, 76-99, 2019 21 Liu, Q., Xiang, X., Qin, J., Tan, Y., Tan, J., & Luo, Y., Coverless steganography based on image retrieval of DenseNet features and DWT sequence mapping Knowledge-Based Systems, 192, 105375, 2020 22 Zhou, Y., Pan, L., Chen, R., & Shao, W., A novel image retrieval method with improved DCNN and hash Journal of Information Hiding and Privacy Protection, 2(2), 77, 2020 23 Wu, D., Dai, Q., Liu, J., Li, B., & Wang, W., Deep incremental hashing network for efficient image retrieval Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp 9069-9077), 2019 24 Gao, L., Zhu, X., Song, J., Zhao, Z., & Shen, H T., Beyond product quantization: Deep progressive quantization for image retrieval arXiv preprint arXiv:1906.06698, 2019 25 Cao, Y., Zhang, J., & Yu, J., Image retrieval via gated multiscale NetVLAD for Social Media Applications IEEE MultiMedia, 27(4), 69-78, 2020 226 MỘT PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NGỮ NGHĨA DỰA TRÊN MẠNG NƠ-RON TÍCH CHẬP… A METHOD OF SEMANTIC-BASED IMAGE RETRIEVAL USING CNN AND ONTOLOGY Huynh Thi Chau Lan, Nguyen Thi Uyen Nhi, Nguyen Minh Hai, Nguyen Hai Yen, Van The Thanh ABSTRACT: Image retrieval plays an important role in many applications In this paper, a method of semantic-based image retrieval is proposed that combines convolutional neural network (CNN) and ontology First, CNN is used for feature extraction and classification of the input image Then, an ontology framework enrichment method is proposed The SPARQL query is automatically generated from the set of visual words and executes a query on ontology to retrieve the similar images and its semantics From that, a semantic-based image retrieval model is proposed and experiment on the datasets CIFAR-10 (60,000 images, 10 classes), Caltech-256 (30,607 images, 256 classes) with 0.884094, 0.848326, respectively The experimental results are compared with other related works on the same image dataset, proving the effectiveness of the proposed methods ... ontology to retrieve the similar images and its semantics From that, a semantic- based image retrieval model is proposed and experiment on the datasets CIFAR-10 (60,000 images, 10 classes), Caltech-256... and annotation International Journal of Pattern Recognition and Artificial Intelligence, 34(11): p 2040002, 2020 13 Shati, N M., N khalid Ibrahim, and T.M Hasan, A review of image retrieval based. .. can improve performance of learning -based image retrieval arXiv e-prints, p arXiv: 1705.08844, 2017 15 Wang, C., et al., An ontology -based framework for integrating remote sensing imagery, image