MỘT PHƯƠNG PHÁP KẾT HỢP K-MEANS VÀ k-NN CHO BÀI TOÁN TÌM KIẾM

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00181 MỘT PHƯƠNG PHÁP KẾT HỢP K-MEANS VÀ k-NN CHO BÀI TOÁN TÌM KIẾM VÀ PHÂN TÍCH NGỮ NGHĨA HÌNH ẢNH Huỳnh Thị Châu Lan1, Nguyễn Thị Uyên Nhi2,4, Văn Thế Thành3, Lê Mạnh Thạnh4 Khoa Công nghệ thông tin, Trƣờng ĐH Công nghiệp thực phẩm TP HCM Khoa Thống kê - Tin học, Trƣờng Đại học Kinh tế - Đại học Đà Nẵng Phòng Quản lý khoa học Đào tạo sau Đại học, Trƣờng Đại học Công nghiệp thực phẩm TP HCM Trƣờng Đại học Khoa học, Đại học Huế lanhtc@hufi.edu.vn, nhintu@due.edu.vn, thanhvt@hufi.edu.vn, lmthanh@hueuni.edu.vn TÓM TẮT: Bài tốn phân tích ngữ nghĩa cho nội dung hình ảnh ứng dụng nhiều hệ thống khác như: Hệ thống thông tin địa lý GIS (Geography Information System), Hệ thống thư viện số DLS (Digital Library System), hệ thống thông tin bệnh viện HIS (Hospital Information System),… Trong báo này, đề xuất phương pháp kết hợp kỹ thuật gom cụm K-Means cho việc tìm kiếm tập ảnh tương tự phân lớp k-NN (k-Nearest Neighbor) nhằm kết xuất phân lớp ngữ nghĩa ảnh truy vấn đầu vào Trên sở phân lớp hình ảnh, câu truy vấn SPARQL tạo thực thi Ontology lưu trữ ngữ nghĩa định danh hình ảnh; Kết trình truy vấn tập ảnh tương tự với ảnh đầu vào ngữ nghĩa phân lớp tập ảnh tương tự Để thực toán này, phương pháp phân cụm K-Means áp dụng làm đầu vào cho thuật tốn phân lớp k-NN nhằm trích xuất ngữ nghĩa ảnh truy vấn Từ đó, mơ hình thực nghiệm xây dựng đánh giá ảnh COREL, Wang, ImageCLEF, đồng thời so sánh với kết cơng trình cơng bố gần Theo kết thực nghiệm, phương pháp trích xuất ngữ nghĩa truy vấn ảnh tương tự đề xuất hiệu Từ khóa: Truy vấn theo ngữ nghĩa (SBIR), gom cụm (clustering), phân lớp k-NN (k-Nearest neighbor), ảnh tương tự (similar image), ontology I GIỚI THIỆU Trong năm gần đây, tăng trƣởng nhanh chóng sƣu tập ảnh số tạo nhu cầu phát triển công cụ để quản lý truy xuất hiệu lƣợng liệu ảnh khổng lồ, nhằm ứng dụng vào hệ thống nhƣ: Hệ thống thông tin địa lý GIS (Geography Information System), hệ thống thƣ viện số DLS (Digital Library System), hệ thống thông tin bệnh viện HIS (Hospital Information System)… Với mục tiêu đó, phân tích tìm kiếm ngữ nghĩa hình ảnh thách thức đƣợc quan tâm nghiên cứu phổ biến thời gian gần Có nhiều hệ thống truy xuất hình ảnh dựa ngữ nghĩa nhƣ sử dụng ontology để xác định khái niệm cấp cao [15, 17], sử dụng phƣơng pháp học máy để liên kết tính cấp thấp với truy vấn khái niệm [8, 14], sử dụng nội dung hình ảnh thơng tin văn thu đƣợc từ Web để phục hồi hình ảnh [9, 11], Vì vậy, SBIR trích xuất đặc trƣng cấp thấp hình ảnh để truy xuất tập hình ảnh tƣơng tự, từ trích xuất ngữ nghĩa hình ảnh [14, 15] Trong báo này, đề xuất phƣơng pháp kết hợp kỹ thuật gom cụm phân hoạch K-Means phân lớp k-NN (k-Nearest Neighbor) nhằm tìm kiếm tập ảnh tƣơng tự kết xuất phân lớp ngữ nghĩa ảnh truy vấn đầu vào Trong phƣơng pháp đề xuất, chúng tơi sử dụng thuật tốn Mean-Shift để xác định số cụm k thực thuật toán K-means để gom cụm đặc trƣng cấp thấp hình ảnh dựa vào độ đo Euclid, sau thực thuật tốn phân lớp k-NN nhằm trích xuất phân lớp ngữ nghĩa ảnh truy vấn Một ontology bán tự động đƣợc xây dựng cho liệu ảnh Câu truy vấn SPARQL đƣợc tạo tự động từ phân lớp ngữ nghĩa ảnh đầu vào, thực truy vấn ontology xây dựng, nhằm phân tích ngữ nghĩa cấp cao cho hình ảnh Phần lại báo đƣợc tổ chức nhƣ sau: phần II, khảo sát phân tích ƣu nhƣợc điểm cơng trình liên quan để minh chứng tính khả thi phƣơng pháp đề xuất; phần III, chúng tơi trình bày kiến trúc hệ thống thành phần hệ thống; Thực nghiệm đƣợc mô tả phần IV đánh giá, so sánh ảnh COREL, Wang, ImageCLEF; phần V kết luận hƣớng phát triển II CÁC CƠNG TRÌNH LIÊN QUAN Hiện nay, có nhiều cơng trình nghiên cứu lĩnh vực tìm kiếm ảnh tƣơng tự dựa nội dung (CBIR) với kỹ thuật khác nhƣ là: Truy xuất hình ảnh dựa nội dung cho toán nhận dạng nhiều đối tƣợng trái cách sử dụng k-Means k-NN [6]; Một phƣơng pháp chọn lọc đặc trƣng sử dụng kỹ thuật học có giám sát k-NN hệ thống CBIR [12];… Tuy nhiên, tập ảnh tƣơng tự thu đƣợc chƣa thực đáp ứng mong muốn ngƣời dùng Với mục tiêu giảm thiểu khoảng cách ngữ nghĩa để cải thiện hiệu CBIR, nhiều công trình nghiên cứu liên quan đƣợc cơng bố nhƣ: Hệ thống truy xuất hình ảnh dựa đồ thị mẫu kết hợp tính trực quan ngữ nghĩa [15]; Hệ thống truy xuất hình ảnh tự nhiên dựa ngữ nghĩa bán tự động [14],… Erwin cộng (2017) [6] đề xuất hệ thống nhận dạng trái đƣợc xử lý qua ba bƣớc: trích xuất đặc trƣng, sau thực gom cụm phƣơng pháp K-Means cuối sử dụng kỹ thuật k-NN để phân lớp Tuy nhiên, hệ thống nhận diện ảnh trái cây, thuật toán K-Means đƣợc áp dụng theo phƣơng pháp centroid phải cập nhật tâm cụm liệu thay đổi, chƣa xử lý trƣờng hợp số lƣợng láng giềng có số phân lớp 296 MỘT PHƢƠNG PHÁP KẾT HỢP K-MEANS VÀ k-NN CHO BÀI TỐN TÌM KIẾM VÀ PHÂN TÍCH NGỮ NGHĨA… Yanchun Ma cộng (2019) [12] đƣa mơ hình k-NN có trọng số (weight k-NN) kết hợp phƣơng pháp phân biệt tuyến tính đa nhãn để phân lớp đối tƣợng dựa trọng số nhằm cải thiện độ xác việc tính tốn dự đốn ngữ nghĩa đối tƣợng hình ảnh Qua thực nghiệm hệ thống cho thấy, hệ thống thực thi hiệu tập liệu lớn Tuy nhiên, phƣơng pháp tốn nhiều chi phí thời gian pha huấn luyện gán nhãn lớp cho hình ảnh, chƣa xây dựng cấu trúc tìm kiếm ảnh tƣơng tự theo nội dung để tăng tính hiệu thời gian Fahd A.Alqasemi cộng (2019) [1] đề xuất tiếp cận tìm kiếm ảnh theo nội dung dựa kỹ thuật k-NN kết hợp với đặc trƣng thống kê hình ảnh khơng gian RGB đánh giá độ tƣơng tự dựa độ đo Euclide Đề xuất nhóm mang lại tính hiệu đơn giản hóa hệ thống tìm kiếm ảnh theo nội dung Trong báo này, việc tìm kiếm nhóm ảnh tƣơng tự thực cách tuyến tính khơng có cấu trúc tìm kiếm nhóm ảnh láng giềng để mở rộng cho tốn tìm kiếm ảnh tƣơng tự Vijayarajan cộng (2016) [17] thực tra cứu ảnh dựa việc phân tích ngơn ngữ tự nhiên để tạo câu truy vấn SPARQL nhằm tìm kiếm tập hình ảnh dựa RDF Quá trình tìm kiếm hình ảnh phụ thuộc vào việc phân tích văn phạm ngôn ngữ để tạo thành từ khóa mơ tả nội dung hình ảnh Phƣơng pháp chƣa thực phân lớp nội dung hình ảnh từ đặc trƣng màu sắc đặc trƣng không gian để tạo từ khóa nhằm thực tra cứu; chƣa thực q trình tìm kiếm từ hình ảnh truy vấn cho trƣớc Olfa Allani cộng (2017) [15] đề xuất hệ thống nhằm cải thiện kết truy xuất hình ảnh Hệ thống đƣợc xây dựng dựa đồ thị mẫu kết hợp với đặc trƣng hình ảnh ngữ nghĩa Ý tƣởng (1) xây dựng ontology dựa vào sở liệu đƣợc thích (Oi) đồ thị vùng (Gi) dựa vào đặc trƣng SIFT; (2) Xây dựng mẫu dựa vào kết hợp đồ thị vùng ontology ; (3) để xây dựng đồ thị mẫu Kết thực nghiệm cho thấy đồ thị mẫu mà nhóm tác giả đề xuất cải thiện hiệu truy xuất ảnh Barz, B., & Denzler, J (2020) [2] đề xuất phƣơng pháp tích hợp mối quan hệ ngữ nghĩa lớp, đƣợc đƣa nhƣ phân loại lớp, vào việc học sâu mạng Deep neural networks Các ngữ nghĩa dựa hệ thống phân cấp bảo tồn giống ngữ nghĩa lớp không gian chung hình ảnh lớp, cho phép truy xuất hình ảnh từ sở liệu khơng trực quan mà tƣơng tự mặt ngữ nghĩa với hình ảnh truy vấn định Phƣơng pháp đề xuất đƣợc thực nghiệm CIFAR-100, NABirds ImageNet cho thấy tính quán ngữ nghĩa kết truy xuất hình ảnh đƣợc cải thiện đáng kể Theo cơng trình khảo sát nhƣ trên, chúng tơi đề xuất phƣơng pháp kết hợp kỹ thuật gom cụm phân hoạch Mean-Shift K-Means, đồng thời thực phân lớp k-NN (k-Nearest Neighbor) nhằm tìm kiếm tập ảnh tƣơng tự phân tích ngữ nghĩa ảnh truy vấn đầu vào Sau đó, câu truy vấn SPARQL đƣợc tạo tự động từ phân lớp ngữ nghĩa ảnh đầu vào thực truy vấn ontology xây dựng, nhằm phân tích ngữ nghĩa cấp cao cho hình ảnh III KIẾN TRÚC VÀ CÁC THÀNH PHẦN CỦA HỆ TRUY VẤN HÌNH ẢNH THEO NGỮ NGHĨA A Kiến trúc hệ thống Kiến trúc mơ hình hệ truy vấn phân tích ngữ nghĩa hình ảnh SIR_KN đƣợc mơ tả Hình Hệ truy vấn SIR_KN đƣợc thực cách thực tìm kiếm tập ảnh tƣơng tự dựa vào phân cụm hình ảnh, từ phân lớp phân tích ngữ nghĩa cho hình ảnh truy vấn dựa vào ontology Hình Mơ hình truy vấn phân tích ngữ nghĩa ảnh Huỳnh Thị Châu Lan, Nguyễn Thị Uyên Nhi, Văn Thế Thành, Lê Mạnh Thạnh 297 Hệ truy vấn SIR_KN bao gồm hai pha: (1) Pha tiền xử lý: thực huấn luyện để tạo mơ hình gom cụm phân lớp Bƣớc 1: Trích xuất véctơ đặc trƣng cấp thấp f phân lớp v cho hình ảnh (1) để tạo liệu mẫu (f, v) cho trình tạo phân cụm dựa vào độ đo Euclide (2); Bƣớc 2: Xây dựng ontology cho tập liệu ảnh (3) dựa vào ngôn ngữ ba RDF/XML; với ontology lƣu trữ hình ảnh từ WWW ngữ nghĩa phân lớp hình ảnh, định danh hình ảnh, thích hình ảnh Từ đó, ontology làm sở thực câu truy vấn SPARQL để trích xuất ngữ nghĩa tƣơng ứng với hình ảnh (2) Pha truy vấn ảnh: thực trình truy vấn ứng với ảnh đầu vào Bƣớc 1: Với ảnh truy vấn, hệ thống thực trích xuất đặc trƣng hình ảnh (4), sau thực truy vấn (5) phân cụm đƣợc huấn luyện (6) để tìm kiếm tập hình ảnh tƣơng tự với ảnh đầu vào, sau xếp hình ảnh theo độ đo (7); Bƣớc 2: Thực phân lớp k-NN từ tập ảnh tƣơng tự (8) để tạo véctơ từ thị giác cho hình ảnh (9); Bƣớc 3: Tự động tạo câu truy vấn SPARQL dựa vào véctơ từ thị giác (10) để truy vấn ngữ nghĩa cho hình ảnh ontology (11) Kết trình truy vấn ontology URIs, metadata hình ảnh (12) tập hình ảnh tƣơng tự ngữ nghĩa (13) B Các thành phần hệ thống Trích xuất véctơ đặc trƣng kết xuất phân lớp cho hình ảnh Hình ảnh tập liệu ảnh có cấu trúc khơng đồng có kích thƣớc khác Chính thế, nhằm lƣu trữ hiệu tìm kiếm nhanh liệu ảnh cấu trúc liệu, hình ảnh với tập hợp ma trận có số chiều khác nhau, đƣợc chuyển đổi thành véctơ có số chiều đồng nhất, quy chuẩn đoạn [0,1], lƣu trữ dƣới dạng véctơ đặc trƣng cấp thấp f hình ảnh nhƣ: màu sắc, kết cấu, hình dạng… định danh hình ảnh Trong báo này, hình ảnh đƣợc trích xuất thành véctơ đặc trƣng f gồm 44 chiều dựa vào phƣơng pháp nhƣ phân đoạn hình ảnh, dị biên đối tƣợng LoG, phép lọc Sobel, trích xuất màu MPEG-7,… Hình ví dụ trích xuất véctơ đặc trƣng cấp thấp hình ảnh 150007.jpg sƣu tập ảnh WANG Hình Một ví dụ trích xuất véctơ đặc trƣng cấp thấp hình ảnh Mỗi hình ảnh sau trích xuất đặc trƣng thị giác cấp thấp đƣợc kết xuất phân lớp hình ảnh từ liệu ảnh Với liệu ảnh khác nhau, ảnh có phân lớp hình ảnh nhƣ beach, car, bus, drink,… hay có nhiều phân lớp cho đối tƣợng khác hình ảnh Xây dựng ontology cho liệu ảnh Nhằm giảm “khoảng cách ngữ nghĩa” đặc trƣng cấp thấp ngữ nghĩa cấp cao hình ảnh, ontology đƣợc xây dựng cho liệu ảnh dựa ngôn ngữ ba RDF/XML OWL Quá trình truy vấn hình ảnh dựa vào phân cụm liệu cho kết tập hình ảnh tƣơng tự đƣợc xếp theo độ xác Từ tập hình ảnh này, thuật tốn phân lớp KNN đƣợc thực để lấy phân lớp láng giềng gần lƣu thành véctơ từ thị giác chứa phân lớp đại diện cho hình ảnh truy vấn Các phân lớp đƣợc truy vấn dựa ontology để xác 298 MỘT PHƢƠNG PHÁP KẾT HỢP K-MEANS VÀ k-NN CHO BÀI TỐN TÌM KIẾM VÀ PHÂN TÍCH NGỮ NGHĨA… định khái niệm, ngữ nghĩa cấp cao hình ảnh Quá trình ánh xạ ngữ nghĩa đƣợc sử dụng để phân tích tìm khái niệm tốt cho đối tƣợng hình ảnh Dựa vào phân lớp liệu ảnh, phân cấp lớp đƣợc xây dựng Một từ điển ngữ nghĩa nhằm định nghĩa cho phân lớp hình ảnh đƣợc trích xuất từ WordNet Mỗi hình ảnh cá thể/thể (individual/ instance) hay nhiều phân lớp ontology Hình ví dụ ontology đƣợc xây dựng Protégé cho liệu ảnh ImageCLEF, Corel Wang Hình Một ví dụ ontology cho liệu ảnh Đầu cho ontology xây dựng Protégé mô hình liệu theo ngơn ngữ ba RDF, OWL đƣợc mơ tả Hình Hình Ontology hiển thị theo ngôn ngữ ba RDF OWL Câu truy vấn SPARQL SPARQL ngôn ngữ truy vấn nguồn liệu đƣợc mô tả dƣới dạng ba RDF OWL Dựa vào véctơ từ thị giác, câu truy vấn SPARQL đƣợc tự động tạo để truy vấn ontology Kết truy vấn ontology tập URIs metadata tập liệu ảnh tƣơng tự ngữ nghĩa Hình minh họa cho câu truy vấn SPARQL đƣợc tạo từ véctơ từ thị giác theo hai cách: “UNION Query” “AND Query” Hình Tạo tự động câu truy vấn SPARQL “UNION” “AND” dựa vào véctơ từ thị giác Huỳnh Thị Châu Lan, Nguyễn Thị Uyên Nhi, Văn Thế Thành, Lê Mạnh Thạnh 299 C Các thao tác hệ truy vấn phân tích ngữ nghĩa hình ảnh Hệ truy vấn phân tích ngữ nghĩa hình ảnh bao gồm thao tác chính: gom cụm liệu với kết hợp phƣơng pháp Mean-Shift K-means; truy vấn hình ảnh dựa vào cụm liệu huấn luyện kết tập hình ảnh tƣơng tự; từ thực phân tích ngữ nghĩa cho hình ảnh: phân lớp hình ảnh truy vấn dựa vào phƣơng pháp k-NN từ tập ảnh tƣơng tự để tìm véctơ từ thị giác truy vấn ontology để truy vấn ngữ nghĩa cấp cao cho hình ảnh Gom cụm liệu Để gom cụm liệu, với ảnh sở liệu đƣợc tiến hành rút trích đặc trƣng đầu tác vụ tập véctơ đặc trƣng F = {fi | i = ̅̅̅̅̅} Sau đó, kết hợp hai kỹ thuật Mean-Shift K-Means để tiến hành gom cụm tập véctơ đặc trƣng theo độ đo Euclide, đƣợc mô tả Hình Việc khởi tạo số cụm k k tâm cụm có ảnh hƣớng lớn đến chất lƣợng cụm thu đƣợc Đây hạn chế thuật toán K-Means Để giải hạn chế này, chúng tơi áp dụng thuật tốn Mean-Shift để tìm đƣợc số cụm k k véctơ tâm cụm Kết đầu vào thuật toán gom cụm K-Means cho ảnh cụm có độ tƣơng tự cao so với ảnh cụm khác Hình Mơ hình kết hợp Mean-Shift k-Means Thuật toán 1: CLF Đầu vào: Tập liệu ảnh L= { | với fi, vi lần lƣợt véctơ đặc trƣng phân lớp ngữ nghĩa}, bán kính cửa sổ tìm tâm cụm Đầu ra: k cụm Ω = {Ci | i = k} Begin For i = to k Centeri = random(L); EndFor Foreach (Centeri, i=1 k) While (Centeri != Avei) Centeri = Avei; Avei = AVERAGE{fj | Euclide(Centeri, fj)< , j = m}; EndWhile EndForeach Foreach ( L) Centerm= {Euclide (fi, Centert) | t = k}; Cm = Cm ; EndForeach Return Ω = {Ci | i = k}; End 300 MỘT PHƢƠNG PHÁP KẾT HỢP K-MEANS VÀ k-NN CHO BÀI TỐN TÌM KIẾM VÀ PHÂN TÍCH NGỮ NGHĨA… Phân tích ngữ nghĩa hình ảnh Để phân tích ngữ nghĩa hình ảnh, trƣớc hết hệ thống thực phân lớp ảnh đầu vào thuật toán kNN tập hình ảnh tƣơng tự để tìm l phân lớp ảnh tƣơng tự gần với ảnh truy vấn ghi vào véctơ từ thị giác; sau véctơ từ thị giác đƣợc sử dụng để tự động tạo câu truy vấn SPARQL truy vấn ontology để truy vấn tập ảnh tƣơng tự ngữ nghĩa Thuật tốn phân lớp hình ảnh theo K-NN đƣợc thực nhƣ sau: Thuật toán 2: CI Đầu vào: Một ảnh I k cụm C = { | i = ̅̅̅̅̅ } Đầu ra: Tâp ảnh tƣơng tự S I Begin fI = ExtractFeature(I); dmin = Euclide(fI, I1); = ; Foreach (Ii ) If (Euclide(Ii, fI) < dmin) then ; dmin = Euclide(Ii, fI); EndIf EndForeach S = k-NN( ); Return S; End Nhƣ vậy, với phân lớp hình ảnh, hệ thống thực phân tích ngữ nghĩa khái niệm phân lớp dựa ontology tìm kiếm định nghĩa cho phân lớp hình ảnh từ từ điển đồng nghĩa (cognitive synonym) ontology Hình ví dụ định nghĩa phân lớp đƣợc thực trình truy vấn phân loại hình ảnh theo ngữ nghĩa dựa ontology Hình Một ví dụ ngữ nghĩa phân lớp CASTLE IV THỰC NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG A Thực nghiệm Môi trƣờng thực nghiệm Hệ truy vấn SIR_KN đƣợc xây dựng tảng dotNET Framework 4.8, ngơn ngữ lập trình C# Các đồ thị đƣợc xây dựng Mathlab 2015 Cấu hình máy tính thực nghiệm: Intel(R) CoreTM i7-8300H, CPU 2,70GHz, RAM 8GB hệ điều hành Windows 10 Professional Tập liệu đƣợc sử dụng thực nghiệm Bộ liệu ảnh ImageCLEF, WANG COREL Thông tin ảnh đƣợc mô tả Bảng Bảng Thông tin liệu ảnh thực nghiệm: ImageCLEF, WANG COREL Thông tin Số lƣợng ảnh Số phân lớp Số thƣ mục ImageCLEF 20.000 276 41 WANG 10.800 80 80 COREL 1.000 10 10 Thực thi chƣơng trình Với ảnh đầu vào, hệ thống SIR_KN trích xuất véctơ đặc trƣng tìm kiếm phân cụm liệu Hình giao diện trình tìm kiếm, phân lớp truy vấn ngữ nghĩa hình ảnh hệ thống Hình ảnh đầu Huỳnh Thị Châu Lan, Nguyễn Thị Uyên Nhi, Văn Thế Thành, Lê Mạnh Thạnh 301 vào đƣợc phân loại thành phân lớp ghi vào véctơ từ thị giác (visual word vector), từ tự động tạo câu truy vấn SPARQL (UNION AND) để truy vấn ontology Hình Giao diện truy vấn hình ảnh theo tiếp cận ngữ nghĩa Kết trình truy vấn hình ảnh theo ngữ nghĩa tập hình ảnh tƣơng tự đƣợc xếp theo độ với ảnh truy vấn đầu vào meta-data, URIs, ngữ nghĩa cấp cao hình ảnh, đƣợc mơ tả Hình B Đánh giá thực nghiệm Hình Kết trình truy vấn theo tiếp cận ngữ nghĩa Để đánh giá hiệu tìm kiếm hình ảnh, viết sử dụng yếu tố để đánh giá, bao gồm: độ xác (precision), độ phủ (recall) độ dung hồ (F-measure), thời gian truy vấn (times) Thực nghiệm đƣợc đánh giá ảnh COREL, WANG, ImageCLEF Ngoài ra, để đánh giá kết hệ truy vấn, đƣờng cong đặc trƣng thu nhận ROC (Receiver Operating Characteristic) đƣợc thực Diện tích phía dƣới đƣờng cong AUC (Area Under the Curve), giới hạn không gian ROC, thƣớc đo cho độ xác truy vấn, diện tích lớn độ xác cao Kết hợp độ xác độ phủ tạo độ đo khác Precision-Recall curve (PR curve), để đánh giá hiệu hệ thống truy vấn hình ảnh Hiệu suất truy vấn hình ảnh dựa gom cụm cho tập ảnh đƣợc mô tả lần lƣợt Bảng 2, Bảng Bảng Hình 10 so sánh hiệu suất truy vấn trung bình tập liệu ảnh Từ hình cho thấy, hệ truy vấn phân tích ngữ nghĩa hình ảnh SIR_KN ảnh xét đối tƣợng ảnh (COREL, WANG) có độ xác cao ảnh đa đối tƣợng (ImageCLEF) Bảng Hiệu suất tìm kiếm hệ truy vấn SIR_KN liệu COREL (10 chủ đề) Thƣ mục Avg precision Avg recall Beach Bus Castle 0,781896591 0,704871745 0,830985223 0,66554 0,611294936 0,76161 Avg F-measure 0,716691821 0,636824258 0,789741968 Avg query time (ms) 32,852158 38,163052 39,351057 302 MỘT PHƢƠNG PHÁP KẾT HỢP K-MEANS VÀ k-NN CHO BÀI TỐN TÌM KIẾM VÀ PHÂN TÍCH NGỮ NGHĨA… Dinosaur Elephant Flower Horse Meal Mountain Peoples Kết 0,827115 0,744667 0,720667 0,776338 0,761239 0,821882 0,849003 0,781866 0,76896 0,6702 0,6486 0,727392 0,649 0,74888 0,791998 0,704347 0,793463 0,705474 0,682737 0,748919 0,687735 0,780605 0,816576 0,735877 39,881446 29,896886 36,628653 37,642553 47,850905 52,168916 42,554107 39,69897 Bảng Hiệu suất tìm kiếm hệ truy vấn SIR_KN liệu WANG Thƣ mục Avg precision Avg recall 0-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 Kết 0,730605 0,728276 0,723629 0,733607 0,730649 0,719121 0,745693 0,749153 0,732592 0,646144 0,658958 0,637178 0,65973 0,645865 0,640942 0,663223 0,654381 0,650803 Avg F-measure 0,681644 0,690458 0,673089 0,694401 0,68387 0,67754 0,700054 0,694776 0,686979 Avg query time (ms) 171,4052 179,8176 165,5855 248,0436 286,3875 180,3858 194,4546 243,9589 208,7548 Bảng Hiệu suất tìm kiếm hệ truy vấn SIR_KN liệu ImageCLEF Thƣ mục Avg precision Avg recall 00-09 10-20 21-30 31-40 Kết 0,690987 0,701004 0,714035 0,721985 0,707003 0,537848 0,554812 0,560164 0,557381 0,552551 Avg F-measure 0,593299 0,607337 0,616087 0,611918 0,60716 Avg query time (ms) 582,6137 409,3831 387,5292 374,9811 438,6267 Hình 10 So sánh hiệu suất truy vấn trung bình tập liệu ảnh Thời gian truy vấn trung bình liệu ảnh có kết khác Với liệu ảnh nhỏ nhƣ COREL (1000 hình ảnh), thời gian truy vấn tƣơng đối nhanh (39.69897 ms), nhƣng với ảnh lớn nhƣ WANG (10.800 ảnh) ImageCLEF (20.000 hình ảnh) thời gian truy vấn cao (208.7548 ms 438.6267 ms), phụ thuộc vào số lƣợng cụm trình huấn luyện liệu Dựa số liệu thực nghiệm, đồ thị Precision-Recall curve ROC curve đƣợc thực để đánh giá độ xác hệ truy vấn SIR_KN liệu COREL, WANG, ImageCLEF, đƣợc mơ tả Hình 11, Hình 12, Hình 13 Mỗi hình mơ tả độ xác độ phủ thƣ mục/chủ đề tập liệu ảnh Mỗi thƣ mục/ chủ đề tạo thành đƣợc cong nhằm đánh giá độ xác tìm kiếm ảnh Từ hình, cho thấy, hệ truy vấn có độ xác cao diện tích dƣới đƣờng cong PR Curve lớn phân loại hình ảnh hiệu mà đƣờng cong ROC nằm phân vùng (true positive rate), điểm cách xa đƣờng baseline Dựa vào diện tích dƣới đƣờng cong AUC, thấy, hệ truy vấn SIR_KN có độ xác cho ảnh đối tƣợng (WANG, COREL) cao ảnh đa đối tƣợng (ImageCLEF) Huỳnh Thị Châu Lan, Nguyễn Thị Uyên Nhi, Văn Thế Thành, Lê Mạnh Thạnh Hình 11 Precision-Recall đƣờng cong ROC liệu COREL Hình 12 Precision-Recall đƣờng cong ROC liệu WANG Hình 13 Precision-Recall đƣờng cong ROC liệu ImageCLEF 303 304 MỘT PHƢƠNG PHÁP KẾT HỢP K-MEANS VÀ k-NN CHO BÀI TỐN TÌM KIẾM VÀ PHÂN TÍCH NGỮ NGHĨA… Để đánh giá độ xác hiệu hệ truy vấn SIR_KN, so sánh hiệu suất thu đƣợc với cơng trình nghiên cứu khác liệu ảnh, đƣợc mô tả Bảng 5, Bảng Bảng Bảng So sánh độ xác phƣơng pháp liệu COREL Phƣơng pháp A Huneiti, 2015 [7] Mean Average Precision (MAP) 0,5588 N Shrivastava, 2014 [13] 0,7693 Bella M I T., 2019 [3] 0,6090 Phƣơng pháp chúng tơi 0,7819 Bảng So sánh độ xác phƣơng pháp liệu WANG Phƣơng pháp P Chhabra, 2018 [4] Mean Average Precision (MAP) 0,6320 R Das, 2017 [5] 0,6524 X Tian, 2014 [16] 0,6210 Phƣơng pháp 0,7326 Bảng So sánh độ xác phƣơng pháp liệu ImageCLEF Phƣơng pháp Mean Average Precision (MAP) V Vijayarajan, 2016 [17] M Jiu, 2017 [9] 0,4618 0,5970 Nhi, N T U., 2020 [14] 0,6510 Phƣơng pháp 0,7070 Từ bảng cho thấy, phƣơng pháp đề xuất hiệu việc giải tốn truy vấn phân tích ngữ nghĩa hình ảnh đối tƣợng đa đối tƣợng V KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Trong báo này, đề xuất phƣơng pháp kết hợp kỹ thuật gom cụm dựa thuật toán KMeans Mean-Shift để tạo cụm hình ảnh làm đầu vào cho thuật tốn phân lớp k-NN Với hình ảnh đầu vào, chúng tơi thực trích xuất tập ảnh tƣơng tự kết xuất phân lớp ngữ nghĩa dựa phần tử láng giềng gần Trên sở phân lớp hình ảnh, câu truy vấn SPARQL đƣợc tạo thực thi Ontolog nhằm kết xuất ngữ nghĩa định danh hình ảnh WWW Thực nghiệm đƣợc đánh giá ảnh COREL, WANG, ImageCLEF giá trị độ xác, độ phủ; theo nhƣ thực nghiệm, độ xác trung bình cho ba ảnh lần lƣợt 78,19 %, 73,26 %, 70,70 % Kết thực nghiệm theo mơ hình đề xuất đƣợc so sánh với cơng trình khác đƣợc cơng bố gần đây, từ cho thấy mơ hình đề xuất chúng tơi hiệu Hƣớng phát triển cải tiến thuật tốn để nâng cao độ xác giảm thời gian truy vấn, đồng thời xây dựng Ontology bán tự động để từ trích xuất ngữ nghĩa hình ảnh trực tiếp WWW VI LỜI CẢM ƠN Nhóm tác giả chân thành cảm ơn Trƣờng Đại học Công nghiệp thực phẩm TP HCM nơi bảo trợ cho nghiên cứu Trân trọng cảm ơn nhóm nghiên cứu SBIR-HCM Trƣờng Đại học Sƣ phạm TP HCM, Đại học Kinh tế Đại học Đà Nẵng hỗ trợ chuyên môn sở vật chất để nhóm tác giả hồn thành nghiên cứu TÀI LIỆU THAM KHẢO [1] Alqasemi, Fahd A., et al “Feature Selection approach using KNN supervised learning for Content-Based Image Retrieval”, First International Conference of Intelligent Computing and Engineering (ICOICE) IEEE, 2019 [2] Barz, B., & Denzler, J “Deep learning on small datasets without pre-training using cosine loss” In The IEEE Winter Conference on Applications of Computer Vision (pp 1371-1380), 2020 [3] Bella, M I T., & Vasuki, A “An efficient image retrieval framework using fused information feature” Computers & Electrical Engineering, 75, pp 46-60, 2019 [4] Chhabra, P., Garg, N K., & Kumar, M “Content-based image retrieval system using ORB and SIFT features” Neural Computing and Applications, 32(7), pp 2725-2733, 2018 [5] Das, R., Thepade, S., & Ghosh, S “Novel feature extraction technique for content-based image recognition with query classification” International Journal of Computational Vision and Robotics, 7(1-2), pp 123-147, 2017 Huỳnh Thị Châu Lan, Nguyễn Thị Uyên Nhi, Văn Thế Thành, Lê Mạnh Thạnh 305 [6] Erwin, M Fachrurrozi, Ahmad Fiqih, Bahardiansyah Rua Saputra, Rachmad Algani, Anggina Primanita, “Content Based Image Retrieval for Multi-Objects Fruits Recognition using k-Means and k-Nearest Neighbor”, International Conference on Data and Software Engineering, 2017 [7] Huneiti, A., & Daoud, M “Content-based image retrieval using SOM and DWT” Journal of software Engineering and Applications, 8(02), pp 51, 2015 [8] Imran, M., Hashim, R., & Abd Khalid, N E “Content based image retrieval using mpeg-7 and histogram” In Recent Advances on Soft Computing and Data Mining (pp 453-465) Springer, Cham., 2014 [9] M Jiu, H Sahbi, “Nonlinear Deep Kernel Learning for Image Annotation”, IEEE Transactions on Image Processing, Vol 26, No 4, pp.1820-1832, 2017 [10] M Kiruthika, Dr S Sukumaran, “A Comparative Study of Image Retrieval Techniques”, IJRAR, Volume 6, Issue 2, June 2019 [11] Munish Kumar, Payal Chhabra, Naresh Kumar Garg, “An efficient content based image retrieval system using BayesNet and K-NN”, Springer Science+Business Media, LLC, part of Springer Nature, 2018 [12] Ma, Yanchun, et al., “A weighted KNN-based automatic image annotation method”, Neural Computing and Applications, pp 1-12, 2019 [13] N Shrivastava, V Tyagi, “An efficient technique for retrieval of color images in large databases” Computers & Electrical Engineering, 46, pp 314-327, 2014 [14] Nhi, N T U “A self-balanced clustering tree for semantic-based image retrieval” Journal of Computer Science and Cybernetics, 36(1), pp 49-67, 2020 [15] Olfa Allani, Hajer B Z., et al., “Pattern graph-based image retrieval system combining semantic and visual features”, Springer Science+Business Media New York, 2017 [16] Tian, X., Jiao, L., Liu, X., & Zhang, X “Feature integration of EODH and Color-SIFT: Application to image retrieval based on codebook” Signal Processing: Image Communication, 29(4), pp 530-545, 2014 [17] V Vijayarajan, M Dinakaran, P Tejaswin, M Lohani, "A generic framework for ontology‑based information retrieval and image retrieval in web data", Human-centric Computing and Information Sciences, Vol 6, No 18, pp.130, 2016 A COMBINATION OF K-MEANS AND K-NEAREST NEIGHBOR FOR SEMANTIC IMAGE ANALYSIS AND RETRIEVAL Huynh Thi Chau Lan, Nguyen Thi Uyen Nhi, Nguyen Van Thinh, Van The Thanh ABSTRACT: The problem of semantic analysis for image content is widely used in different systems such as GIS (Geography Information System), DLS (Digital Library System), HIS (Hospital Information System), In this paper,we propose a method that combines K-Means clustering technique and k-NN (k-Nearest Neighbor) classification to output the semantic classification of an input query image On the basis of image classification, SPARQL queries are created and executed on a semi-automated ontology; The result of this query is an image set that is similar to the input image and the semantics of the subclasses for the same image set To perform this problem, the K-Means clustering method is applied and used as input to the k-NN classification algorithm to extract the semantics of the query image From there, the experimental model was built and evaluated on the COREL, Wang, ImageCLEF image sets, and compared with the results of the recently published works According to the experimental results, our proposed similar semantic extraction and image querying method is effective Keywords: SBIR, clustering, k-Nearest neighbor, similar image, ontology ...296 MỘT PHƢƠNG PHÁP KẾT HỢP K-MEANS VÀ k-NN CHO BÀI TỐN TÌM KIẾM VÀ PHÂN TÍCH NGỮ NGHĨA… Yanchun Ma cộng (2019) [12] đƣa mơ hình k-NN có trọng số (weight k-NN) kết hợp phƣơng pháp phân biệt... KẾT HỢP K-MEANS VÀ k-NN CHO BÀI TỐN TÌM KIẾM VÀ PHÂN TÍCH NGỮ NGHĨA… định khái niệm, ngữ nghĩa cấp cao hình ảnh Quá trình ánh xạ ngữ nghĩa đƣợc sử dụng để phân tích tìm khái niệm tốt cho đối... Thực phân lớp k-NN từ tập ảnh tƣơng tự (8) để tạo véctơ từ thị giác cho hình ảnh (9); Bƣớc 3: Tự động tạo câu truy vấn SPARQL dựa vào véctơ từ thị giác (10) để truy vấn ngữ nghĩa cho hình ảnh

Định dạng
Số trang	11
Dung lượng	1,27 MB