Trong bài báo này, chúng tôi trình bày một mô hình tìm kiếm ảnh dựa trên phân cụm dữ liệu bằng cây BKD-Tree, một cải tiến cải tiến của cây KD-Tree, gồm: lưu trữ các đối tượng đa chiều tại nút lá để tạo ra một sự phân cụm trên cơ sở phương pháp học bán giám sát; tạo ra một cấu trúc cây cân bằng nhằm tăng hiệu suất cho bài toán tìm kiếm ảnh.
Tạp chí Khoa học Đại học Huế: Kỹ thuật Công nghệ; pISSN 2588-1175 | eISSN 2615-9732 Tập 129, Số 2A, 2020, Tr 49–61; DOI: 10.26459/hueuni-jtt.v129i2A.5649 MỘT PHƯƠNG PHÁP PHÂN CỤM DỰA TRÊN CÂY KD-TREE CHO BÀI TỐN TÌM KIẾM ẢNH Nguyễn Thị Định1, Lê Thị Vĩnh Thanh2, Nguyễn Văn Thịnh1, Văn Thế Thành3* Khoa Công nghệ Thông tin, Trường ĐH Công nghiệp Thực phẩm TP.HCM Viện Công nghệ Thông tin – Điện - Điện tử, Trường Đại học Bà Rịa – Vũng Tàu Phòng Quản lý khoa học Đào tạo sau đại học, Trường ĐH Công nghiệp Thực phẩm TP.HCM Tóm tắt Trong báo này, chúng tơi trình bày mơ hình tìm kiếm ảnh dựa phân cụm liệu BKD-Tree, cải tiến cải tiến KD-Tree, gồm: (1) lưu trữ đối tượng đa chiều nút để tạo phân cụm sở phương pháp học bán giám sát; (2) tạo cấu trúc cân nhằm tăng hiệu suất cho tốn tìm kiếm ảnh Dựa sở lý thuyết đề nghị, mơ hình truy vấn ảnh BKD-Tree đề xuất thực nghiệm ảnh ImageCLEF (gồm 20.000 ảnh) Kết thực nghiệm chúng tơi so sánh với số cơng trình gần liệu để minh chứng tính hiệu phương pháp đề xuất Theo kết thực nghiệm cho thấy phương pháp chúng tơi hiệu áp dụng cho hệ thống tìm kiếm ảnh tương tự theo nội dung Từ khóa: BKD-Tree, độ đo tương tự, phân cụm, ảnh tương tự, tìm kiếm ảnh Giới thiệu Trong thập niên gần đây, với phát triển nhanh chóng kho liệu ảnh, kỹ thuật tìm kiếm quan tâm nghiên cứu tập trung theo hướng chính: tìm theo từ khóa TBIR (Text-based Image Retrieval), tìm theo nội dung CBIR (Content-based Image Retrieval) hay tìm theo ngữ nghĩa SBIR (Semantic-based Image Retrieval) [8], [9] Trong tìm kiếm ảnh, vấn đề gom cụm liệu theo chủ đề yêu cầu quan trọng Ngày nay, nhiều phương pháp gom cụm liệu thực nhiều thuật toán khác nhau, kỹ thuật gom cụm sử dụng KD-Tree cho kết tốt Cây KD-Tree cấu trúc liệu sử dụng để đánh mục đa chiều, cấu trúc liệu phân vùng không gian tổ chức thành điểm không gian Cây KD-Tree thuộc dạng nhị phân tìm kiếm mà nút véc-tơ k-chiều Mỗi nút nút chia khơng gian liệu thành hai phần mặt phẳng k-chiều Dựa KD-Tree nguyên thủy này, xây dựng BKD-Tree nhị phân cân để ứng dụng cho tốn tìm kiếm ảnh thực nghiệm ảnh ImageCLEF Cây BKD-Tree dùng để lưu trữ véc-tơ đặc trưng thị giác hình ảnh phân đoạn Việc phân lớp liệu thực * Liên hệ: nguyenthidinh.hcm@gmail.com Nhận bài: 16–6–2020; Hoàn thành phản biện: 04–02–2020; Ngày nhận đăng: 04–02–2020 Nguyễn Thị Định CS Tập 129, Số 2A, 2020 nút BKD-Tree để tạo cân nhằm hỗ trợ cho trình tìm kiếm nhanh tăng độ xác Các cơng trình liên quan Năm 2002, Y He cộng khảo sát sử dụng KD-Tree nâng cao hiệu tìm kiếm ảnh Nhóm tác giả thực nghiệm trện liệu 10.115 ảnh Kết thu thời gian truy vấn ảnh nhanh gấp ba lần so với cách tìm kiếm tuyến tính [1] Năm 2007, S J Redmond kết hợp thuật toán k-Means thuật toán Katsavounidis, thực nghiệm 36 liệu tổng hợp liệu UCI (UC Irvine Machine Learning Repository) Thuật toán cải thiện trình phân cụm, sở cho việc nghiên cứu mở rộng BKD-Tree [15] Năm 2009, H Al-Jabbouli đề xuất thuật toán gom cụm dựa vào cấu trúc KD-Tree [13] Thuật toán khắc phục nhược điểm thuật toán K-means, đồng thời kết hợp thuật toán K-means C-means để tìm phương pháp gom cụm tối ưu gọi thuật toán Bees Kết thực nghiệm nhiều liệu cho thấy thuật toán Bees hiệu thuật toán kMeans Năm 2011, K.Velmurugan đề xuất thuật tốn tìm kiếm ảnh tương tự theo nội dung dựa KD-Tree cách kết hợp đặc trưng SURF (Speed up robust feature) với đặc trưng màu sắc để nâng cao độ xác cho hệ tìm kiếm ảnh [2] Năm 2011, H Zouaki B Abdelkhalak dựa cấu trúc KD-Tree đề xuất mơ hình truy vấn ảnh cách lập mục nhằm giảm kích thước đối tượng, giảm thời gian tính tốn, sử dụng khoảng cách EMD Kết thực nghiệm cho độ xác cao [6] Năm 2016, J Das cộng đề xuất phương pháp lập mục xây dựng hệ thống truy vấn ảnh dựa KD-Tree k-chiều cách trích xuất đặc trưng màu sắc đối tượng ảnh Phương pháp giảm đáng kể thời gian truy vấn ảnh KD-Tree Kết thực nghiệm cho thấy KD-Tree có thời gian tìm kiếm nhanh tứ phân QuadTree kết tìm kiếm KD-Tree có độ xác cao [7] Năm 2013 M Otair đề xuất phương pháp gom cụm liệu dựa KD-Tree với thuật toán k-NN So sánh với phương pháp trước thời gian tìm kiếm giảm đáng kể [3] Năm 2014 Logamani K Punitha S C đưa mơ hình phân cụm liệu dựa KD-Tree Nhóm tác giả thực gom cụm phương pháp k-Means đồng thời xây dựng KD-Tree tăng trưởng nên việc xây dựng nhiều thời gian thích hợp cho tốn có liệu gia tăng [4] Năm 2015, Y H Sharath Kumar giới thiệu mơ hình lập mục đối tượng Trong nghiên cứu này, sở liệu đầu vào lớn nên thời gian truy xuất lớn Một giải pháp cho tăng tốc trình truy xuất thiết kế mơ hình lập mục Cách lập mục KD-Tree cho hệ 50 jos.hueuni.edu.vn Tập 129, Số 2A, 2020 thống truy xuất liệu dựa đặc trưng SIFT (Scale Invariant Feature Transform), biểu đồ phân lớp HOG (Histogram of Gradients), biểu đồ hướng cạnh EOH (Edge orientation histograms) hình dạng SC (Shape context) [5] Năm 2017, H Cevikalp đề xuất phương pháp truy vấn ảnh cách sử dụng nhị phân phân cấp kết hợp với máy vectơ hỗ trợ chuyển đổi (TSVM) Hệ thống thực nghiệm đánh giá liệu ImageCLEF Hiệu suất truy vấn thu với độ xác 46.78% [18] Cùng thời điểm đó, M Jiu đề xuất phương pháp để truy vấn ảnh cách kết hợp mạng nhiều lớp học sâu đồng thời kết hợp kỹ thuật máy hỗ trợ vec-tơ (SVM) để phân lớp hình ảnh Phương pháp thực nghiệm liệu ImageCLEF với hiệu suất truy vấn độ xác 59.70% [19] Cấu trúc BKD-Tree 3.1 Mô tả BKD-Tree, cải tiến KD-Tree Cây KD-Tree nhị phân mà liệu nút điểm k chiều không gian, bao gồm: nút gốc, nút nút Nút gốc nút có liên kết tối đa đến hai nút khơng có nút cha Nút nút có liên kết đến nút cha, đồng thời liên kết tối đa đến hai nút con; nút nút có liên kết đến nút cha khơng có liên kết đến nút Một nút nút chia không gian thành hai phần, điểm bên trái không gian biểu thị trái điểm bên phải không gian biểu thị phải Cây KD-Tree lưu liệu tất nút, áp dụng cho tốn có tập liệu tăng trưởng làm tăng trưởng theo chiều sâu cân Vì vậy, chúng tơi xây dựng BKD-Tree cân cải tiến KD-Tree, để thời gian tìm kiếm nút gần liệu lưu trữ nút lá; đồng thời xây dựng mơ hình tìm kiếm ảnh tương tự dựa kỹ thuật xây dựng BKD-Tree cải tiến đề xuất Cấu trúc liệu tạo mơ hình lưu trữ tập liệu ảnh, phân cụm tự động phần tử nút tìm kiếm phần tử Cây BKD-Tree xây dựng gồm nút gốc (root), nút (iNode) nút (lvNode) Nút nơi lưu liệu đồng thời đóng vai trị để phân cụm liệu Gọi { 𝑓1 , 𝑓2 , …, 𝑓𝑛 } tập véc-tơ đặc trưng liệu ảnh ban đầu Trong 𝑓𝑗 = (𝑥𝑗0, , 𝑥𝑗1 … , 𝑥𝑗(𝑘−1) ); 𝑉𝑡𝑏 = (𝑥𝑡𝑏0 , 𝑥𝑡𝑏1 … , 𝑥𝑡𝑏(𝑘−1) ) véc-tơ trung bình mà thành phần 𝑥𝑡𝑏𝑖 giá trị trung bình thành phần 𝑥𝑗𝑖 thuộc tập véc-tơ 𝑓𝑗 , cấu trúc nút gốc, nút nút định nghĩa sau: Định nghĩa: Cây BKD-Tree nhị phân cân gồm: i Nút gốc nút khơng có nút cha có tối đa hai nút 𝑙𝑒𝑓𝑡, 𝑟𝑖𝑔ℎ𝑡 Cấu trúc nút gốc 𝑟𝑜𝑜𝑡 =< 𝑥, 𝑙𝑒𝑓𝑡, 𝑟𝑖𝑔ℎ𝑡 > Trong 𝑥 = 𝑥𝑡𝑏0 ; 𝑙𝑒𝑓𝑡, 𝑟𝑖𝑔ℎ𝑡 lần lược liên kết đến trái, phải 51 Nguyễn Thị Định CS Tập 129, Số 2A, 2020 ii Nút 𝑖𝑁𝑜𝑑𝑒 =< 𝑥, 𝑖𝑙𝑒𝑓𝑡, 𝑖𝑟𝑖𝑔ℎ𝑡 >, với 𝑥 = 𝑥𝑡𝑏𝑙 giá trị mức thứ l iii Nút 𝑙𝑣𝑁𝑜𝑑𝑒 =< 𝑓𝑖 , 𝑖𝑑𝑖 > nút khơng có nút con, 𝑓𝑖 , 𝑖𝑑𝑖 véc-tơ đặc trưng định danh ảnh thứ i Cây BKD-Tree dùng để lưu trữ truy vấn tập ảnh tương tự ảnh ImageCLEF xây dựng chiều cao m số nút 2m Bộ ảnh ImageCLEF chia thành 276 phân lớp khác Chiều cao cần thiết để lưu trữ tập liệu log 276 ≈ 8.1 Do chúng tơi chọn thuộc tính véc-tơ đặc trưng ảnh để tiến hành xây dựng BKD-Tree Minh họa bước xây dựng BKD-Tree từ tập véc-tơ 𝑓𝑗 Trong 𝑓1 = (𝑥10 , 𝑥11 … , 𝑥1(𝑘−1) ) véc-tơ trung bình 𝑉𝑡𝑏 = (𝑥𝑡𝑏0 , 𝑥𝑡𝑏1 … , 𝑥𝑡𝑏(𝑘−1) ) Root Bước 1: Khởi tạo nút gốc Bước 2: Quá trình tạo nút Root xtb0 iNode xtb0 xtb1 iNode Bước 3: Quá trình tạo nút xtb(k-1) lvNode fi Hình Minh họa bước tạo BKD-Tree Tương tự, thêm véc-tơ 𝑓1 , 𝑓2 , , 𝑓8 với giá trị cụ thể, ta có BKD-Tree sau: Root xtb0 iNode iNode xtb1 iNode xtb2 xtb1 iNode iNode iNode xtb2 xtb2 xtb2 iNode xtb3 xtb3 iNode iNode xtb4 xtb4 iNode xtb5 xtb5 iNode iNode xtb6 xtb6 iNode iNode xtb7 iNode xtb8 lvNode f1 xtb7 iNode xtb8 lvNode f2 lvNode f5 iNode iNode xtb8 lvNode f3 lvNode xtb8 lvNode f4 Hình Một ví dụ BKD-Tree 52 lvNode f6 f7 lvNode jos.hueuni.edu.vn 3.2 Tập 129, Số 2A, 2020 Xây dựng BKD-Tree Trên sở Định nghĩa nút cây, trình tạo BKD-Tree mô tả sau: Bước Tại thời điểm ban đầu BKD-Tree có nút gốc 𝑟𝑜𝑜𝑡 = ∅, mức 𝑙0 = 0; Bước Tính véc-tơ trung bình 𝑉𝑡𝑏 = (𝑥𝑡𝑏0 , 𝑥𝑡𝑏1 … , 𝑥𝑡𝑏(𝑘−1) ), gán giá trị nút gốc 𝑟𝑜𝑜𝑡 𝑥 = 𝑥𝑡𝑏0 Bước Gán giá trị nút mức 𝑙𝑖 𝑥𝑡𝑏𝑖 ; Bước Với vec-tơ 𝑓𝑗 = (𝑥𝑗0, , 𝑥𝑗1 … , 𝑥𝑗(𝑘−1) ) so sánh giá trị 𝑥𝑗𝑙 (𝑙 = (𝑘 − 1)) với giá trị 𝑥𝑡𝑏𝑖 (𝑖 = … (𝑘 − 1)) Nếu 𝑥𝑗𝑙 ≥ 𝑥𝑡𝑏𝑖 vec-tơ 𝑓𝑗 thuộc bên phải; ngược lại 𝑓𝑗 thuộc bên trái Quá trình lặp lại tìm nút để lưu trữ véc-tơ 𝑓𝑗 Cây BKD-Tree có chiều cao ℎ = 𝑚, nút tồn nút trái nút phải, mức (𝑚 − 1) nút lưu trữ hai nút Bên cạnh đó, chiều cao trái chiều cao phải ℎ𝑙 = ℎ𝑟 = 𝑚 Vậy BKD-Tree xây dựng nhị phân cân bằng, phần tử nút phù hợp độ đo tương tự, nghĩa phần tử thuộc nút có độ tương tự nhiều so với phần tử khác nút Mỗi véc-tơ đặc trưng 𝑓𝑖 ảnh I có tính chất sau: Định lý Tồn nút BKD-Tree để lưu trữ véc-tơ đặc trưng 𝑓𝑖 Chứng minh: Tính tồn tại: Vì BKD-Tree nhị phân cân bằng, liệu lưu trữ nút Do đó, nút BKD-Tree tồn nhánh trái nhánh phải để véc-tơ 𝑓𝑖 tìm đến vị trí nút Do đó, ln tồn nút để lưu trữ véc-tơ 𝑓𝑖 Tính nhất: Duyệt từ nút gốc cây, nút thuộc BKD-Tree, ta chọn hướng (trái phải) để tìm vị trí lưu trữ vec-tơ đặc trưng 𝑓𝑖 Do đó, ta chọn nút để lưu trữ vec-tơ 𝑓𝑖 , nghĩa vec-tơ 𝑓𝑖 thuộc nút 3.3 Thuật toán tạo BKD-Tree Input: Tập phần tử 𝑓𝑣 cần thêm vào BKD-Tree; Output: Cây BKD-Tree; Function IEBKT (𝑓𝑣 , 𝐵𝐾𝐷 − 𝑇𝑟𝑒𝑒, m) Begin 𝐵𝐾𝐷 − 𝑇𝑟𝑒𝑒 = ∅; 𝑉𝑡𝑏 = (𝑥𝑡𝑏0, , 𝑥𝑡𝑏1 … , 𝑥𝑡𝑏𝑙 ); 𝑥𝑡𝑏𝑖 = 𝑎𝑣𝑔 {𝑥𝑗𝑖 : 𝑖 = (𝑚 − 1); 𝑗 = (𝑚 − 1)}; 53 Nguyễn Thị Định CS Tập 129, Số 2A, 2020 𝑟𝑜𝑜𝑡 𝑥 = 𝑥𝑡𝑏0 ; 𝑙0 = 0; If (𝑓𝑣 𝑥𝑣𝑖 < 𝑉𝑡𝑏 𝑥𝑡𝑏𝑖 ) then BKD-Tree = BKD-Tree ∪ IEBKT (𝑓𝑣 , BKD-Tree.left, m+1) Else BKD-Tree = BKD-Tree ∪ IEBKT ((𝑓𝑣 , BKD-Tree.right, m+1) EndIf Return BKD-Tree; End Mệnh đề Độ phức tạp thuật toán IEBKT 𝑂(𝑛) Với n số phần tử BKDTree Chứng minh: Gọi m, n lần lược chiều cao số phần tử cần chèn vào BKD-Tree Mỗi phần tử 𝑓𝑣 cần chèn vào cây, thuật toán IEBKT duyệt qua m mức nhằm tìm nút phù hợp để lưu trữ phần tử Do đó, số phép tốn so sánh thuật toán m*n Trong trường hợp này, chiều cao BKD-Tree giới hạn m = k (với k số cho trước) Vậy độ phức tạp Thuật toán IEBKT 𝑂(𝑛) ◼ Truy vấn ảnh dựa BKD-Tree 4.1 Mơ hình truy vấn ảnh dựa BKD-Tree Các vùng ảnh phân đoạn ảnh 2092.JPG minh họa Hình Hình Ảnh gốc vùng ảnh phân đoạn Trên cở sở xây dựng thuật toán tạo BKD-Tree (IEBKT), thuật toán truy vấn ảnh thực cách: Mỗi vùng ảnh trích xuất véc-tơ đặc trưng, trình truy vấn để tìm tập ảnh tương tự hình ảnh thực dựa vào véc-tơ đặc trưng vùng ảnh cần truy vấn Hệ thống thực tìm kiếm ảnh tương tự cách so sánh véc-tơ đặc trưng 𝑓 = (𝑥0, , 𝑥1 … , 𝑥(𝑚−1) ) vùng ảnh truy vấn với thành phần tương ứng vectơ trung bình 𝑉𝑡𝑏 = (𝑥𝑡𝑏0, , 𝑥𝑡𝑏1 … , 𝑥𝑡𝑏(𝑚−1) ) BKD-Tree theo hướng từ nút gốc đến nút theo quy tắc xây dựng BKD-Tree Kết trình tập hợp nút chứa véc-tơ đặc trưng vùng thuộc ảnh cần truy vấn 54 jos.hueuni.edu.vn Tập 129, Số 2A, 2020 Thuật toán IRBKD (truy vấn ảnh BKD-Tree ) Input: Tập véc-tơ 𝑓𝑖 ảnh 𝐼𝑄 , BKD-Tree Output: Tập nút 𝐿𝑖 chứa phần tử 𝑓𝑖 Function IRBKT (𝑓𝑖 , BKD-Tree, m) Begin 𝑅𝑒𝑠𝑢𝑙𝑡 = ∅ ; Foreach (𝑓𝑖 ∈ 𝑓) If (𝑓𝑖 ∈ 𝑙𝑒𝑎𝑓) then 𝑅𝑒𝑠𝑢𝑙𝑡 = 𝑅𝑒𝑠𝑢𝑙𝑡 ∪ 𝐿𝑖 ; ElseIf If (𝑓𝑖 𝑥𝑖𝑚 < 𝑉𝑡𝑏 𝑥𝑡𝑏𝑚 ) then IRBKT (𝑓𝑖 , BKD-Tree.left, m+1); ElseIf IRBKT (𝑓𝑖 , BKD-Tree.right, m+1); EndIf End Foreach Return Result; End Mệnh đề Độ phức tạp thuật toán IRBKT 𝑂(𝑙𝑜𝑔(𝑛)) Với 𝑛 số phần lưu trữ BKD-Tree Chứng minh: Thuật toán IRBKT duyệt qua m mức từ nút gốc đến nút độ phức tạp 𝑂(𝑚) Tại mức thực so sánh giá trị nút với thành phần thứ i vec-tơ 𝑓𝑗 Hơn nửa BKD-Tree nhị phân tìm kiếm cân bằng, chiều cao m = k (với k số cho trước) Do đó, với BKD-Tree có n phần tử độ phức tạp tìm kiếm phần tử 𝑂(𝑙𝑜𝑔(𝑛)) ◼ Mơ hình tìm kiếm ảnh tương tự dựa BKD-Tree đề xuất sau: 55 Nguyễn Thị Định CS Tập 129, Số 2A, 2020 Hình Mơ hình truy vấn ảnh theo nội dung dựa BKD-Tree Pha tiền xử lý: Bước Trích xuất tập véc-tơ đặc trưng 𝑓𝑣 liệu ảnh, véc-tơ đặc trưng có n thành phần, thành phần giá trị mơ tả đặc trưng hình ảnh Bước Gom cụm véc-tơ đặc trưng 𝑓𝑣 BKD-Tree Nghĩa là, véc-tơ đặc trưng 𝑓𝑣 = (𝑥𝑣0, , 𝑥𝑣1 … , 𝑥𝑣(𝑘−1) ), thành phần 𝑥𝑣𝑖 so sánh với giá trị nút mức 𝑖 Nếu 𝑥𝑣𝑖 ≥ 𝑥𝑡𝑏𝑖 𝑓𝑣 thuộc bên phải; ngược lại 𝑓𝑣 thuộc bên trái Do đó, véc-tơ 𝑓𝑣 chọn hướng nút mức Pha truy vấn: Bước Với hình ảnh truy vấn, trích xuất véc-tơ đặc trưng 𝑓𝑣𝑖 Trong 𝑓𝑣𝑖 véctơ có n thành phần, thành phần giá trị mô tả đặc trưng ảnh phân đoạn Bước Sử dụng véc-tơ 𝑓𝑣𝑖 truy vấn ảnh tương tự BKD-Tree Kết trình truy vấn tập 𝑄𝐼 chứa véc-tơ tương tự với véc-tơ 𝑓𝑣𝑖 Bước Truy hồi tập ảnh tương tự dựa tập 𝑄𝐼 bước Sau xếp tập ảnh tương tự với ảnh cần truy vấn 4.2 Tổ chức thực nghiệm Để đánh giá phương pháp tiếp cận toán sở thuật tốn đề xuất, chúng tơi xây dựng thực nghiệm liệu ImageCLEF lưu trữ 41 thư Mỗi ảnh 56 jos.hueuni.edu.vn Tập 129, Số 2A, 2020 phân đoạn thành vùng, có véc-tơ đặc trưng thuộc phân lớp Bộ liệu có 99.535 vùng, phân thành 276 lớp Thực nghiệm truy vấn ảnh CBIR-BKD-Tree xây dựng tảng dotNET Framework 4.5, ngơn ngữ lập trình C# Các đồ thị xây dựng Mathlab 2015 Cấu hình máy tính thực nghiệm: Intel(R) Core™ i5-5200U, CPU 2.2GHz, RAM 8GB hệ điều hành Windows 10 Professional Hình Hệ truy vấn ảnh CBIR_BKD-Tree Để đánh giá hiệu suất phương pháp, giá trị thực nghiệm gồm: độ xác (precision), độ phủ (recall) độ đo dung hòa F-measure Cơng thức tính giá trị sau: 𝒑𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 = 𝒓𝒆𝒄𝒂𝒍𝒍 = |𝒓𝒆𝒍𝒆𝒗𝒂𝒏𝒕 𝒊𝒎𝒂𝒈𝒆𝒔 ∩ 𝒓𝒆𝒕𝒓𝒊𝒆𝒗𝒆𝒅 𝒊𝒎𝒂𝒈𝒆𝒔| |𝒓𝒆𝒕𝒓𝒊𝒆𝒗𝒆𝒅 𝒊𝒎𝒂𝒈𝒆𝒔| |𝒓𝒆𝒍𝒆𝒗𝒂𝒏𝒕 𝒊𝒎𝒂𝒈𝒆𝒔 ∩ 𝒓𝒆𝒕𝒓𝒊𝒆𝒗𝒆𝒅 𝒊𝒎𝒂𝒈𝒆𝒔| |𝒓𝒆𝒍𝒆𝒗𝒂𝒏𝒕 𝒊𝒎𝒂𝒈𝒆𝒔| 57 Nguyễn Thị Định CS Tập 129, Số 2A, 2020 𝑭 − 𝒎𝒆𝒂𝒔𝒖𝒓𝒆 = 𝟐 × (𝒑𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 × 𝒓𝒆𝒄𝒂𝒍𝒍) (𝒑𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 + 𝒓𝒆𝒄𝒂𝒍𝒍) Trong đó, relavant images tập ảnh tương tự với ảnh truy vấn, retrieved images tập ảnh tìm kiếm Các giá trị độ xác, độ phủ độ dung hịa tính theo tỷ lệ % quy đổi thành giá trị đoạn [0, 1] Kết thực nhiệm thể Bảng Bảng Hiệu suất truy vấn ảnh theo phương pháp đề xuất ImageCLEF Trung bình độ Trung bình Trung bình độ Thời gian truy vấn xác độ phủ dung hịa trung bình (ms) Chủ đề Số ảnh 00-10 1832 0.598713 0.446594 0.503931 30.73533 11-20 1796 0.586611 0.434149 0.498994 29.60023 21-30 1957 0.615845 0.488197 0.544642 24.51016 31-40 2194 0.698048 0.520518 0.599148 27.50432 AVG 7779 0.624804 0.472365 0.536815 28.08751 Hình Đồ thị Precision, Recall, đường cong ROC hệ CBIR_BKD-Tree ImageCLEF Đồ thị Precision-Recall liệu ImageCLEF cho thấy diện tích nằm đường cong Precision-Recall chưa cao, tính xác hệ truy vấn nằm tập trung vùng 0.4 đến 0.7 Đồ thị đường cong ROC biểu diễn giá trị true positive false positive chủ yếu nằm tập trung đường baseline 58 Các giá trị hiệu suất (Precision, Recall, F-measure) jos.hueuni.edu.vn Tập 129, Số 2A, 2020 Hiệu suất thực thi hệ thống CBIR_BKD-Tree tập liệu ImageCLEF Precision 0.8 0.6 Recall 0.4 0.2 F-measure 0 10 20 30 40 50 Các chủ đề tập liệu ImageCLEF Hình Trung bình Precision, Recall, F-measure hệ CBIR_BKD-Tree tập liệu ImageCLEF Các đồ thị Hình Hình mơ tả giá trị trung bình độ xác, độ phủ, độ dung hồ Từ đồ thị cho thấy, tính xác truy vấn nằm mức trung bình, cần cải thiện thêm để nâng cao hiệu suất truy vấn Độ phủ truy vấn thấp nên độ dung hoà truy vấn chưa cao Tuy nhiên tốc độ truy vấn nhanh, cho thấy hệ thống truy vấn ảnh CBIR_BKD-Tree đánh giá tốt thời gian truy vấn Giá trị trung bình độ xác MAP hệ truy vấn CBIR_BKD-Tree so sánh với phương pháp khác liệu ImageCLEF, thể Bảng Bảng So sánh độ xác phương pháp liệu ImageCLEF Phương pháp Giá trị trung bình độ xác (MAP) H Cevikalp, 2017 [20] 0.4678 M Jiu, 2017 [21] 0.5970 CBIR_BKD-Tree 0.6248 Từ kết so sánh Bảng 2, cho thấy hệ truy vấn hình ảnh CBIR-BKD-Tree có độ xác tốt so với nghiên cứu gần lĩnh vực thực nghiệm liệu Kết luận Trong báo này, xây dựng cấu trúc BKD-Tree áp dụng cho tốn tìm kiếm ảnh tương tự Đây cải tiến KD-Tree nguyên thủy nhằm nâng cao kỹ thuật lưu trữ liệu cây, đồng thời cải thiện thời gian tìm kiếm đến nút gần 59 Nguyễn Thị Định CS Tập 129, Số 2A, 2020 Chúng đề xuất mơ hình truy vấn ảnh dựa BKD-Tree thực nghiệm ảnh ImageCLEF có độ xác 62.48%, độ phủ 47.23%, độ dung hòa 53.68% thời gian truy vấn trung bình 28.08 (ms) Kết thực nghiệm so sánh với công trình khác tập dự liệu ảnh, đồng thời so sánh với phương pháp dựa cấu trúc lưu trữ KDTree Thực nghiệm cho thấy tính đắn hiệu phương pháp đề xuất Hướng phát triển tạo mục với nút liên kết tới phần tử bảng tra cứu, với bảng tra cứu xây dựng cách độc lập với BKD-Tree để từ tăng tính hiệu việc phân lớp BKD-Tree Lời cảm ơn Chúng trân trọng cám ơn Trường Đại học Công nghiệp Thực phẩm TP.HCM bảo trợ cấp kinh phí, nhóm nghiên cứu SBIR-HCM Trường Đại học Sư phạm TP.HCM tạo điều kiện chuyên môn, sở vật chất giúp chúng tơi hồn thành nghiên cứu Tài liệu tham khảo Y He, G.Lu and S Teng, "An Investigation of Using K-d Tree to Improve Image Retrieval Efficiency" Digital Image Computing Techniques and Application, 21 22 January 2002, Melbourne, Australia B.S Banerjee M., Pal S.K, "Content-Based Image Retrieval using SURF and Colour Moments", Global Journal of Computer Science and Technology, Volume XI Issue X Version J Mohammed Otair, "Approximate K-Nearest Neighbour Based Spatial Clustering Using K-D Tree" International Journal of Database Management Systems ( IJDMS ) Vol.5, No.1, February 2011 L K Punitha S C, "Density Based Clustering using Enhanced KD Tree", International Journal of Computer Science Engineering and Technology( IJCSET), Vol 4, Issue 11, 314-318, November 2014 Y H S Kumar, "KD-Tree Approach in Sketch Based Image Retrieval", International Conference on Mining Intelligence and Knowledge Exploration, pp 247-258, 2015 J H Zouaki, B.Abdelkhalak, " Indexing and content-based image retrieval", 2011 International Conference on Multimedia Computing and Systems, 10.1109/ICMCS.2011.5945587, 12 July, 2011 J Das and M Gogoi, " Indexing of Voluminous Data Using K-D Tree with Reference to CBIR", International Journal of Computer Sciences and Engineering, Volume-4, Special Issue-7, Dec 2016 Thanh Manh Le, Thanh The Van, “Image retrieval system based on emd similarity measure and S-Tree”, ICITES-2012, Springer Verlag, LNEE 234 (2013) 139-146, N.V.T Thanh The Van, Thanh Manh Le, "The Method Proposal of Image Retrieval Based on K-Means Algorithm", Advances in Intelligent Systems and Computing, vol 746, no 2, pp 481–490, 2018 10 Nguyễn Thị Uyên Nhi, Văn Thế Thành, Lê Mạnh Thạnh, "A Self-Balanced Clustering Tree apply for Semantic-Based Image Retrieval", Fundamental and Applied IT Reseach (FAIR), Hue University, NXB Khoa học Tự nhiên Công nghệ, ISBN, 2019 11 Nguyễn Minh Hải, Lê Thị Vĩnh Thanh, Văn Thế Thành, Trần Văn Lăng, "Tra cứu ảnh theo ngữ nghĩa dựa phân cụm phân cấp", Kỷ yếu Hội thảo Quốc gia Nghiên cứu ứng dụng CNTT (FAIR), ĐH Huế, Nhà xuất Khoa học Tự nhiên Công nghệ, ISBN: xx, tr.xx-xx, 2019 12 Văn Thế Thành, Lê Mạnh Thạnh, "Truy vấn ảnh tri thức dựa chữ ký nhị phân", Jos.hueuni.edu.vn, Tập 97; Số 9; Năm 2014 60 jos.hueuni.edu.vn Tập 129, Số 2A, 2020 13 Hasan Al-Jabbouli, "Data clustering using the Bees Algorithm and the Kd-Tree structure", Intelligent Systems Research Laboratory, Manufacturing Engineering Centre, Cardiff University, United Kingdom, 2009 14 Shadi Abudalfa, Mohammad Mikki, "A Dynamic Linkage Clustering using KD-Tree", the International Arab Journal of Information Technology, Vol 10, No 3, May 2013 15 Stephen J Redmond, Conor Heneghan "A method for initialising the K-means clustering algorithm using kd-trees " ScienceDirect, Pattern Recognition Letters 28 (2007) 965–973 16 Zhi-chun huang, patrick p K Chan, wing w Y Ng, daniel s Yeung "Content-Based Image Retrieval Using Color Moment And Gabor Texture Feature" Proceedings of the Ninth International Conference on Machine Learning and Cybernetics, Qingdao, 11-14 July 2010 17 S Mangijao Singh, K Hemachandran, "Content-Based Image Retrieval using Color Moment and Gabor Texture Feature ", IJCSI International Journal of Computer Science Issues, Vol 9, Issue 5, No 1, September 2012 18 Cevikalp H., Elmas M., Ozkan S., “Large-scale image retrieval using transductive support vec-tơ machines”, Computer Vision and Image Understanding, vol no pp.1-11, 2017 19 Jiu M., Sahbi H., “Nonlinear Deep Kernel Learning for Image Annotation”, IEEE Transactions on Image Processing, vol 26, no.4, pp.1820-1832, 2017 20 Thinh N.V., Thanh T.V., Thanh M.L., "The Method Proposal of Image Retrieval Based on K-Means Algorithm", Advances in Intelligent Systems and Computing, vol 746, no 2, pp 481–490, 2018 Abstract The paper proposes the data clustering model based on the BKD-Tree, an improvement of KD-Tree for the image retrieval This model includes: (1) storing multidimensional data objects at the leaf nodes of the tree to create data clusters based on semisupervised learning method; (2) create a balanced tree structure to increase the efficiency of image search We use BKD-Tree to make experiment on ImageCLEF image set (including 20,000 images) Our experimental results are compared with several recent works on the same data set to demonstrate the effectiveness of the proposed method This shows that our method is effective and can be applied to similar image retrieval systems by content Keywords: BKD-Tree, clustering, similar image, similar measure, image retrieval 61 ... thực nghiệm cho thấy KD-Tree có thời gian tìm kiếm nhanh tứ phân QuadTree kết tìm kiếm KD-Tree có độ xác cao [7] Năm 2013 M Otair đề xuất phương pháp gom cụm liệu dựa KD-Tree với thuật toán k-NN... số cho trước) Vậy độ phức tạp Thuật toán IEBKT