Trong chương này, các nội dung cơ sở cho bài toán tìm kiếm ảnh tương tự lần lượt được tiếp cận, bao gồm: 1 các đối tượng cần được nghiên cứu tập trung vào đặc trưng hình ảnh, phương pháp
TỔNG QUAN VỀ BÀI TOÁN TÌM KIẾM ẢNH
Giới thiệu
Bài toán tìm kiếm ảnh tương tự là một bài toán quan trọng và được ứng dụng trong nhiều lĩnh vực khác nhau, đặc biệt là trong các hệ thống xử lý dữ liệu đa phương tiện nhằm áp dụng giải quyết việc tìm kiếm các đối tượng ảnh tương tự nhau về mặt nội dung dựa trên đặc trưng cấp thấp hoặc đặc trưng ngữ nghĩa cấp cao Trong chương này, các nội dung cơ sở cho bài toán tìm kiếm ảnh tương tự lần lượt được tiếp cận, bao gồm: (1) các đối tượng cần được nghiên cứu tập trung vào đặc trưng hình ảnh, phương pháp phân cụm nhằm tạo thành các nhóm ảnh tương tự cho bài toán tìm kiếm, các cấu trúc phân cụm phân hoạch, phân cụm phân cấp… để từ đó nội dung luận văn tiếp cận cấu trúc R-Tree và đề xuất cải tiến nhằm giảm chi phí tách nút, tăng hiệu suất của quá trình tìm kiếm ảnh, (2) các phương pháp nghiên cứu lần lượt được tiếp cận theo cơ sở lý thuyết từ các công trình đã công bố, để từ đó đưa ra cấu trúc tiếp cận mới cho cây R-Tree Trên cơ sở lý thuyết này, phương pháp thực nghiệm được xây dựng nhằm minh chứng tính khả thi của cấu trúc đề xuất Thực nghiệm của luận văn dựa trên các bộ ảnh phổ dụng nhằm đánh giá và so sánh kết quả với một số công trình đã công bố gần đây để minh chứng tính hiệu quả của cơ sở lý thuyết đề xuất, (3) việc khảo sát tính ứng dụng và tính thời sự của bài toán tìm kiếm ảnh cũng được thực hiện trong nội dung chương này nhằm minh chứng sự cần thiết cũng như ý nghĩa về mặt khoa học, tính ứng dụng
Trên cơ sở các nội dung tổng quát được tiếp cận, nội dung của chương lần lượt đi vào các phần như sau: (1) vai trò và ứng dụng của bài toán tìm kiếm ảnh nhằm minh chứng tính thời sự và tính ứng dụng của bài toán, (2) đối tượng nghiên cứu nhằm định hướng quá trình tìm hiểu, nghiên cứu cũng như đề xuất cải tiến cho một cấu trúc mới dựa trên cấu trúc R-Tree đã có, (3) phương pháp nghiên cứu để mô tả các bước thực hiện cũng như quá trình đánh giá cho các đề xuất, (4) các công trình liên quan được khảo sát và phân tích nhằm minh chứng tính khả thi và sự kế thừa kết quả cơ sở, (5) nội dung tổng quát của các chương cũng lần lượt được tiếp cận và định hướng phát triển các nội dung này trong các chương tiếp theo.
Vai trò và ứng dụng của bài toán tìm kiếm ảnh
Nhiều ứng dụng của bài toán tìm kiếm ảnh tương tự đã được công bố rộng rãi dựa trên các hệ thống như: hệ thống thông tin địa lý GIS (Geographic Information
System), hệ thống thông tin bệnh viện HIS (Hospital Information System), hệ thống thư viện số DLS (Digital Library System)… Dữ liệu ảnh có vai trò quan trọng trong nhiều lĩnh vực khác nhau, liên quan đến lĩnh vực tìm kiếm ảnh tương tự theo nội dung, làm cơ sở cho bài toán phân tích hình ảnh theo nội dung, kết xuất đối tượng gần nhất theo đặc trưng hình ảnh, phân nhóm các hình ảnh theo chủ đề… [29] Dữ liệu ảnh được ứng dụng trong các lĩnh vực khác nhau như thiết kế kiến trúc (Yue và cộng sự, 2011) [46], phòng chống tội phạm (Kekre và cộng sự, 2011) [23], kiểm tra an ninh (Iqbal và cộng sự, 2012) [22], viễn thám (Kekre và cộng sự, 2010) [24], chẩn đoán bệnh trong y tế (Muller và cộng sự, 2004) [30], v.v
Trong lĩnh vực y tế, ảnh số được sử dụng với số lượng ngày càng tăng, tại Khoa X-quang của Bệnh viện Đại học Geneva có hơn 12.000 hình ảnh mỗi ngày vào năm 2002; Tổng lượng dữ liệu hình ảnh tim mạch được tạo ra tại Bệnh viện Đại học Geneva khoảng 1 TB vào năm 2002 [30] Các loại hình ảnh khác nhau cũng đang được tạo ra bởi các thiết bị hình ảnh y tế như chụp cắt lớp vi tính (CT), chụp cộng hưởng từ (MRI), hình ảnh hạt nhân, v.v ngày càng được gia tăng và trở thành các kho dữ liệu lớn và được coi là nguồn dữ liệu hỗ trợ chẩn đoán [35] Tuy nhiên, do sự gia tăng nhanh chóng của số lượng hình ảnh y tế từng ngày, nên việc khai phá dữ liệu giúp chẩn đoán bệnh nhân tại các cơ sở y tế và bệnh viện ngày càng trở nên khó khăn hơn và đòi hỏi các phương pháp tìm kiếm, lập chỉ mục và truy xuất hình ảnh chính xác và hiệu quả hơn vì vậy việc truy xuất và lập chỉ mục hình ảnh dựa trên nội dung cần được thực hiện Các hệ thống truy xuất hình ảnh y tế áp dụng bài toán tìm kiếm ảnh tương tự để truy xuất các hình ảnh giống nhất từ một tập ảnh tương tự nhằm hỗ trợ quá trình chẩn đoán bệnh nhân từ các nội dung tham chiếu đối với hình ảnh đã có Để có thể thực hiện được việc tìm kiếm hình ảnh một cách nhanh chóng, các đặc trưng cấp thấp được sử dụng làm cơ sở đối sánh độ tương tự như: màu sắc, kết cấu, hình dạng, cấu trúc, v.v [17]
Dữ liệu số trên toàn cầu được gia tăng không ngừng, theo tổ chức IDC (International Data Corporation) dự đoán dữ liệu toàn cầu có kích thước 175ZB vào năm 2025 (1ZB ⁓ 1 nghìn tỷ GB) [48] Theo thống kê năm 2020, Google xử lý 3.9 tỷ lượt tìm kiếm mỗi ngày Một phần ba tổng số tìm kiếm được thực hiện trên Google dành cho hình ảnh và 12.5% hiển thị kết quả hình ảnh [52] Hơn 70% lượt truy cập trên Instagram để xem ảnh vào năm 2023 [50].Người dùng chia sẻ 6.9 tỷ hình ảnh trên WhatsApp mỗi ngày, 3.8 tỷ trên Snapchat, 2.1 tỷ trên Facebook và 1.3 tỷ trên Instagram [51] Cùng với sự phát triển của Internet, ảnh số đã được sử dụng trên nhiều thiết bị khác nhau như: camera, mobile, smartphone, tablet,… Số liệu thống kê về tăng trưởng Internet từ Statista cho thấy tính đến tháng 4 năm 2022, có năm tỷ người dùng Internet trên toàn thế giới, chiếm 63% dân số toàn cầu Trong tổng số này, 4.65 tỷ là người dùng mạng xã hội và thiết bị mobile có đến 4.28 tỷ người dùng [49] Kích thước và số lượng ảnh ngày càng được gia tăng nên cần phải có nhiều hệ thống xử lý đáp ứng yêu cầu của người dùng Do đó, hệ thống tìm kiếm ảnh phải được xây dựng với mục đích nâng cao hiệu quả và độ chính xác của quá trình tìm kiếm ảnh Bài toán khai phá dữ liệu ảnh để tìm ra tập ảnh tương tự là một bài toán quan trọng có tính thời sự và phù hợp với các hệ thống tìm kiếm ảnh hiện nay [15].
Đối tượng và phương pháp nghiên cứu
Nội dung luận văn tiếp cận xây dựng một mô hình tìm kiếm ảnh tương tự dựa trên đặc trưng cấp thấp như: màu sắc, hình dạng, kích thước, cấu trúc bề mặt… Các đặc trưng này được trích xuất trực tiếp từ một hình ảnh truy vấn đầu vào để từ đó tạo thành một véc-tơ đặc trưng làm cơ sở cho việc đối sánh, tra cứu và tìm kiếm hình ảnh tương tự Các véc-tơ đặc trưng của bộ dữ liệu ảnh được trích xuất và lưu trữ trên một cấu trúc R-Tree nhằm tăng hiệu suất của quá trình tìm kiếm ảnh Để tiếp cận được đối tượng nghiên cứu như trên, đề tài luận văn lần lượt nghiên cứu các đối tượng gồm:
- Ảnh số và phương pháp trích xuất đặc trưng hình ảnh số để làm cơ sở phân cụm cũng như tổ chức dữ liệu trên cấu trúc cây R-Tree
- Cấu trúc dữ liệu về cây R-Tree, một cấu trúc tìm kiếm hiệu quả cho bài toán tìm kiếm ảnh theo nội dung Từ đó, một cấu trúc cải tiến được tiếp cận nhằm tăng hiệu suất cho bài toán tìm kiếm
- Các thuật toán thao tác trên cây cũng được tiếp cận nhằm thực hiện quá trình truy xuất và truy hồi các hình ảnh tương tự đối với ảnh đầu vào Các thuật toán này thực hiện các thao tác trên cây R-Tree bao gồm: tạo cây, thêm phần tử, xóa phần tử, tách nút Bên cạnh đó, thuật toán tìm kiếm tập ảnh tương tự trên cây R-Tree được đề xuất
- Các phương pháp phân cụm và độ đo tương tự giữa hai hình ảnh được tiếp cận nghiên cứu nhằm so sánh, đánh giá ưu và nhược điểm của phương pháp đề xuất với các phương pháp đã có
- Mô hình tìm kiếm ảnh được đề xuất dựa trên cây R-Tree và cải tiến
Trên cơ sở các tài liệu có liên quan đã được công bố, nội dung luận văn lần lượt tiếp cận nhằm phân tích, đánh giá các ưu và nhược điểm để từ đó đưa ra một mô hình phù hợp nhằm nâng cao hiệu suất tìm kiếm ảnh theo nội dung Nhằm thực hiện được các phân tích cũng như đưa ra các đề xuất về cơ sở lý thuyết, quá trình nghiên cứu lần lượt được thực hiện như sau:
- Thực hiện việc phân tích hình ảnh và trích xuất đặc trưng hình ảnh nhằm tạo ra dữ liệu mô tả dạng chỉ mục cho mỗi hình ảnh Trong vấn đề này, mỗi hình ảnh được rút gọn trở thành một dạng chỉ mục mô tả đặc trưng cho hình ảnh để nâng cao hiệu suất về độ chính xác cũng như thời gian tìm kiếm
- Phân tích, nghiên cứu cấu trúc cây phân cụm đa nhánh cân bằng R-Tree để từ đó đưa ra các cải tiến cho quá trình lưu trữ và tìm kiếm hình ảnh
- Thực hiện các thuật toán thao tác trên cây gồm: thêm, xóa, cập nhật, tách nút nhằm đáp ứng việc tăng trưởng dữ liệu và nâng cao độ chính xác cho kết quả tìm kiếm hình ảnh tương tự
- Xây dựng một mô hình tìm kiếm ảnh dựa trên cơ sở các đề xuất về cấu trúc cây R-Tree và các thuật toán trên cây cho bài toán tìm kiếm ảnh tương tự Để thực hiện phương pháp nghiên cứu này, hai nhóm phương pháp chính được tiếp cận bao gồm:
- Phương pháp nghiên cứu lý thuyết: Nghiên cứu các công trình đã công bố có liên quan về vấn đề truy vấn thông tin thị giác máy tính, truy vấn hình ảnh tương tự; nghiên cứu về độ đo tương tự giữa các hình ảnh, không gian khoảng cách giữa các đối tượng Sau đó đánh giá những ưu điểm và các khiếm khuyết của các công trình trong những điều kiện dữ liệu cụ thể Từ đó, đề tài đưa ra cải tiến mới để khắc phục những khiếm khuyết trong các ngữ cảnh cụ thể
- Phương pháp thực nghiệm: Mỗi tiếp cận được thử nghiệm trên một công cụ lập trình cụ thể nhằm minh họa tính đúng đắn của phương pháp Từ đó, đề tài luận văn mô tả số liệu thực nghiệm nhằm minh chứng cho cơ sở lý thuyết Trong phương pháp nghiên cứu này, đề tài mô tả thực nghiệm trên tập dữ liệu ảnh mẫu COREL, OXFORD FLOWER, COCO.
Tổng quan về bài toán tìm kiếm ảnh
Có hai tiếp cận tìm kiếm ảnh tương tự thông dụng hiện nay bao gồm: tìm kiếm ảnh tương tự theo từ khóa TBIR (Text-based Image Retrieval), và tìm kiếm ảnh tương tự theo nội dung CBIR (Content-based Image Retrieval) được thực hiện và có nhiều cải tiến trong những năm gần đây nhằm tăng tính hiệu quả về độ chính xác cũng như thời gian tìm kiếm [21], [4] Đối với bài toán tìm kiếm hình ảnh dựa trên văn bản
TBIR được thực hiện theo mô tả của người dùng và theo các từ khóa đã được chỉ định
Do đó, cách tiếp cận này tốn nhiều chi phí về tài nguyên con người cũng như phụ thuộc vào yếu tố chủ quan trong việc tạo các mô tả cho hình ảnh Vì vậy, kết quả tìm kiếm ảnh có thể nhận được các hình ảnh không liên quan đến hình ảnh ban đầu Ngoài ra, đối với các bộ dữ liệu ảnh lớn và có tính chất tăng trưởng thì chi phí cho quá trình gắn nhãn hình ảnh là tương đối lớn Để vượt qua hạn chế này, các đặc trưng của hình ảnh phải được trích xuất tự động và tạo ra được một tập dữ liệu chỉ mục lưu trữ trên một cấu trúc tìm kiếm nhằm tăng tốc độ thực hiện quá trình tìm kiếm ảnh tương tự Phương pháp tìm kiếm ảnh dựa trên nội dung CBIR được phát triển và tập trung vào việc trích xuất, so sánh các đặc trưng cấp thấp từ hình ảnh như: màu sắc, kết cấu, hình dạng, vị trí… để đưa ra kết quả là một tập ảnh tương tự Nhiều công bố đã được thực hiện trong thập kỷ qua đã chứng minh tính hiệu quả của tiếp cận CBIR cũng như việc ứng dụng trong nhiều hệ thống khác nhau [2, 21, 33] Đối với bài toán tìm kiếm ảnh dựa trên nội dung CBIR, mỗi hình ảnh đầu vào hệ thống trả về một kết quả là một tập các hình ảnh tương tự dựa trên đặc trưng cấp thấp Trong hệ tìm kiếm ảnh CBIR, độ đo đánh giá sự tương đồng của các hình ảnh được áp dụng nhằm mục đích tìm ra các hình ảnh gần nhất cũng như thực hiện việc sắp xếp các hình ảnh theo thứ tự độ tương đồng Hình 1.1 mô tả kiến trúc tổng quan cho một hệ tìm kiếm ảnh theo nội dung CBIR Trong mô hình này, tập dữ liệu ảnh được tạo chỉ mục để trở thành tập các nhóm chỉ mục đặc trưng và lưu trữ trên một cấu trúc dữ liệu Với mỗi hình ảnh cần truy vấn đầu vào, hệ thống thực hiện việc đối sánh, truy xuất tập hình ảnh tương tự dựa trên đặc trưng cấp thấp đã được trích xuất
Hình 1.1:Mô hình tìm kiếm ảnh tương tự theo nội dung.
Các công trình liên quan cho bài toán tìm kiếm ảnh
Nhiều công trình nghiên cứu đã tiếp cận cấu trúc cây nhằm tăng hiệu suất tìm kiếm ảnh tương tự, các cấu trúc cây cho bài toán này gồm: R * -Tree, X-Tree, SS-Tree, SR-Tree.v.v [3], [42], [7], [39] Nhiều công trình đã ứng dụng cấu trúc cây đa nhánh vào các bài toán tìm kiếm ảnh dựa trên nội dung và được thực nghiệm trên các bộ dữ liệu khác nhau nhằm minh chứng tính hiệu quả của phương pháp Kết quả thực nghiệm này được so sánh với các công trình khác trên cùng bộ ảnh nhằm đánh giá tính đúng đắn của mô hình đề xuất
Năm 2013, Timothy Chappell và Shlomo Geva tiếp cận bài toán tìm kiếm ảnh tương tự sử dụng độ đo Hamming và chuỗi đặc trưng nhị phân đối với mỗi hình ảnh Nhóm tác giả đã thực nghiệm và đánh giá tính hiệu quả của phương pháp về tốc độ tìm kiếm ảnh trên bộ dữ liệu ảnh lớn [10] Tuy nhiên trong bài báo này, nhóm tác giả chưa xây dựng hoặc đề ra một cấu trúc dữ liệu nhằm gom nhóm và tiền xử lý cho bài toán tìm kiếm ảnh
Năm 2017, Thanh TV và Thanh ML đã trình bày cách truy xuất hình ảnh dựa trên nội dung dựa trên đồ thị cụm chữ ký nhị phân Theo kết quả thực nghiệm và các phân tích, với các so sánh khác cho thấy phương pháp đã đề xuất là hiệu quả về độ chính xác cũng như thời gian truy vấn [38]
Li Yu và cộng sự (2018) giải quyết bài toán truy xuất hình ảnh hàng hóa dựa trên nội dung hình ảnh có gắn trọng số cho đặc trưng hình ảnh Quá trình xử lý cho bài toán tìm kiếm hình ảnh gồm ba giai đoạn: (1) Hình ảnh được tiền xử lý để trích xuất đối tượng và ảnh nền (2) Trích xuất đặc trưng cho mỗi hình ảnh gắn với trọng số tương ứng (3) Một bản chỉ mục được tạo ra để truy xuất các hình ảnh tương tự dựa trên việc tra cứu Kết quả thực nghiệm của bài báo trên tập dữ liệu hình ảnh hàng hóa thực tế cho thấy thuật toán đạt được độ chính xác cao trên tập dữ liệu hình ảnh lớn [44] Đối với cách tiếp cận này, quá trình tìm kiếm ảnh được thực hiện qua một cấu trúc tra cứu nên việc đối sánh dữ liệu tăng tính hiệu quả về thời gian thực hiện nhưng độ chính xác của tập hình ảnh kết quả vẫn còn hạn chế vì tập ảnh tương tự chưa được phân cụm cũng như chưa được tiền xử lý trước
F Duan và Q Zhang (2020) đã tiếp cận phương pháp truy dựa trên cây hậu tố và cây phân cụm phân cấp Các đặc trưng hình dạng và màu sắc được trích xuất nhằm thực hiện lưu trữ trên các nút lá của cây phân cụm phân cấp Các đặc trưng này được ánh xạ vào tọa độ hai chiều đồng thời được gán nhãn dựa trên cây hậu tố Trong bài báo này, nhóm tác giả cũng đã đề xuất các thuật toán về việc lập chỉ mục cho đặc trưng hình ảnh và thuật toán tìm kiếm ảnh dựa trên nội dung [14] Tuy nhiên, việc kết hợp hai cấu trúc cây cho bài toán tìm kiếm ảnh sẽ tốn kém nhiều chi phí tìm kiếm Chandresh Pratap Singh (2011) đã sử dụng phương pháp tiếp cận ma trận khoảng cách và thuật toán phát hiện cạnh Sobel để tìm kiếm hình ảnh tương tự dựa trên cấu trúc R-Tree [36] Tuy nhiên, việc áp dụng cây R-Tree nguyên thủy gây tốn kém về mặt tính toán cũng như sắp xếp các vùng không gian khi thực hiện các thao tác thêm hoặc tách Vì vậy cần có một cấu trúc cây R-Tree giảm độ phức tạp trong việc tính toán này nhưng vẫn đảm bảo về không gian các vùng lưu trữ hình ảnh cũng như đảm bảo về độ chính xác cho bài toán tìm kiếm ảnh
L Haldurai và V Vinodhini (2015) đã đề xuất một cách tiếp cận về lập chỉ mục dựa trên đặc trưng màu sắc và đặc trưng kết cấu theo hướng tiếp cận mờ kết hợp cây R-Tree để truy xuất hình ảnh dựa trên nội dung Kết quả thực nghiệm trên bộ ảnh COREL cho thấy rằng cách tiếp cận trên có hiệu quả [20] Trong cách tiếp cận này, cây R-Tree cần được cải tiến để giảm số phép toán thao tác trên cây, đồng thời các quá trình tách nút, thêm phần tử cũng cần được cải tiến để tăng độ chính xác cũng như tính hiệu quả về thời gian tìm kiếm
Vanitha J., Senthilmurugan M (2018) đã tiếp cận một cấu trúc cây chỉ mục SR-Tree (Sphere Rectangle Tree) dựa trên sự kết hợp giữa cây R-Tree, R* -Tree và SS-Tree để đánh chỉ mục hình ảnh Để áp dụng cấu trúc cây SR-Tree cho các tập dữ liệu lớn, Vanitha J và cộng sự đã tạo các cấu trúc chỉ mục đa chiều, hỗ trợ truy vấn láng giềng gần nhất Trong bài báo này, cấu trúc SR-Tree được sử dụng để lưu trữ các giá trị đặc trưng cấp thấp của hình ảnh trên không gian màu HSV gồm: sắc độ (Hue), độ bão hòa (Saturation), và giá trị màu sắc (Value), lược đồ màu [40] Tuy nhiên, cấu trúc lưu trữ này chỉ xem các hình ảnh là một điểm dữ liệu để từ đó tạo thành một cụm tại các nút lá, việc so sánh các hình ảnh về độ tương tự dựa trên độ tương đồng
Yang Yang và cộng sự (2019) đã trình bày một thuật toán phân tách nút sử dụng vùng nhớ tạm thời tại các nút lá nhằm hạn chế thao tác tách nút trên cây R-Tree Quá trình thực hiện của phương pháp này bao gồm các bước: (1) Khi một nút bị đầy, một vùng nhớ đệm được tạo ra nhằm tạo ra một bảng băm để có thể thực hiện tìm kiếm và bổ sung kết quả (2) Nếu tiếp tục chèn dữ liệu vào nút lá đó, dữ liệu được thêm vào nút tràn tương ứng với nút lá đó Việc này hạn chế được quá trình tách nút của cây nếu như bộ nhớ đệm đủ lớn và hiệu quả trong trường hợp cấu trúc cây đã đạt độ ổn định (3) Khi nút tràn bị vượt quá số lượng cho phép, nút này được tách thành 2 nút tương ứng với hai vùng nhớ đệm Kết quả thực nghiệm cho thấy thuật toán được đề xuất trong bài báo này ưu việt hơn cả thuật toán R-Tree ban đầu Và thuật toán phân tách dựa trên góc CBS (Corner-based Splitting) được ứng dụng hiệu quả cho các truy vấn vùng và truy vấn k-láng giềng gần nhất (k-NN) [43] Tuy nhiên mỗi vùng nhớ đệm có hạn chế về số lượng lưu trữ, nên cần tổ chức vùng nhớ đệm trở thành một cấu trúc liên kết sao cho có thể lưu trữ được nhiều các tập ảnh tương tự và nếu một hình ảnh có độ tương đồng vượt một ngưỡng cho phép thì việc tách nút được thực hiện
Xinlu Wang và cộng sự (2019) [41] đã đề xuất một phương pháp truy vấn động trên cấu trúc R-Tree Đây là phương pháp tổ chức lưu dữ liệu cùng một không gian con thành cùng cây con và xây dựng một cây chỉ mục R-Tree trên không gian con này Kết quả thực nghiệm cho thấy phương pháp được đề xuất cải thiện tính ổn định của hệ thống và hiệu quả cao, bên cạnh đó, phương pháp còn ứng dụng cho hệ thống tra cứu thông tin bệnh viện
Lê Thị Vĩnh Thanh và cộng sự (2021) đã giới thiệu một mô hình tìm kiếm ảnh theo nội dung dựa trên cấu trúc R S -Tree để nâng cao hiệu suất tìm kiếm ảnh Cấu trúc này cho phép lưu trữ dữ liệu tăng trưởng và tạo ra các cụm tại nút lá của cây Quá trình gom cụm tại nút lá dựa trên các thao tác thêm, tách nút và phép lọc dựa trên ngưỡng 𝜃 Kết quả thực nghiệm trên bộ ảnh COREL có độ chính xác 76.29%, độ phủ 68.75%; bộ ảnh Oxford Flowers 102 có độ chính xác 73.16%, độ phủ 65.36%; bộ ảnh CUB-2011-200 có độ chính xác 68.17%, độ phủ 61.55% Theo kết quả thực nghiệm cho thấy tính hiệu quả so với các công trình khác trên cùng một tập dữ liệu ảnh và phương pháp đề xuất đã làm tăng đáng kể hiệu suất tìm kiếm ảnh theo nội dung [28]
Lê Mạnh Thạnh và cộng sự (2022) đưa ra một phương pháp kết hợp cấu trúc R-
Tree và KD-Tree Random Forest nhằm cải tiến hiệu suất phân lớp và tìm kiếm ảnh
Mỗi ảnh đầu vào sẽ được phân lớp bằng KD-Tree Random Forest, kỹ thuật gom cụm trên R-Tree kết hợp các thuật toán xây dựng rừng ngẫu nhiên, phân lớp được thực hiện và tìm kiếm tập ảnh tương tự Thực nghiệm được thực hiện trên các bộ ảnh
COREL và Caltech101; đồng thời so sánh với các công trình trước đây, thực nghiệm trên cùng bộ dữ liệu rồi đối sánh với kết quả tìm kiếm ảnh khi sử dụng một cấu trúc riêng lẻ Kết quả thực nghiệm cho thấy phương pháp đề xuất trên là hiệu quả, có thể áp dụng được cho các hệ tìm kiếm ảnh với nhiều bộ dữ liệu khác nhau [27]
Từ kết quả khảo sát cho thấy, phương pháp tìm kiếm ảnh trên cây R-Tree có tính thời sự và được nhiều nhóm nghiên cứu quan tâm Bài toán tìm kiếm ảnh dựa trên cấu trúc R-Tree là một bài toán khả thi và có nhiều cải tiến cũng như ứng dụng trong nhiều lĩnh vực khác nhau Cấu trúc cây R-Tree là phù hợp cho việc lưu trữ các đặc trưng hình ảnh cũng như phù hợp cho quá trình phân cụm các hình ảnh tương tự
Việc cải tiến cấu trúc cây trở thành các khối cầu nhằm tăng độ chính xác và giảm thời gian tìm kiếm là một bài toán khả thi và hiệu quả Từ đó, nội dung luận văn hướng tới một cấu trúc cây RS-Tree đa nhánh cân bằng mà mỗi nút của cây là một khối cầu lưu trữ các phần tử dữ liệu sao cho mỗi phần tử dữ liệu là một khối cầu Với mỗi nút lá, cấu trúc cây này được cải tiến bằng cách bổ sung vùng nhớ nhằm vượt qua các hạn chế về tách nút Bên cạnh đó, với mỗi nút lá thực hiện bổ sung một ngưỡng về độ đo tương tự của ảnh nhằm gom nhóm các hình ảnh có xu hướng tương đồng nhau
Việc cải tiến này bao gồm ba vấn đề cơ sở: (1) cải tiến các nút lá và nút trong trở thành khối cầu nhằm giảm độ phức tạp trong tính toán cũng như đánh giá độ tương đồng dựa trên các phần tử giao nhau giữa các khối cầu, (2) bổ sung vùng nhớ đệm cho mỗi nút lá để giảm quá trình tách nút cũng như tăng số lượng kết quả cho bài toán tìm kiếm, (3) bổ sung ngưỡng tương tự để tăng độ chính xác tìm kiếm.
Nội dung tiếp cận cho bài toán tìm kiếm ảnh
Trên cơ sở các đối tượng và phương pháp nghiên cứu, nội dung các chương còn lại được tập trung vào các vấn đề như sau:
Chương 2: Nội dung chương này tiếp cận các phương pháp khai phá dữ liệu và ứng dụng cho bài toán tìm kiếm ảnh tương tự, đồng thời thực hiện các phân tích, đánh giá về ưu nhược điểm cho bài toán Mỗi phương pháp được mô tả và xây dựng theo định hướng cho bài toán tìm kiếm ảnh để từ đó phân tích, so sánh với cấu trúc R-Tree nhằm làm cơ sở tiếp cận cho bài toán tìm kiếm ảnh dựa trên R-Tree
Chương 3: Nội dung chương 3 mô tả và tiếp cận cấu trúc cây R-Tree nguyên thủy để từ đó đưa ra các cải tiến phù hợp cho bài toán tìm kiếm ảnh Mỗi cải tiến trên cây R-Tree cho bài toán này được phân tích đánh giá cũng như đề xuất thuật toán nhằm minh chứng tính khả thi và tính hiệu quả cho bài toán
Chương 4: Việc thực nghiệm cũng như mô hình thực nghiệm trên các bộ ảnh khác nhau lần lượt được trình bày trong chương 4 Các cơ sở lý thuyết và cấu trúc đề xuất lần lượt được ứng dụng để xây dựng một hệ tìm kiếm ảnh Kết quả thực nghiệm được so sánh và đánh giá trên các công trình liên quan nhằm minh chứng tính hiệu quả của phương pháp đề xuất.
Tổng kết chương
Trong chương này, các nội dung tổng quan và các đối tượng nghiên cứu, phương pháp nghiên cứu đã lần lượt được tiếp cận Đối với bài toán tìm kiếm ảnh dựa trên nội dung CBIR nhằm vượt qua các hạn chế của bài toán tìm kiếm ảnh theo văn bản TBIR Để thực hiện bài toán CBIR, các đối tượng nghiên cứu lần lượt được phân tích bao gồm: các đặc trưng về hình ảnh, cấu trúc chỉ mục, cấu trúc cây đa nhánh R-Tree và các thuật toán Nội dung chương đã tiếp cận phương pháp nghiên cứu và thực hiện phương pháp nghiên cứu theo lý thuyết và thực nghiệm Ngoài ra, các khảo sát về bài toán tìm kiếm ảnh và các cấu trúc dữ liệu liên quan được thực hiện nhằm minh chứng tính thời sự và tính khả thi của nội dung luận văn Từ cơ sở định hướng tiếp cận của chương 1, các nội dung của các chương tiếp theo được thực hiện để làm rõ các đề xuất cũng như quá trình thực thi cho mô hình tìm kiếm ảnh trên cấu trúc cây R-Tree.
CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU CHO BÀI TOÁN TÌM KIẾM ẢNH TƯƠNG TỰ
Mở đầu
Hiện nay, việc lựa chọn một hướng tiếp cận xử lý bài toán tìm kiếm ảnh tương tự để đạt được kết quả tối ưu nhất là vấn đề quan tâm đầu tiên Hướng tiếp cận đóng một vai trò quan trọng trong quá trình thực thi cho một bài toán Có nhiều cách tiếp cận bài toán tìm kiếm ảnh tương tự nhằm nâng cao chất lượng truy vấn, việc nâng cao hiệu suất, giảm thời gian tìm kiếm cũng như tối ưu hóa không gian lưu trữ là cần thiết trong thực tiễn Chương 2 giới thiệu một số phương pháp khác nhau cho bài toán tìm kiếm ảnh tương tự như sử dụng phương pháp phân cụm phân hoạch K-Means, phương pháp láng giềng gần nhất là thuật toán K-Means kết hợp với thuật toán KNN, thuật toán gom cụm phân cấp sử dụng cây Bên cạnh đó, nội dung chương này đã đưa ra một số ưu khuyết điểm của các phương pháp dựa trên khai phá dữ liệu và đưa ra hướng tiếp cận chính của luận văn là sử dụng cấu trúc cây R-Tree cải tiến.
Một số kỹ thuật khai phá dữ liệu cho bài toán tìm kiếm ảnh
Nhiều công trình nghiên cứu trong thực tế sử dụng phương pháp gom cụm dựa trên K-Means nhằm giải quyết bài toán tìm kiếm ảnh đã được công bố gần đây như: Tongtong Yuan và cộng sự (2019) đề xuất một phương pháp nhằm giảm số chiều cho véc-tơ đặc trưng của hình ảnh để thực hiện tìm kiếm ảnh tương tự đó là phương pháp băm thích ứng Tuy nhiên, phương pháp này tốn chi phí trong việc phân cụm vì phải xác định lại tâm [45]
Xiao Dong và cộng sự (2020) đã tiếp cận phương pháp băm dựa trên K-Means để truy xuất và phân cụm hình ảnh hiệu quả Trong tính năng này, nhóm đã tập trung vào cách chọn số cụm phù hợp một cách thích ứng thông qua học tích cực để học hàm băm tốt hơn [13]
Lan và cộng sự (2021) đã sử dụng thuật toán K-Means và ngưỡng 𝜃 áp dụng cho bài toán tìm kiếm ảnh tương tự theo nội dung Nhóm tác giả thực nghiệm và đánh giá kết quả trên tập dữ liệu ảnh COREL cho thấy sự hiệu quả của phương [26]
HTC Lan và cộng sự (2022) đã tiếp cận phương pháp phân lớp cho bài toán truy vấn ảnh dựa trên thuật toán KNN Thực nghiệm được xây dựng trên tập dữ liệu ảnh COREL nhằm đánh giá độ chính xác [25]
H Zhang và cộng sự (2017) đã áp dụng thuật toán KNN để thực hiện bài toán tìm kiếm ảnh Thực nghiệm của nhóm tác giả xây dựng trên bộ dữ liệu gồm 1 triệu mẫu và hơn 190 nghìn nhãn đã chứng minh được tính hiệu quả của phương pháp [47] Fachrurrozi và cộng sự (2017) đã giải quyết bài toán tìm kiếm ảnh trái cây dựa trên đặc trưng màu sắc và hình dạng bằng phương pháp K-Means kết hợp KNN Kết quả thực nghiệm đạt độ chính xác 92.5% đối với ảnh đơn đối tượng và 90% đối với ảnh đa đối tượng [16]
Deole và cộng sự (2014) đã đề xuất mô hình tìm kiếm ảnh theo nội dung dựa trên thuật toán KNN Nhóm tác giả đã thực nghiệm và đánh giá kết quả dựa trên các bộ ảnh thông dụng nhằm chứng minh tính hiệu quả phương pháp [12]
Qua các khảo sát, bài toán tìm kiếm ảnh tương tự dựa trên phương pháp phân cụm cũng như kết hợp việc phân lớp là hoàn toàn khả thi Các công trình cũng đã thực hiện và chứng minh tính hiệu quả Vì vậy, nội dung của luận văn lần lượt thực hiện việc áp dụng hai thuật toán đại diện cho nhóm phân cụm và nhóm phân lớp là K-Means và KNN Từ đó, các phân tích được đưa ra để cho thấy tính ưu và nhược điểm của các phương pháp này khi áp dụng cho bài toán tìm kiếm ảnh.
Phân cụm phân hoạch K-Means
Phương pháp phân cụm phân hoạch K-Means, là phương pháp phân cụm phân hoạch thông dụng Với số K cụm được xác định trước (K > 0), thuật toán K-Means phân nhóm các đối tượng dữ liệu đã cho vào K cụm bằng cách đối sánh khoảng cách giữa các đối tượng đến tâm mỗi cụm để tìm tâm cụm gần nhất Đối với bài toán tìm kiếm ảnh, thuật toán K-Means là một trong những thuật toán thường được ứng dụng cho quá trình phân cụm đối với các hình ảnh tương tự Với một tập ảnh cho trước, các đặc trưng của hình ảnh được trích xuất để từ đó áp dụng thuật toán K-Means gom cụm các dữ liệu đặc trưng này Quá trình tìm kiếm được thực hiện bằng cách tìm ra cụm gần nhất (mô tả tại Hình 2.1)
Hình 2.1: Mô hình tìm kiếm ảnh K-Means
Quá trình tìm kiếm ảnh được thực hiện gồm hai giai đoạn, giai đoạn 1 thực hiện gom cụm K-Means, giai đoạn 2 thực hiện tìm kiếm các hình ảnh tương tự cho ảnh đầu vào Các bước cụ thể được thực hiện như sau:
Giai đoạn 1: Phân cụm dữ liệu
Bước 1: Trích xuất đặc trưng hình ảnh cho tập ảnh ban đầu
Bước 2: Thực hiện phân cụm bằng thuật toán K-Means
Giai đoạn 2: Tìm kiếm ảnh
Bước 1: Trích xuất đặc trưng của ảnh cần truy vấn
Bước 2: Tìm tâm cụm gần nhất dựa trên thuật toán K-Means
Bước 3: Sắp xếp các hình ảnh theo độ đo tương tự và xuất ra kết quả
Trên cơ sở các bước thực hiện đã mô tả, thuật toán K-Means áp dụng cho bài toán tìm kiếm ảnh được mô tả như sau:
Thuật toán: K-MIR Đầu vào: Tập dữ liệu ảnh 𝐼 = {𝑓 𝑗 , 𝑗 = 1 𝑁} Đầu ra: Tập các cụm hình ảnh tương tự Ω = {Ω 1 , , Ω k , K là số cụm}
Phân bố theo tâm cụm
Thuật toán K-MIR với đầu vào là tập dữ liệu ảnh 𝐼, đầu ra là 𝐾 cụm ảnh tương tự Ω (1) và (4) duyệt các cụm thứ i với ⅈ = 1 𝐾, các tâm cụm 𝐶 𝑖 được xác định ngẫu nhiên tại dòng lệnh (2) K cụm rỗng được khởi tạo tại dòng lệnh (3) Tại dòng lệnh (5) và (8) duyệt các phần tử thứ j của tập dữ liệu với 𝑗 = 1 𝑁, duyệt các tâm cụm 𝐶 𝑖 với ⅈ = 1 𝐾, các phần tử thứ j được gom về các cụm 𝐶 𝑖 dựa vào độ đo khoảng cách Euclid tại dòng (7) và (8) Duyệt các cụm thứ ⅈ 𝑣ớⅈ ⅈ = 1 𝐾 tại dòng lệnh (9) và (11), các tâm cụm 𝐶 𝑖 ′ được cập nhật dựa vào việc tính trung bình cộng các trọng số các phần tử 𝑓 𝑡 𝑣ớⅈ 𝑡 = 1 |𝐶 𝑖 | tại dòng lệnh (10) (12) và (16) duyệt các cụm thứ i với ⅈ = 1 𝐾, đối sánh tâm cụm 𝐶 𝑖 ′ ≠ 𝐶 𝑖 tại dòng lệnh (13) thì quay lại dòng (5) để phân bổ lại các phần tử trong cụm tại dòng lệnh (16) (17) trả về 𝐾 cụm gồm các phần tử đã được phân bổ vào các cụm Với 𝐾, 𝑚 là các hằng số do đó độ phức tạp là 𝑂(𝑁)
Sau khi thực hiện phân cụm K-Means, kết quả là một tập các cụm Ω, mỗi cụm là các phần tử tương đồng nhau về đặc trưng Vấn đề đặt ra là tìm ra 1 tập ảnh tương tự với ảnh đầu vào trên các cụm này Thuật toán tìm kiếm ảnh tương tự dựa trên phân cụm K-Means được mô tả như sau:
Thuật toán IRK-Means (Tìm kiếm ảnh trên cụm) Đầu vào: Tập các cụm Ω = {Ω 1 , , Ω k }
Tập tâm cụm 𝐶 = {𝐶 1 , , 𝐶 𝑘 } Ảnh truy vấn 𝐼 = {𝑓} Đầu ra: Tập ảnh tương tự SI
Thuật toán IRK-Means với đầu vào là tập 𝐾 cụm, tập tâm 𝐾 cụm và ảnh truy vấn 𝐼 thì tập ảnh tương tự 𝑆𝐼 được thực hiện như sau: Tập ảnh tương tự 𝑆𝐼 được khởi tạo là tập rỗng tại dòng lệnh (1) Tại dòng lệnh (2), duyệt các tâm cụm 𝐶 𝑖 với ⅈ 1 𝐾, khoảng cách m nhỏ nhất được xác định dựa vào độ đo khoảng cách Euclid từ véc-tơ f đến tâm cụm 𝐶 𝑖 Duyệt các phần tử t trong cụm được chọn với 𝑡 = 1 |𝐶 𝑚 | tại dòng lệnh (3) và (5), các phần tử t được gom về tập 𝑆𝐼 tại dòng lệnh (4) Trả về tập 𝑆𝐼 với các phần tử tương đồng nhau về đặc trưng tại dòng lệnh (6) Với 𝐾 và 𝑚 là hằng số có giá trị không đáng kể nên độ phức tạp là hằng số, nghĩa là độ phức tạp là 𝑂(1)
Thuật toán K-Means có ưu điểm là phân hoạch được tập dữ liệu ban đầu thành các cụm Bên cạnh đó, thuật toán K-Means có nhiều khuyết điểm cho bài toán gom cụm hình ảnh như sau:
- Với dữ liệu ban đầu có nhiều phân tán về đặc trưng khác nhau nên việc xác định số cụm là một bài toán khó
- Việc xác định tâm cụm tốn kém về chi phí tính toán, so sánh, chọn lựa
- Khi dữ liệu tăng trưởng bộ dữ liệu ban đầu phải thực hiện gom cụm lại từ đầu Điều này tốn nhiều chi phí về thực hiện gom cụm
Vì vậy, cần có một phương pháp phân cụm cho dữ liệu tăng trưởng, nghĩa là khi dữ liệu tăng trưởng thì số cụm có thể tăng trưởng theo và có thể kế thừa các cụm đã có, đồng thời nếu số lượng cụm đủ lớn thì có thể dùng phương pháp tìm kiếm trên một cấu trúc cây thay vì thực hiện tìm kiếm tuyến tính.
Phương pháp láng giềng gần nhất
Thuật toán KNN là một trong những thuật toán thông dụng nhằm phân lớp các đối tượng dựa vào các phần tử láng giềng Đối với bài toán tìm kiếm ảnh, thuật toán KNN kết hợp với thuật toán K-Means có thể nâng cao được độ chính xác, đồng thời xác định được các phân lớp của hình ảnh dựa vào các hình ảnh láng giềng Tuy nhiên, nếu chỉ sử dụng thuật toán KNN cho bài toán tìm kiếm ảnh thì việc tìm kiếm dựa trên các phần tử láng giềng và duyệt tất cả các phần tử dữ liệu Điều này tốn kém nhiều chi phí tính toán trong quá trình duyệt tất cả các phần tử đã có trong bộ dữ liệu ban đầu Vì vậy, việc kết hợp thuật toán K-Means và KNN nhằm thực hiện tìm kiếm và phân lớp ảnh, đồng thời vượt qua hạn chế tính toán về việc duyệt tất cả các phần tử trong tập dữ liệu Đối với tập dữ liệu ảnh ban đầu, thuật toán K-Means thực hiện gom cụm nhằm tiền xử lý cho thuật toán KNN Sau khi có tập cụm hình ảnh, thuật toán KNN xác định các phần tử láng giềng là tập ảnh tương tự với hình ảnh đầu vào, đồng thời phân lớp của đầu vào được xác định dựa trên các phần tử láng giềng Tại Hình 2.2, quá trình phân cụm kết hợp dựa trên K-Means và KNN được mô tả Việc tìm kiếm ảnh được thực hiện dựa trên cụm gần nhất và các phần tử láng giềng
Hình 2.2: Mô hình tìm kiếm ảnh K-NN
Tại Hình 2.2, quá trình tìm kiếm ảnh được thực hiện dựa trên hai pha bao gồm: tiền xử lý dựa trên thuật toán K-Means để phân cụm tập hình ảnh đầu vào, tìm kiếm ảnh tương tự và phân lớp ảnh dựa trên thuật toán KNN Quá trình này được mô tả như sau:
Pha 1: Phân cụm tập ảnh đầu vào
Bước 1: Trích xuất đặc trưng mỗi ảnh trong tập ảnh ban đầu
Bước 2: Thực hiện phân cụm K-Means cho tập đặc trưng hình ảnh
Pha 2: Tìm kiếm và phân lớp ảnh
Bước 1: Trích xuất đặc trưng của ảnh truy vấn đầu vào
Bước 2: Tìm cụm gần nhất trên cơ sở thuật toán K-Means
Bước 3: Tìm các láng giềng gần nhất trên cụm đã có tại bước 2 và phân lớp hình ảnh bằng thuật toán KNN
Bước 4: Kết xuất các hình ảnh tương tự dựa trên các láng giềng
Quá trình tìm kiếm và phân lớp ảnh dựa trên thuật toán KNN được mô tả theo thuật toán như sau:
Thuật toán K-NNIR Đầu vào: Tập các cụm Ω = {Ω 1 , , Ω k }
Ngưỡng giới hạn 𝜃, Ảnh truy vấn I = {𝑓} Đầu ra: Tập ảnh tương tự SI
Thuật toán K-NNIR với đầu vào là tập 𝐾 cụm, tập tâm 𝐾 cụm, ngưỡng giới hạn
𝜃 và ảnh truy vấn 𝐼 thì tập ảnh tương tự 𝑆𝐼 được thực hiện như sau: Tập ảnh tương tự
𝑆𝐼 được khởi tạo là tập rỗng tại dòng lệnh (1) Tại dòng lệnh (2), duyệt các tâm cụm
𝐶 𝑖 𝑣ớⅈ ⅈ = 1 𝐾, khoảng cách m nhỏ nhất được xác định dựa vào độ đo khoảng cách Euclid từ véc-tơ 𝑓 đến tâm cụm 𝐶 𝑖 Duyệt tất cả các phần tử 𝐼 𝑖 trong cụm được chọn tại dòng lệnh (3) và (7), các phần tử 𝐼 𝑖 được gom về tập 𝑆𝐼 tại dòng lệnh (5) nếu khoảng cách Euclid từ ảnh truy vấn đến các phần tử trong cụm được chọn nhỏ hơn ngưỡng giới hạn 𝜃 tại dòng lệnh (4) và (6) Trả về tập 𝑆𝐼 với các phần tử tương đồng nhau về đặc trưng tại dòng lệnh (8) Với 𝐾 và 𝑚 là hằng số có giá trị không đáng kể nên độ phức tạp là hằng số, nghĩa là độ phức tạp là 𝑂(1)
Thuật toán K-NN không yêu cầu quá trình huấn luyện trước khi áp dụng để phân loại hoặc dự đoán dữ liệu mới Điều này có nghĩa là thuật toán K-NN có thể được sử dụng dễ dàng và nhanh chóng với dữ liệu mới Nhưng với bài toán tìm kiếm ảnh tương tự, mỗi điểm dữ liệu là một hình ảnh, ứng với một ảnh sẽ tham chiếu vào bộ dữ liệu để tìm ra tập dữ liệu tương tự Khi dùng thuật toán K-NN cho bài toán này thì phải duyệt toàn bộ dữ liệu, mất thời gian tính toán Nếu không duyệt toàn bộ dữ liệu thì lại tốn chi phí gom cụ phẳng (gom cụm phân hoạch) và thuật toán K-Means được sử dụng để gom cụm, bài toán lại gặp phải những khuyết điểm tương tự như K-Means Ngoài ra, mỗi khi dữ liệu tăng trưởng cần phân cụm lại, điều này không khả thi
Như vậy, cần phải có một phương pháp vừa đúng cho dữ liệu tăng trưởng mà không phải phân cụm lại như K-Means hoặc cho kết quả khác dẫn đến bài toán không khả thi như thuật toán KNN, không cần xác định số tâm cụm trước, không cần duyệt hết các dữ liệu trong bộ dữ liệu mà lúc này dữ liệu phải được gom cụm theo từng nhóm và phân cấp.
Gom cụm phân cấp
Nhằm vượt qua hạn chế của phương pháp phân cụm phân hoạch cho việc xác định số cụm cũng như phân cụm lại đối với dữ liệu tăng trưởng, nội dung luận văn tiếp tục tiếp cận phương pháp phân cụm phân cấp để giải quyết cho bài toán tìm kiếm ảnh tương tự Đối với phương pháp phân cụm phân cấp, các phần tử dữ liệu gần nhau được nhóm lại để tạo thành một cụm tại nút lá, sau đó hai nút lá gần nhau được gom nhóm để tạo thành một nút trong, nút gốc của cây là tập dữ liệu lớn ban đầu chứa các liên kết để đi đến các nhánh cây con Tại Hình 2.3, quá trình thực hiện phân cụm phân cấp được xây dựng trong pha tiền xử lý nhằm làm cơ sở cho việc tìm kiếm ảnh tương tự Kết quả tìm kiếm ảnh tương tự sẽ là một nút lá gần nhất với hình ảnh đầu vào Đồng thời có thể kết hợp với các cụm láng giềng để gia tăng số lượng tập tương tự
Hình 2.3: Mô hình tìm kiếm ảnh dựa trên cây phân cụm phân cấp
Tại Hình 2.3, quá trình tìm kiếm ảnh tương tự được thực hiện dựa trên hai pha bao gồm: tiền xử lý thực hiện cây gom cụm phân cấp cho tập hình ảnh đầu vào và tìm kiếm ảnh tương tự dựa trên cây phân cụm phân cấp, kết quả của việc tìm kiếm là một tập ảnh tương tự với ảnh đầu vào Quá trình này được mô tả như sau:
Pha 1: Phân cụm phân cấp tập ảnh đầu vào
Bước 1: Trích xuất đặc trưng mỗi ảnh trong tập ảnh ban đầu
Bước 2: Thực hiện phân cụm phân cấp cho tập đặc trưng hình ảnh
Pha 2: Tìm kiếm ảnh dựa trên cây phân cụm phân cấp
Bước 1: Trích xuất đặc trưng của ảnh truy vấn đầu vào
Bước 2: Tìm cụm gần nhất trên cây bằng cách đi từ nút gốc đến nút lá
Bước 3: Kết xuất các hình ảnh tương tự và sắp xếp theo độ đo
Cây phân cụm phân cấp chỉ cần thêm nhánh mới khi dữ liệu tăng trưởng mà không phải phân cụm lại, không làm ảnh hưởng đến cụm đã có hoặc nếu một phần tử đi vào cụm sẽ thêm nhánh mới mà không ảnh hưởng đến cụm cũ Tuy nhiên, quá trình phân cụm phân cấp có thể tạo ra một cây không cân bằng, nghĩa là chi phí tìm kiếm có thể tốn nhiều thời gian Ngoài ra, việc tạo cây phân cụm phân cấp được thực hiện từ các điểm dữ liệu nên độ tương tự được đánh giá qua khoảng cách giữa hai đặc trưng, do đó mức độ giao nhau về không gian của hai hình ảnh không tính toán được
Vì vậy, cần phải có một cấu trúc đáp ứng được cho dữ liệu tăng trưởng và cân bằng thời gian tìm kiếm, đồng thời thực hiện được việc đánh giá độ đo tương tự dựa trên các vùng không gian giao nhau Nhằm đáp ứng được điều này, các cấu trúc cây cân bằng có thể được xem xét, tuy nhiên cần phải đáp ứng được dữ liệu đa chiều cũng như thực hiện được quá trình liên kết từ nút gốc đến nút lá Vì vậy, một cấu trúc cây đa nhánh cân bằng R-Tree là phù hợp cho bài toán tìm kiếm ảnh
Vậy vấn đề đặt ra là luận văn sử dụng cây R-Tree là cây phân cụm và phân cụm tại nút lá nên cây R-Tree sẽ tăng trưởng theo chiều cao Sử dụng cây R-Tree không cần phải xác định số tâm cụm trước và nó đúng cho dữ liệu tăng trưởng với số bước tìm kiếm đơn giản Do đó, cây R-Tree phù hợp cho bài toán tìm kiếm ảnh
Trong phân cụm phân cấp có nhiều cây như cây R-Tree, B-Tree, C-Tree Luận văn sử dụng cây R-Tree cho bài toán tìm kiếm ảnh vì:
1 Cây R-Tree lưu trữ dữ liệu tại nút lá, mọi hướng đi đều cân bằng, chi phí đi mọi hướng là bằng nhau (cây cân bằng)
2 Cây R-Tree lưu trữ được dữ liệu đa chiều
3 Cây R-Tree đảm bảo hơn về vấn đề phân cụm K-Means và phương pháp láng giềng gần nhất KNN
4 Cây R-Tree vượt qua được khuyết điểm của phân cụm phân hoạch K-Means và phương pháp láng giềng gần nhất KNN
5 Cây R-Tree phân cụm dựa trên vùng không gian Với mỗi điểm có một vùng không gian nên dễ phân biệt được vùng không gian giao nhau, đánh giá được sự gần bằng của hai vùng không gian Dựa vào vùng không gian này, quá trình tìm kiếm được thực hiện dựa trên vùng không gian phù hợp để từ đó tìm ra được dữ liệu mong muốn Điều này đã vượt qua được các hạn chế của quá trình phân cụm nhằm tối ưu cho bài toán tìm kiếm.
Tổng kết chương
Trong chương này, các kỹ thuật khai phá dữ liệu được ứng dụng cho bài toán tìm kiếm ảnh mà đại diện là kỹ thuật gom cụm và phân lớp tương ứng với thuật toán K-Means, phân cụm phân cấp, KNN Đối với kỹ thuật gom cụm, thuật toán K-Means đã được mô tả và phân tích nhằm áp dụng cho bài toán tìm kiếm ảnh Tuy nhiên, kỹ thuật này có những hạn chế nhất định trong việc chọn số cụm và khi bộ dữ liệu tăng trưởng Đối với thuật toán K-Means kết hợp với thuật toán KNN cho bài toán tìm kiếm ảnh nhằm giải quyết việc nâng cao độ chính xác cũng như phân lớp ảnh, tuy nhiên vẫn bị các hạn chế về việc phân cụm cho bộ dữ liệu tăng trưởng Để vượt qua hạn chế này, phương pháp phân cụm phân cấp được phân tích và áp dụng cho bài toán tìm kiếm ảnh tương tự Cây phân cụm phân cấp cũng đã đáp ứng đối với dữ liệu tăng trưởng nhưng vẫn bị mất cân bằng khi thực hiện quá trình tìm kiếm Vì vậy, một cấu trúc phù hợp đáp ứng được dữ liệu tăng trưởng cho bài toán tìm kiếm ảnh đó là cây đa nhánh cân bằng R-Tree Do đó, trong luận văn này, cấu trúc cây R-Tree được ứng dụng cho bài toán tìm kiếm ảnh, đồng thời đưa ra các cải tiến để nâng cao độ chính xác cũng như tối ưu quá trình tạo cây.
CẤU TRÚC CÂY R-TREE CHO BÀI TOÁN TÌM KIẾM ẢNH
Mở đầu
Tìm kiếm ảnh tương tự là một bài toán được các nhà khoa học quan tâm và đề xuất nhiều phương pháp tìm kiếm khác nhau để nâng cao độ chính xác tìm kiếm đáp ứng nhu cầu người dùng Trong đó, phương pháp tìm kiếm ảnh dựa trên nội dung được phát triển mạnh mẽ và được ứng dụng nhiều trong các hệ tìm kiếm ảnh Phương pháp này thực hiện việc tìm kiếm dựa trên các đặc trưng cấp thấp của hình ảnh bao gồm: màu sắc, hình dạng, kết cấu, vị trí và nhiều đặc trưng khác Việc tìm kiếm ảnh tương tự thay vì đối sánh từng điểm ảnh (pixel) thì quá trình tìm kiếm sẽ thực hiện so sánh các đặc trưng cấp thấp được trích xuất của hình ảnh dựa trên độ đo tương đồng Vấn đề đặt ra là với một kho dữ liệu ảnh lớn, để thực hiện tìm kiếm tuần tự sẽ mất rất nhiều thời gian và không khả thi trong các hệ thống thực tế Do đó, cần có một cấu trúc dữ liệu để lưu trữ và gom cụm các dữ liệu đặc trưng cấp thấp mô tả hình ảnh giúp tìm kiếm nhanh và chính xác dữ liệu Nhiều cấu trúc dữ liệu được nghiên cứu và sử dụng cho việc gom cụm và phân hoạch các dữ liệu chỉ mục mô tả hình ảnh Trong đó, cấu trúc dữ liệu dạng cây một trong những cấu trúc dữ liệu được sử dụng phổ biến để thực hiện lưu trữ gom cụm dữ liệu và phục vụ cho qua trình tìm kiếm được hiệu quả về thời gian cũng như độ chính xác Một trong những cấu trúc dạng cây được sử dụng phổ biến đó là cấu trúc R-Tree [19] được Guttman đề xuất vào năm 1984 là một giải pháp hiệu quả để lập chỉ mục các đối tượng không gian đa chiều Trên cơ sở cấu trúc này, nhiều biến thể khác nhau được cải tiến để truy xuất và xử lý hiệu quả hơn các dữ liệu không gian đa chiều áp dụng trong trong bài toán tìm kiếm ảnh tương tự
Trong chương này, một cấu trúc cây phân cụm HM-RST được đề xuất để lưu trữ và phân các hình ảnh được lập chỉ mục tự động từ đặc trưng cấp thấp của hình ảnh dựa trên sự kết hợp cấu trúc R S -Tree và bảng băm HM-RST là cấu trúc đa nhánh cân bằng, mỗi nút trên cây được phân cụm dựa vào độ đo tương tự theo phương pháp phân hoạch và phân cấp, đảm bảo khả năng lưu trữ và tăng trưởng của cây Tại tầng nút lá của cây được cài đặt thêm bộ nhớ đệm để lưu trữ các nút tràn của mỗi nút lá Quá trình thêm phần tử vào cây, nếu một nút lá vượt quá số lượng phần tử tối đa
Thay vì thực hiện tách nút thì hệ thống tạo ra một vùng nhớ đệm lưu trữ nút tràn của nút lá hiện hành Khi đó, các phần tử thêm vào nút lá hiện hành sẽ được lưu vào nút tràn của nó Khi nào nút tràn vượt quá số lượng phần tử tối đa thì hệ thống thực hiện gom các phần tử trong nút tràn và nút hiện hành lại và thực hiện quá trình tách nút Việc sử dụng vùng nhớ đệm lưu trữ dữ liệu giúp hạn chế quá trình tách nút xảy ra thường xuyên trên cấu trúc R-Tree đồng thời giúp cân bằng dữ liệu trong các nút hạn chế các nút lưu trữ thưa thớt dữ liệu
3.2 Kỹ thuật lập chỉ mục cho dữ liệu đa chiều
Dữ liệu không gian là dữ liệu tồn tại trong không gian hai chiều, ba chiều hoặc không gian đa chiều Một đối tượng dữ liệu không gian có thể bao gồm một điểm hoặc vài nghìn đa giác, được phân phối tùy ý trong không gian Vì các tập dữ liệu không gian thường rất lớn, việc kiểm tra kiểm tra tuần tự không được chấp nhận trong thực tế đối với việc sử dụng tương tác và hầu hết các ứng dụng khác Do đó, một chỉ mục không gian được yêu cầu để tìm các đối tượng cần thiết một cách hiệu quả mà không cần vét cạn hết mọi đối tượng Cấu trúc lập chỉ mục thường tuân theo cách tiếp cận phân cấp Cách tiếp cận này rõ ràng là phù hợp với một hệ thống cơ sở dữ liệu mà không gian bộ nhớ bị hạn chế Cấu trúc phân cấp rất phù hợp trong việc tìm kiếm theo phạm vi [6]
Chỉ mục là một cấu trúc lưu trữ dữ liệu thích hợp nhằm tạo điều kiện cho ứng dụng xử lý dữ liệu nhanh chóng Lập chỉ mục dựa trên véc-tơ đặc trưng của đối tượng rất hữu ích để tăng tốc độ truy vấn và được đề xuất trong trong các thập kỷ qua Vấn đề quan trọng nhất của kỹ thuật lập chỉ mục là so sánh nhanh giữa đối tượng truy vấn và các đối tượng trong cơ sở dữ liệu đa chiều Do đó, ngày càng có nhiều nỗ lực nghiên cứu nhằm phát triển các kỹ thuật lập chỉ mục mới để phân tích và lưu trữ dữ liệu Lập chỉ mục hình ảnh là một cấu trúc dữ liệu lưu trữ véc-tơ đặc trưng của hình ảnh để tạo điều kiện cho ứng dụng xử lý nhanh chóng Lập chỉ mục dựa trên đặc trưng nhằm tăng tốc độ truy vấn và hiện đang cần thiết trong giai đoạn bùng nổ dữ liệu hiện nay Trong đó, cấu trúc R-Tree là một trong những cấu trúc được lựa chọn để phát triển lưu trữ và gom cụm các dữ liệu đa chiều ứng dụng cho tìm kiếm ảnh [5]
R-Tree là cấu trúc dữ liệu phân cấp, nhằm mục đích lập chỉ mục hiệu quả các đối tượng đa chiều với phạm vi không gian Cây R được sử dụng để lưu trữ các hình chữ nhật giới hạn tối thiểu (MBR-Minimum Bounding Rectangle) chứa các đối tượng không gian MBR của một vật thể n chiều được định nghĩa là hình chữ nhật n chiều tối thiểu chứa đối tượng ban đầu Tương tự như cây B-Tree, cây R-Tree cân bằng và chúng đảm bảo việc sử dụng lưu trữ dễ dàng Mỗi nút cây R-Tree liên quan đến một trang đĩa và một hình chữ nhật n chiều Mỗi nút không lá chứa các mục có dạng (MBR, ref), trong đó, MBR là hộp giới hạn tối thiểu chứa tất cả các mục trong nút con, ref liên kết đến địa chỉ của nút con Các lá chứa các mục có dạng (MBR, Oid), trong đó MBR là hộp giới hạn tối thiểu chứa tất cả các mục dữ liệu lưu trữ trong nút lá, Oid là định danh của một đối tượng cơ sở dữ liệu
Hình 3.1 Minh hoạ cấu trúc R-Tree dạng phẳng và phân cấp sử dụng MBR [32]
Cấu trúc R-Tree là một trong những cấu trúc dữ liệu thường được sử dụng trong bài toán tìm kiếm đối tượng không gian, bao gồm cả tìm kiếm ảnh Nó được thiết kế để hỗ trợ việc tìm kiếm các đối tượng trong không gian dựa trên vị trí và kích thước của chúng R-Tree thường được sử dụng trong các hệ thống quản lý cơ sở dữ liệu không gian (spatial databases) và các ứng dụng liên quan đến dữ liệu không gian như hình ảnh, bản đồ, và dữ liệu địa lý
Cấu trúc R-Tree hoạt động như sau:
Node gốc (root node): R-Tree bắt đầu với một node gốc, chứa tất cả các đối tượng trong không gian cần được tìm kiếm
Node lá (leaf node): Các node lá là các node chứa các đối tượng thực sự Trong trường hợp của bài toán tìm kiếm ảnh, các node lá sẽ chứa các thông tin và đặc trưng của các ảnh
Node trong (internal node): Các node nội kết hợp các đối tượng trong không gian và các node con của chúng Các node trong không chứa thông tin của đối tượng mà chỉ chứa thông tin về vùng phủ (bounding box) của các đối tượng con của nó
Bounding box: Mỗi node trong R-Tree được đại diện bằng một vùng phủ (bounding box) xác định bởi tọa độ hai điểm, điểm góc trái dưới và điểm góc phải trên của vùng phủ Vùng phủ của mỗi node được tính dựa trên các đối tượng con của nó
Chèn và tách node (insertion and splitting): Khi chèn một đối tượng mới vào R- Tree, cấu trúc sẽ thực hiện việc tách node (splitting) nếu node không còn đủ chỗ để chứa thêm đối tượng Quá trình chèn và tách node này được thực hiện để duy trì tính cân bằng và hiệu quả của cấu trúc dữ liệu
Khi thực hiện tìm kiếm ảnh trong R-Tree, hệ thống sẽ truy vấn từ node gốc và tiếp tục tìm kiếm xuống các node nội và node lá để xác định những ảnh phù hợp với tiêu chí tìm kiếm (chẳng hạn như vùng phủ, kích thước, hoặc đặc trưng) Nhờ tính hiệu quả của việc phân chia không gian, R-Tree thường cho phép tìm kiếm nhanh chóng và hiệu quả trong các tập dữ liệu lớn và không gian đa chiều Để nâng cao hiệu quả của việc ứng dụng cây R-Tree cho bài toán tìm kiếm ảnh, luận văn không sử dụng cấu trúc cây R-Tree nguyên thủy mà dùng cấu trúc R S -Tree, một cải tiến của cây R-Tree vì:
- Khi sử dụng khối vuông chữ nhật để lưu dữ liệu, cần phải xác định tâm đường chéo, sau đó từ tâm, tìm khoảng cách của trục ngang và trục dọc
- Mất chi phí tính, sắp xếp và tìm kiếm phần tử nhỏ nhất và phần tử lớn nhất để tạo nên hình chữ nhật
- Khi tìm kiếm trên không gian đối với hình chữ nhật, phải xác định trọng tâm, sau đó từ tâm, xác định trục dọc và trục ngang mới xác định được không gian của vùng
Thay vào đó, cấu trúc R S -Tree sử dụng khối cầu để lưu trữ dữ liệu Với khối cầu, chỉ cần xác định tâm và bán kính nên sẽ giảm đi rất nhiều các lượt so sánh, sắp xếp so với khối hình chữ nhật
3.4 Đề xuất cấu trúc HM-RST dựa trên sự kết hợp R S -Tree và bảng băm
3.4.1 Mô tả cấu trúc cây R S -Tree
Quá trình gom cụm các véc-tơ đặc trưng dựa trên cấu trúc R S -Tree [37] Các nút trên R-Tree bao gồm:
(1) Nút trong 𝑺 𝒏𝒐𝒅𝒆 là một bộ 〈𝑴𝑩𝑺, 𝒑〉, trong đó 𝑴𝑩𝑺 là một khối cầu có tâm
Tổng kết chương
Trong những năm gần đây, nhiều nghiên cứu liên quan đến bài toán tìm kiếm ảnh tương tự đã được công bố nhằm nâng cao hiệu quả tìm kiếm hình ảnh về độ chính xác Trong chương này, mô hình tìm ảnh được xây dựng và thực nghiệm dựa trên các cơ sở lý thuyết đã được đề xuất trong Chương 3 Các công trình về tìm kiếm ảnh tương tự theo nội dung những thập kỹ qua đã sử dụng các phương pháp khác nhau bao gồm: (1) sử dụng K-mean để gom cụm và tìm kiếm hình ảnh; (2) sử dụng kỹ thuật học máy K-NN để phân lớp và tìm kiếm hình ảnh; (3) sử dụng các cấu trúc cây và đồ thị để phân cụm và tìm kiếm hình ảnh Mặc dù có rất nhiều nghiên cứu trong lĩnh vực này, nhưng vẫn không có cách tiếp cận tối ưu nhất cho việc truy xuất hình ảnh theo theo nội dung do tính phức tạp của hình ảnh và các đặc trưng cấp thấp vẫn chưa được phân biệt rõ ràng giữa các hình ảnh Vì vậy, truy vấn hình ảnh theo nội dung vẫn đang được các nhà khoa học quan tâm và đề xuất nhiều mô hình, phương pháp khác nhau để nâng cao hiệu quả tìm kiếm ảnh Để thực hiện một hệ thống truy xuất hình ảnh tương tự dựa trên nội dung, phương pháp này sử dụng các đặc trưng cấp thấp của hình ảnh Các đặc trưng này được sử dụng để xây dựng mô hình tìm kiếm ảnh và đề xuất các thuật toán truy vấn thông tin sử dụng đặc trưng mô tả hình ảnh Trong luận văn này, trên cơ sở thuật toán K-means cấu trúc phân cụm KM-RST được thiết kế nhằm gom cụm các đặc trưng cấp thấp của hình ảnh và thực hiện tìm kiếm ảnh tương tự dựa trên cấu trúc gom cụm này
Trong chương này, một mô hình tìm kiếm ảnh dựa trên cấu trúc cây phân cụm HM-RST được xây dựng; HM-RST là một cải tiến của cấu trúc R-Tree dựa trên sự kết hợp một bảng băm để tạo ra cấu trúc lưu trữ phân cụm dữ liệu nhằm phục vụ cho quy trình tìm kiếm ảnh Từ đó, một hệ truy vấn hình ảnh CBIR_HMRST được xây dựng tìm kiếm các hình ảnh tương tự dựa trên cấu trúc HM-RST.
THỰC NGHIỆM TÌM KIẾM ẢNH
Giới thiệu mô hình tìm kiếm ảnh dựa trên cấu trúc HM-RST
Trong những năm gần đây, nhiều nghiên cứu liên quan đến bài toán tìm kiếm ảnh tương tự đã được công bố nhằm nâng cao hiệu quả tìm kiếm hình ảnh về độ chính xác Trong chương này, mô hình tìm ảnh được xây dựng và thực nghiệm dựa trên các cơ sở lý thuyết đã được đề xuất trong Chương 3 Các công trình về tìm kiếm ảnh tương tự theo nội dung những thập kỹ qua đã sử dụng các phương pháp khác nhau bao gồm: (1) sử dụng K-mean để gom cụm và tìm kiếm hình ảnh; (2) sử dụng kỹ thuật học máy K-NN để phân lớp và tìm kiếm hình ảnh; (3) sử dụng các cấu trúc cây và đồ thị để phân cụm và tìm kiếm hình ảnh Mặc dù có rất nhiều nghiên cứu trong lĩnh vực này, nhưng vẫn không có cách tiếp cận tối ưu nhất cho việc truy xuất hình ảnh theo theo nội dung do tính phức tạp của hình ảnh và các đặc trưng cấp thấp vẫn chưa được phân biệt rõ ràng giữa các hình ảnh Vì vậy, truy vấn hình ảnh theo nội dung vẫn đang được các nhà khoa học quan tâm và đề xuất nhiều mô hình, phương pháp khác nhau để nâng cao hiệu quả tìm kiếm ảnh Để thực hiện một hệ thống truy xuất hình ảnh tương tự dựa trên nội dung, phương pháp này sử dụng các đặc trưng cấp thấp của hình ảnh Các đặc trưng này được sử dụng để xây dựng mô hình tìm kiếm ảnh và đề xuất các thuật toán truy vấn thông tin sử dụng đặc trưng mô tả hình ảnh Trong luận văn này, trên cơ sở thuật toán K-means cấu trúc phân cụm KM-RST được thiết kế nhằm gom cụm các đặc trưng cấp thấp của hình ảnh và thực hiện tìm kiếm ảnh tương tự dựa trên cấu trúc gom cụm này
Trong chương này, một mô hình tìm kiếm ảnh dựa trên cấu trúc cây phân cụm HM-RST được xây dựng; HM-RST là một cải tiến của cấu trúc R-Tree dựa trên sự kết hợp một bảng băm để tạo ra cấu trúc lưu trữ phân cụm dữ liệu nhằm phục vụ cho quy trình tìm kiếm ảnh Từ đó, một hệ truy vấn hình ảnh CBIR_HMRST được xây dựng tìm kiếm các hình ảnh tương tự dựa trên cấu trúc HM-RST.
Cấu trúc mô hình
Một ảnh cần truy vấn được phát hiện đối tượng và trích xuất các véc-tơ đặc trưng bằng mạng học sâu Faster R-CNN và thực hiện truy vấn trên cấu trúc cây HM-
RST Quá trình truy vấn trên cây cho đến khi gặp được nút lá phù hợp thì tập hợp tất cả các phần tử dữ liệu trong nút lá đó được gọi là một tập ảnh tương tự của ảnh truy vấn Sau đó, tập ảnh này được sắp xếp theo độ đo tương tự để tìm ra các ảnh tương tự gần nhất Mô hình tìm kiếm ảnh tương tự theo nội dung với một ảnh truy vấn đầu vào cho trước dựa trên cây HM-RST được minh họa như Hình 4.1
Hình 4.1 Mô hình tìm kiếm ảnh dựa trên HM-RST và mạng học sâu Faster R-CNN
Quá trình thực hiện mô hình CBIR_HMRST
Trong Hình 4.1, quá trình thực hiện hệ tìm kiếm ảnh được mô tả qua 2 pha bao gồm: pha tiền xử lý và pha tìm kiếm ảnh Đối với pha tiền xử lý, hệ thống thực hiện quá trình chuẩn bị dữ liệu trên HM-RST; đối với pha tìm kiếm ảnh được thực hiện từ phía người dùng với đầu vào là một ảnh truy vấn, đầu ra là một tập ảnh tương tự cho ảnh đầu vào
Quá trình thực hiện pha tiền xử lý bao gồm các bước như sau:
Bước 1 Phân lớp và trích xuất đối tượng dựa trên mạng Faster-RCNN
Với mỗi ảnh đầu vào, quá trình phân lớp đối tượng được thực hiện dựa trên mạng Faster-RCNN như trong công trình [34], việc sử dụng mạng Faster-RCNN trong mô hình nhằm trích xuất đối tượng, phân lớp đối tượng trên mỗi hình ảnh trong cơ sở dữ liệu và mỗi ảnh đầu vào mà người dùng cần tìm kiếm Đầu ra của việc ứng dụng mạng Faster-RCNN này là tập các đối tượng trong hình ảnh được phân lớp thành các chủ đề
Bước 2 Trích xuất đặc trưng cho hình ảnh
Mỗi hình ảnh đối tượng, hệ thống thực hiện trích xuất đặc trưng cấp thấp gồm màu sắc, hình dạng, kết cấu và vị trí để tạo ra một tập dữ liệu biểu diễn đặc trưng mô tả cho tập dữ liệu ảnh ban đầu Dựa trên tập dữ liệu mô tả đặc trưng của hình ảnh, tập đối tượng hình ảnh được trích xuất Các véc-tơ đặc trưng của tập dữ liệu ảnh được chuyển đổi thành dạng khối cầu dữ liệu không gian Việc tìm kiếm dựa trên khối cầu dự liệu này nâng cao hiệu quả cho bài toán tìm kiếm tập hình ảnh tương tự
Bước 3 Phân bố dữ liệu đặc trưng ảnh lên cấu trúc HM-RST
Tập dữ liệu đặc trưng mô tả của hình ảnh đã được trích xuất tại Bước 2 phân bố lên cấu trúc HM-RS để thực hiện quá trình phân cụm các dữ liệu tương tự và giúp tìm kiếm nhanh các hình ảnh Sở dĩ giúp tìm kiếm nhanh hơn là vì quá trình tìm kiếm được thực hiện trên một cấu trúc dạng cây thay vì tìm kiếm trên một tập tuần tự tuyến tính Quá trình phân bố tập dữ liệu ảnh vào cấu trúc HM-RST này sẽ làm cho cây tăng trưởng từ lá đến gốc theo các thuật toán tạo cây Trong cấu trúc này sử dụng một mảng băm lưu trữ các nút tràn nhằm phân phối dữ liệu được tốt hơn đồng thời giúp cân bằng dữ liệu trên cây Quá trình tách nút là phân phối các phần tử dữ liệu dựa trên độ đo khoảng cách Euclid Các phần tử có độ tương tự cao sẽ được phân phối vào một nút lá Do đó, khi phân bố trên cấu trúc HM-RST, các dữ liệu cùng một vùng có xu hướng hội tụ lại với nhau Kết quả của bước này là tạo ra một cấu trúc HM- RST đã lưu trữ các phần tử dữ liệu đặc trưng hình ảnh Quá trình này được thực hiện offline và độc lập với pha tìm kiếm ảnh tương tự của người dùng
Trong pha tìm kiếm ảnh, người dùng thực hiện với đầu vào là một hình ảnh cụ thể và đầu ra là một tập ảnh tương tự cùng, quá trình này gồm các bước như sau:
Bước 1 Trích xuất đặc trưng ảnh truy vấn đầu vào
Mỗi hình ảnh truy vấn được người dùng cung cấp, hệ thống thực hiện việc trích xuất các đặc trưng cho hình ảnh Các đặc trưng này dưới dạng một vec-tơ đặc trưng mô tả về màu sắc, hình dạng và vị trí của các đối tượng trên ảnh Biểu diễn véc-tơ đặc trưng của tập dữ liệu ảnh thành khối cầu không gian Khối cầu dữ liệu này thể hiện về nội dung của hình ảnh truy vấn đầu vào để từ đó hệ thống tìm kiếm một tập ảnh tương tự
Mỗi vec-tơ đặc trưng của ảnh truy vấn đầu vào được làm cơ sở cho quá trình tìm kiếm trên cấu trúc HM-RST Quá trình tìm kiếm này được thực hiện dựa trên thuật toán IRSTIR để tìm ra một nút lá phù hợp và tập định danh hình ảnh tương tự Trên cơ sở tập định danh hình ảnh này hệ thống trích xuất ra một tập ảnh tương tự với hình ảnh đầu vào.
Phân tích mô hình
Trong luận văn này, cấu trúc chỉ mục HM-RST được xây dựng dựa trên cấu trúc
R S -Tree [37] Trong cấu trúc HM-RST, các véc-tơ đặc trưng hình ảnh được biểu diễn dưới dạng các khối cầu và được lưu trữ tại các nút lá của cây tương tự như R S -Tree Nhằm nâng cao hiệu quả lưu trữ và truy vấn trên cấu trúc HM-RST, một phương pháp thêm phần tử vào cây được đề xuất để cải thiện thời gian tạo cây và giúp cân bằng dữ liệu tại các nút lá Việc cải tiến bao gồm các nội dung sau: (1) Khi một nút vượt ngưỡng số lượng phần tử cho phép, một nút tràn cho nút đó được tạo ra và tất cả các nút tràn của các nút trên cấu trúc cây HM-RST được lưu trong một bảng băm; (2) Nếu nút đó tiếp tục được thêm dữ liệu, thay vì tách nút để đảm bảo điều kiện ngưỡng tối đa các phần tử thì dữ liệu sẽ được thêm vào nút tràn của nút đó; (3) Khi một nút tràn vượt quá số lượng phần tử cho phép, quá trình tách nút được thực hiện Để thực hiện tách nút thì các phần tử của nút hiện hành và nút tràn của nó được gom lại và thực hiện tách thành hai nút con và gán vào nút cha của nút hiện hành Trên cơ sở xây dựng cấu trúc lưu trữ và phân cụm dữ liệu véc-tơ đặc trưng hình ảnh HM-RST, một mô hình tìm kiếm ảnh sử dụng cấu trúc HM-RST và mạng học sâu Faster R-CNN được đề xuất để nâng cao hiệu quả tìm kiếm ảnh về độ chính xác.
Bộ dữ liệu ảnh thực nghiệm
Trong chương này, ba bộ ảnh phổ biến được lựa chọn để thực nghiệm mô hình tìm kiếm ảnh bao gồm: COREL, Oxford Flowers 17, và MS-COCO với các chủ đề khác nhau Bộ ảnh COREL gồm 1.000 ảnh được chia thành 10 chủ đề khác nhau bao gồm: beach, bus, castle, dinosaur, elephant, flower, horse, meal, mountain, peoples Mỗi chủ đề của bộ ảnh COREL có 100 ảnh tương đồng nhau để làm cơ sở cho việc đánh giá hiệu suất tìm kiếm ảnh tương tự Bộ ảnh Oxford Flowers 17 gồm 1.360 hình ảnh được chia thành 17 chủ đề khác nhau bao gồm: Bluebell, Buttercup, Colts'foot, Cowslip, Crocus, Daffodil, Daisy, Dandelion, Flower, Fritillary, Iris, Lilyvalley, Pansy, Snowdrop, Sunflower, Tigerlily, Tulip, Windflower Mỗi chủ đề chứa khoảng
60 hình ảnh về một loài hoa Bộ ảnh MS-COCO gồm 118.287 hình ảnh, là tập dữ liệu ảnh được phát triển bởi Micosoft, ảnh được chụp từ các cảnh hoạt động hàng ngày và có thể được sử dụng cho nhiều bài toán như nhận dạng ảnh, phân đoạn ảnh, chú thích ảnh và tìm kiếm ảnh tương tự Trong luận văn này, 5000 hình ảnh của bộ MS-COCO được sử dụng để thực nghiệm tìm kiếm ảnh tương tự Các bộ dữ liệu thực nghiệm được trình bày cụ thể trong bảng sau:
Bảng 4.1 Mô tả bộ dữ liệu ảnh thực nghiệm
STT Bộ ảnh Số lượng ảnh Số phân lớp Kích thước
Môi trường thực nghiệm
Trong luận văn này, các chương trình thực nghiệm được xây dựng trên nền tảng dotNET Framework 4.8, ngôn ngữ lập trình C# Các đồ thị đánh giá kết quả thực nghiệm được xây dựng trên Matlab 2015b Cấu hình máy tính để thực hiện các chương trình thực nghiệm là máy PC CPU Intel Core i7-6500U CPU @ 2.50GHz, 8.0GB RAM, hệ điều hành Windows 10 Pro 64 bit Đồ thị và bảng biểu là hai loại được sử dụng trong luận án để mô tả kết quả thực nghiệm của mô hình và thuật toán đề xuất Trong đó, đồ thị ROC mô tả hiệu suất tìm kiếm về độ chính xác, độ phủ và thời gian tìm kiếm ảnh; các bảng biểu mô tả các giá trị về độ chính xác, độ phủ, thời gian tìm kiếm trung bình trên các tập dữ liệu thực nghiệm được trình bày bằng phần mềm excel và so sánh giữa các phương pháp được công bố trong những năm gần đây trên cùng tập dữ liệu thực nghiệm Để đánh giá hiệu quả của phương pháp tìm kiếm ảnh, phần thực nghiệm được đánh giá các giá trị gồm: độ chính xác (precision), độ phủ (recall) và độ đo dung hòa F-measure Các giá trị thực nghiệm được mô tả bằng đường cong recall-precision và ROC Công thức tính các giá trị này như sau:
| | relevant images retrieved images precision retrieved images
| | relevant images retrieved images recall relevant images
Ứng dụng thực nghiệm
Chúng tôi tiến hành thực nghiệm trên bộ ảnh COREL gồm 1,000 ảnh được chia làm 10 phân lớp, OxfordFlower 17 gồm 1,360 hình ảnh được chia làm 17 phân lớp, MS-COCO gồm 5,000 ảnh được chia thành 80 phân lớp
4.7.1 Thực nghiệm trích xuất đặc trưng ảnh Để nâng cao hiệu quả của các hệ thống truy vấn, nhiều công trình nghiên cứu sử dụng các phương pháp kết hợp các đặc trưng cấp thấp cho bài toán tìm kiếm ảnh Trong luận văn này, các đặc trưng về màu sắc, hình dạng, kết cấu, vị trí được trích xuất để làm cơ sở cho quá trình xây dựng cấu trúc HM-RST và tìm kiếm ảnh tương tự Một ví dụ về véc-tơ đặc trưng được trích xuất tự động của hình ảnh có định danh là image_0008.jpg trong bộ ảnh OxfordFlowers-17 được minh hoạ như Hình 4.2
Hình 4.2 Minh họa trích xuất đặc trưng cấp thấp của hình ảnh
Quá trình tạo mặt nạ phân đoạn ảnh dựa trên độ tương phản; dò biên theo phương pháp LoG; trích xuất màu sắc theo thuật toán gom cụm màu k-Means Dựa trên các lý thuyết cơ sở này, một véc-tơ đặc trưng hình ảnh 81 chiều gồm các thành phần bao gồm: Đặc trưng màu sắc theo MPEG-7 (25 đặc trưng); Phép lọc tần số cao để lấy ảnh đường nét (9 đặc trưng); Phép lọc Gaussian để nâng cao cường độ ảnh (9 đặc trưng); Đặc trưng cường độ các điểm ảnh theo láng giềng (9 đặc trưng); Đặc trưng cường độ của đối tượng (9 đặc trưng); Đặc trưng cường độ của hình nền (9 đặc trưng); Đặc trưng diện tích đối tượng (1 đặc trưng); Đặc trưng hình dạng của đường biên ảnh (1 đặc trưng); Đặc trưng vị trí tương đối của đối tượng theo trục X, Y (2 đặc trưng); Đặc trưng vị trí tương đối của hình nền theo trục X, Y (2 đặc trưng); Đặc trưng chu vi của đối tượng (1 đặc trưng); Đặc trưng chu vi của đối tượng theo phép lọc Sobel (1 đặc trưng); Đặc trưng cường độ điểm ảnh láng giềng theo phép lọc Sobel (1 đặc trưng); Đặc trưng chu vi của đối tượng theo phép lọc Laplacian (1 đặc trưng); Đặc trưng đường nét ảnh theo phép lọc Laplacian (1 đặc trưng) Phương pháp trích xuất đặc trưng hình ảnh luận văn kế thừa từ công trình nghiên cứu [31]
Trong Hình 4.2 mô tả quá trình trích xuất đặc trưng cấp thấp cho một ảnh bất kỳ (Chọn ảnh trích xuất) và thực hiện trích xuất đặc trưng cho các bộ ảnh bao gồm COREL, Oxford Flowers-17, MS-COCO (Chọn tập ảnh trích xuất) Kết quả của quá trình trích xuất này được lưu trữ trong tập tin dữ liệu chứa các đặc trưng cấp thấp của hình ảnh, ID hình ảnh và các mô tả kèm theo của hình ảnh Các kết quả trích xuất đặc trưng của các bộ ảnh COREL, OxfordFlowers-17, MS-COO được minh hoạ như Hình
Hình 4.3 Minh hoạ trích xuất đặc trưng cho bộ dữ liệu ảnh COREL
Hình 4.4 Minh hoạ trích xuất đặc trưng cho bộ dữ liệu ảnh OxfordFlowers-17
Hình 4.5 Minh hoạ trích xuất đặc trưng cho bộ dữ liệu ảnh MS-COCO
4.7.2 Thực nghiệm tìm kiếm ảnh dựa trên cấu trúc HM-RST
Trên cơ sở các đặc trưng được trích xuất và minh hoạ như hình 4.3 Quá trình thực nghiệm tạo cấu trúc HM-RST được thực hiện dựa trên các tập tin đặc trưng này và cấu trúc HM-RST được xây dựng cho từng bộ ảnh riêng biệt Ứng dụng thực nghiệm tạo cấu trúc HM-RST được minh họa trong Hình 4.6
Hình 4.6 Giao diện tạo cấu trúc HM-RST
Hình 4.6 mô tả quá trình tạo cấu trúc MH-RST, tiến trình thực nghiệm được xây dựng cho ba bộ dữ liệu ảnh COREL, OxfordFlower-17, MS-COO Với mỗi bộ dữ liệu khác nhau, các tham số thực nghiệm được lựa chọn khác nhau nhằm tạo một mô hình tìm kiếm ảnh hiệu quả về độ chính xác Trong đó, M là số phần tử lớn nhất của nút lá, N là số phần tử lớn nhất của nút trong, m là số phần tử ít nhất của nút lá Thông qua quá trình thực nghiệm, các tham số được lựa chọn sao cho hệ thống đạt được độ chính xác tốt nhất được trình bày trong Bảng 4.2 Kết quả của quá trình tạo cấu trúc MH-RST được minh hoạ trong Bảng 4.3
Bảng 4.2 Mô tả các tham số thực nghiệm xây dựng cấu trúc HM-RST
Tham số COREL OxfordFlower- 17 MS-COCO
Bảng 4.3 Kết quả thực nghiệm xây dựng cấu trúc HM-RST
Tập dữ liệu ảnh Số lượng ảnh Thời gian thực nghiệm (giây)
Bảng 4.3 là kết quả thực nghiệm xây dựng cấu trúc HM-RST bao gồm các thông tin sau: số lượng ảnh của bộ dữ liệu, thời gian tạo cây, số cụm nút lá, số cụm nút trong Các tham số và ngưỡng được lựa chọn trong Bảng 4.2 sao cho số cụm nút lá và nút trong được tạo ra tốt nhất cho phù hợp với từng bộ dữ liệu đáp ứng mục tiêu đảm bảo độ chính xác của quá trình tìm kiếm ảnh Trong Bảng 4.3 cho thấy thời gian tạo cấu trúc là chấp nhận được
Trên cơ sở xây dựng các cấu trúc cây cho các bộ dữ liệu ảnh thực nghiệm, ứng dụng tìm kiếm ảnh cho bộ ảnh COREL được mình hoạ như trong Hình 4.7, một kết quả tìm kiếm cho ảnh 429.jpg thuộc phân lớp dinosaur của bộ ảnh này được minh hoạ như trong Hình 4.8 Ứng dụng tìm kiếm ảnh cho bộ ảnh OxfordFlowers-17 được mình hoạ như trong Hình 4.9, một kết quả tìm kiếm cho image_1202.jpg thuộc phân lớp windflower của bộ ảnh này được minh hoạ như trong Hình 4.10 Cuối cùng, ứng dụng tìm kiếm ảnh của bộ MS-COCO được minh họa như trong Hình 4.11 và một kết quả tìm kiếm cho ảnh 000000000154.jpg của phân lớp zebra của bộ ảnh này được minh họa như trong Hình 4.12
Hình 4.7 Giao diện tìm kiếm ảnh của bộ dữ liệu COREL trên cấu trúc HM-RST
Hình 4.8 Kết quả tìm kiếm cho ảnh 429.jpg của phân lớp dinosaur
Hình 4.9 Giao diện tìm kiếm ảnh của bộ OxfordFlowers-17 trên cấu trúc HM-RST
Hình 4.10 Kết quả tìm kiếm cho ảnh image_1202.jpg của phân lớp windflower
Hình 4.11 Giao diện tìm kiếm ảnh trên cấu trúc HM-RST trên bộ ảnh MS-COCO
Hình 4.12 Kết quả tìm kiếm cho ảnh 000000000154.jpg của phân lớp zebra
4.7.3 Kết quả thực nghiệm tìm kiếm ảnh trên cấu trúc HM-RST
Các giá trị hiệu suất đánh giá quá trình tìm kiếm ảnh trên cấu trúc HM-RST bao gồm các giá trị sau: Precision (độ chính xác), Recall (độ phủ), F-Measure (độ đo dung hòa) và Query time (thời gian tìm kiếm) Hiệu suất của quá trình tìm kiếm ảnh tương tự dựa trên cấu trúc HM-RST của các tập dữ liệu ảnh COREL, OxfordFlowers-17 và MS-COCO lần lượt được trình bày trong các bảng Bảng 4.4-4.6 Kết quả thực nghiệm từ các bảng này minh chứng hiệu quả của việc tìm kiếm ảnh dựa trên cấu trúc đề xuất
Bảng 4.4 Hiệu suất tìm kiếm của hệ CBIR_HMRST trên tập ảnh COREL
Phân lớp ảnh Precision Recall F-measure Query time
Phân lớp ảnh Precision Recall F-measure Query time
Bảng 4.5 Hiệu suất tìm kiếm của hệ CBIR_HMRST trên tập ảnh OxfordFlowers-17
Phân lớp ảnh Precision Recall F-Measure Query time
Phân lớp ảnh Precision Recall F-Measure Query time
Bảng 4.6 Hiệu suất tìm kiếm của hệ CBIR_HMRST trên tập ảnh MS-COCO
Phân lớp ảnh Precision Recall F-
Query time (mili giây) person truck (1-8) 88.21 69.71 77.88 115.30 boat cat (9-16) 60.86 42.16 49.82 107.30 dog giraffe (17-24) 60.68 41.98 49.63 115.70 backpack snowboard (25-32) 62.14 43.74 51.35 102.20 sports ball bottle (33-40) 67.52 49.22 56.94 116.20 wine glass apple (41-48) 75.66 57.36 65.26 109.70 sandwich cake (49-56) 74.13 55.73 63.63 117.30 chair laptop (57-64) 75.28 56.98 64.87 103.50 mouse sink (65-72) 68.16 49.86 57.60 109.60 refrigerator toothbrush (73-80) 80.75 62.35 70.37 117.50
Hình 4.13 mô tả hiệu suất truy vấn trung bình trên bộ ảnh COREL gồm các giá trị hiệu suất là Precision, Recall và F-Measure Trong Bảng 4.4, độ chính xác truy vấn trung bình trên bộ ảnh COREL là 77.22% Hình 4.14 mô tả hiệu suất truy vấn trung bình trên bộ ảnh OxfordFlowers-17 Trong Bảng 4.5, độ chính xác truy vấn trung bình trên bộ ảnh OxfordFlowers-17 là 80.17% Hình 4.15 mô tả hiệu suất truy vấn trung bình trên bộ ảnh MS-COCO Trong Bảng 4.6, độ chính xác truy vấn trung bình trên bộ ảnh MS-COCO là 71.34%
Hình 4.13 Hiệu suất truy vấn trung bình trên bộ dữ liệu COREL
Hình 4.14 Hiệu suất truy vấn trung bình trên bộ dữ liệu OxfordFlowers-17
Hình 4.15 Hiệu suất truy vấn trung bình trên bộ dữ liệu MS-COCO
Thời gian tìm kiếm trung bình của các bộ ảnh COREL, OxfordFlowers-17 và MS-COCO được minh hoạ trong các Hình 4.16, Hình 4.17, Hình 4.18
Hình 4.16 Thời gian tìm kiếm trung bình của tập ảnh COREL
Hình 4.17 Thời gian tìm kiếm trung bình của tập ảnh OxfordFlowers-17
Hình 4.18 Thời gian tìm kiếm trung bình của tập ảnh MS-COCO
Từ các Hình Thời gian tìm kiếm trung bình của mỗi thư mục ảnh COREL, Oxford Flowers 17, MS-COCO trên cấu trúc HM-RST là khả thi, cụ thể bộ COREL trung bình là 43.72 ms, Oxford Flowers 17 trung bình là 78.14 ms, MS-COCO trung bình là 111.43 ms, được mô tả như Hình 4.16-2.18 Điều này chứng tỏ, cấu trúc HM- RST là hiệu quả về tốc độ tìm kiếm đáp ứng được tìm kiếm theo thời gian thực
Kết quả thực nghiệm về đường cong Precision-Recall và đồ thị ROC được thể hiện như trong Hình 4.19-4.21 Mỗi đường cong trên đồ thị mô tả kết quả tìm kiếm từ một chủ đề ảnh trong bộ dữ liệu COREL, OxfordFlower-17, MS-COCO, mỗi điểm trên đường cong là một hình ảnh theo từng chủ đề Dựa vào các biểu đồ có thể thấy, diện tích AUC dưới đường cong Precision-Recall của hai tập ảnh COREL và OxfordFlower-17 lớn hơn tập dữ liệu MS-COCO Điều này có nghĩa là độ chính xác của hai tập ảnh này cao hơn tập ảnh MS-COCO Sở dĩ hai tập dữ liệu này có độ chính xác cao hơn vì các lý do sau: (1) các bộ ảnh này là các bộ ảnh đơn đối tượng; (2) Các bộ ảnh này có số phân lớp ít Đối với bộ dữ liệu đa đối tượng MS-COCO có số phân lớp ảnh 80 phân lớp Ứng với mỗi hình ảnh, có nhiều đối tượng xuất hiện trong ảnh, điều này dẫn đến việc trích xuất đặc trưng các đối tượng trong ảnh Do đó, các ảnh đa đối tượng cũng ảnh hưởng đến hiệu quả tìm kiếm ảnh dựa trên các đặc trưng được trích xuất Từ đó, có thể kết luận rằng khi số lượng phân lớp và các bộ ảnh đa đối tượng thì việc tìm kiếm chính xác hình ảnh cũng khó khăn hơn
Hình 4.19 Độ chính xác, độ phủ và đường cong ROC của bộ COREL
Hình 4.20 Độ chính xác, độ phủ và đường cong ROC của bộ OxfordFlowers-17
Hình 4.21 Độ chính xác, độ phủ và đường cong ROC của bộ dữ liệu MS-COCO
Hình 4.20 cho thấy các điểm trên đường cong của tập ảnh OxfordFlowers-17 nằm gần điểm gốc (0,1) bên trái của đồ thị hơn các đồ thị khác, vì vậy kết quả phân loại của OxfordFlowers-17 là tốt nhất Như vậy, với các tập ảnh có số lượng ảnh, số lượng lớp ảnh ít thì việc tìm kiếm, phân loại sẽ dễ dàng và tốt hơn các tập ảnh khác Đồng thời, đường cong tương ứng trong đồ thị ROC cho biết tỷ lệ kết quả tìm kiếm đúng và sai, nghĩa là diện tích dưới đường cong này đánh giá tính đúng đắn của các kết quả truy vấn Diện tích AUC dưới đường cong của đồ thị ROC của các tập ảnh đều nằm trên đường baseline, cho thấy kết quả tìm kiếm trong luận văn là đúng đắn
4.7.4 So sánh kết quả với các công trình liên quan Để đánh giá hiệu suất của phương pháp đề xuất, chúng tôi so sánh kết quả thực nghiệm với các công trình trước đây trên các bộ ảnh COREL, OxfordFlowers-17, MS-COCO được trình bày trong Bảng 4.7, Bảng 4.8 và Bảng 4.9
Bảng 4.7 So sánh độ chính xác giữa các phương pháp trên tập ảnh COREL
Bảng 4.8 So sánh độ chính xác giữa các phương pháp trên tập ảnh Flowers-17
Bảng 4.9 So sánh độ chính xác giữa các phương pháp trên tập ảnh MS-COCO
Từ Bảng 4.7 đến Bảng 4.9 là kết quả so sánh giữa phương pháp đề xuất trong luận văn với một số công trình khác được công bố gần đây theo các bộ dữ liệu COREL, OxfordFlowers-17, MS-COCO Đối với bộ ảnh dữ liệu COREL phương pháp đề xuất có độ chính xác là 77.22% cao hơn hai phương pháp đã được công bố năm 2019 và 2020 Đối với bộ dữ liệu OxfordFlowers-17, phương pháp đề xuất trong luận văn có độ chính xác là 80.84% vẫn cao hơn các phương pháp công bố năm 2019 và 2014 Đối với bộ ảnh MS-COCO, hệ thống truy vấn trên ảnh đa đối tượng và có độ chính xác là 71.34% cao hơn hai phương pháp đã được công bố năm 2018 Trên cơ sở số liệu của các bảng so sánh này cho thấy phương pháp đề xuất trong luận văn là khả thi và hiệu quả với độ chính xác cao hơn các công trình đã công bố gần đây trên cùng một bộ dữ liệu.
Tổng kết
Trong chương này, một kiến trúc mô hình tìm kiếm ảnh tương tự dựa trên việc kết hợp cấu trúc R-Tree và bảng băm đã được đề xuất Hệ thống được thực hiện dựa trên các cơ sở lý thuyết nền tảng về khai phá dữ liệu và minh chứng tính đúng đắn của mô hình qua các kỹ thuật phân cụm K-Means, phân cụm phân cấp Mỗi bước trong mô hình được mô tả chi tiết để làm cơ sở cho việc xây dựng ứng dụng thực nghiệm tìm kiếm ảnh Trên cơ sở mô hình này, một ảnh đầu vào có thể được thực hiện tìm kiếm trên cấu trúc HM-RST và trả về một tập ảnh tương tự theo nội dung với ảnh tìm kiếm Đồng thời, trong chương này, quá trình thực nghiệm được xây dựng và đánh giá trên từng bộ dữ liệu bao gồm: COREL, OxfordFlower-17, MS-COCO Trên cơ sở các thuật toán đã được xây dựng, một ứng dụng tìm kiếm ảnh đã được xây dựng trên cơ sở mô hình đề xuất Kết quả thực nghiệm được đánh giá về độ chính xác, độ phủ và độ đo F-measure Độ chính xác của hệ truy vấn trên từng bộ ảnh lần lượt là 77.22%, 80.17% và 71.34% cho thấy tính hiệu quả của phương pháp Kết quả thực nghiệm được so sánh với các công trình đã được công bố gần đây trên cùng bộ dữ liệu ảnh Kết quả so sánh cho thấy phương pháp đề xuất trong luận văn là khả thi để từ đó có thể áp dụng phương pháp này trong các hệ thống truy tìm dữ liệu đa phương tiện trong các lĩnh vực khác nhau.