1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án Tiến sĩ Phát triển mô hình tìm kiếm ảnh dựa trên cấu trúc KDTree

139 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát triển mô hình tìm kiếm ảnh dựa trên cấu trúc KDTree
Tác giả Nguyễn Thị Định
Người hướng dẫn PGS. TS. Lê Mạnh Thạnh, TS. Văn Thế Thành
Trường học Đại học Huế
Chuyên ngành Khoa học máy tính
Thể loại luận án tiến sĩ
Năm xuất bản 2023
Thành phố Huế
Định dạng
Số trang 139
Dung lượng 9,58 MB

Cấu trúc

  • CHƯƠNG 1. TỔNG QUAN VỀ TÌM KIẾM ẢNH VÀ C Ấ U TRÚC KD-TREE (22)
    • 1.1. Giới thiệu (22)
    • 1.2. Tìm kiếm ảnh theo nội dung (24)
      • 1.2.1. Đặc trưng hình ảnh và trích xuất véc - tơ đặc trưng (24)
      • 1.2.2. Độ tương tự giữa hai hình ảnh (30)
    • 1.3. Tìm kiếm ảnh theo tiếp cận ngữ nghĩa (31)
      • 1.3.1. Đặc trưng ngữ nghĩa (31)
      • 1.3.2. Mối quan hệ ngữ nghĩa (33)
      • 1.3.3. Các phương pháp tìm kiếm ảnh theo tiếp cận ngữ nghĩa (34)
    • 1.4. Tìm kiếm ảnh dựa trên cấu trúc KD-Tree (35)
      • 1.4.1. C ấ u trúc KD-Tree cho tìm ki ế m ả nh (35)
      • 1.4.2. Phân l ớ p hình ả nh d ự a trên c ấ u trúc KD-Tree (36)
      • 1.4.3. Phân l ớ p m ố i quan h ệ ng ữ nghĩa dự a trên c ấ u trúc KD-Tree (37)
      • 1.4.4. Tìm ki ế m ả nh d ự a trên c ấ u trúc KD-Tree (37)
    • 1.5. Phương pháp thực nghiệm và đánh giá (39)
      • 1.5.1. Môi trường và dữ liệu thực nghiệm (39)
      • 1.5.2. Các đại lượng đánh giá hiệu suất (40)
    • 1.6. Tổng kết chương (42)
  • CHƯƠNG 2. TÌM KIẾM ẢNH DỰA TRÊN CẤU TRÚC KD -TREE (43)
    • 2.1. Giới thiệu (43)
    • 2.2. Cấu trúc KD - Tree đa nhánh cân bằng (44)
      • 2.2.1. Xây d ự ng c ấ u trúc KD-Tree (45)
      • 2.2.2. Thu ậ t toán xây d ự ng c ấ u trúc KD-Tree (49)
      • 2.2.3. Quá trình gán nhãn nút lá (50)
      • 2.2.4. Hu ấ n luy ệ n tr ọ ng s ố trên c ấ u trúc KD-Tree (51)
      • 2.2.5. Tìm kiếm trên cấu trúc KD-Tree (54)
      • 2.2.6. Hệ tìm kiếm ảnh dựa trên cấu trúc KD-Tree (54)
      • 2.3.1. Mô t ả c ấ u trúc iKD_Tree (59)
      • 2.3.2. Xây d ự ng c ấ u trúc iKD_Tree (60)
      • 2.3.3. Hệ tìm kiếm ảnh dựa trên cấu trúc iKD_Tree (63)
    • 2.4. Cấu trúc KD-Tree lồng nhau (67)
      • 2.4.1. Mô t ả c ấ u trúc KD-Tree l ồ ng nhau (67)
      • 2.4.2. Xây d ự ng c ấ u trúc KD-Tree l ồ ng nhau (68)
      • 2.4.3. H ệ tìm ki ế m ả nh d ự a trên c ấ u trúc KD-Tree l ồ ng nhau (69)
    • 2.5. Đánh giá các hệ tìm ki ế m ả nh (76)
    • 2.6. T ổ ng k ết chương (79)
  • CHƯƠNG 3. PHÁT TRI Ể N C Ấ U TRÚC KD-TREE THEO TI Ế P C Ậ N NG Ữ NGHĨA (80)
    • 3.1. Gi ớ i thi ệ u (80)
      • 3.1.1. Xây d ự ng c ấ u trúc RF KD-Tree (81)
      • 3.1.2. Hu ấ n luy ệ n RF KD-Tree (82)
    • 3.2. Ontology cho tìm ki ế m ả nh theo ti ế p c ậ n ng ữ nghĩa (83)
      • 3.2.1. Cấu trúc Re KD-Tree (83)
      • 3.2.2. Phân lớp mối quan hệ các đối tượng bằng Re KD-Tree (86)
      • 3.2.3. Mô t ả c ấ u trúc và xây d ự ng Ontology (86)
      • 3.2.4. Phân c ấ p và b ổ sung d ữ li ệ u vào Ontology (90)
      • 3.2.5. Tìm ki ế m trên Ontology (92)
    • 3.3. H ệ tìm ki ế m ả nh d ự a trên Re KD-Tree và Ontology (94)
      • 3.3.1. Mô hình tìm ki ế m ả nh d ự a trên Re KD-Tree và Ontology (94)
      • 3.3.2. Th ự c nghi ệm và đánh giá (96)
    • 3.4. H ệ tìm ki ế m ả nh d ự a trên RF KD-Tree (98)
      • 3.4.1. Mô hình tìm ki ế m ả nh d ự a trên RF KD-Tree (98)
      • 3.4.2. Thực nghiệm và đánh giá (100)
    • 3.5. Hệ tìm kiếm ảnh dựa trên KD-Tree và Ontology (102)
      • 3.5.1. Mô hình tìm kiếm ảnh dựa trên KD-Tree và Ontology (102)
      • 3.5.2. Th ự c nghi ệm và đánh giá (104)
    • 3.6. T ổ ng k ết chương (110)

Nội dung

TỔNG QUAN VỀ TÌM KIẾM ẢNH VÀ C Ấ U TRÚC KD-TREE

Giới thiệu

Bài toán tìm kiếm ảnh trong luận án liên quan đến việc xác định tập hợp các hình ảnh tương tự nhất với ảnh đầu vào, dựa trên độ đo tương tự giữa hai hình ảnh.

[71] Một số thuật ngữ tương tự cho khái niệm này xuất phát từ thuật ngữ tiếng Anh

Trong bài viết này, thuật ngữ "tìm kiếm ảnh" được sử dụng thay cho "retrieval", "truy vấn", "tra cứu", và "truy hồi" để đảm bảo tính nhất quán với các công trình nghiên cứu liên quan mà không làm ảnh hưởng đến nội dung.

Một kỹ thuật quan trọng trong tìm kiếm ảnh là học máy, với nhiều phương pháp khác nhau sử dụng các đặc trưng như màu sắc, kết cấu, và hình dạng Chất lượng của các đặc trưng hình ảnh ảnh hưởng trực tiếp đến khả năng nhận diện đối tượng và kết quả của tìm kiếm ảnh theo nội dung (CBIR) Kỹ thuật tổ chức lưu trữ dữ liệu hình ảnh cũng góp phần quan trọng vào hiệu quả tìm kiếm Sự gia tăng nhanh chóng của ảnh số qua mạng xã hội đã tạo ra một kho dữ liệu khổng lồ, khiến việc tìm kiếm ảnh liên quan trở nên khó khăn nếu dữ liệu chưa được tổ chức hợp lý Do đó, việc kết hợp giữa trích xuất đặc trưng hình ảnh và cấu trúc lưu trữ là yếu tố quan trọng cho bài toán tìm kiếm ảnh theo nội dung.

Nội dung đặc trưng của hình ảnh bao gồm nhiều yếu tố như màu sắc, kết cấu, và hình dạng, nhưng đôi khi không đủ để truyền đạt ý nghĩa đầy đủ Trong thập kỷ qua, phương pháp tìm kiếm ảnh theo tiếp cận ngữ nghĩa SBIR đã ra đời, mang lại những thành tựu nổi bật nhằm khắc phục các hạn chế của phương pháp tìm kiếm ảnh theo nội dung truyền thống Phương pháp này đáp ứng nhu cầu người dùng bằng cách mô tả nội dung hình ảnh và mối quan hệ giữa các đối tượng trong ảnh Đặc trưng ngữ nghĩa của hình ảnh được thể hiện qua văn bản, giúp nhận diện đối tượng và mô tả vị trí tương đối giữa chúng Sự kết hợp giữa đặc trưng hình ảnh và đặc trưng ngữ nghĩa đã nâng cao độ chính xác trong quá trình tìm kiếm hình ảnh.

Hiện nay, có nhiều phương pháp tìm kiếm ảnh theo ngữ nghĩa, bao gồm: sử dụng kỹ thuật học máy để trích xuất đặc trưng hình ảnh và liên kết với từ vựng trực quan; sử dụng ontology để xác định ngữ nghĩa cấp cao và tìm ảnh tương tự; và phương pháp phản hồi liên quan để đánh giá mức độ quan trọng của câu truy vấn Mỗi phương pháp đều có ưu và nhược điểm riêng, cần lựa chọn phù hợp với mục tiêu bài toán Phương pháp học máy có thể tìm ảnh tương tự về đặc trưng nhưng không đảm bảo ngữ nghĩa, trong khi phương pháp phản hồi liên quan phụ thuộc vào cảm tính của người dùng Ngược lại, tiếp cận dựa vào ontology giúp tìm ảnh gần gũi với ngữ nghĩa mô tả Luận án này thực hiện bài toán tìm kiếm ảnh kết hợp giữa đặc trưng hình ảnh và ngữ nghĩa, sử dụng cấu trúc KD-Tree để nâng cao độ chính xác và cải thiện thời gian tìm kiếm trong các tập dữ liệu lớn.

Tìm kiếm ảnh theo nội dung

Phương pháp tìm kiếm ảnh theo nội dung (CBIR) trích xuất nội dung hình ảnh thành véc-tơ đặc trưng đa chiều, giúp giảm chi phí bộ nhớ và tìm kiếm ảnh tương tự trong cơ sở dữ liệu Hệ thống CBIR khắc phục hạn chế của phương pháp tìm kiếm ảnh theo từ khóa (TBIR) Tuy nhiên, CBIR vẫn gặp phải một số vấn đề, như chỉ sử dụng đặc trưng hình ảnh mà chưa khai thác đặc trưng ngữ nghĩa và mô tả ngữ cảnh của ảnh Do đó, kết quả đánh giá thực nghiệm của các mô hình CBIR phụ thuộc vào kỹ thuật trích xuất đặc trưng, chất lượng hình ảnh và nhiều yếu tố khác.

Nhiều nghiên cứu đã chỉ ra rằng phương pháp tìm kiếm ảnh theo nội dung phụ thuộc vào kỹ thuật trích xuất đặc trưng hình ảnh Chẳng hạn, Mutasem K Alsmadi (2020) đã áp dụng các đặc trưng màu sắc, hình dạng và kết cấu, đạt hiệu suất cao trên bộ ảnh COREL Tương tự, Lakshmi R Nair và cộng sự cũng sử dụng các đặc trưng màu sắc, hình dạng, kết cấu, cùng với đặc trưng không gian vị trí và các đặc trưng cục bộ để thực nghiệm trên bộ ảnh COREL Nghiên cứu này còn nhấn mạnh mối quan hệ giữa đặc trưng hình ảnh và đặc trưng ngữ nghĩa, đồng thời trình bày phương pháp liên kết giữa chúng Điều này cho thấy rằng đặc trưng hình ảnh có ảnh hưởng lớn đến kết quả tìm kiếm trên các hệ thống tìm kiếm ảnh theo nội dung.

1.2.1 Đặc trưng hình ảnhvà trích xuất véc-tơ đặc trưng Đặc trưng của hình ảnh là đặc điểm sử dụng để nhận diện sự xuất hiện các đối tượng trực quan trên ảnh, bao gồm hình dạng, màu sắc, kết cấu bề mặt, vị trí tương đối, chu vi và diện tích đối tượng, v.v đặc trưng hình ảnh được mô tảnhư sau:

Phân đoạn ảnh là bước đầu tiên trong quá trình trích xuất đặc trưng, giúp chia hình ảnh thành các vùng riêng biệt dựa trên từng đối tượng nhận diện Phương pháp này dựa vào độ tương phản giữa ảnh nền và đối tượng, tuy nhiên, việc phân biệt có thể gặp khó khăn trong một số hình ảnh Để giảm độ nhiễu giữa các vùng quá sáng hoặc quá tối, các điểm ảnh gần giá trị cực đại và cực tiểu sẽ được quy về giá trị tương đương Màu sắc là đặc điểm quan trọng trong trích xuất đặc trưng hình ảnh, giúp mắt người phân biệt các hình ảnh dựa trên màu sắc Đặc điểm màu sắc không thay đổi theo kích thước, tỷ lệ, hay hướng của đối tượng, và được sử dụng để phân biệt các đối tượng trong quang phổ hình ảnh Tính năng màu sắc thường sử dụng bộ mô tả màu chủ đạo.

Thông tin màu sắc tổng thể của hình ảnh có thể được thay thế bằng một lượng màu đại diện, giúp cho việc phân tích và trích xuất màu sắc trở nên dễ dàng hơn Các phương pháp như mô men màu (Color Moment), biểu đồ màu (Color Histogram) và không gian màu đóng vai trò quan trọng trong quá trình này.

The thesis utilizes color features extracted based on the MPEG-7 and Newton color spaces For the color features, each pixel is clustered according to the primary colors of the Newton color spectrum, which includes Red, Green, Blue, Yellow, and Orange.

Mỗi điểm ảnh trong không gian RGB được biểu diễn như một véc-tơ dữ liệu, trong đó màu sắc có thể là tím Đặc trưng hình dạng là một yếu tố cơ bản trong nhận diện hình ảnh, cho phép phát hiện các đối tượng tương tự từ cơ sở dữ liệu mà không bị ảnh hưởng bởi vị trí hay góc quay.

Các phương pháp trích xuất đặc trưng hình dạng được chia thành hai loại chính: dựa theo đường biên và dựa theo vùng ảnh, trong đó kỹ thuật xác định đường biên có thể sử dụng phương pháp Gradient và Laplacian Để trích xuất đặc trưng hình dạng, đối tượng ảnh cần được phân đoạn thành các thành phần tương đồng dựa trên đường biên hoặc vùng lân cận Đặc trưng kết cấu (Texture feature) cho biết dữ liệu liên quan đến sự sắp xếp và cường độ màu của hình ảnh, bao gồm kích thước, sắc thái, độ chiếu sáng và hình dạng Các bộ mô tả kết cấu như bộ lọc Gabor, phép biến đổi Wavelet và tính năng Tamura có thể được áp dụng trong nhiều lĩnh vực truy xuất hình ảnh Đặc trưng SIFT (Scale-invariant Feature Transform) trích xuất các điểm đặc trưng kèm theo mô tả và véc-tơ, giúp phân biệt các yếu tố lân cận trong hình ảnh Các giai đoạn chính để trích xuất đặc trưng SIFT bao gồm phát hiện cực đại không gian, định vị và mô tả điểm đặc trưng Đặc trưng HOG (Histograms of Oriented Gradients) được tính toán trên lưới ô và chuẩn hóa sự tương phản giữa các khối, chủ yếu để mô tả hình dạng và sự xuất hiện của đối tượng trong ảnh thông qua thông tin về cường độ gradient và hướng biên.

Phương pháp trích xuất đặc trưng màu sắc sử dụng phép phát hiện biên đối tượng thông qua biến đổi LoG (Laplacian of Gaussian) cho ảnh màu Biến đổi LoG có khả năng bất biến với sự thay đổi cường độ ảnh, tỷ lệ, góc quay và biến đổi affine Giá trị Gaussian được xác định theo công thức (1.1) [47].

Trong đó  là đạo hàm chuẩn, biểu diễn không gian tỷ lệ Gaussian 𝐿(𝑥, 𝑦, 𝜎) của ảnh 𝑓(𝑥, 𝑦) theo công thức (1.2) [47]

Trong công thức (1.2), phép toán * là phép tích chập (convolution); (𝑥, 𝑦) là tọa độ điểm ảnh Toán tử Laplacian  2 được tính toán theo công thức (1.3) [47]

Toán tử LoG được tính toán đầu tiên và sau đó được đối sánh với ảnh để tạo ra biểu diễn không gian tỷ lệ LoG theo công thức (1.4) [47]

Phương pháp LoG nhằm xác định đường biên, đặc trưng của đối tượng được trích xuất gồm chu vi đối tượng, vị trí tương đối của đường viền

Để nhận dạng đối tượng dựa trên biên và làm mịn bề mặt, phép lọc Sobel được sử dụng Phép lọc này là toán tử Gradient với vùng láng giềng kích thước 3x3 Mặt nạ tích chập cho toán tử Sobel trên ảnh số tỷ lệ xám được xác định qua công thức (1.5).

Các vị trí trên hai mặt nạ được áp dụng riêng biệt trên ảnh đầu vào để tạo ra phần Gradient Gx và Gy, tương ứng với hướng ngang và dọc theo công thức (1.6) [4].

𝑖=1 (1.6) Độ lớn Gradient được tính bởi công thức (1.7) [4]

Hàm khoảng cách trọng tâm CDF (Centroid Distance Function) được sử dụng để xác định vị trí tương đối của đối tượng theo trục X và Y CDF tính toán khoảng cách từ tâm (𝑥₀, 𝑦₀) đến các điểm đường viền của một hình dạng, được biểu diễn bằng công thức (1.8) [4].

Quá trình trích xuất véc-tơ đặc trưng hình ảnh được thực hiện thông qua các bước như tạo mặt nạ phân đoạn ảnh dựa trên độ tương phản, dò biên bằng phương pháp LoG, và trích xuất màu sắc bằng thuật toán K-Means Kết quả là một véc-tơ đặc trưng hình ảnh 81 chiều, bao gồm các thành phần khác nhau được trình bày rõ ràng.

Hình 1.1 Minh họa trích xuất véc-tơ đặc trưng 81 chiều [CT1]

Bảng 1.1 Các giá trị véc-tơ đặc trưng hình ảnh (81 chiều)

Mô tả Kích thước Đặc trưng màu sắc theo MPEG-7

Phép lọc tần số cao để lấy ảnh đường nét 9

Cường độ ảnh được lấy theo phép lọc Gaussian, cùng với các đặc trưng cường độ của điểm ảnh và đối tượng, giúp phân tích hình nền và diện tích đối tượng Đặc trưng hình dạng của đường biên ảnh và vị trí tương đối của đối tượng theo trục X, Y cũng đóng vai trò quan trọng trong việc nhận diện Việc áp dụng các phép lọc như Sobel và Laplacian cho chu vi và cường độ điểm ảnh láng giềng giúp cải thiện độ chính xác trong việc dò biên Mặc dù các đặc trưng này hiệu quả trong bộ ảnh đơn đối tượng, nhưng khi áp dụng cho các tập ảnh đa đối tượng, kết quả chưa đạt yêu cầu Do đó, cần cải tiến quá trình trích xuất đặc trưng và kết hợp mô tả của người dùng để xây dựng đặc trưng ngữ nghĩa cho hình ảnh trong các bộ ảnh đa đối tượng, như minh họa trong Hình 1.2 với bộ ảnh MS-COCO.

Flickr, sau khi phân đoạn ảnh đối tượng, thực hiện quá trình trích xuất đặc trưng Mỗi ảnh đối tượng được mô tả bằng các đặc trưng chi tiết trong Bảng 1.2 [CT3].

Bảng 1.2 Các giá trị véc-tơ đặc trưng được trích xuất (225 và 513 chiều)

Tìm kiếm ảnh theo tiếp cận ngữ nghĩa

Để đáp ứng nhu cầu người dùng về độ chính xác và thời gian tìm kiếm, mô hình tìm kiếm ảnh theo ngữ nghĩa đã được nhiều công trình nghiên cứu công bố Mô hình này không chỉ sử dụng đặc trưng hình ảnh mà còn kết hợp đặc trưng ngữ nghĩa để tìm kiếm các tập ảnh tương tự dựa trên mô tả ngữ nghĩa của ảnh đầu vào Hệ thống tìm kiếm ảnh theo ngữ nghĩa đã khắc phục những hạn chế của phương pháp tìm kiếm ảnh theo nội dung, đồng thời nâng cao độ chính xác trong quá trình tìm kiếm, đáp ứng nhu cầu ngày càng cao của người dùng Đây là một phương pháp đang được nhiều nhóm nghiên cứu quan tâm và triển khai thực tế.

Tìm kiếm ảnh theo ngữ nghĩa không chỉ đơn thuần là phân tích nội dung hình ảnh mà còn liên quan đến việc so sánh độ tương tự giữa các hình ảnh thông qua đặc trưng ngữ nghĩa Đặc trưng này được thể hiện qua các khái niệm và nhận thức của con người về đối tượng cần tìm kiếm Trong khi đó, đặc trưng mô tả nội dung chỉ dựa trên các yếu tố như màu sắc, hình dạng và vị trí Điều này dẫn đến sự khác biệt trong ngữ nghĩa giữa các hình ảnh tương tự, như hai bức ảnh có cùng đối tượng nhưng mô tả khác nhau Thách thức trong tìm kiếm ảnh theo ngữ nghĩa là chuyển đổi từ đặc trưng hình ảnh sang việc liên kết các đặc trưng để xây dựng ngữ nghĩa mô tả Để thực hiện điều này, cấu trúc Ontology được xây dựng dựa trên các bộ dữ liệu thực nghiệm nhằm lưu trữ và mô tả ngữ nghĩa hình ảnh.

Đặc trưng ngữ nghĩa của hình ảnh được xây dựng dựa trên sự kết hợp giữa các đặc trưng hình ảnh và mối quan hệ giữa các đối tượng cùng khái niệm của con người Ví dụ, trong một hình ảnh có biển và bầu trời, mặc dù màu sắc và kết cấu có thể tương đồng, nhưng đặc trưng không gian lại khác biệt Bầu trời luôn được thể hiện ở phần trên cùng của hình ảnh, trong khi biển nằm ở phần dưới.

1.3.2 Mối quan hệ ngữ nghĩa

Mối quan hệ ngữ nghĩa không gian giữa các đối tượng trong hình ảnh là yếu tố quan trọng trong việc tìm kiếm ảnh theo cách tiếp cận ngữ nghĩa Các mối quan hệ này được xác định thông qua việc xây dựng đồ thị SG hoặc KG, giúp xác định vị trí tương đối của các đối tượng trong ảnh, như đã được thể hiện trong nhiều công trình nghiên cứu đã công bố.

Trong nghiên cứu này, mối quan hệ giữa các đối tượng trong ảnh đầu vào được xác định thông qua tọa độ và khoảng cách tương đối, với các mối quan hệ ngữ nghĩa như bên trái, bên phải, phía trước, phía sau, ở trên, và ở dưới Phương pháp KD-Tree được áp dụng để tìm kiếm ảnh theo cách tiếp cận ngữ nghĩa Ví dụ, mối quan hệ không gian giữa cặp đối tượng và được xác định là , tạo thành bộ ba mô tả mối quan hệ ngữ nghĩa “people on chair” Ngoài ra, các mối quan hệ khác như “people in mountain” và “people left people” cũng được xác định.

Hình 1.4 Xác định mối quan hệ không gian giữa các đối tượng bằng SG [46]

Hình 1.5 Xác định mối quan hệ không gian giữa các đối tượng bằng KD-Tree

1.3.3 Các phương pháp tìm kiếm ảnh theo tiếp cận ngữ nghĩa

Hiện nay, một sốphương pháp để tìm kiếm ảnh theo tiếp cận ngữnghĩa, đó là:

(1) Sử dụng ontology để xác định đặc trưng ngữ nghĩa cho bài toán tìm kiếm ảnh theo tiếp cận ngữ nghĩa [81];

(2) Sử dụng các kỹ thuật học máy để liên kết các đặc trưng hình ảnh với ngữ nghĩa bằng các nhãn ngữ nghĩa hay từ vựng trực quan [44], [4], [45];

(3) Sử dụng phản hồi liên quan nhằm tìm hiểu ý nghĩ người dùng [69];

(4) Tạo các mẫu ngữ nghĩa để truy xuất ảnh dựa trên ngữ nghĩa [40]

Phương pháp phản hồi liên quan hiện tại phụ thuộc vào cảm tính của người dùng, dẫn đến kết quả không khách quan Ngược lại, việc sử dụng nhiều nguồn thông tin như văn bản từ Web và tạo mẫu ngữ nghĩa vẫn chưa đạt độ chính xác cao Luận án này đề xuất phương pháp tìm kiếm ảnh theo tiếp cận ngữ nghĩa sử dụng Ontology, được phát triển để bổ sung thông tin về ảnh đối tượng, phân lớp ảnh, phân lớp con và mối quan hệ giữa các đối tượng Điều này cải tiến quá trình xây dựng và tìm kiếm ảnh dựa trên Ontology, tạo ra một phương pháp hiệu quả hơn.

Tìm kiếm ảnh dựa trên cấu trúc KD-Tree

Hiện nay, có nhiều phương pháp tổ chức dữ liệu đa chiều, bao gồm cấu trúc cây và cấu trúc đồ thị Trong đó, cấu trúc dữ liệu KD-Tree được áp dụng trong luận án để giải quyết bài toán tìm kiếm ảnh.

1.4.1 Cấu trúc KD-Tree cho tìm kiếm ảnh

Cấu trúc KD-Tree, được đề xuất bởi Bentley vào năm 1975, là một dạng cây tìm kiếm nhị phân BST, trong đó mỗi nút lưu trữ một điểm không gian đa chiều KD-Tree bao gồm một nút gốc, các nút trong và nhiều nút lá, với tối đa hai nhánh con tại mỗi nút, phân chia cây thành cây con trái và cây con phải Cấu trúc này hiệu quả trong việc biểu diễn cơ sở dữ liệu không gian và thời gian, giúp giảm không gian lưu trữ và tăng tốc tìm kiếm KD-Tree phù hợp để lưu trữ dữ liệu đa chiều, đặc biệt là trong các bài toán tìm kiếm ảnh, nơi dữ liệu đa phương tiện được chuyển thành véc-tơ đặc trưng đa chiều Cấu trúc KD-Tree có khả năng tăng trưởng số nhánh tại mỗi nút, đảm bảo chiều cao cây được giới hạn và thời gian tìm kiếm ổn định Đề xuất cải tiến trong luận án này là chỉ lưu trữ dữ liệu hình ảnh tại các nút lá, trong khi các nút trong và gốc chỉ phân nhánh dữ liệu, giúp tối ưu hóa quá trình phân lớp và tìm kiếm ảnh.

1.4.2 Phân lớp hình ảnh dựa trên cấu trúc KD-Tree

Phân lớp hình ảnh là quá trình gán nhãn cho các đối tượng trong ảnh dựa trên một mô hình phân lớp được xây dựng từ tập dữ liệu đã gán nhãn trước đó Mô hình này cho phép xác định nhãn lớp cho dữ liệu mới, phục vụ cho các nhiệm vụ phân lớp như phân lớp nhị phân và phân lớp đa lớp.

Bài toán phân lớp dữ liệu sử dụng thuật toán học có giám sát để xây dựng mô hình phân lớp, với nhiều kỹ thuật như k-NN, CNN và Decision Tree Phân lớp hình ảnh được ứng dụng chủ yếu trong hai lĩnh vực: phân lớp đối tượng và tìm kiếm ảnh Luận án này đề xuất một phương pháp phân lớp dữ liệu hình ảnh dựa trên tiếp cận KD-Tree, trong đó quá trình phân lớp ảnh được thực hiện qua các bước cụ thể.

1) Chuẩn bị tập dữ liệu huấn luyện (Training dataset) và trích xuất véc-tơđặc trưng.

2) Xây dựng và huấn luyện mô hình phân lớp ảnh dựa trên tập dữ liệu huấn luyện

3) Kiểm tra mô hình với dữ liệu kiểm thử (Testing dataset)

4) Đánh giá mô hình phân lớp và chọn bộ trọng số tốt nhất

Cấu trúc KD-Tree được hình thành dựa trên phương pháp phân lớp hình ảnh, trong đó các nút lưu trữ véc-tơ trọng số đã được huấn luyện thông qua phương pháp học có giám sát.

Phân lớp ảnh bằng cấu trúc KD-Tree là quá trình phân loại đối tượng thông qua từng tầng nút, với mỗi nút chứa một mạng nơ-ron đơn để thực hiện phân lớp Cấu trúc KD-Tree, sau khi được huấn luyện, đã cho kết quả phân loại hình ảnh cao, nâng cao hiệu quả trong việc nhận diện và phân loại đối tượng.

Kết quả đánh giá mô hình phân lớp ảnh bằng KD-Tree cho thấy tỷ lệ ảnh được phân lớp đúng nhãn trong tổng số ảnh thực nghiệm là một chỉ số quan trọng Phương pháp thống kê này giúp xác định hiệu quả của mô hình trong việc phân loại ảnh chính xác.

Một phương pháp hiệu quả để cải thiện độ chính xác trong phân lớp hình ảnh là phát triển nhiều cấu trúc KD-Tree độc lập, tạo thành một rừng ngẫu nhiên Điều này giúp tối ưu hóa quá trình tìm kiếm ảnh sau đó.

1.4.3 Phân lớp mối quan hệ ngữnghĩa dựa trên cấu trúc KD-Tree

Phân lớp mối quan hệ ngữ nghĩa giữa các đối tượng trong ảnh là một bài toán phức tạp, bao gồm nhiều giai đoạn từ phân lớp từng đối tượng đến xác định quan hệ giữa chúng Hiện nay, nhiều phương pháp như mạng học sâu, đồ thị ngữ cảnh và đồ thị tri thức đã được áp dụng với kết quả khác nhau Trong luận án này, phương pháp Re KD-Tree được đề xuất để phân lớp mối quan hệ giữa các đối tượng trong ảnh đa đối tượng Cấu trúc Re KD-Tree bao gồm nút gốc, nút trong và nhiều nút lá, trong đó nút gốc và nút trong lưu trữ véc-tơ phân lớp, còn nút lá lưu trữ từ vựng chỉ mối quan hệ giữa hai đối tượng Mục tiêu của việc xây dựng Re KD-Tree là phân loại mối quan hệ giữa các đối tượng, tạo nền tảng cho việc bổ sung vào khung ontology nhằm tìm kiếm ảnh theo cách tiếp cận ngữ nghĩa Sau khi hoàn thành việc xây dựng và huấn luyện, quá trình phân lớp mối quan hệ giữa các đối tượng trên ảnh đầu vào sẽ được thực hiện.

1.4.4 Tìm kiếm ảnh dựa trên cấu trúc KD-Tree

Cấu trúc KD-Tree được sử dụng để tìm kiếm ảnh bằng cách phát triển các nút lá lưu trữ tập véc-tơ đặc trưng, trong khi nút gốc và tập nút lưu trữ véc-tơ trọng số Quá trình hình thành đường đi từ nút gốc đến nút lá tạo thành một cụm chứa tập ảnh có độ tương tự gần nhất Do đó, mô hình tìm kiếm ảnh theo nội dung dựa trên cấu trúc KD-Tree được đề xuất bao gồm hai pha, như thể hiện trong Hình 1.6.

Quá trình tiền xử lý bao gồm ba bước chính: đầu tiên, trích xuất các đặc trưng hình ảnh thành tập véc-tơ đặc trưng; tiếp theo, xây dựng cấu trúc dữ liệu KD-Tree để lưu trữ các véc-tơ này; cuối cùng, huấn luyện KD-Tree nhằm thu được bộ trọng số cho kết quả phân cụm hình ảnh tại nút lá cao nhất.

Quá trình tìm kiếm bao gồm hai bước chính: đầu tiên, trích xuất véc-tơ đặc trưng từ ảnh đầu vào; sau đó, thực hiện tìm kiếm trên cấu trúc KD-Tree đã được huấn luyện để xác định vị trí nút lá chứa ảnh đó.

(3) trích xuất tập ảnh tương tự là tập các ảnh tại nút lá tìm được

Mô hình tìm kiếm ảnh theo nội dung sử dụng cấu trúc KD-Tree cho các bộ ảnh đa đối tượng được minh họa trong Hình 1.7 Cách tiếp cận này giúp cải thiện hiệu quả trong việc tìm kiếm và phân loại hình ảnh dựa trên ngữ nghĩa.

Mô hình chung cho hệ tìm kiếm ảnh theo tiếp cận ngữ nghĩa dựa trên cấu trúc KD-Tree gồm hai pha:

Quá trình pha tiền xử lý bao gồm các bước sau: (1) phân đoạn ảnh gốc thành các ảnh đối tượng; (2) trích xuất véc-tơ đặc trưng cho các ảnh đối tượng; (3) xây dựng và huấn luyện cấu trúc KD-Tree để lưu trữ ảnh đối tượng; (4) xây dựng và huấn luyện cấu trúc Re KD-Tree; và cuối cùng, (5) xây dựng Ontology cho ảnh đối tượng cùng với các mối quan hệ của chúng.

Quá trình tìm kiếm bao gồm các bước sau: (1) phân đoạn ảnh gốc thành các ảnh đối tượng; (2) trích xuất véc-tơ đặc trưng của các ảnh đối tượng; (3) xây dựng bộ ba mô tả mối quan hệ giữa các đối tượng trong mỗi hình ảnh; và (4) xây dựng câu truy vấn.

SPARQL dựa trên bộ ba; [36] tìm kiếm trên ontology trích xuất tập ảnh tương tự theo ngữ nghĩa với ảnh đầu vào

Phương pháp thực nghiệm và đánh giá

1.5.1 Môi trường và dữ liệu thực nghiệm Để đánh giá hiệu quả của các mô hình tìm kiếm ảnh được đề xuất, các thực nghiệm được thực hiện với nền tảng dotNET Framework 4.8, ngôn ngữ lập trình C#; các đồ thịđược xây dựng trên Mathlab 2015 Cấu hình máy tính của thực nghiệm tìm kiếm ảnh: Intel(R) CoreTM i7- 5200U, CPU 2,50GHz, RAM 16GB và hệ điều hành

Windows 10 Professional Cấu hình máy server dùng để huấn luyện cấu trúc KD-Tree, iKD_Tree, KD-Tree lồng nhau, Re KD-Tree và rừng ngẫu nhiên là: CPU Xeon(R) Gold 6258R CPU 2.70Ghz, ổ cứng SSD 1024GB, Ram 16GB, hệ điều hành Server Datacenter 2019 Các bộảnh tiêu chuẩn sử dụng cho thực nghiệm được mô tả trong Bảng 1.3

Bảng 1.3 Mô tả các bộ dữ liệu ảnh thực nghiệm

STT Tên tập ảnh Số lượng ảnh Số thư mục ảnh Số chủ đề ảnh Dung lượng

Bộ ảnh COREL bao gồm 1.000 ảnh JPEG được chia thành 10 chủ đề khác nhau: bãi biển, xe buýt, lâu đài, khủng long, voi, hoa, ngựa, bữa ăn, núi, và con người, với mỗi chủ đề có 100 ảnh riêng biệt Trong khi đó, bộ ảnh Wang là một tập ảnh đơn đối tượng với 10.800 ảnh, được phân chia thành 80 chủ đề, số lượng ảnh trong mỗi chủ đề dao động từ ít nhất 100 đến tối đa 545 ảnh.

Bộ ảnh Caltech-101 bao gồm 9,144 ảnh JPEG được phân chia thành 102 chủ đề khác nhau, với mỗi chủ đề chứa từ 40 đến 800 ảnh, và mỗi ảnh chỉ thuộc về một chủ đề duy nhất Trong khi đó, bộ ảnh Caltech-256 là một phiên bản nâng cấp, có kích thước danh mục lớn hơn và độ khó tổng thể cao hơn, với 30,607 hình ảnh trong 257 chủ đề Mỗi chủ đề trong Caltech-256 chứa từ 80 đến 827 hình ảnh, trung bình khoảng 100 hình ảnh cho mỗi chủ đề.

Trong luận án này, các bộ ảnh đa đối tượng như MS-COCO và Flickr được sử dụng để đánh giá mô hình đề xuất Tỷ lệ phân chia giữa tập ảnh huấn luyện, kiểm thử và thực nghiệm được trình bày chi tiết trong Bảng 1.4.

Bảng 1.4 Mô tả bộảnh đa đối tượng

1.5.2 Các đại lượng đánh giá hiệu suất

Các kết quả cần được đánh giá hiệu suất gồm: Kết quả phân lớp hình ảnh và độ chính xác tìm kiếm ảnh

Kết quả phân lớp ảnh số được xác định thông qua mô hình phân lớp Trong giai đoạn này, chúng ta xây dựng cấu trúc KD-Tree và huấn luyện mô hình phân lớp theo phương pháp KD-Tree Kết quả phân lớp (P) được tính dựa trên tỷ lệ số lượng hình ảnh được phân lớp đúng so với tổng số hình ảnh thực nghiệm, theo công thức (1.9).

Trong đó: ∑(𝑓𝑘𝑖) là tổng số véc-tơ được phân lớp nhãn lớp đúng theo mô hình

Trong bài toán tìm kiếm ảnh, ∑(𝑓𝑚𝑖) đại diện cho tổng số véc-tơ cùng nhãn lớp trong tập dữ liệu kiểm thử mô hình Để đánh giá hiệu suất tìm kiếm, các chỉ số quan trọng bao gồm độ chính xác (precision), độ phủ (recall) và độ dung hòa (F-measure) Độ chính xác đo lường tỷ lệ hình ảnh liên quan trong kết quả so với tổng số hình ảnh tìm kiếm được, trong khi độ phủ và độ dung hòa được tính toán dựa trên các công thức cụ thể Kết quả tìm kiếm ảnh thường là một tập hợp các hình ảnh tương tự, giúp xác định chủ đề của các ảnh trong tập kết quả.

Trong lĩnh vực tìm kiếm hình ảnh, relevant images là tập hợp các hình ảnh liên quan đến yêu cầu tìm kiếm, trong khi retrieved images là những hình ảnh đã được tìm thấy Độ phủ recall được tính bằng tỷ lệ giữa số hình ảnh liên quan được truy xuất và tổng số hình ảnh liên quan trong cơ sở dữ liệu F-measure là chỉ số kết hợp giữa precision và recall, với giá trị cao hơn cho thấy khả năng dự đoán của hệ thống tốt hơn Các chỉ số precision, recall và F-measure được biểu thị dưới dạng tỷ lệ phần trăm và quy đổi về khoảng [0, 1] Bên cạnh đó, độ chính xác trung bình (MAP) cũng là một chỉ số quan trọng trong việc đánh giá hiệu suất của hệ thống tìm kiếm hình ảnh.

(Mean Average Precision) được tính toán theo công thức (1.13) [67] là độ chính xác của mỗi ảnh truy vấn so với số ảnh tập dữ liệu thực nghiệm.

Đường cong ROC được sử dụng để mô tả hiệu quả của hệ tìm kiếm ảnh, thể hiện tỷ lệ truy vấn đúng (True positive rate) và tỷ lệ truy vấn sai (False positive rate), được thực hiện bằng ngôn ngữ Matlab 2015.

Kết quả trích xuất đặc trưng hình ảnh và tìm kiếm ảnh dựa trên cấu trúc KD-Tree, cũng như phân lớp ảnh bằng cấu trúc KD-Tree, đã được trình bày chi tiết trong các bài báo [CT1], [CT7], và [CT8], thuộc danh mục công trình liên quan đến luận án của tác giả.

Tổng kết chương

Chương này tập trung vào các vấn đề tìm kiếm ảnh, bao gồm đặc trưng hình ảnh, phương pháp trích xuất đặc trưng, và mối quan hệ ngữ nghĩa giữa các đối tượng trong ảnh Nó cũng trình bày cấu trúc dữ liệu đa chiều và KD-Tree cho bài toán tìm kiếm ảnh, cùng với mô hình tìm kiếm ảnh dựa trên KD-Tree Thêm vào đó, các phương pháp tổ chức thực nghiệm được đề cập, bao gồm môi trường thực nghiệm, tập dữ liệu và các giá trị đánh giá hiệu suất tìm kiếm ảnh Nội dung của chương này sẽ là nền tảng cho các nghiên cứu trong các chương tiếp theo.

TÌM KIẾM ẢNH DỰA TRÊN CẤU TRÚC KD -TREE

Giới thiệu

Trích xuất tập ảnh tương tự từ một tập dữ liệu lớn là một thách thức quan trọng trong tìm kiếm ảnh Hiện nay, có nhiều kỹ thuật và phương pháp khác nhau để thực hiện tìm kiếm ảnh hiệu quả Sự gia tăng dữ liệu ảnh số yêu cầu một phương pháp lưu trữ và sắp xếp hợp lý để đảm bảo quá trình tìm kiếm diễn ra nhanh chóng và hiệu quả.

Trong những năm gần đây, KD-Tree đã trở thành cấu trúc dữ liệu phổ biến trong lĩnh vực tìm kiếm ảnh, như được thể hiện qua nhiều công trình nghiên cứu [49], [51], [8] Sự áp dụng KD-Tree trong tìm kiếm ảnh được chứng minh qua nghiên cứu của Fengquan Zhang và cộng sự, khi họ phát triển cấu trúc Vocabulary-KDTree, một biến thể của KD-Tree, để thực hiện đối sánh hình ảnh Mô hình tìm kiếm ảnh này hoạt động qua hai pha online và offline, mang lại hiệu suất đối sánh ảnh ổn định.

Y Narasimhulu đã phát triển một mô hình phân lớp hình ảnh dựa vào cấu trúc KD-Tree, trong đó quá trình phân lớp dựa trên số láng giềng gần nhất Mô hình này sử dụng độ đo khoảng cách để phân loại tập dữ liệu hình ảnh huấn luyện và đã được đánh giá hiệu quả trong việc giải quyết bài toán phân lớp ảnh.

Bài viết phân tích các công trình nghiên cứu về tìm kiếm ảnh sử dụng KD-Tree, chỉ ra rằng có nhiều biến thể và cải tiến nhằm nâng cao khả năng lưu trữ và tìm kiếm ảnh với độ chính xác cao Cấu trúc KD-Tree nguyên thủy chủ yếu để lưu trữ dữ liệu đa chiều, nhưng đã có nhiều đề xuất cải tiến để tăng cường khả năng lưu trữ khi dữ liệu gia tăng theo thời gian Khi các bộ dữ liệu thực nghiệm đạt hàng chục gigabyte, việc tổ chức và lưu trữ trở thành thách thức lớn Chương này đề xuất cấu trúc KD-Tree đa nhánh cân bằng và giới thiệu một số cải tiến như iKD_Tree và KD-Tree lồng nhau, đồng thời thực nghiệm tìm kiếm ảnh với các bộ dữ liệu đơn đối tượng như COREL, Wang, Caltech-101 và Caltech-256.

Cấu trúc KD - Tree đa nhánh cân bằng

Để tìm kiếm ảnh hiệu quả, mỗi hình ảnh được chuyển đổi thành véc-tơ đa chiều chứa các đặc trưng thị giác như hình dạng, màu sắc và kết cấu KD-Tree được xây dựng và huấn luyện để phân loại và tìm kiếm ảnh tương tự Các thao tác chính trên KD-Tree bao gồm xây dựng cây, gán nhãn nút lá và tìm kiếm Việc xóa phần tử tại nút lá không ảnh hưởng đến cấu trúc KD-Tree, và không cần tách nút lá vì không giới hạn số phần tử Chèn dữ liệu theo thứ tự khác nhau có thể làm thay đổi số lượng phần tử tại các nút lá, nhưng áp dụng thuật toán K-Means sẽ giúp ổn định kết quả mà không làm giảm độ chính xác tìm kiếm Kết quả tìm kiếm ảnh có thể có sự chênh lệch nhỏ do sai sót trong phân cụm, nhưng để tối ưu hóa, cần áp dụng K-Means với số cụm tương ứng với nút lá Các cải tiến trên iKD_Tree và KD-Tree lồng nhau là những điểm chính trong nghiên cứu này.

2.2.1 Xây dựng cấu trúc KD-Tree

KD-Tree là một cấu trúc dữ liệu dạng cây đa nhánh, cân bằng, bao gồm một nút gốc, các nút nội và nhiều nút lá Cấu trúc này được sử dụng để tổ chức và truy vấn các điểm trong không gian đa chiều một cách hiệu quả.

1) Nút gốc (𝑅𝑜𝑜𝑡) là nút không có nút cha, lưu trữ một véc-tơ trọng số (w 0 ), có tập nút con trái {𝑙𝑒𝑓𝑡}, tập nút con phải {𝑟𝑖𝑔ℎ𝑡} và có một mức trên cây ℎ 0 (𝑙𝑒𝑣𝑒𝑙 ℎ 0 ) Ký hiệu: 𝑅𝑜𝑜𝑡 = < 𝑤 0 , {𝑙𝑒𝑓𝑡}, {𝑟𝑖𝑔ℎ𝑡}, ℎ 0 >;

2) Nút trong (𝑁𝑜𝑑𝑒𝑖) là nút có một nút cha (parent), lưu trữ một véc-tơ trọng số (𝑤 𝑖 ), có tập nút con trái {𝑙𝑒𝑓𝑡}, tập nút con phải {𝑟𝑖𝑔ℎ𝑡} và có một mức trên cây (𝑙𝑒𝑣𝑒𝑙 = ℎ 𝑖 ) Ký hiệu: 𝑁𝑜𝑑𝑒 𝑖 = < 𝑝𝑎𝑟𝑒𝑛𝑡, 𝑤 𝑖 , {𝑙𝑒𝑓𝑡}, {𝑟𝑖𝑔ℎ𝑡}, ℎ 𝑖 > ;

3) Nút lá (𝐿𝑒𝑎𝑓𝑘 ) là nút có một nút cha (𝑝𝑎𝑟𝑒𝑛𝑡), không có nút con, lưu trữ tập véc-tơ đặc trưng hình ảnh {𝑓 1 , … , 𝑓 𝑚 }, có một mức trên cây (𝑙𝑒𝑣𝑒𝑙 = ℎ) và được gán một nhãn (𝑙𝑎𝑏𝑒𝑙) Ký hiệu: 𝑙𝑒𝑎𝑓 𝑘 = < 𝑝𝑎𝑟𝑒𝑛𝑡, {𝑓 1 , … , 𝑓 𝑚 }, 𝑙𝑒𝑣𝑒𝑙, 𝑙𝑎𝑏𝑒𝑙 > ;

4) Hai nút 𝑁𝑜𝑑𝑒𝑖và 𝑁𝑜𝑑𝑒𝑗có quan hệ anh em nếu 𝑁𝑜𝑑𝑒𝑖và 𝑁𝑜𝑑𝑒𝑗 có cùng một nút cha: 𝑁𝑜𝑑𝑒 𝑖 𝑝𝑎𝑟𝑒𝑛𝑡 = 𝑁𝑜𝑑𝑒 𝑗 𝑝𝑎𝑟𝑒𝑛𝑡 ;

5) Hai nút 𝑁𝑜𝑑𝑒𝑖 và 𝑁𝑜𝑑𝑒𝑗có quan hệ cha con nếu 𝑁𝑜𝑑𝑒𝑗 𝑝𝑎𝑟𝑒𝑛𝑡 𝑁𝑜𝑑𝑒 𝑖 hoặc 𝑁𝑜𝑑𝑒 𝑖 𝑝𝑎𝑟𝑒𝑛𝑡 = 𝑁𝑜𝑑𝑒 𝑗 ;

6) Hai nút 𝑁𝑜𝑑𝑒 𝑖 và 𝑁𝑜𝑑𝑒 𝑗 là đồng cấp nếu 𝑁𝑜𝑑𝑒 𝑖 𝑙𝑒𝑣𝑒𝑙 = 𝑁𝑜𝑑𝑒 𝑗 𝑙𝑒𝑣𝑒𝑙

7) Số nút con trái 𝑁𝑜𝑑𝑒𝑖 {𝐿𝑒𝑓𝑡} và số nút con phải 𝑁𝑜𝑑𝑒𝑖 {𝑅𝑖𝑔ℎ𝑡} tại 𝑁𝑜𝑑𝑒𝑖 là khác nhau vì số nút con tại mỗi nút trong có thể là số lẻ Ký hiệu (𝑁𝑜𝑑𝑒𝑖 {𝐿𝑒𝑓𝑡}) ≠ (𝑁𝑜𝑑𝑒 𝑖 {𝑅𝑖𝑔ℎ𝑡})

8) Khi mỗi véc-tơ 𝑓 𝑗 = (𝑥 𝑗1 , … , 𝑥 𝑗𝑛 ) là giá trị đầu vào (input) tại mỗi 𝑁𝑜𝑑𝑒 𝑖 thì kết quả đầu ra (output) được xác định bởi công thức (2.1) [55]; giá trị hàm truyền 𝑆𝑖𝑔𝑚𝑜𝑖𝑑() được xác định bởi công thức (2.2) [55] Trong đó 𝑤 𝑖 là véc-tơ trọng số lưu trữ tại 𝑁𝑜𝑑𝑒𝑖

“Đa nhánh” trong quá trình xây dựng KD-Tree được xác định số nhánh (𝑏; 𝑏 >

2) khởi tạo nhằm làm giảm chiều cao (ℎ) trên cùng một bộ dữ liệu thực nghiệm “Cân bằng” trên KD-Tree luôn được tạo ra các nút lá đồng cấp (𝑙𝑒𝑣𝑒𝑙) do quá trình xây dựng KD-Tree là tạo một khung cây trước khi chèn dữ liệu vào cây

Cấu trúc KD-Tree đã được cải tiến bằng cách áp dụng kỹ thuật học máy vào quá trình xây dựng theo phương pháp học bán giám sát, trong đó mỗi nút trên KD-Tree được thiết kế như một mạng nơ-ron để thực hiện phân lớp hình ảnh Quá trình này bắt đầu bằng khởi tạo ngẫu nhiên và sau đó là huấn luyện các véc-tơ trọng số nhằm nâng cao hiệu quả phân lớp và gom cụm tại các nút lá Trái ngược với cấu trúc KD-Tree nguyên thủy, nơi dữ liệu được lưu trữ tại tất cả các nút mà không có huấn luyện trọng số, cải tiến này cho phép hình thành các cụm và thực hiện phân lớp đối tượng hiệu quả hơn Các thành phần của KD-Tree được mô tả trong Hình 2.1.

Mô tả thuật toán xây dựng cấu trúc KD-Tree

Cấu trúc KD-Tree được xây dựng dựa trên từng bộ ảnh thực nghiệm riêng biệt, dẫn đến sự khác biệt về số nhánh (𝑏), chiều cao (ℎ) và số nút lá KD-Tree khởi tạo với một nút gốc, các nút trong lưu véc-tơ trọng số và nút lá rỗng Cấu trúc này được tính toán theo số tầng và số nhánh tối đa tại mỗi nút, nhằm hình thành số nút lá tối đa cần thiết cho việc lưu trữ dữ liệu trên từng bộ ảnh Quá trình xây dựng KD-Tree được thực hiện theo một trình tự các bước cụ thể.

Bước đầu tiên trong việc xây dựng KD-Tree là khởi tạo chiều cao cây với giá trị ℎ và xác định số nhánh tối đa tại mỗi nút là 𝑏 Số nút lá tối đa có thể tạo ra trong KD-Tree sẽ là 𝑏^ℎ Ví dụ, với bộ ảnh Wang có 81 phân lớp, để tạo ra 81 nút lá, chiều cao cây cần được thiết lập là ℎ = 4.

𝑏 = 3; khi đó số nút lá hình thành là 𝑏 ℎ = 3 4 = 81.

Bước 2 Khởi tạo tập véc-tơ trọng số ngẫu nhiên vừa đủ để phân bổ vào các nút trong 𝑊 𝑘𝑡 =< 𝑤 0 , … , 𝑤 ℎ−1>, 𝑤 𝑖 = (𝑤 𝑖0 , … , 𝑤 𝑖𝑛 ); mỗi véc-tơ 𝑤 𝑖 lưu trữ tại 𝑁𝑜𝑑𝑒 𝑖

Bước 3 Tại 𝑁𝑜𝑑𝑒𝑖 khởi tạo các ngưỡng trái Nodei 𝑙𝑒𝑓𝑡 = 0.5 và ngưỡng phải Nodei 𝑟𝑖𝑔ℎ𝑡 = 0.5 để KD-Tree cân bằng

Bước 4: Tiến hành đưa véc-tơ 𝑓𝑗 vào KD-Tree từ nút gốc Giá trị đầu ra của véc-tơ 𝑓𝑗 tại Node 𝑖 được tính theo công thức (2.2) Sau đó, xác định đường đi cho 𝑓𝑗 đến nhánh con thuộc tầng kế tiếp theo quy tắc (2).

Bước 5 Lặp lại bước 3, bước 4 đến khi gặp nút lá 𝑙𝑒𝑎𝑓 𝑘 thì ghi 𝑓 𝑗 vào 𝑙𝑒𝑎𝑓 𝑘

Hình 2.2 Minh họa quá trình tạo nhánh con tại 𝐍𝐨𝐝𝐞𝐢

Quá trình tạo nhánh con trái và phải, cùng với việc tìm nhánh con gần nhất cho véc-tơ đầu gốc đến các nút được lưu trữ tại Nodei, giúp hình thành phân cụm tại các nút lá Việc lựa chọn nhánh cho véc-tơ đầu vào được thực hiện theo quy tắc (2).

1 Nếu yij > Nodei rightthì 𝑓𝑗 chọn nhánh con phải; đồng thời cập nhật ngưỡng phải Node i right =y ij ;

2 Nếu y ij < Node i left thì 𝑓 𝑗 chọn nhánh con trái; đồng thời cập nhật ngưỡng trái Node i left =y ij ;

3 Nếu Node i 𝑙𝑒𝑓𝑡 ≤ 𝑦 𝑖𝑗 ≤ Node i 𝑟𝑖𝑔ℎ𝑡 thì tìm nhánh có khoảng cách nhỏ nhất (𝑑 𝑚𝑖𝑛 ) từ vị trí 𝑦 𝑖𝑗 đến các giá trị ngưỡng trái, phải để xác định đường đi cho 𝑓 𝑗

Hình 2.3 Cấu trúc KD-Tree đa nhánh, cân bằng

Quá trình xây dựng cấu trúc KD-Tree, như được minh họa trong Hình 2.3, dẫn đến việc hình thành các phân cụm (Cluster) tại mỗi nút lá Mỗi nút lá không chỉ tạo ra phân cụm mà còn chứa các ảnh có cùng nhãn lớp, giúp tổ chức dữ liệu một cách hiệu quả.

Cấu trúc KD-Tree thực hiện các thao tác quan trọng như xây dựng, gán nhãn nút lá, huấn luyện trọng số và tìm kiếm, được trình bày chi tiết trong các mục 2.2.2 đến 2.2.5 Đặc biệt, nếu một nút lá chứa nhiều véc-tơ, quá trình phát triển thành cây con sẽ được thực hiện theo hướng dẫn trong mục 2.4.

2.2.2 Thuật toán xây dựng cấu trúc KD-Tree

Thuật toán 2.1 mô tả cách xây dựng cấu trúc KD-Tree dựa trên các thông tin đã nêu trong mục 2.2.1 Các biến quan trọng trong thuật toán bao gồm: 𝐹 là tập hợp các véc-tơ cần xây dựng KD-Tree, ℎ là chiều cao của cây, 𝑏 là số nhánh tại mỗi nút, và 𝑊 𝑘𝑡 là tập véc-tơ trọng số ngẫu nhiên.

Thuật toán 2.1 Xây dựng cấu trúc KD-Tree đa nhánh, cân bằng

1 Input: Tập 𝐹 = {𝑓𝑖 :𝑓𝑖 = (𝑥𝑖0 , 𝑥𝑖1 , …,𝑥𝑖𝑛 ); i = 1, , k}; chiều cao ℎ; số nhánh tối đa 𝑏 Bộ trọng số khởi tạo 𝑊 𝑘𝑡 = {𝑊 𝑖 : 𝑊 𝑖 = (𝑥 𝑖0 , 𝑥 𝑖1 , …,𝑥 𝑖𝑛 ); i = 0… h-1};

5 Khởi tạo khung cây KD-Tree theo chiều cao ℎ, số nhánh 𝑏;

6 Khởi tạo cận trái, cận phải tất cả 𝑁𝑜𝑑𝑒 𝑖 𝑙à 𝑁𝑜𝑑𝑒 𝑖.𝑙𝑒𝑓𝑡 = 𝑁𝑜𝑑𝑒 𝑖.𝑟𝑖𝑔ℎ𝑡 = 0.5;

7 Gán nhãn nút lá ngẫu nhiên theo 𝑙𝑎𝑏𝑒𝑙 bộ ảnh thực nghiệm;

11 𝑓 𝑖 đi theo nhánh trái và cập nhật ngưỡng trái của 𝑁𝑜𝑑𝑒 𝑗 ;

14 𝑓 𝑖 đi theo nhánh phải và cập nhật ngưỡng phải của 𝑁𝑜𝑑𝑒 𝑗 ;

16 IF (𝑁𝑜𝑑𝑒𝑗.𝑙𝑒𝑓𝑡

Ngày đăng: 07/11/2023, 19:27

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w