Do đó, ta phải sử dụng có hiệu quả mối quan hệ giữa hình ảnh truy vấn và các mẫu hỗ trợ Để giải quyết thử thách này thì FSS có hai phương pháp là: Prototype-based approaches và Pixel-wis
Trang 1BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH
KHOA ĐIỆN – ĐIỆN TỬ
BỘ MÔN KỸ THUẬT MÁY TÍNH VÀ VIỄN THÔNG
-⸙∆
⸙ -BÁO CÁO MÔN CƠ SỞ ỨNG DỤNG AI
CHỦ ĐỀ: Msdnet: multi-scale decoder for few-shot semantic segmentation via
transformer-guided prototyping
GVHD: PGS.TS TRƯƠNG NGỌC SƠN
Danh sách thành viên nhóm 8:
Nguyễn Hoàng Đăng Duy-22119171 Nguyễn Thanh Quân-22119219 Bùi Đức Huy-22119179
Trang 2Semantic segmentation là một nhiệm vụ quan trọng trong các lĩnh vực như xe tự động, y tế, nhận diện ảnh Mạng CNNs tuy có nhiều cải tiến trong lĩnh vực này và hiệu năng cao nhưng cần tập dữ liệu lớn Điều này trong nhiều trường hợp là bất khả thi và mạng FSS có thể giải quyết vấn đề này
FSS phân đoạn các đối tượng mới chưa từng thấy trong tập huấn luyện thông qua số ít ví dụ được gán nhãn, gọi là tập ảnh hỗ trợ Thử thách ở đây là phải giải quyết được sự khác nhau về cấu trúc và vẻ ngoài của vật thể mục tiêu trong hình ảnh truy vấn và vật thể tương tự ở trong những mẫu hỗ trợ Do đó, ta phải sử dụng có hiệu quả mối quan hệ giữa hình ảnh truy vấn và các mẫu hỗ trợ
Để giải quyết thử thách này thì FSS có hai phương pháp là: Prototype-based approaches và Pixel-wise methods
Hình 1 Phương pháp Prototype-based approaches sẽ trích xuất các đặt trưng của tập mục tiêu từ tập ảnh hỗ thông qua một mạng trục ( Blackbone network) chung Quá trình này tạo ra các vector đặc trưng được gọi là “class-wise prototypes” bằng các kỹ thuật như class-wise average pooling hoặc clustering Sau đó, các protopyte này được kết hợp với các đặc trưng của ảnh truy vấn bằng các thuật toán như element-wise
Trang 3summation hoặc channel-wise concatenation Các đặc trưng được kết hợp được đưa vào một bộ giải mã để phân loại từng pixel là thuộc lớp mục tiêu hay là nền
Phương pháp pixel-wise sẽ so sánh trực tiếp từng pixel trong ảnh truy vấn với pixel tương ứng trong ảnh hỗ trợ để dự đoán lớp mục tiêu Để đạt được điều này thì cần xác lập các mối tương quan pixel-to-pixel giữa ảnh hỗ trợ và ảnh truy vấn, giúp mô hình xác định các pixel tương ứng chính xác ngay cả khi hình dạng của vật thể thay đổi Quá trình này thường được tang cường bằng cách them cơ chế “attention” Điều này giúp mô hình tập trung vào sự các liên quan quan trọng giữa các pixel Phương pháp này cho phép giữ lại nhiều thông tin chi tiết của vật thể hơn
Tuy cả hai phương pháp trên đều hiệu quả nhunghw cũng có điểm yếu:
+ Phương pháp Prototype-based approaches: Có thể vô tinh loại bỏ các đặc điểm cục bộ phức tạp dành riêng cho ảnh mục tiêu trong ảnh hỗ trợ Điều này có thể dẫn đến sự phân chia không rõ rang của lớp mục tiêu trong ảnh truy vấn, đặc biệt là các vật thể phưc tạp
+Phương pháp pixel-wise: Có độ phức tạp tính toán cao do phải phép toán “dot-product attention” giữa tất cả các pixel của đặc điểm tập hỗ trợ và đặc điểm tập truy vấn Hơn nữa, số lượng lớn thông tin pixel từ ảnh hỗ trợ có thể dẫn đến sự rối loạn trong cơ chế attention
Cả hai phương pháp đều có một hạn chế chung là không tận dụng các đặc trưng trung gian của bộ mã hóa trong giai đoạn giải mã Nhiều phương pháp chỉ sử dụng các
bộ giải mã đơn giản mà không tích hợp các đặc trưng trung gian từ bộ mã hóa Tuy nhiên, trong các bài toán few-shot, nơi mà dữ liệu hạn chế, việc tận dụng các đặc trưng toàn cục được mã hóa có thể giúp cải thiện độ chính xác trong việc phân đoạn
Kiến trúc Query-based Transformer đang được chú ý đã chứng minh được tính linh hoạt qua nhiều tác vụ thị giác máy tính, bao gồm các bài toán few-shot learning Kiến trúc này sử dụng các “learnable Query embedding” từ các prototype hỗ trợ, cho phép phân tích mối quan hệ giữa thông tin của ảnh hỗ trợ và ảnh truy vấn
Spatial Transformer Decoder (STD) được tạo ra nhằm tăng cường khả năng hiểu mối quan hệ giữa ảnh hỗ trợ và ảnh truy vấn Module này hoạt động song song với
bộ giải mã đa tỉ lệ (multi-scale decoder) Module STD sử dụng prototype của ảnh hỗ trợ làm Query, còn các đặc điểm từ ảnh truy vấn được dùng làm cả Value và Key để đưa vào bộ giải mã Transformer Cách tiếp cận này cho phép Query tập trung hiệu quả vào các đặc điểm của lớp mục tiêu trong ảnh truy vấn
Việc tích hợp thêm các đặc điểm toàn cục từ các giai đoạn trung gian của bộ mã hóa, nơi ảnh hỗ trợ được xử lý, vào bộ giải mã để giảm thiểu việc mất thông tin từ việc trừu tượng hóa ảnh hỗ trợ thành vector đặc trưng (support prototype), điều này tận dụng các đặc trưng từ nhiều giai đoạn khác nhau của bộ mã hóa, từ đó làm phong phú thêm khả năng hiểu ngữ cảnh của bộ giải mã
Trang 4Mask Generation Module - CMGM giúp tăng cường hơn nữa khả năng hiểu quan hệ của mô hình, hoạt động song song với STD và giúp mô hình nắm bắt tốt hơn thông tin ngữ cảnh liên quan
II.Related works
A.Semantic Segmentation
Semantic Segmentation trong lĩnh vực Computer Vision có nhiệm vụ gán nhãn cho mỗi pixel trong một ảnh Mạng CNNs đã thay thế các lớp kết nối đầy đủ (fully connected layers) bằng các lớp tích chập, cho phép xử lý các ảnh có kích thước khác nhau Sau đó, những tiến bộ tiếp theo tập trung vào việc mở rộng trường tiếp nhận và tổng hợp ngữ cảnh ở các khoảng cách xa trong các feature map Các kỹ thuật như dilated convolutions, spatial pyramid pooling, non-local blocks đã được sử dụng để nắm bắt thông tin ngữ cảnh ở nhiều cấp độ khác nhau
Backbones dựa trên Transformer, như SegFormer, Segmenter, và SETR, giúp cải thiện khả năng nắm bắt ngữ cảnh ở các khoảng cách xa trong các nhiệm vụ
Semantic Segmentation Để cải tiến hơn nữa, các kiến trúc phân cấp như Swin
Transformer đã đạt được hiệu suất vượt trội nhờ vào việc sử dụng cửa sổ dịch chuyển (shifted windows) trong các backbones đa mục đích Các chiến lược tiền huấn luyện tự giám sát cũng đã cho kết quả mạnh mẽ, tinh chỉnh trực tiếp trên nhiệm vụ Semantic Segmentation và đẩy mạnh giới hạn hiệu suất mô hình
Các nhiệm vụ Semantic Segmentation thường liên quan đến phân loại từng pixel, các phương pháp như MaskFormer và Mask2Former, dự đoán các binary masks tương ứng với từng nhãn lớp Các kiến trúc cũ hơn, chẳng hạn như UNet, PSPNet, và Deeplab, đã tích hợp các tính năng như tổng hợp ngữ cảnh toàn cục và cục bộ và các tích chập giãn để tăng trường tiếp nhận mà không làm giảm độ phân giải CRGNet và SAM tập trung vào việc cải thiện hiệu suất mô hình hơn nữa và khám phá các kỹ thuật mới để nâng cao độ chính xác trong các nhiệm vụ phân đoạn
B Few-Shot Semantic Segmentation - FSS
FSS là một nhiệm vụ khó trong Computer Vison, với mục tiêu là phân đoạn ảnh với một số ít ví dụ chú thích, còn gọi là ảnh hỗ trợ Các phương pháp FSS có thể được phân loại thành nhiều nhóm khác nhau dựa trên mục tiêu chính và các phương pháp được sử dụng
Một thách thức trong FSS là giải quyết sự mất cân bằng giữa các chi tiết trong ảnh hỗ trợ và ảnh truy vấn Các phương pháp PGNet và PANet liên kết mỗi pixel trong ảnh truy vấn với các phần tương ứng của ảnh hỗ trợ hoặc điều chỉnh mạng để đảm bảo thành công bất kể vai trò của ảnh hỗ trợ và ảnh truy vấn nhằm loại bỏ các vùng không đồng nhất giữa chúng Các phương pháp như ASGNet lại tập trung vào việc tìm một số lượng prototype thích ứng và các không gian của chúng được xác định bởi nội dung ảnh bằng thuật toán superpixel nhận thức biên
Trang 5Một khía cạnh quan trọng khác của FSS là thu hẹp khoảng cách giữa các lớp trong bộ dữ liệu cơ sở và bộ dữ liệu mới Các phương pháp như RePRI và CWT sẽ điều chỉnh lại các ảnh hỗ trợ hoặc huấn luyện các khối tự chú ý để thích nghi với trọng
số bộ phân loại trong cả hai giai đoạn huấn luyện và thử nghiệm Ngoài ra, các kiến trúc được thiết kế cho học có giám sát thường gặp khó khăn trong việc nhận diện các đối tượng ở các tỉ lệ khác nhau trong các tình huống few-shot Để giải quyết vấn đề này, các phương pháp mới đã được phát triển để cho phép trao đổi thông tin giữa các độ phân giải khác nhau
Để đảm bảo độ tin cậy giữa ảnh hỗ trợ và ảnh truy vấn Các phương pháp như HSNet và CyCTR sử dụng các cơ chế attention để lọc các đặc trưng sai lệch từ ảnh hỗ trợ và tập trung vào thông tin có lợi VAT sử dụng một mạng cost aggregation để tổng hợp thông tin giữa các đặc trưng ảnh truy vấn và ảnh hỗ trợ, kết hợp với Swin
Transformer để cung cấp ngữ cảnh cục bộ cho tất cả các pixel
Tóm lại, FSS đang phát triển nhanh chóng với các phương pháp sáng tạo nhằm cải thiện hiệu suất và vượt qua các thách thức trong việc áp dụng phân đoạn cho các lớp mới với dữ liệu hạn chế
III Đề xuất giải pháp
1 Xác định vấn đề
Mục tiêu trong FSS ( Few-shot segmentation: phân đoạn với số mẫu ít ) là phân đoạn các hình ảnh thuộc về các lớp chưa được thấy trong quá trình huấn luyện, chỉ dựa vào một số ít ví dụ đã được gán nhãn (tập hỗ trợ) FSS hoạt động với hai bộ dữ liệu, bao gồm tập huấn luyện Dtrain và tập kiểm tra Dtest, với các lớp trong mỗi tập hợp không giao nhau Mỗi lần huấn luyện có một tập hỗ trợ (support set) S gồm k hình ảnh,
và một tập câu hỏi (query set) Q với một ảnh câu hỏi duy nhất Mục tiêu là dự đoán mặt
nạ phân đoạn cho ảnh câu hỏi dựa trên tập hỗ trợ
Tập Dữ Liệu (datasets)
Dtrain: Đây là tập dữ liệu huấn luyện (train) chứa các hình ảnh và các lớp tương ứng của chúng để huấn luyện mô hình Trong Dtrain mỗi lớp có thể có nhiều hình ảnh được gắn nhãn các đặc điểm để mô hình học Các hình ảnh trong Dtrain không chứa các lớp mà mô hình sẽ kiểm tra sau này (tức là các lớp trong Dtrain không được thấy trong Dtest)
Dtest: Đây là tập dữ liệu kiểm tra chứa các hình ảnh từ các lớp mới không có trên Dtrain
Mục tiêu là xây dựng một mô hình có thể học từ Dtrain và sau đó áp dụng kiến thức đó để dự đoán chính xác mặt nạ phân đoạn cho các hình ảnh trong Dtest, nơi chứa các lớp mà mô hình chưa từng thấy
Dtrain và Dtest có liên quan đến Ctrain và Ctest
Trang 6Ctrain là tập hợp các lớp có mặt trong tập dữ liệu huấn luyện Dtrain Ví dụ, nếu Dtrain chứa hình ảnh của mèo, chó, và chim, thì Ctrain sẽ bao gồm các lớp "mèo",
"chó", và "chim" Mô hình sẽ học từ các lớp này và các đặc trưng của chúng trong quá trình huấn luyện
Ctest là tập hợp các lớp có mặt trong tập dữ liệu kiểm tra Dtest Các lớp trong Ctest là hoàn toàn khác biệt so với các lớp trong Ctrain để mô hình thực hành sau khi huấn luyện
Sự phân chia rõ ràng giữa các tập dữ liệu và các lớp này giúp đảm bảo rằng mô hình không chỉ học thuộc lòng các ví dụ trong Dtrain mà còn có khả năng tổng quát tốt, tức là khả năng áp dụng kiến thức đã học vào các tình huống mới mà nó chưa gặp trước đây Đây là một trong những thách thức chính của Phân Đoạn Có Ít Mẫu (FSS)
2 Tổng quan về Phương Pháp
- Phương pháp đề xuất bao gồm các thành phần chính:
Backbone chung (ResNet)
Prototype hỗ trợ (Support Prototype)
Mô-đun tạo mặt nạ ngữ cảnh (Contextual Mask Generation Module - CMGM)
Bộ giải mã đa tỉ lệ (Multi-Scale Decoder - MSD)
Bộ giải mã không gian transformer (Spatial Transformer Decoder - STD)
2.1 Backbone
Backbone là thuật ngữ dùng để chỉ mạng nơ-ron chính hoặc phần "xương sống" của một mô hình, chuyên thực hiện việc trích xuất đặc trưng từ các ảnh đầu vào Đây là phần chịu trách nhiệm tạo ra các đặc trưng đầu ra từ ảnh thô, cung cấp thông tin quan trọng để các thành phần khác của mô hình (như các tầng phân loại hoặc phân đoạn) có thể xử lý tiếp Backbone là một yếu tố cực kỳ quan trọng trong các mô hình thị giác máy tính vì chất lượng của các đặc trưng trích xuất ảnh hưởng trực tiếp đến hiệu suất của
mô hình
+ Trích xuất đặc trưng: Backbone chịu trách nhiệm chính trong việc trích xuất đặc trưng (features) từ ảnh đầu vào
+ Tiền huấn luyện: Thông thường, backbone được tiền huấn luyện trên một tập dữ liệu lớn (như ImageNet) trước khi được sử dụng cho các tác vụ đặc thù
+ Tái sử dụng: Một trong những lý do backbone quan trọng là vì các mô hình học sâu thường có thể tái sử dụng
+ ResNet: Một trong những backbone phổ biến nhất, đặc biệt trong các bài toán phân loại và phân đoạn hình ảnh
Trang 72.2 Support Prototype
Support Prototype (hay Prototype hỗ trợ) là một khái niệm quan trọng trong các bài toán học máy, đặc biệt là trong các mô hình few-shot learning (học từ ít ví dụ) Prototype là một biểu diễn tập trung của lớp đối tượng trong không gian đặc trưng, và support là tập hợp các ví dụ (thường gọi là ảnh hỗ trợ hoặc support set) dùng để xây dựng prototype cho mỗi lớp
Trong few-shot learning, mô hình cần học cách nhận diện đối tượng hoặc phân loại một lớp chỉ từ một số ít ví dụ (1 shot hoặc 5 shot) Support prototype là một cách để tổng hợp thông tin từ các ví dụ hỗ trợ và tạo ra một đại diện cho lớp đó, từ đó giúp mô hình phân loại ảnh truy vấn (query image) chính xác MAP (Masked Average Pooling) tập trung vào các vùng có đối tượng mục tiêu trong ảnh hỗ trợ, giúp tạo ra Support Prototype chứa thông tin ngữ nghĩa quan trọng từ ảnh hỗ trợ Điều này giúp mô hình dễ dàng hơn trong việc phân đoạn các lớp mới, cải thiện hiệu suất của phương pháp phân đoạn với số mẫu ít
2.3 Contextual Mask Generation Module (CMGM)
Contextual Mask Generation Module (CMGM) là một thành phần trong các mô hình phân đoạn ảnh dùng để tạo ra mask phân đoạn cho ảnh truy vấn, sử dụng thông tin ngữ cảnh từ ảnh hỗ trợ CMGM giúp mô hình phân đoạn chính xác hơn, đặc biệt trong các bài toán few-shot segmentation, nơi chỉ có một vài ảnh hỗ trợ để học từ CMGM sử dụng các ảnh hỗ trợ đã có nhãn để tạo ra các thông tin ngữ cảnh và mô phỏng các đặc trưng cần thiết cho việc phân đoạn ảnh truy vấn Những ảnh hỗ trợ này thường sẽ chứa các đối tượng mà mô hình phải nhận diện và phân đoạn trong ảnh truy vấn
Kết hợp với các thành phần khác:
Backbone: CMGM sử dụng các đặc trưng từ mạng backbone
đã được huấn luyện (như ResNet) để lấy các đặc trưng hình ảnh cấp thấp và cao cấp
Support Prototypes: Các prototype được tạo ra từ ảnh hỗ trợ sẽ giúp CMGM hiểu rõ hơn về đối tượng trong ảnh truy vấn, từ đó tăng độ chính xác của mask phân đoạn
2.4 Bộ Giải Mã Đa Tỉ Lệ (Multi-Scale Decoder)
Bộ giải mã này để tinh chỉnh mặt nạ phân đoạn thông qua việc kết hợp các đặc trưng từ các độ phân giải khác nhau Các đặc trưng được kết hợp từ nhiều mức độ trừu tượng (mid-level và high-level) từ bộ mã hóa để cung cấp thông tin chi tiết và ngữ cảnh cần thiết cho việc phân đoạn chính xác
Đặc điểm nổi bật của Multi-Scale Decoder
Trang 8 Kết hợp các đặc trưng từ nhiều tầng: Mỗi giai đoạn của decoder kết hợp các đặc trưng từ nhiều tầng của encoder (như tầng cao cấp conv5_x và đặc trưng trung cấp Xmerged_s) Điều này giúp mô hình sử dụng cả thông tin chi tiết từ các tầng thấp và ngữ cảnh tổng quát từ các tầng cao hơn, giống như kiến trúc U-Net
Khả năng nắm bắt thông tin ngữ cảnh và chi tiết: Bằng cách sử dụng đặc trưng trung cấp và cao cấp từ encoder, decoder có thể học cách phân đoạn chính xác các đối tượng, vừa giữ được các chi tiết quan trọng, vừa nắm bắt được thông tin ngữ cảnh 2.5 Spatial Transformer Decoder (STD)
Spatial Transformer Decoder (STD) là một thành phần trong các mô hình học sâu, đặc biệt là trong các bài toán phân đoạn ảnh hoặc nhận diện đối tượng, giúp cải thiện khả năng xử lý các biến đổi không gian như dịch chuyển, xoay, hoặc thay đổi tỷ lệ trong ảnh STD có khả năng tự động học và áp dụng các phép biến đổi không gian để điều chỉnh các đặc trưng hình ảnh sao cho chúng khớp với các đối tượng trong ảnh truy vấn Điều này rất hữu ích trong các tác vụ như few-shot segmentation hoặc one-shot segmentation, nơi mô hình cần phải phân đoạn các đối tượng trong ảnh dù có rất ít ví
dụ và STD hoạt động song song với bộ giải mã đa tỉ lệ
STD học các phép biến đổi không gian thông qua một mạng con và áp dụng chúng lên các đặc trưng hình ảnh để làm cho chúng phù hợp hơn với ảnh truy vấn
3 Loss function
Hàm mất mát Dice
Dice Loss là một hàm mất mát đo sự khác biệt giữa mặt nạ phân đoạn dự đoán MMM và mặt nạ đúng MqM_qMq (mặt nạ của ảnh câu hỏi)
Công thức Dice Loss như
sau:
o Trong đó:
Tử số là kích thước của phần giao giữa mặt nạ dự đoán và mặt nạ đúng
Mẫu số lần lượt là kích thước của mặt nạ dự đoán và mặt nạ đúng
Ý nghĩa
Hàm Dice Loss giúp mô hình tạo ra các mặt nạ phân đoạn tương đồng với mặt
nạ đúng, bằng cách giảm sự khác biệt giữa hai mặt nạ
Trang 9 Việc tối thiểu hóa Dice Loss trong quá trình huấn luyện sẽ khuyến khích mô hình
dự đoán các mặt nạ phân đoạn chính xác hơn, từ đó cải thiện hiệu suất phân đoạn của mô hình
IV KẾT QUẢ THỰC NGHIỆM
A Tập dữ liệu
Tác giả đã đánh giá phương pháp đề xuất của mình trên hai tập dữ liệu được sử dụng rộng rãi thường thấy trong czác tác vụ phân đoạn ít ảnh:
PASCAL – 5i and COCO – 20i
Để đảm bảo đánh giá mô hình phân đoạn ít lần mạnh mẽ, tác giả đã áp dụng chiến lược đào tạo xác thực chéo Cụ thể, chia mỗi tập dữ liệu thành bốn tập con: ba tập được sử dụng để huấn luyện, và một tập con còn lại được dùng
để kiểm tra Trong quá trình thử nghiệm, chọn ngẫu nhiên 1000 cặp hỗ trợ-truy vấn từ tập kiểm tra để đánh giá hiệu suất của mô hình
B Thiết lập thực nghiệm
Ở đây đã triển khai phương pháp đề xuất bằng PyTorch phiên bản 1.8.1,
sử dụng backbone ResNet-50 và ResNet-101 đã được đào tạo trước trên tập dữ liệu ImageNet để trích xuất đặc trưng Trong quá trình đào tạo, các tham số của các mô hình này được giữ cố định, chỉ cho phép các mô-đun mới được thêm vào
có thể được đào tạo Khi đào tạo trên tập dữ liệu COCO−20i, tác giả đã thực hiện 30 epochs cho mỗi lần gấp lại Đối với tập dữ liệu PASCAL−5i, quá trình đào tạo được kéo dài lên 60 epochs để đảm bảo sự hội tụ tối ưu
Trang 10Tác giả đã sử dụng trình tối ưu hóa Adam với tốc độ học cố định là 10-3 Tất cả các hình ảnh đầu vào đều được thay đổi kích thước thành 473 × 473 pixel và batch size
để đào tạo là 32 cho 1 lần cài đặt chụp batch size là 16 cho 5 lần cài đặt chụp Đường ống đào tạo của tác giả không kết hợp bất kỳ chiến lược tăng cường dữ liệu nào Sau khi dự đoán, mặt nạ phân đoạn nhị phân đã được thay đổi kích thước để khớp với kích thước ban đầu của các hình ảnh đầu vào cho mục đích đánh giá Để đảm bảo tính mạnh mẽ và giảm thiểu tác động của tính ngẫu nhiên, tác giả đã lấy trung bình kết quả của ba lần thử nghiệm được thực hiện với các hạt giống ngẫu nhiên khác nhau Tất cả các thử nghiệm đều được thực hiện trên NVIDIA RTX 4090 GPU
C Số liệu đánh giá
Tác giả sử dụng các số liệu đánh giá sau để đánh giá hiệu suất của phương pháp tác giả đề xuất: Mean Intersection over Union (mIoU) mIoU là một số liệu được
sử dụng rộng rãi để đánh giá hiệu suất phân đoạn Nó tính toán giao điểm trung bình trên hợp nhất (IoU) trên tất cả các lớp trong tập dữ liệu mục tiêu Phương trình mIoU:
mIoU=1
C ∑
i=1
C
IoUi
Trong đó :
C biểu thị số lớp trong nếp gấp mục tiêu
IoUi biểu thị giao điểm trên hợp của lớp i
FB-IoU(Foreground-Background IoU) đo giao điểm trên hợp nhất giữa các lớp
tiền cảnh và hậu cảnh, cung cấp thông tin chi tiết về mức độ phân biệt các vùng này của mô hình Tuy nhiên, số liệu đánh giá chính được sử dụng là mIoU vì nó cung cấp đánh giá toàn diện hơn về hiệu suất phân đoạn tổng thể trên tất cả các lớp
D So sánh với SOTA
Ở phần này tác giả so sánh phương pháp của mình với một số phương pháp SOTA trên cả 2 tập dữ liệu PASCAL-5I và COCO-20i Kết quả được biểu thị ở bảng 1
và bảng 2
Kết quả trên Bộ dữ liệu PASCAL-5i Như thể hiện trong Bảng I, phương pháp đề xuất của tác giả, sử dụng xương sống ResNet50 và ResNet101, luôn vượt trội hơn các