1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo môn cơ sở Ứng dụng ai chủ Đề segformer simple and efficient design for semantic segmentation with transformers

37 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
Tác giả Nguyễn Trần Hùng Anh, Nguyễn Anh Tấn, Nguyễn Tấn An
Người hướng dẫn PGS.TS Trương Ngọc Sơn
Trường học Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh
Chuyên ngành Kỹ thuật máy tính và viễn thông
Thể loại Báo cáo môn Cơ sở Ứng dụng AI
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 37
Dung lượng 1,1 MB

Nội dung

 Như được thể hiện trong Hình 1, SegFormer thiết lập tiêu chuẩn mới về hiệu quả, độ chính xác và tính mạnh mẽ trên ba tập dữ liệu phân đoạn ngữ nghĩa công khai.Bài báo trình bày một bộ

Trang 1

BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ

MINH KHOA ĐIỆN – ĐIỆN TỬ

BỘ MÔN KỸ THUẬT MÁY TÍNH VÀ VIỄN THÔNG

- ∆ ⸙ - ⸙

BÁO CÁO MÔN CƠ SỞ ỨNG DỤNG AI

CHỦ ĐỀ: SEGFORMER: SIMPLE AND EFFICIENT DESIGN FOR SEMANTIC SEGMENTATION WITH TRANSFORMERS

GVHD: PGS.TS TRƯƠNG NGỌC SƠN

NHÓM 1

Nguyễn Trần Hùng Anh - 22119163 Nguyễn Anh Tấn - 22119229 Nguyễn Tấn An - 22119161

Thành Phố Hồ Chí Minh, tháng 10 năm 2024

Trang 2

Semantic segmentation là một ứng dụng cơ bản trong thị giác máy tính và hỗ trợ nhiều ứng dụng tiếp theo Nó có liên quan đến phân loạiảnh vì nó dự đoán phân loại cho từng pixel thay vì dự đoán ở cấp độ ảnh Mối quan hệ này được chỉ trong một công trình quan trọng , nơi các tác giả đã sử dụng mạng tích chập hoàn toàn (FCN) cho semantic segmentation Kể từ đó, FCN trở thành lựa chọn thiết kế chủ yếu cho các dự đoán dày đặc.

Vì classification và semantic segmentation có mối quan hệ chặt chẽ, nhiều khung phân đoạn tiên tiến được phát triển từ các kiến trúc phân loại ảnh trên ImageNet Vì vậy việc thiết kế backbone vẫn là lĩnh vực trọng tâm, từ các mô hình VGGs ban đầu đến các backbone hiện đại

Trang 3

sâu hơn và mạnh mẽ hơn, giúp tăng hiệu suất phân đoạn Ngoài ra, một hướng nghiên cứu khác xem phân đoạn là bài toán dự đoán có cấu trúc, tập trung vào các module và toán tử như tích chập giãn nở đểnắm bắt thông tin ngữ cảnh hiệu quả.

Với sự thành công to lớn trong việc xử lý ngôn ngữ tự nhiên

(NLP) Các nghiên cứu gần đây đã chuyển hướng áp dụng

Transformer từ NLP sang các nhiệm vụ thị giác Vision Transformer (ViT) của Dosovitskiy và SETR của Zheng lần lượt chứng minh khả năng của Transformer trong phân loại ảnh và phân đoạn ngữ nghĩa, đạt hiệu suất cao trên ImageNet

SETR sử dụng ViT làm backbone và các bộ giải mã CNN để cải thiện

độ phân giải đặc trưng Tuy nhiên, ViT có hạn chế là chỉ xuất ra đặc trưng đơn quy mô với độ phân giải thấp và tốn nhiều tài nguyên tính toán cho hình ảnh lớn Để khắc phục, Wang đề xuất pyramid vision Transformer (PVT),PVT cải thiện đáng kể so với ResNet trong nhận diện đối tượng và semantic segmentation Dù vậy, các phương pháp như PVT, Swin Transformer và Twins chủ yếu tập trung vào thiết kế

bộ mã hóa mà chưa chú trọng đến vai trò của bộ giải mã

Bài báo này giới thiệu SegFormer, một khung Transformer tiên tiến cho semantic segmentation, đồng thời xem xét hiệu quả, độ chính xác

và tính mạnh mẽ Khác với các phương pháp trước đây,

frameworkscủa chúng tôi thiết kế lại cả bộ mã hóa và bộ giải mã Những điểm mới chính của phương pháp này bao gồm:

 Một bộ mã hóa Transformer phân cấp không sử dụng mã hóa vị trí

 Thiết kế bộ giải mã All-MLP nhẹ, mang lại khả năng đại diện mạnh mẽ mà không cần các module phức tạp và tốn kém tính toán

Trang 4

 Như được thể hiện trong Hình 1, SegFormer thiết lập tiêu chuẩn mới về hiệu quả, độ chính xác và tính mạnh mẽ trên ba tập dữ liệu phân đoạn ngữ nghĩa công khai.

Bài báo trình bày một bộ mã hóa mới có khả năng thích ứng với các

độ phân giải kiểm tra tùy ý mà không cần nội suy mã vị trí, cho phép tạo ra cả các đặc trưng chi tiết độ phân giải cao và các đặc trưng tổng quát độ phân giải thấp, khác với ViT chỉ tạo ra bản đồ đặc trưng độ phân giải thấp cố định Ngoài ra, bài báo giới thiệu một bộ giải mã MLP nhẹ, tận dụng các đặc trưng từ Transformer, trong đó sự chú ý của các lớp thấp mang tính địa phương và các lớp cao mang tính phi địa phương Bằng cách tổng hợp thông tin từ nhiều lớp, bộ giải mã này kết hợp cả sự chú ý địa phương và toàn cục, tạo ra các đại diện mạnh mẽ nhưng đơn giản

Bài báo chứng minh ưu điểm của SegFormer về kích thước mô hình, thời gian chạy và độ chính xác trên ba tập dữ liệu công khai:

ADE20K, Cityscapes và COCO-Stuff Mô hình nhẹ SegFormer-B0 đạt 71,9% mIoU với tốc độ 48 FPS trên Cityscapes, cải thiện 60% về

độ trễ và 4,2% về hiệu suất so với ICNet Mô hình lớn nhất,

SegFormer-B5, đạt 84,0% mIoU, nhanh hơn SETR gấp 5 lần Trên ADE20K, SegFormer-B5 thiết lập tiêu chuẩn mới với 51,8% mIoU vànhỏ hơn SETR gấp 4 lần Phương pháp này cũng cho thấy khả năng chống chịu tốt hơn với các nhiễu loạn, phù hợp cho các ứng dụng an toàn Mã nguồn sẽ được công bố công khai

2 RELATED WORK

Semantic Segmentation mở rộng phân loại từ cấp độ hình ảnh sang điểm ảnh Trong thời đại học sâu, FCN [12-16] là công trình nền tảng,thực hiện phân loại điểm ảnh một cách end-to-end Các cải tiến sau này tập trung vào: mở rộng trường tiếp nhận [17–20]; tinh chỉnh

thông tin ngữ cảnh [21–29]; bổ sung thông tin ranh giới [30–37]; thiết

kế các mô-đun chú ý [38–46]; và sử dụng AutoML [47–51] Những

Trang 5

phương pháp này cải thiện hiệu suất nhưng cũng làm tăng độ phức tạptính toán Gần đây, kiến trúc Transformer đã chứng minh hiệu quả trong Semantic Segmentation [7, 46], tuy nhiên vẫn đòi hỏi nhiều tài nguyên tính toán.

Transformer backbones ViT [6] là công trình đầu tiên chứng minh

Transformer thuần túy có thể đạt hiệu suất hàng đầu trong phân loại hình ảnh, bằng cách xem mỗi hình ảnh như một chuỗi các token và đưa chúng qua nhiều lớp Transformer để phân loại Sau đó, DeiT [52]phát triển chiến lược huấn luyện tiết kiệm dữ liệu và phương pháp distillation cho ViT Các phương pháp gần đây như T2T ViT [53], CPVT [54], TNT [55], CrossViT [56] và LocalViT [57] đã có những điều chỉnh riêng cho ViT để cải thiện hơn nữa hiệu suất phân loại hình ảnh

PVT [8] là công trình đầu tiên đưa cấu trúc kim tự tháp vào

Transformer, cho thấy tiềm năng của Transformer thuần trong các tác

vụ dự đoán dày đặc so với CNN Sau đó, các phương pháp như Swin [9], CvT [58], CoaT [59], LeViT [60], và Twins [10] đã cải thiện tính liên tục của đặc trưng cục bộ và loại bỏ mã hóa vị trí cố định để nâng cao hiệu suất của Transformer trong các tác vụ này

Transformers for specific tasks.DETR [52] là công trình đầu tiên sửdụng Transformer để xây dựng framework phát hiện đối tượng end-to-end mà không cần áp dụng phương pháp non-maximum

suppression (NMS) Các nghiên cứu khác cũng đã sử dụng

Transformer trong nhiều tác vụ như theo dõi [61, 62], siêu phân giải [63], ReID [64], tô màu [65], tìm kiếm [66] và học đa phương thức [67, 68] Đối với phân đoạn ngữ nghĩa, SETR [7] sử dụng ViT [6] làmbackbone để trích xuất đặc trưng, đạt hiệu suất ấn tượng Tuy nhiên, các phương pháp dựa trên Transformer này có hiệu quả rất thấp và khó triển khai trong các ứng dụng thời gian thực

Trang 6

3 MeThod

Hình :Khung SegFormer

1- Một bộ mã hóa Transformer phân cấp để tạo ra các đặc điểm thô có

độ phân giải cao và các đặc điểm tinh có độ phân giải thấp

2- Một bộ giải mã All-MLP nhẹ để hợp nhất các đặc điểm đa cấp này

để tạo ra mặt nạ phân đoạn ngữ nghĩa cuối cùng

Quy trình của SegFormer trong việc phân đoạn ảnh

1 Chia ảnh thành các patch nhỏ :

- Ảnh đầu vào có kích thước H×W×3H \times W \times

3H×W×3 (chiều cao HHH, chiều rộng WWW, và 3 kênh màu)

- Ảnh được chia thành các patch kích thước 4×44 \times 44×4 (tức mỗi patch là một ô vuông gồm 16 pixel)

2 Bộ mã hóa Transformer phân cấp :

- Các patch sau đó được đưa vào bộ mã hóa Transformer phân cấp để tạo ra các đặc trưng ở nhiều cấp độ

Trang 7

- Đặc trưng được trích xuất ở các tỷ lệ: ¼,1/8,1/16 và 1/32 so với kích thước ảnh ban đầu, nghĩa là chúng dần dần bị giảm độ phân giải khi đi qua các khối Transformer

3.1 Hierarchical Transformer Encoder

* Khái niệm : là một biến thể của Transformer được thiết kế để xử lý

các dữ liệu có cấu trúc phân cấp và được tối ưu hóa cho phân đoạn ngữ nghĩa (semantic segmentation) Mô hình này bao gồm một loạt các encoder tên là Mix Transformer Encoder (MiT) từ MiT-B0 đến MiT-B5, với kích thước và hiệu năng khác nhau: MiT-B0 là mô hình nhẹ nhất dành cho suy luận nhanh, trong khi MiT-B5 lớn nhất để đạt hiệu năng cao nhất

1 Mix Transformer Encoders (MiT)

- SegFormer dùng các phiên bản mã hóa MiT từ MiT-B0 (nhẹ và nhanh) đến MiT-B5 (hiệu suất cao nhất), được thiết kế dựa trên ViT

và tối ưu cho phân đoạn ngữ nghĩa

2.Đại diện Đặc trưng Phân cấp (Hierarchical Feature Representation)

- Khác với ViT, vốn chỉ tạo ra bản đồ đặc trưng đơn cấp,

SegFormer tạo ra các đặc trưng phân cấp đa mức

- Mỗi mức phân cấp cung cấp đặc trưng ở độ phân giải cao hơn với thông tin thô hơn (đặc trưng chung) và ở độ phân giải thấp hơn với thông tin chi tiết hơn (đặc trưng chi tiết)

Trang 8

- Cụ thể hơn, với ảnh đầu vào có độ phân giải H×W×3 quá trình

sẽ thực hiện việc hợp nhất các phần (patch merging) để tạo ra bản đồ đặc trưng phân cấp Fi với độ phân giải là H/2^{i+1} x W/2^{i+1}×Ci,trong đó:

 i∈{1,2,3,4}: chỉ số mức phân cấp

 Ci+1lớn hơn Ci : tức là số lượng kênh ở cấp độ cao hơn sẽ nhiềuhơn cấp độ thấp hơn

3.Overlapped Patch Merging (hợp nhất các mảng chồng lấn)

- Quy trình hợp nhất mảng: Hợp nhất mảng (patch merging)

là cách để hợp nhất một mảng ảnh kích thước N×N×3 thành một

vector có kích thước 1×1×C Quy trình này cũng có thể mở rộng để hợp nhất mảng 2×2×Ci thành vector 1×1×Ci, từ đó tạo ra các bản đồ đặc trưng phân cấp

- Thu nhỏ bản đồ đặc trưng: Bằng việc sử dụng quy trình này,

có thể thu nhỏ các bản đồ đặc trưng phân cấp từ F1(H/4×W/4×C1) xuống F2(H/8×W/8×C2) và tiếp tục cho các cấp bậc khác

- Lý do sử dụng mảng chồng lấn: Ban đầu, hợp nhất mảng

được thiết kế cho các mảng không chồng lấn, điều này có thể làm mất

đi tính liên tục của các thông tin địa phương Vì vậy, phương pháp mảng chồng lấn (overlapping) được dùng để giữ lại tính liên tục này

4.Efficient Self-Attention (Self-Attention hiệu quả)

Trang 9

- Vấn đề : Trong mô hình self-attention gốc, độ phức tạp tính

toán là O(N^2) khó khăn khi làm việc với dữ liệu hình ảnh có độ phângiải lớn Ở đây, N=H×W, với H và W là chiều cao và chiều rộng của hình ảnh Cách tính toán self-attention ở đây là dựa trên công thức chuẩn

- Giải pháp: Để giảm độ phức tạp tính toán, người ta sử dụng

phương pháp "sequence reduction" (giảm chiều của chuỗi) với tỉ

lệ giảm R nhằm giảm độ dài của chuỗi cần tính attention Quá trình này được thực hiện qua hai bước:

+ Thay đổi kích thước của bằng cách dùng hàm Reshape.

+ Sau đó, áp dụng một lớp Linear để chuyển K thành một

tensor mới

- Kết quả: Nhờ sử dụng phương pháp này, độ phức tạp tính toán

giảm từ O(N^2) xuống còn O(N^2/R) Trong các thử nghiệm,

Trang 10

giá trị R được đặt lần lượt là [64, 16, 4, 1] tương ứng với từng giai đoạn (stage-1 đến stage-4).

5 Mix-FFN

Mix-FFN là một phương pháp hiệu quả trong việc bổ sung thông tin vị trí cho Transformers bằng cách sử dụng tích chập 3×3 mà không cần PE Điều này giúp mô hình xử lý ảnh ở các độ phân giảikhác nhau mà không bị mất độ chính xác, đồng thời tối ưu hóa về mặt tham số và hiệu suất

Mix-FFN được mô tả bởi công thức:

 Ở đây, xin là đặc trưng từ module self-attention

 Mỗi FFN sử dụng phép tích chập 3×3 kết hợp với MLP (Mạng truyền thẳng đa lớp) để bổ sung thông tin vị trí

3.2 Lightweight All-MLP Decoder

* Khái niệm : một mô hình phân đoạn ảnh tiên tiến với bộ giải mã

(decoder) chỉ sử dụng các lớp MLP (Multilayer Perceptron), loại bỏ các thành phần phức tạp và tốn kém tính toán thường thấy trong các phương pháp truyền thống Sự đơn giản của bộ giải mã này có được nhờ bộ mã hóa Transformer phân cấp của SegFormer, vốn có vùng tiếp nhận hiệu quả (ERF) lớn hơn so với các bộ mã hóa CNN truyền thống

Cấu trúc bộ giải mã MLP của SegFormer bao gồm bốn bước chính:

1 Các đặc trưng đa cấp FiF_iFi từ bộ mã hóa MiT được chuyển qua một lớp MLP để đồng nhất kích thước kênh

Trang 11

2 Sau đó, các đặc trưng này được lấy mẫu tăng (up-sampling) với

tỷ lệ 1/4 và gộp lại với nhau

3 Tiếp theo, một lớp MLP khác kết hợp các đặc trưng đã gộp

4 Cuối cùng, lớp MLP dự đoán mặt nạ phân đoạn MMM với độ phân giải H/4×W/4×Nds trong đó Nds là số danh mục cần phân đoạn

Các phương trình mô tả bộ giải mã bao gồm:

Hình ảnh này so sánh vùng tiếp nhận hiệu quả (Effective

Receptive Field - ERF) giữa hai kiến trúc mô hình phân đoạn ảnh: Deeplabv3+ và SegFormer trên tập dữ liệu Cityscapes

Trang 12

Giải thích từng giai đoạn

Stage-1 đến Stage-4: Mỗi giai đoạn thể hiện mức độ tiếp nhận thông tin của các đặc trưng tại những cấp độ khác nhau trong quá trình mã hóa của mô hình Mỗi giai đoạn tương ứng với một lớp hoặc khối trong kiến trúc mô hình, nơi ERF mở rộng dần khi đi từ Stage-1 đến Stage-4 Mức độ tiếp nhận này ảnh hưởng đến khả năng của mô hình trong việc xử lý các chi tiết ở mức cục bộ và tổng thể

Head: Đây là bộ phận cuối cùng của mô hình, nơi kết hợp các đặc trưng ở các giai đoạn trước và tạo ra mặt nạ phân đoạn đầu ra "Head"

có vùng tiếp nhận lớn nhất, cho phép mô hình dự đoán các đặc điểm tổng thể dựa trên các đặc trưng tích lũy

Phân tích ERF của Deeplabv3+ và SegFormer

Deeplabv3+ (hàng trên): Các ERF tại từng giai đoạn của Deeplabv3+

có xu hướng mở rộng tương đối chậm và có hình dạng tập trung Điềunày thể hiện rằng các đặc trưng thu được từ các lớp của Deeplabv3+

có phạm vi tiếp nhận nhỏ hơn ở các giai đoạn đầu và mở rộng dần ở giai đoạn sau Tuy nhiên, phạm vi mở rộng vẫn khá hạn chế, khiến

mô hình khó tiếp nhận thông tin toàn cục một cách hiệu quả ở các giaiđoạn trước

SegFormer (hàng dưới): ERF của SegFormer tại mỗi giai đoạn có hình dạng mở rộng nhanh hơn và bao phủ vùng lớn hơn, đặc biệt là ở các giai đoạn đầu Đây là một điểm mạnh của SegFormer, vì vùng tiếp nhận mở rộng hơn ở các giai đoạn đầu giúp mô hình tiếp nhận thông tin tổng thể sớm hơn, tăng khả năng nắm bắt mối quan hệ

không gian trên toàn bộ ảnh Vùng ERF ở "Head" của SegFormer cũng lớn và tròn đều hơn, cho thấy nó có khả năng tiếp nhận thông tin

từ các phần xa của ảnh, giúp mô hình có thể tạo ra phân đoạn chính xác hơn

Trang 13

3.3 Relationship to SETR.

Quan hệ với SETR: SegFormer có nhiều thiết kế hiệu quả và mạnh

mẽ hơn so với SETR:

- SegFormer chỉ sử dụng ImageNet-1K để tiền huấn luyện, trong khi ViT trong SETR được tiền huấn luyện trên tập dữ liệu lớn hơn là ImageNet-22K

- Bộ mã hóa của SegFormer có kiến trúc phân cấp, nhỏ gọn hơn ViT và có thể thu nhận cả đặc trưng thô độ phân giải cao và đặc trưng chi tiết độ phân giải thấp Ngược lại, bộ mã hóa ViT của SETR chỉ tạo ra bản đồ đặc trưng độ phân giải thấp

- SegFormer loại bỏ Positional Embedding trong bộ mã hóa, trongkhi SETR sử dụng Positional Embedding cố định, làm giảm độ chính xác khi độ phân giải trong suy luận khác với trong quá trình huấn luyện

- Bộ giải mã MLP của SegFormer gọn nhẹ hơn và ít yêu cầu tính toán hơn so với SETR, dẫn đến mức độ phức tạp không đáng kể,trong khi SETR đòi hỏi bộ giải mã nặng với nhiều lớp tích chập 3x3

4 Experiments

4.1 Experimental Settings

Datasets : Sử dụng ba bộ dữ liệu cho phân đoạn ngữ nghĩa:

 ADE20K: Gồm 20,210 ảnh với 150 lớp chi tiết

 Cityscapes: Gồm 5,000 ảnh độ phân giải cao với 19 danh mục

 COCO-Stuff: Có 172 nhãn với tổng 164,000 ảnh (118,000 ảnh huấn luyện, 5,000 ảnh xác thực, 20,000 ảnh kiểm tra)

Trang 14

Implementation details:

- Dùng mã nguồn mở từ mmsegmentation trên GitHub

- Huấn luyện trên máy chủ với 8 GPU Tesla V100

- Bộ mã hóa được tiền huấn luyện trên bộ dữ liệu ImageNet-1K,

bộ giải mã khởi tạo ngẫu nhiên

- Các phương pháp tăng cường dữ liệu gồm thay đổi kích thước ngẫu nhiên (tỷ lệ 0.5-2.0), lật ngang ngẫu nhiên, và cắt ngẫu nhiên với kích thước: 512×512 (ADE20K), 1024×1024

(Cityscapes), 512×512 (COCO-Stuff)

- Dùng tối ưu AdamW với 160K vòng cho ADE20K, Cityscapes

và 80K vòng cho COCO-Stuff (40K vòng cho nghiên cứu

ablation)

- Tốc độ học bắt đầu từ 0.00006 và giảm dần theo lịch "poly"

- Đánh giá hiệu suất bằng mIoU (mean Intersection over Union) với kiểm tra cửa sổ trượt cho Cityscapes

4.2 Ablation Studies

Bài viết phân tích ảnh hưởng của việc tăng kích thước encoder lên hiệu suất và hiệu quả của mô hình Hình 1 minh họa mối quan hệ giữahiệu suất và hiệu quả mô hình trên bộ dữ liệu ADE20K khi thay đổi kích thước encoder, trong khi Bảng 1(a) tóm tắt kết quả trên ba bộ dữ liệu khác nhau

Một điểm đáng chú ý là kích thước của decoder nhỏ hơn nhiều so với encoder Ví dụ, với mô hình nhẹ, decoder chỉ có 0,4 triệu tham số và với encoder MiT-B5, decoder chỉ chiếm 4% tổng số tham số của mô hình Khi tăng kích thước encoder, hiệu suất trên các bộ dữ liệu đều được cải thiện Mô hình nhẹ SegFormer-B0 rất nhỏ gọn và hiệu quả, phù hợp cho các ứng dụng thời gian thực Trong khi đó, SegFormer-B5, mô hình lớn nhất, đạt hiệu suất hàng đầu trên cả ba bộ dữ liệu, chứng tỏ tiềm năng của encoder Transformer

Trang 15

Trong bảng này, ta thấy phân tích chi tiết về ảnh hưởng của kích thước mô hình và thiết kế encoder/decoder trong việc dự đoán độ chính xác, số lượng tham số (parameters) và số phép tính cần thiết (FLOPs) cho các mô hình khác nhau trên ba tập dữ liệu (ADE20K, Cityscapes, COCO-Stuff)

1 Bảng (a) - Ảnh hưởng của kích thước mô hình:

- Trong bảng (a), MiT (Mix Transformer) với các biến thể từ B0 đến B5 được so sánh theo độ chính xác, số lượng tham số và FLOPs (số phép tính mỗi giây)

- Cột "Encoder" cho biết kích thước của encoder, còn "Decoder" cho biết kích thước của decoder trong mô hình Ví dụ, với mô hình MiT-B0, encoder có 3.4 triệu tham số, trong khi decoder chỉ có 0.4 triệu, chiếm tỷ lệ rất nhỏ

Trang 16

- Khi kích thước encoder tăng dần từ B0 đến B5, số lượng FLOPscũng tăng đáng kể Tuy nhiên, đi cùng với đó là sự cải thiện về

độ chính xác (mIoU) trên cả ba tập dữ liệu Đặc biệt, mô hình MiT-B5 đạt hiệu quả cao nhất nhưng yêu cầu số lượng FLOPs lớn nhất

- "SS" và "MS" đại diện cho kiểu kiểm tra đơn tỷ lệ và đa tỷ lệ

Độ chính xác tăng khi kích thước của encoder tăng lên, cho thấylợi ích của việc tăng kích thước mô hình cho các bài toán yêu cầu độ chính xác cao

2 Bảng (b) - Ảnh hưởng của kích thước MLP trong decoder:

- Bảng (b) phân tích ảnh hưởng của kích thước tầng MLP trong decoder (ký hiệu là CCC) đến độ chính xác (mIoU) và số

FLOPs trên tập dữ liệu ADE20K

- Khi CCC tăng, độ chính xác tăng lên nhưng chỉ ở mức độ nhất định Độ chính xác tăng dần khi CCC đạt 2048, tuy nhiên chi phí tính toán (FLOPs) cũng tăng lên đáng kể

3 Bảng (c) - So sánh Mix-FFN và PE (Position Encoding) với các độ phân giải khác nhau:

- Bảng này so sánh hiệu quả giữa hai phương pháp: Mix-FFN (Feed-Forward Network) và PE (Position Encoding) khi thử nghiệm trên tập Cityscapes với các độ phân giải khác nhau

- Kết quả cho thấy Mix-FFN đạt độ chính xác cao hơn so với PE, đặc biệt ở độ phân giải 768x768 và 1024x2048, chứng tỏ Mix-FFN có hiệu quả tốt hơn trong việc mã hóa thông tin không gian

ở các độ phân giải lớn

4 Bảng (d) - So sánh giữa CNN và Transformer encoder:

- Bảng này so sánh độ chính xác của encoder CNN truyền thống (ResNet50, ResNet101, ResNeXt101) với các encoder

Transformer (MiT-B2 và MiT-B3) khi sử dụng decoder MLP trên tập dữ liệu ADE20K

Trang 17

- Kết quả cho thấy các mô hình Transformer (B2 và B3) có số FLOPs ít hơn và độ chính xác cao hơn so với các encoder CNN, chứng minh rằng Transformer encoder mang lại hiệu quả vượt trội về cả độ chính xác và hiệu suất tính toán.Tiếp theo trong bảng này, ta so sánh hiệu năng của mô hình

MiT-SegFormer với các phương pháp tiên tiến khác trên hai tập dữ liệu ADE20K và Cityscapes, dựa trên số lượng tham số, FLOPs, tốc độ (FPS - số khung hình trên giây), và độ chính xác (mIoU)

Trang 18

1 So sánh với các phương pháp thời gian thực (Real-Time):

- Mô hình SegFormer với phiên bản nhỏ nhất (SegFormer-B0) được so sánh với các mô hình thời gian thực khác như FCN, ICNet, PSPNet, và DeepLabV3+

- SegFormer-B0 có:

o Số tham số thấp nhất (3.8M) so với các mô hình khác,

giúp tiết kiệm bộ nhớ và tài nguyên

o FLOPs là 8.4 (thấp hơn nhiều so với các mô hình khác),

nghĩa là yêu cầu tính toán ít hơn

o Tốc độ (FPS) đạt 50.5 trên ADE20K, vượt trội hơn các

mô hình khác, đặc biệt là trong các ứng dụng thời gian thực

o Độ chính xác (mIoU) đạt 37.4 trên ADE20K và 76.2 trên Cityscapes, cạnh tranh với các mô hình thời gian thực khác, mặc dù có số FLOPs và tham số thấp hơn Điều này chứng minh rằng SegFormer-B0 vừa hiệu quả vừa đạt độ chính xác cao, lý tưởng cho các ứng dụng thời gian thực

2 So sánh với các phương pháp không thời gian thực (Non Time):

Real Trong phần này, SegFormer với các phiên bản lớn hơn (B4 và B5) được so sánh với các mô hình không thời gian thực khác như FCN, EncNet, PSPNet, CCNet, DeepLabV3+, và các mô hình mạnh hơn như Axial-DeepLab, Dynamic Routing, và SETR

- SegFormer-B4 và SegFormer-B5 có:

o Số tham số và FLOPs tăng dần so với các mô hình nhỏ

hơn SegFormer-B5 có 84.7M tham số và 183.3 FLOPs, phù hợp cho các bài toán không yêu cầu tốc độ thời gian thực

Ngày đăng: 21/11/2024, 16:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w