A method for self supervised training of vision transformers

GIỚI THIỆU TỔNG QUAN

Lý do chọn đề tài

Đề tài "A Method For Self-Supervised Training Of Vision Transformers" là một lựa chọn thích hợp để em nghiên cứu và tìm hiểu vì nhiều lý do sau đây. Mặc dù đề tài đã xuất hiện từ trước, nhưng phương pháp Self-Supervised Training of Vision Transformers vẫn chưa phổ biến rộng rãi trong cộng đồng lập trình viên phần mềm Điều này tạo ra một cơ hội để em nghiên cứu và khám phá một lĩnh vực mới, cũng như cập nhật kiến thức về thị giác máy tính và phương pháp huấn luyện tự giám sát.

Việc tìm hiểu và nghiên cứu về Self-Supervised Training of Vision Transformers không chỉ mở rộng kiến thức của em trong lĩnh vực lập trình phần mềm, mà còn đưa em vào một lĩnh vực giao cắt giữa trí tuệ nhân tạo, thị giác máy tính và học máy Điều này giúp em hiểu rõ hơn về ứng dụng của công nghệ trong việc giải quyết các vấn đề thực tế.

Self-Supervised Training of Vision Transformers có tiềm năng ứng dụng rộng rãi trong lĩnh vực nhận dạng hình ảnh Nắm vững phương pháp này sẽ giúp em xây dựng các hệ thống nhận dạng hình ảnh hiệu quả và đáng tin cậy, từ việc phân loại đối tượng, phát hiện vật thể cho đến phân đoạn hình ảnh và nhận dạng khuôn mặt.

Nghiên cứu và tìm hiểu phương pháp này cũng giúp em tìm ra các giải pháp và cải tiến để nâng cao hiệu suất của Self-Supervised Training of Vision Transformers trong việc nhận dạng hình ảnh Điều này có thể bao gồm việc tối ưu hóa các siêu tham số, tăng cường kiến trúc mô hình hoặc kết hợp phương pháp này với các phương pháp khác để đạt được kết quả tốt hơn.

Giới thiệu đề tài

Nghiên cứu đề tài "A method for Self-Supervised training of Vision Transformers" để tìm ra giải pháp nâng cao tăng cường và cải tiến quy trình tự học của Vision Transformers là một nhiệm vụ nghiên cứu đầy thách thức trong lĩnh vực thị giác máy tính Trong thời gian gần đây, Vision Transformers (ViTs) đã trở thành một trong những kiến trúc quan trọng trong việc xử lý hình ảnh và thực hiện các nhiệm vụ như nhận dạng, phân đoạn và phát hiện đối tượng.

Tuy nhiên, ViTs thường yêu cầu một lượng lớn dữ liệu được gán nhãn để đạt được hiệu suất tốt nhất, và việc thu thập, gán nhãn và xử lý dữ liệu gán nhãn này là công việc tốn kém và tốn thời gian Để giảm yêu cầu về dữ liệu gán nhãn và tăng tính tổng quát hóa của ViTs, phương pháp Self-Supervised Training đã được ra đời.

Phương pháp Self-Supervised training đào tạo ViTs bằng cách sử dụng dữ liệu không có nhãn và tạo ra các nhiệm vụ tự động để mạng tự học thông qua việc tiên đoán và phân tích dữ liệu đầu vào Tuy nhiên, mặc dù phương pháp này đã mang lại một số kết quả đáng kể, nó vẫn còn nhiều khía cạnh có thể nâng cao.

Vì vậy, mục tiêu của đề tài này là tìm hiểu, nghiên cứu và đề xuất các giải pháp nâng cao cho phương pháp Self-Supervised Training của Vision Transformers Việc nghiên cứu này sẽ tập trung vào việc tăng cường khả năng tự học của ViTs, cải thiện hiệu suất và tính tổng quát hóa của chúng mà không cần sử dụng dữ liệu gán nhãn Đồng thời, chúng ta sẽ khám phá các kỹ thuật,phương pháp và mô hình mới để đạt được kết quả tốt hơn trong việc tự học và tiên đoán dữ liệu thị giác.

1.2.1 Phạm vi nghiên cứu Đề tài tập trung vào việc nghiên cứu và phát triển các phương pháp tự học mới để đào tạo Vision Transformers Các phương pháp này có thể bao gồm việc tạo ra các nhiệm vụ tự động, cơ chế tiên đoán và mô hình tự học mới để tăng cường khả năng tự học của ViTs Mục tiêu là cải thiện hiệu suất của Vision Transformers thông qua tối ưu hóa các phương pháp tự học bao gồm: tìm hiểu và thử nghiệm các kỹ thuật tăng cường, cơ chế tự học và siêu tham số của mạng nơ-ron để đạt được kết quả tốt nhất trên các tác vụ thị giác Nghiên cứu cách tăng cường tính tổng quát hóa và khả năng tự học của Vision Transformers nhằm giảm yêu cầu về dữ liệu gán nhãn và tạo điều kiện cho việc áp dụng ViTs trên các tình huống thực tế khác nhau mà không cần có nhiều dữ liệu gán nhãn. Cuối cùng là thử nghiệm và đánh giá kết quả của phương pháp được đề xuất trên các tập dữ liệu thị giác phổ biến để đánh giá hiệu suất, tính tổng quát hóa và khả năng tự học của Vision Transformers.

Nghiên cứu chi tiết về phương pháp tự học cho Vision Transformers đã được đề xuất, bao gồm các cơ chế và quy trình tự học sử dụng dữ liệu không có nhãn Tìm hiểu cách mạng ViTs tự học và tạo ra các đặc trưng hữu ích từ dữ liệu đầu vào.

Rút ra được các ưu và nhược điểm của phương pháp Self-Supervised Training (về hiệu suất, tính tổng quát hóa, khả năng tự học, yêu cầu về dữ liệu,

…) từ đó đề xuất các cải tiến cho phương pháp này áp dụng trong Vision Transformers.

Thực hiện thử nghiệm và đánh giá các cải tiến và giải pháp đề xuất trên các tập dữ liệu thị giác phổ biến So sánh kết quả đạt được từ các cải tiến và giải pháp đề xuất với các phương pháp Self-Supervised Training hiện có và các phương pháp khác trong lĩnh vực thị giác máy tính Từ đó đề xuất hướng phát triển tiếp theo của phương pháp này, đặc biệt trong lĩnh vực phân loại hình ảnh.

Thông qua đề tài có thể nâng cao độ chính xác cao và khả năng tổng quát hóa tốt hơn trên các tập dữ liệu mới nhằm có được hiệu suất tốt hơn Phương pháp tự học được nâng cấp nhằm giảm yêu cầu về dữ liệu gán nhãn và tạo điều kiện cho việc áp dụng Vision Transformers trên các tình huống thực tế khác nhau trong nhiệm vụ thị giác mà không cần có nhiều dữ liệu gắn nhãn, tăng cường khả năng tự học của Vision Transformers Cuối cùng là đề xuất các cải tiến, kỹ thuật và cơ chế mới trong phương pháp tự học Vision Transformers.

BÀI TOÁN PHÂN LOẠI HÌNH ẢNH VÀ TỔNG QUAN VỀ

Tổng quan về phân loại hình ảnh (Image Classification)

Phân loại hình ảnh là một trong ba cách phổ biến nhất để xử lý dữ liệu hình ảnh Nếu tác vụ phát hiện đối tượng (Object detection) nhằm mục tiêu xác định vị trí vật thể bằng cách xây dựng hộp tọa độ (bounding box); phân đoạn ảnh (Image segmentation) cung cấp thông tin chi tiết hơn về kích thước và hình dạng vật thể thì phân loại ảnh (Image classification) giúp tìm ra câu trả lời: Vậy hình ảnh thuộc loại nào?

Hình 2.1 - Sự khác biệt giữa phát hiện đối tượng, phân đoạn và phân loại ảnh

Bài toán Image Classification là một bài toán thuộc lĩnh vực ComputerVision Mục tiêu chính của bài toán này đó chính là phân loại một hình ảnh đầu vào (input) thành một nhãn (label) đầu ra (output) nhờ vào thuật toán được cài đặt sẵn Ví dụ, bạn có thể phân loại hình ảnh của mèo và chó, hoặc nhận dạng các loại hoa trong hình ảnh Thuật toán sẽ “quan sát” toàn bộ dữ liệu và dựa trên hình dạng, màu sắc để hình thành giả thuyết liên quan đến nội dung của ảnh.

Kết quả thu được là từ tập dữ liệu ban đầu, các hình ảnh chó/mèo đã được phân loại một cách tự động.

Hình 2.2 - Ví dụ minh họa bài toán Image Classification

Có nhiều thuật toán khác nhau được ứng dụng trong việc phân loại hình ảnh Các thuật toán này được chia thành hai nhóm chính:

 Học có giám sát (Supervised Learning): Trong học có giám sát, dữ liệu huấn luyện được cung cấp với nhãn (label) tương ứng cho từng mẫu dữ liệu Mục tiêu của thuật toán là xây dựng một mô hình dự đoán nhãn của các mẫu dữ liệu mới dựa trên các mẫu huấn luyện đã biết trước Xuyên suốt quá trình đào tạo, đặc điểm của ma trận hình ảnh sẽ được trích xuất dưới dạng dữ liệu quan trọng để đưa vào xử lý Các đặc điểm này đại diện cho hình ảnh trong không gian chiều thấp (lower-dimensional feature space) và là cơ sở để thuật toán tiến hành phân loại Trong quá trình đánh giá, các đặc điểm của ảnh thử nghiệm được thu thập và tái phân loại với sự hỗ trợ của mạng thần kinh nhân tạo Hệ thống lúc này đã có thể nhận biết các đặc điểm điển hình của mọi lớp hình ảnh mà nó được đào tạo Các thuật toán phổ biến trong học có giám sát bao gồm: Support Vector Machines (SVM), Random Forest, Decision Trees, Naive Bayes, Neural Networks (Mạng nơ-ron), và Logistic Regression Các mạng nơ- ron cũng được sử dụng phổ biến để phân loại hình ảnh có giám sát, bao gồm AlexNet, ResNet, DenseNet và Inception Đối với phân loại có giám sát, việc dán nhãn dữ liệu đóng vai trò quan trọng Độ chính xác của dữ liệu được dán nhãn quyết định phần lớn hiệu suất của mô hình học máy. Các thuật toán phân loại có giám sát có thể được chia thành hai mục nhỏ hơn dựa trên nhãn dữ liệu: phân loại nhãn đơn và phân loại đa nhãn.

 Học không giám sát (Unsupervised Learning): Trái ngược với học có giám sát, trong học không giám sát, không có nhãn được cung cấp cho dữ liệu huấn luyện Mục tiêu của thuật toán là khám phá cấu trúc ẩn trong dữ liệu và phân nhóm các mẫu dữ liệu tương tự nhau Một trong những phương pháp phổ biến trong học không giám sát là Clustering (phân cụm), trong đó các mẫu dữ liệu được nhóm lại thành các nhóm tương tự nhau Các thuật toán phân cụm như K-means và Hierarchical Clustering là một số ví dụ tiêu biểu cho học không giám sát.

Cách thức phân loại hình ảnh hoạt động: Máy tính xử lý một hình ảnh dưới dạng pixel Theo đó, hình ảnh chỉ là một mảng ma trận, và kích thước của ma trận phụ thuộc vào độ phân giải hình ảnh Do đó, xử lý hình ảnh là tiến hành phân tích dữ liệu toán học với sự trợ giúp của các thuật toán Các thuật toán này chia nhỏ hình ảnh thành một tập hợp các đặc điểm nổi bật, giúp giảm khối lượng công việc của bộ phân loại cuối cùng Quá trình trích xuất đặc điểm là bước quan trọng nhất trong việc phân loại hình ảnh Phân loại, đặc biệt là phân loại có giám sát, phụ thuộc phần lớn vào dữ liệu được cung cấp cho thuật toán Một bộ dữ liệu phân loại tốt phải đảm bảo các yêu cầu về sự cân bằng của dữ liệu, chất lượng của ảnh và chú giải kèm theo. Để giải quyết bài toán này, nhiều phương pháp nhận diện hình ảnh ra đời, trong đó có cả phương pháp truyền thống và các phương pháp sử dụng học máy. Một trong những phương pháp truyền thống quan trọng và phổ biến nhất là Convolutional Neural Networks (CNN) CNN đã được sử dụng rộng rãi và được nhiều người biết đến trong việc phân loại hình ảnh Nó sử dụng các lớp convolutional, pooling và fully connected để trích xuất đặc trưng và thực hiện phân loại hình ảnh Qua quá trình huấn luyện, CNN học cách nhận biết các đặc trưng đặc biệt trong hình ảnh và sử dụng chúng để phân loại các lớp hình ảnh khác nhau.

Hình 2.3 - Sơ đồ hoạt động CNN

Trong sơ đồ hoạt động trên, chức năng của các lớp chính như sau:

 Lớp Convolutional (Convolutional Layer): trích xuất các đặc trưng từ hình ảnh đầu vào Nó sử dụng các bộ lọc (kernel) nhỏ để thực hiện phép tích chập trên hình ảnh Mỗi bộ lọc thực hiện việc nhân ma trận các pixel đầu vào với các trọng số tương ứng, tạo ra một featured map Quá trình tích chập giúp tìm ra các đặc trưng như cạnh, góc, hoặc hình dạng trong hình ảnh Lớp convolutional có thể có nhiều bộ lọc khác nhau để trích xuất nhiều đặc trưng khác nhau.

 Lớp Pooling (Pooling Layer): được sử dụng để giảm kích thước của featured map và giữ lại các đặc trưng quan trọng nhất Các phép pooling thường được sử dụng là max pooling và average pooling Max pooling chọn giá trị lớn nhất trong một vùng nhất định trên featured map và giữ lại giá trị đó trong featured map sau lớp pooling Average pooling lấy giá trị trung bình của các pixel trong vùng và gán giá trị đó cho pixel tương ứng trong featured map mới Lớp pooling giúp giảm số lượng tham số của mạng và tạo ra tính chất không gian bất biến, nghĩa là mạng vẫn có khả năng nhận diện các đặc trưng dù chúng có xuất hiện ở các vị trí khác nhau trên hình ảnh.

 Lớp Fully Connected (Fully Connected Layer): Sau khi các featured map đã được trích xuất và giảm kích thước, chúng được chuyển đổi thành một vector và đưa vào lớp fully connected Lớp này tương tự như một mạng nơ-ron truyền thẳng thông thường, trong đó mỗi nút nơ-ron kết nối đầy đủ với tất cả các nút trong lớp trước và sau đó sử dụng các hàm kích hoạt để tính toán đầu ra Lớp Fully Connected có nhiệm vụ phân loại hình ảnh bằng cách xử lý thông tin từ các đặc trưng đã được trích xuất từ các lớp trước đó Thông thường, lớp Fully Connected cuối cùng sử dụng hàm Softmax để tính toán xác suất phân loại cho từng lớp của hình ảnh.

 Ngoài ra, trên hình ta còn thấy lớp Flatten (Flatten Layer): Đây cũng là một lớp quan trọng trong kiến trúc của mạng CNN Sau khi qua các lớpConvolutional và Pooling, đầu ra sẽ là một tensor có kích thước 3 chiều(chiều cao, chiều rộng, số kênh), Flatten sẽ biến đổi các chiều cao và chiều rộng thành một vector duy nhất Điều này có nghĩa là thông tin không gian từ hình ảnh ban đầu đã được "đặt phẳng" và sắp xếp theo một thứ tự nhất định, nó thường được sử dụng như một khối chuyển tiếp giữa các lớp Convolutional/Pooling và lớp Fully Connected.

Tuy nhiên, ngoài CNN, còn có một phương pháp mới đáng chú ý làVision Transformers Vision Transformers sử dụng kiến trúc Transformer, ban đầu được phát triển cho xử lý ngôn ngữ tự nhiên, và áp dụng nó vào việc xử lý hình ảnh Kiến trúc này đã đạt được kết quả ấn tượng trong các bài toán phân loại hình ảnh và làm nổi bật sự quan trọng của học tự giám sát trong quá trình huấn luyện mô hình Trên cơ sở này, phần tiếp theo sẽ tìm hiểu chi tiết về kiến trúc Vision Transformers và phương pháp tự huấn luyện giám sát trong bài toán phân loại hình ảnh.

Sơ lược về Vision Transformers (ViTs)

Mô hình Vision Transformer (ViT) đã được giới thiệu ở một bài báo nghiên cứu được xuất bản dưới dạng báo cáo tại hội nghị ICLR 2021, có tiêu đề

“An Image is Worth 16*16 Words: Transformers for Image Recognition in Scale” Nó được phát triển và xuất bản bởi Neil Houlsby, Alexey Dosovitskiy, và 10 tác giả khác của Google Research Brain Team.

Vision Transformers (ViTs) là một kiến trúc mạng nơ-ron sử dụng Transformer để xử lý các nhiệm vụ liên quan đến hình ảnh Trong quá khứ, kiến trúc CNN đã chiếm ưu thế trong xử lý hình ảnh Tuy nhiên, ViTs đại diện cho một phương pháp mới sử dụng cơ chế tự chú ý của Transformer để giải quyết các vấn đề trên.

Vào năm 2022, Vision Transformer (ViT) nổi lên như một giải pháp thay thế cạnh tranh so với các mạng thần kinh tích chập (CNNs) ViTs được đánh giá là vượt trội hơn so với CNN gần 4 lần về hiệu quả tính toán và độ chính xác. Trong CNNs truyền thống, các mạng thụ cảm không gian (spatially-sensitive layers) như các lớp Convolution và Pooling được sử dụng để khám phá các đặc trưng cục bộ trong hình ảnh Tuy nhiên, ViTs thay đổi cách tiếp cận này bằng cách áp dụng cơ chế tự chú ý (self-attention mechanism) trên các miền nhỏ hơn của hình ảnh.

Kiến trúc tổng thể của mô hình ViT được đưa ra từng bước như sau:

1 Chia hình ảnh thành các mảng (patches): Hình ảnh đầu vào được chia thành các mảng nhỏ cùng kích thước (patch) Mỗi mảng patch chứa thông tin cục bộ của hình ảnh.

2 Làm phẳng các mảng hình ảnh: Các mảng patch được làm phẳng thành một chuỗi các vectơ đặc trưng.

3 Tạo feature embedding: Các vectơ đặc trưng của mảng patch được đưa qua một lớp tuyến tính để tạo ra các feature embedding có chiều thấp hơn.

4 Thứ tự các mảng: Các feature embedding được sắp xếp theo thứ tự trong chuỗi.

5 Áp dụng transformer encoder: Chuỗi feature embedding được đưa vào một mạng transformer encoder để học các mối quan hệ không gian giữa các đặc trưng và tạo ra vectơ đại diện cho hình ảnh.

6 Pre-train và tinh chỉnh: Mô hình ViT được huấn luyện trước trên một tập dữ liệu lớn với các nhãn hình ảnh Sau đó, tinh chỉnh model trên bộ dữ liệu riêng của từng bài toán.

Hình 2.4 - Mô hình tổng quan hoạt động của Vision Transformer

Mục tiêu của ViTs là chia nhỏ hình ảnh đầu vào thành các đại diện (patches) và sau đó áp dụng các lớp chú ý để học cách tương tác giữa các đại diện này Các đại diện được biểu diễn dưới dạng chuỗi và được đưa qua một số lớp chú ý (self-attention layers) để học quan hệ giữa chúng và xác định mức độ quan trọng của từng đại diện đối với các đại diện khác Kết quả cuối cùng của ViTs là một vectơ đại diện của hình ảnh, từ đó có thể được sử dụng để phân loại Trên thực tế, ảnh đầu vào ta dùng cho ViTs ít khi nào là ảnh gốc trực tiếp mà thông thường ta sẽ dùng một mạng CNN để trích xuất đặc trưng từ ảnh đầu vào và dùng bản đồ đặc trưng (featured map) cuối cùng để làm đầu vào cho ViTs.

Self-attention, còn được gọi là cơ chế tự chú ý, là một phần quan trọng của mô hình Transformer Nó là một phép toán định lượng tương tác giữa các thực thể trong dữ liệu đầu vào theo từng cặp, giúp mạng lưới học được cấu trúc phân cấp và mối liên kết tồn tại trong dữ liệu Cơ chế Attention đã được chứng minh là yếu tố quan trọng để mạng lưới tìm hiểu và biểu diễn thông tin quan trọng Nó cho phép mạng lưới tập trung vào những phần quan trọng và ưu tiên xử lý chúng, đồng thời bỏ qua những phần không quan trọng, giúp mạng lưới tầm nhìn đạt được độ bền cao hơn và khả năng mã hóa thông tin phức tạp trong dữ liệu đầu vào, đồng thời nâng cao khả năng hiểu và tạo ra dự đoán chính xác cho các mô hình máy học sử dụng kiến trúc Transformer.

Hình 2.5 - Bản đồ Attention của ViT được trực quan hóa trên hình ảnh

2.1.2.3 Sự khác biệt giữa CNN và ViT

Kiến trúc: CNN sử dụng mảng pixel làm đầu vào và áp dụng các lớp tích chập để trích xuất đặc trưng Trong khi đó, ViT chia hình ảnh thành các mảng (patch) và sử dụng kiến trúc Transformer để học cách tương tác giữa các mảng này.

Hiệu suất: ViT đạt được kết quả đáng chú ý hơn so với CNN và sử dụng ít tài nguyên tính toán hơn cho pre-training Tuy nhiên, ViT có xu hướng phụ thuộc vào việc điều chỉnh mô hình hoặc tăng dữ liệu khi pre-train trên các tập dữ liệu nhỏ hơn.

Cơ chế Self-attention: ViT sử dụng lớp Self-attention để tổng hợp thông tin trên toàn bộ hình ảnh và học vị trí tương đối của các mảng ảnh để tái tạo cấu trúc hình ảnh.

Kiến trúc Transformer: ViT sử dụng kiến trúc Transformer, bao gồm lớp Multi-

Head Self Attention (MSP) và lớp Multi-Layer Perceptrons (MLP), để học các mối quan hệ phụ thuộc cục bộ và toàn bộ trong hình ảnh.

Residual Connections: ViT sử dụng residual connections để cho phép thông tin đi qua mạng lưới một cách trực tiếp mà không đi qua các hàm phi tuyến tính.

Phương pháp huấn luyện tự giám sát (Self-Supervised Training)

Phương pháp huấn luyện tự giám sát (Self-Supervised Training) là một phương pháp để huấn luyện mô hình máy học bằng cách sử dụng dữ liệu không có nhãn hoặc tự tạo nhãn giả cho dữ liệu Mục tiêu của phương pháp này là để mô hình học các cách biểu diễn tổng quát và thông tin hữu ích của dữ liệu đầu vào mà không cần nhãn chính xác từ con người Thay vì chỉ tập trung vào việc phân loại hoặc nhận dạng đối tượng cụ thể, mô hình học cách hiểu và tận dụng các đặc trưng quan trọng của dữ liệu, chẳng hạn như hình dạng, mối quan hệ không gian giữa các đối tượng, hoặc các thuộc tính khác Nhờ việc học các cách biểu diễn tổng quát và thông tin hữu ích này, mô hình trở nên linh hoạt hơn và có khả năng áp dụng cho nhiều tác vụ và dữ liệu mới mà không cần nhãn chính xác từ con người.

Ví dụ: Giả sử chúng ta xây dựng một mô hình phân loại hình ảnh để phân biệt giữa chó và mèo Mô hình hóa mối quan hệ giữa dữ liệu đầu vào (hình ảnh) và nhãn (chó hoặc mèo) trong trường hợp này là quá trình mô hình học cách phân biệt các đặc trưng của chó và mèo trong hình ảnh Khi huấn luyện, chúng ta cung cấp cho mô hình một tập dữ liệu lớn chứa các hình ảnh chó và mèo cùng với nhãn tương ứng (ví dụ: 1 cho chó, 0 cho mèo) Mô hình sẽ học từ các đặc trưng trong các hình ảnh được cung cấp để xác định và hiểu sự khác biệt giữa hai loại hình ảnh Bằng cách mô hình hóa mối quan hệ giữa các đặc trưng của hình ảnh (đường cong, màu sắc, hình dạng của tai, mắt, mũi, v.v.) và nhãn (chó hoặc mèo), mô hình sẽ học được các quy tắc, thông qua việc tăng cường các trọng số và các tham số của mạng nơ-ron, để dự đoán đúng nhãn cho các hình ảnh mới Sau quá trình huấn luyện, mô hình đã học mối quan hệ giữa dữ liệu đầu vào và nhãn, nó có khả năng phân biệt giữa hình ảnh chó và mèo mà không cần thông tin nhãn chính xác từ con người Khi chúng ta cung cấp cho mô hình một hình ảnh mới mà nó chưa từng thấy, nó sẽ sử dụng các đặc trưng đã học để dự đoán xem đó là hình ảnh chó hay mèo.

Với Vision Transformers, phương pháp huấn luyện tự giám sát có thể được áp dụng bằng cách sử dụng một tác vụ phụ để đánh giá và huấn luyện mô hình.Thông thường, dữ liệu hình ảnh sẽ được chia thành hai phần, một phần được sử dụng để đánh giá mô hình và phần còn lại được sử dụng để tạo ra dữ liệu đầu vào cho tác vụ phụ Có nhiều tác vụ phụ có thể được sử dụng trong phương pháp huấn luyện tự giám sát cho Vision Transformers Một ví dụ phổ biến là tác vụ dự đoán phần còn lại của hình ảnh (image inpainting), trong đó mô hình được huấn luyện để dự đoán giá trị pixel hoặc các patch bị che khuất trong hình ảnh Quá trình này yêu cầu mô hình học các đặc trưng tổng quát và học cách biểu diễn các khía cạnh quan trọng của hình ảnh như kết cấu, hình dạng và ngữ cảnh.

Bằng cách huấn luyện trên tác vụ phụ này, mô hình Vision Transformers học được các cách biểu diễn phân tầng và có khả năng tổng hợp thông tin về cấu trúc và liên kết giữa các thành phần của hình ảnh Điều này giúp mô hình nắm bắt được thông tin quan trọng để thực hiện bài toán phân loại hình ảnh chính xác hơn.

Tuy nhiên, để áp dụng phương pháp huấn luyện tự giám sát hiệu quả, cần thiết phải thiết kế các mục tiêu phụ phù hợp và đảm bảo rằng dữ liệu được sử dụng có tính tổng quát đủ để mô hình có thể học được các biểu diễn chung Các phương pháp tự giám sát cũng có thể kết hợp với các phương pháp khác như transfer learning để tăng cường hiệu suất của mô hình.

Sự kết hợp Vision Transformers và Self-Supervised Training

Sự kết hợp giữa Vision Transformers (ViTs) với phương pháp Self- Supervised Training là một cách tiếp cận mới mẻ và thú vị để huấn luyện mô hình thị giác máy tính ViTs thường được huấn luyện bằng phương pháp tự giám sát, cho phép mô hình học từ dữ liệu không được gán nhãn thông qua việc đặt tác vụ phụ cho mô hình.

Các tác vụ phụ trong phương pháp tự giám sát cho ViTs có thể bao gồm việc dự đoán vị trí tương đối của các đại diện trong hình ảnh hoặc dự đoán các thông số biến đổi của hình ảnh Bằng cách thiết kế các tác vụ phụ này, mô hình được khuyến khích học các đặc trưng cơ bản của hình ảnh và hiểu được các khía cạnh quan trọng như vị trí, hình dạng và biến đổi của đối tượng trong hình ảnh.

Việc học tự giám sát giúp cải thiện khả năng phân loại của ViTs Bằng cách tự tạo nhãn giả, mô hình có thể học các biểu diễn tổng quát và hữu ích của dữ liệu, mở rộng khả năng áp dụng của nó cho nhiều tác vụ thị giác máy tính khác nhau Kết hợp phương pháp tự giám sát với ViTs giúp tạo ra một mô hình mạnh mẽ có khả năng biểu diễn và phân loại hình ảnh hiệu quả Một số vai trò chính có thể kể đến của phương pháp huấn luyện tự giám sát là:

 Học các đặc trưng của dữ liệu: phương pháp cho phép mô hình tự tìm hiểu cách tổ chức và đại diện cho thông tin dữ liệu đầu vào, giúp mô hình học các đặc trưng cơ bản của hình ảnh, bao gồm các thông tin như vị trí, hình dạng và biến đổi của đối tượng, từ đó giúp mô hình hiểu được cấu trúc và đặc điểm quan trọng của hình ảnh, cải thiện được khả năng phân loại nhận dạng.

 Giảm tải công việc gán nhãn: Việc có một lượng lớn dữ liệu được gán nhãn là đắt đỏ và tốn thời gian Phương pháp tự huấn luyện tự giám sát cho phép mô hình học từ dữ liệu không được gán nhãn, tức là dữ liệu có sẵn mà không cần nhãn Điều này giảm tải công việc gán nhãn và giúp tiết kiệm thời gian và nguồn lực.

 Mở rộng khả năng áp dụng: Phương pháp tự huấn luyện tự giám sát tạo ra các biểu diễn tổng quát và hữu ích của dữ liệu Điều này mở rộng khả năng áp dụng của mô hình cho nhiều tác vụ thị giác máy tính khác nhau, bao gồm nhận dạng đối tượng, phân loại, phát hiện và theo dõi.

 Tăng cường hiệu suất: Kết hợp phương pháp tự huấn luyện tự giám sát với các mô hình tiên tiến giúp tạo ra các mô hình mạnh mẽ có khả năng biểu diễn và phân loại hình ảnh hiệu quả Phương pháp tự giám sát đã đạt được những thành tựu xuất sắc trong nhiều tác vụ thị giác máy tính, đặc biệt là khi kết hợp với các kỹ thuật mới như mạng học sâu và mạng Transformer.

Cấu trúc và hoạt động của ViTs

ViTs không sử dụng các lớp tích chập như các mô hình Convolutional Neural Networks (CNNs) truyền thống mà thay vào đó mô hình sử dụng các lớp Transformer để xử lý thông tin ảnh.

Hình 2.6 - Mô hình chi tiết cấu trúc hoạt động ViTs

Trong mô hình trên, cấu trúc của ViTs bao gồm hai phần chính là Embedding và Transformer Encoder:

 Embedding: Ở bước này chuyển đổi mỗi patch trong ảnh thành một vector Đầu tiên, ảnh được chia thành các patch có kích thước nhỏ hơn, sau đó mỗi patch được tạo thành một vector bằng cách áp dụng một lớp tuyến tính (linear layer) để đổi các giá trị pixel của patch thành một vector đặc trưng có kích thước cố định Ngoài ra, một token dự đoán được thêm vào đầu mỗi vector patch để biểu thị thông tin toàn cục của ảnh Token này thường được gọi là "CLS token" và giúp mô hình có khả năng nắm bắt thông tin toàn cục và đưa ra dự đoán phân loại tổng quát cho ảnh.

 Transformer Encoder: Sau quá trinh embedding, các vector patch được đưa vào một mạng Transformer Encoder Mạng này bao gồm nhiều lớp Encoder, mỗi lớp bao gồm một lớp Multi-Head Attention và một lớp Feed-Forward Neural Network Lớp Multi-Head Self-Attention giúp mô hình học cấu trúc không gian của ảnh, trong khi lớp Feed-Forward Neural Network giúp mô hình học các mối quan hệ phức tạp giữa các vector patch Các lớp Encoder được lặp lại trong Transformer Encoder nhằm cải thiện hiệu suất của mô hình Quá trình lặp lại này giúp mô hình học được các mối quan hệ phức tạp và cải thiện khả năng trích xuất đặc trưng từ ảnh Số lượng lớp Encoder có thể thay đổi tùy thuộc vào cấu trúc của mô hình và yêu cầu của bài toán cụ thể.

Sau khi qua các lớp Encoder, vector patch cuối cùng được đưa vào một lớp Linear để dự đoán nhãn của ảnh Tùy vào nhiệm vụ cụ thể, có thể áp dụng thêm các lớp tuyến tính hoặc lớp Softmax để đưa ra kết quả cuối cùng.

Hoạt động của ViTs là quá trình học các trọng số của mạng TransformerEncoder thông qua việc lan truyền ngược và cập nhật gradient Ban đầu, mô hình được đào tạo trên một tập dữ liệu lớn, thường gồm các ảnh và nhãn tương ứng Quá trình này giúp mô hình học cách trích xuất đặc trưng từ ảnh và phân loại chúng vào các lớp khác nhau Sau khi mô hình được đào tạo, nó có thể được sử dụng để phân loại và nhận dạng các đối tượng trong ảnh mới mà nó chưa từng thấy trước đó.

Ưu điểm và hạn chế của ViTs

Khả năng xử lý thông tin toàn cục: ViTs có khả năng xử lý thông tin toàn cục trong ảnh, không chỉ nhìn vào các đặc trưng cục bộ như các mô hình CNN truyền thống Điều này cho phép ViTs có khả năng nhận biết thông tin liên quan đến toàn bộ bức ảnh và xây dựng mối quan hệ giữa các phần tử trong ảnh.

Khả năng tổng hợp thông tin từ các đặc trưng không gian: ViTs có thể tổng hợp thông tin từ các đặc trưng không gian trong ảnh, bao gồm vị trí, hướng và tỉ lệ, giúp cho ViTs hiểu được cấu trúc không gian của đối tượng trong ảnh, như việc nhận diện các vị trí tương đối của các đối tượng, đặc trưng không gian của chúng và quan hệ giữa chúng.

Khả năng học được các đặc trưng phức tạp: ViTs có khả năng học được các đặc trưng phức tạp trong ảnh như texture, hình dạng và màu sắc, hỗ trợ rất lớn cho ViTs thực hiện các tác vụ phân loại, nhận dạng và phân đoạn ảnh một cách hiệu quả.

2.3.2 Hạn chế Đòi hỏi khối lượng dữ liệu lớn: Mô hình ViTs yêu cầu một lượng lớn dữ liệu huấn luyện để học các đặc trưng trong ảnh dẫn đến nó có thể gặp khó khăn khi được áp dụng vào các tác vụ yêu cầu nhiều dữ liệu huấn luyện như nhận dạng đối tượng hiếm hoặc phân loại trong các lĩnh vực chuyên ngành hẹp. Độ phức tạp tính toán cao: ViTs có độ phức tạp tính toán cao hơn so với các mô hình CNN truyền thống, nếu ta sử dụng mô hình này cho ảnh lớn có thể yêu cầu tài nguyên tính toán mạnh hơn, đặc biệt là trong việc huấn luyện mô hình.

Khả năng khái quát hóa yếu: Mặc dù ViTs có khả năng xử lý thông tin toàn cục và học các đặc trưng phức tạp, nhưng khả năng khái quát hóa của chúng có thể yếu hơn so với các mô hình CNN truyền thống, đặc biệt là khi đối diện với dữ liệu mới nằm ngoài phạm vi huấn luyện Điều này có nghĩa là ViTs có thể dễ dàng bị overfitting 1 và khó tổng quát hóa cho các tác vụ mới.

Các nghiên cứu liên quan về ViTs

ViT ngày càng trở nên phổ biến rộng rãi và được nhiều người biết đến Trong thời gian gần đây, đã có nhiều nghiên cứu liên quan đến Vision Transformers diễn ra nhằm đóng góp vào việc phát triển và cải tiến cho mô hình, mở ra những tiềm năng và ứng dụng mới cho mô hình này trong lĩnh vực thị giác máy tính Sau đây là một vài nghiên cứu đáng lưu ý có liên quan, chẳng hạn:

 DeiT (Data-efficient Image Transformers): DeiT là một nghiên cứu nhằm cải thiện khả năng huấn luyện của ViTs với lượng dữ liệu huấn luyện nhỏ. Nghiên cứu này giải quyết vấn đề overfitting bằng cách sử dụng các phương pháp như distillation (truyền thụ tri thức) và regularization (chính quy hóa) để tăng khả năng khái quát hóa của mô hình và cải thiện khả năng huấn luyện của ViTs với những dữ liệu hạn chế, thuộc các lĩnh vực chuyên ngành hẹp hoặc nhận dạng đối tượng hiếm.

 LinViT (Linear Vision Transformers): LinViT là một phương pháp nghiên cứu nhằm giảm độ phức tạp tính toán của ViTs Thay vì sử dụng fully- connected layers trong mô hình ban đầu, LinViT sử dụng các lớp tuyến tính (linear layers) và áp dụng một phép biến đổi tuyến tính trên các vector patch để giảm độ phức tạp tính toán và tăng tốc độ huấn luyện và khả năng khái quát hóa.

1 Overfitting là hiện tượng xảy ra khi mô hình máy học quá tập trung vào dữ liệu huấn luyện dẫn đến việc mô

 ViT-BERT: Nghiên cứu này kết hợp giữa Vision Transformers và mô hình ngôn ngữ BERT (Bidirectional Encoder Representations from Transformers) ViT-BERT nhắm vào việc tăng cường khả năng hiểu ngữ nghĩa của ViTs bằng cách học các mối quan hệ ngữ nghĩa giữa các đối tượng trong ảnh và sử dụng tri thức ngôn ngữ từ BERT để cải thiện độ chính xác của mô hình Kết quả nghiên cứu cho thấy ViT-BERT có khả năng hiểu ngữ nghĩa tốt hơn và đạt được kết quả tốt trong các tác vụ như phân loại ảnh và nhận dạng đối tượng Nghiên cứu mở ra tiềm năng để kết hợp các mô hình khác nhau như ngôn ngữ và thị giác để đạt được hiệu quả tốt hơn trong việc hiểu và phân tích dữ liệu đa dạng.

 ViP (Vision Permutator): ViP là một phương pháp nghiên cứu mới nhằm tăng cường khả năng mô hình học các đặc trưng không gian của ViTs Thay vì sử dụng cách chia patch truyền thống, ViP đề xuất một cách tiếp cận mới bằng cách sắp xếp các patch một cách ngẫu nhiên để tạo ra những biểu diễn không gian mới và đa dạng hơn, giúp cải thiện khả năng học của ViTs về các đặc trưng không gian.

Các nghiên cứu liên quan đến ViTs đang tạo ra những tiến bộ đáng kể trong việc cải tiến mô hình và mở rộng ứng dụng của nó trong lĩnh vực thị giác máy tính. Những bài học từ những nghiên cứu này có thể áp dụng để cải thiện hiệu suất, khả năng khái quát hóa và hiểu biết của ViTs trong các tác vụ thị giác máy tính và mở ra tiềm năng phát triển cho sự kết hợp và tăng cường với các mô hình khác.

PHƯƠNG PHÁP HUẤN LUYỆN TỰ GIÁM SÁT CHO VISION TRANSFORMERS

Tầm quan trọng của phương pháp huấn luyện tự giám sát trong thị giác máy tính

Các thành công gần đây của các mô hình Transformer trong phân loại ảnh đã thu hút sự quan tâm lớn trong cộng đồng thị giác máy tính Tuy nhiên, việc tiền huấn luyện (pretraining) của mô hình Vision Transformer chủ yếu phụ thuộc vào việc sử dụng các tập dữ liệu quy mô rất lớn thông qua học có giám sát, ví dụ như các tập dữ liệu chứa hàng trăm triệu mẫu được gán nhãn và đây cũng là tiêu chuẩn trong lĩnh vực thị giác máy tính để đạt được hiệu suất tốt hơn nhờ vào tập dữ liệu lớn Sở dĩ nó cần nhiều dữ liệu như vậy xuất phát từ việc thiếu yếu tố gọi là

“inductive bias 2 ” trong ViT Gần đây, đã có nghiên cứu chỉ ra rằng vision transformer có thể hoạt động tốt trên tập dữ liệu ImageNet-1K 3 mà không cần sử dụng dữ liệu bên ngoài Tuy nhiên, để đạt được điều này, chúng cần sử dụng các phương pháp truyền thụ và hướng dẫn từ các mạng CNN.

Việc huấn luyện mạng nơ-ron sử dụng học có giám sát với một nhãn cho mỗi ảnh có thể tương ứng với việc mạng nơ-ron được đào tạo có trải nghiệm thị giác bị hạn chế, vì mạng nơ-ron có thể không học từ thông tin thị giác phong phú như không gian, ngữ cảnh và các mối liên quan trong không gian ảnh mà con người có thể cảm nhận được một cách tự nhiên ngoài đời thường Điều này có thể ảnh hưởng đến khả năng tổng quát hóa của mạng nơ-ron Hơn nữa, việc sử dụng nhãn làm tín

2 Inductive bias trong machine learning là những giả định, kiến thức, hay thiên hướng được tích lũy trong mô hình để giúp nó học và tổng quát hóa từ dữ liệu huấn luyện Nó giới hạn không gian giả thiết và tập trung vào các giả định hợp lý, giúp mô hình học những mẫu phổ biến và hạn chế khả năng học các mẫu không phổ biến hoặc nhiễu.

3 ImageNet-1K là một tập dữ liệu lớn gồm khoảng 1,2 triệu hình ảnh được phân thành 1000 lớp khác nhau Tập dữ liệu này đóng vai trò quan trọng trong việc huấn luyện và đánh giá các mô hình học sâu trong lĩnh vực thị hiệu giám sát trong quá trình học máy, đặc biệt là việc chỉ sử dụng một nhãn cho mỗi ảnh tự nhiên, có thể gây ra một vấn đề không xác định vì mỗi ảnh có thể có nhiều khái niệm, đối tượng hoặc đặc điểm khác nhau Trong ảnh tự nhiên, có thể có nhiều khái niệm chung giữa các hình ảnh khác nhau trong khi nhãn được gán khác nhau vì mỗi lần gán nhãn thì đối tượng trong ảnh có thể khác nhau Điều này có thể gây nhầm lẫn cho mạng nơ-ron và dẫn đến việc tạo ra các đặc trưng thiếu biểu thông tin biểu đạt đến dữ liệu đã được gán nhãn Đánh dấu mọi khái niệm quan trọng trong mỗi hình ảnh cũng có thể là không khả thi Để giải quyết những hạn chế này, các phương pháp học tự giám sát (SSL) đã được đề xuất để huấn luyện mạng nơ-ron có khả năng tổng quát hóa tốt hơn cho nhiều nhiệm vụ phụ và xây dựng các biểu diễn hình ảnh có ý nghĩa từ dữ liệu không được gán nhãn.

Phương pháp huấn luyện tự giám sát (SSL) đã trở thành một phương pháp quan trọng và mạnh mẽ trong lĩnh vực thị giác máy tính Thay vì dựa vào dữ liệu được gán nhãn sẵn, phương pháp này tận dụng dữ liệu không gian rộng và thiết kế các nhiệm vụ tự động tạo dữ liệu nhãn ảo từ dữ liệu không gian rời rạc.

Tầm quan trọng của phương pháp huấn luyện tự giám sát trong thị giác máy tính có thể được thể hiện qua các điểm sau:

 Sử dụng dữ liệu không gian rộng: Trong thị giác máy tính, việc có một lượng lớn dữ liệu huấn luyện là rất quan trọng để đạt được hiệu suất tốt Tuy nhiên, việc gán nhãn cho dữ liệu có thể tốn nhiều thời gian và công sức Phương pháp huấn luyện tự giám sát cho phép tận dụng dữ liệu không gian rộng mà không cần đòi hỏi dữ liệu được gán nhãn, giúp tăng cường khả năng huấn luyện và mở rộng khả năng ứng dụng của các mô hình thị giác máy tính.

 Tiết kiệm thời gian và công sức: Việc gán nhãn cho dữ liệu huấn luyện là một công việc tốn kém và tốn nhiều công sức Phương pháp huấn luyện tự giám sát giúp giảm bớt công việc này bằng cách tự động tạo dữ liệu nhãn ảo từ dữ liệu không gian rời rạc Điều này giúp tiết kiệm thời gian và công sức cho các nhà nghiên cứu và giảm thiểu sự phụ thuộc vào việc có sẵn dữ liệu huấn luyện được gán nhãn.

 Khả năng tổng hợp thông tin: Phương pháp huấn luyện tự giám sát thường yêu cầu mô hình học cách khôi phục hoặc dự đoán các thông tin bị ẩn trong dữ liệu không gian rời rạc Điều này đòi hỏi mô hình phải học cách tổng hợp thông tin từ nhiều phần khác nhau của hình ảnh và hiểu được các mối quan hệ giữa các phần đó Như vậy, phương pháp này khuyến khích mô hình học được các đặc trưng không gian phức tạp và cải thiện khả năng tổng hợp thông tin của mô hình.

 Tạo điều kiện cho Deep Learning: Phương pháp huấn luyện tự giám sát tạo điều kiện thuận lợi cho việc áp dụng các mô hình học sâu như Transformers trong thị giác máy tính ViTs là một ví dụ điển hình, và phương pháp này đã chứng minh khả năng của nó trong việc học đại diện toàn cục từ dữ liệu không có nhãn.

Ngoài những ưu điểm và tầm quan trọng của phương pháp huấn luyện tự giám sát trong thị giác máy tính, nó vẫn có một số hạn chế như sau:

 Phụ thuộc vào chất lượng dữ liệu: Phương pháp huấn luyện tự giám sát dựa vào việc tạo ra dữ liệu nhãn ảo từ dữ liệu không gian rời rạc Tuy nhiên, chất lượng của dữ liệu nhãn ảo có thể không luôn chính xác và đáng tin cậy Nếu dữ liệu nhãn ảo không phản ánh đúng thông tin thực tế trong hình ảnh, mô hình huấn luyện tự giám sát có thể bị lệch và không thể đạt được hiệu suất tốt.

 Khó khăn trong xác định nhiệm vụ huấn luyện: Một yếu tố quan trọng của phương pháp huấn luyện tự giám sát là thiết kế các nhiệm vụ tự động tạo dữ liệu nhãn ảo Việc xác định các nhiệm vụ này có thể khá khó khăn và đòi hỏi sự chuyên môn và hiểu biết sâu về lĩnh vực thị giác máy tính Nếu nhiệm vụ được lựa chọn không phù hợp hoặc không thể tạo ra dữ liệu nhãn ảo có ý nghĩa, hiệu quả của phương pháp huấn luyện tự giám sát có thể bị giảm.

 Khả năng khái quát hóa hạn chế: Một trong những thách thức của huấn luyện tự giám sát là đảm bảo khả năng khái quát hóa của mô hình Vì không có thông tin nhãn chính xác từ dữ liệu huấn luyện, mô hình có thể học những đặc trưng không phản ánh sự đa dạng và biến đổi của dữ liệu thực tế Điều này có thể dẫn đến hiện tượng overfitting hoặc khả năng ứng dụng của mô hình bị hạn chế trong các tác vụ thực tế.

 Đòi hỏi lượng dữ liệu lớn: Mặc dù phương pháp huấn luyện tự giám sát giúp tận dụng dữ liệu không gian rộng, nhưng để đạt được hiệu suất tốt, vẫn cần một lượng lớn dữ liệu huấn luyện Mô hình huấn luyện tự giám sát có thể đòi hỏi nhiều dữ liệu hơn so với các phương pháp huấn luyện giám sát truyền thống, đặc biệt là trong những tác vụ phức tạp và đòi hỏi sự tổng hợp thông tin cao.

Các phương pháp huấn luyện tự giám sát được áp dụng cho ViTs

Trong lĩnh vực thị giác máy tính, phương pháp huấn luyện tự giám sát (self- supervised training) đã trở thành một lĩnh vực nổi bật và mạnh mẽ, giúp cải thiện hiệu suất của các mô hình nhận dạng và phân loại hình ảnh Với sự phát triển nhanh chóng của Vision Transformers (ViTs), các nhà nghiên cứu đã áp dụng các phương pháp huấn luyện tự giám sát để nâng cao khả năng tổng hợp thông tin và hiệu suất của ViTs.

Các phương pháp huấn luyện tự giám sát đã đóng góp đáng kể vào sự phát triển của lĩnh vực thị giác máy tính Trong đó có ba phương pháp tự giám sát phổ biến là học chuyển đổi (contrastive learning), dự đoán đánh giá (predictive learning) và tự sinh ảnh (self-generated image) Các phương pháp này sẽ được điều chỉnh và áp dụng một các phù hợp với đặc trưng và yêu cầu của mô hình ViT, cụ thể:

 Học chuyển đổi (Contrastive Learning): Phương pháp này tạo ra các cặp ảnh giống nhau và khác nhau từ một hình ảnh gốc để đánh giá sự tương đồng giữa chúng Một ảnh gốc sẽ được biến đổi bằng cách áp dụng các phép biến đổi như cắt, xoay, lật và sắp xếp các patch theo thứ tự ngẫu nhiên Sau đó, mỗi cặp dữ liệu ảnh được đưa qua một Vision Transformer để tạo ra các biểu diễn Mô hình ViTs được huấn luyện để tối thiểu hóa khoảng cách giữa các biểu diễn của các cặp dữ liệu giống nhau và tăng khoảng cách giữa các biểu diễn của các cặp dữ liệu khác nhau Điều này giúp mô hình học cách tổng hợp thông tin và hiểu các mối quan hệ giữa các đặc trưng không gian hình ảnh.

 Dự đoán đánh giá (Predictive Learning): Trong phương pháp này, mô hình ViTs được huấn luyện để dự đoán một thuộc tính hoặc một phần của hình ảnh bị che khuất, một thuộc tính như màu sắc hoặc hình dạng của một đối tượng dựa trên các thông tin khác trong hình ảnh đó Quá trình dự đoán này đòi hỏi mô hình phải hiểu và tổng hợp thông tin từ các đặc trưng không gian khác nhau của hình ảnh Tuy nhiên, phương pháp này yêu cầu cần xác định và huấn luyện các nhiệm vụ dự đoán phù hợp.

 Tự sinh ảnh (Self-generated Image): Đầu tiên, mô hình Vision Transformer được huấn luyện trên một tập dữ liệu hình ảnh có sẵn.Sau đó, mô hình được sử dụng để tạo ra các ảnh giả tạo từ các biểu diễn đã học được Các ảnh giả tạo này được sử dụng làm dữ liệu huấn luyện để cải thiện mô hình VisionTransformer Mô hình tiếp tục được huấn luyện trên cả dữ liệu hình ảnh gốc và các ảnh giả tạo, từ đó học cách tổng hợp thông tin từ dữ liệu rời rạc và tạo ra các biểu diễn sâu sắc.

Các phương pháp huấn luyện tự giám sát này đều có những ưu điểm riêng và đã được chứng minh là hiệu quả trong việc tăng cường khả năng học của mô hìnhViTs Việc ứng dụng phương pháp nào còn phụ thuộc rất lớn vào bài toán cụ thể cần giải quyết và đặc điểm của dữ liệu hình ảnh đầu vào.

Quy trình huấn luyện tự giám sát cho ViTs

Một quy trình tổng quan của phương pháp huấn luyện tự giám sát cho Vision Transformers bao gồm các bước sau:

 Bước 1: Xây dựng tập dữ liệu tự giám sát o Thu thập hoặc tạo ra tập dữ liệu hình ảnh không được gán nhãn để tiến hành huấn luyện mô hình ViT. o Tạo các cặp dữ liệu giống nhau và khác nhau từ tập dữ liệu không gán nhãn Cặp dữ liệu giống nhau là các phiên bản biến đổi nhẹ (bao gồm cắt, xoay, lật, sắp xếp patch, hoặc tạo ảnh nhân tạo) của cùng một hình ảnh, trong khi cặp dữ liệu khác nhau là từ các hình ảnh khác nhau. o Xác định mục tiêu huấn luyện, chẳng hạn như dự đoán các thuộc tính, phần của hình ảnh hoặc học biểu diễn tương đồng.

 Bước 2: Tiền xử lý dữ liệu: o Thực hiện các phép biến đổi dữ liệu trước khi đưa vào mô hình, bao gồm điều chỉnh kích thước, cắt tỉa, lật ngược, xoay, và áp dụng các phép biến đổi tăng cường dữ liệu như xoay, dịch chuyển, lật ngược,hay áp dụng các bộ lọc, nhiễu, độ sáng, tương phản để tạo ra dữ liệu đa dạng Điều này giúp tăng cường khả năng tổng hợp thông tin và tạo ra dữ liệu huấn luyện đa dạng.

 Bước 3: Lựa chọn kiến trúc mô hình o Chọn kiến trúc Vision Transformer (ViT) phù hợp cho bài toán, tập dữ liệu và nhiệm vụ tự giám sát Có thể sử dụng các kiến trúc ViTs có sẵn hoặc tùy chỉnh kiến trúc để đáp ứng yêu cầu của bài toán cụ thể. o Lựa chọn số lớp, kích thước và số lượng các block trong mô hình, cũng như các siêu tham số khác như kích thước patch, số lượng heads, và chiều sâu của mô hình.

 Bước 4: Huấn luyện mô hình o Đưa dữ liệu tiền xử lý vào mô hình ViT. o Áp dụng các phương pháp huấn luyện tự giám sát như học chuyển đổi, dự đoán đánh giá hoặc tự sinh ảnh. o Tối ưu hóa mô hình bằng các thuật toán tối ưu hóa như stochastic gradient descent (SGD) hoặc Adam. o Điều chỉnh siêu tham số của mô hình và tập dữ liệu để đạt được hiệu suất tốt nhất.

 Bước 5: Đánh giá hiệu suất o Đánh giá hiệu suất của mô hình trên tập dữ liệu kiểm tra hoặc tập dữ liệu được gán nhãn (nếu có). o Sử dụng các độ đo như accuracy, precision, recall, F1-score hoặc các độ đo khác phù hợp với bài toán.

Quy trình này cung cấp một khung làm việc tổng quan để huấn luyện mô hìnhViT với phương pháp tự giám sát Tuy nhiên, các bước cụ thể và tham số cần được điều chỉnh cho phù hợp với từng bài toán cụ thể và tập dữ liệu.

NGHIÊN CỨU VÀ ĐÁNH GIÁ

Tìm hiểu phương pháp Group Masked Model Learning (GMML) và sơ lược về nghiên cứu

Các phương pháp tự giám sát có thể được phân loại thành hai nhóm chính là phương pháp generative (sinh ảnh) và phương pháp discriminative approaches (phân biệt) Các phương pháp generative học cách mô hình hóa phân phối của dữ liệu Tuy nhiên, việc mô hình hóa dữ liệu thường tốn nhiều tài nguyên tính toán và có thể không cần thiết cho việc học biểu diễn trong tất cả các tình huống Trong khi đó, các phương pháp discriminative approaches thường được thực hiện trong một Contrastive Learning Framework hoặc sử dụng Pre-text Tasks, cho thấy khả năng thu được các biểu diễn tổng quát tốt hơn với yêu cầu tính toán không quá cao.

Trong những năm gần đây, lĩnh vực thị giác máy tính đã đề xuất một loạt Pre- text Tasks mới bao gồm việc điền vào các miếng cắt, tô màu, vị trí miếng cắt tương đối, giải câu đố ghép, dự đoán qua các kênh, dự đoán nhiễu, dự đoán xoay ảnh, nhận diện hiện tượng sai lệch, v.v Những nhiệm vụ tiền đề này đã được khám phá trong việc sử dụng CNNs framework cho SSL Tuy nhiên, trong nghiên cứu này chúng ta sẽ phát triển Pretext framework cho Vision Transformers (ViTs) có thể nhận dạng ngữ cảnh cục bộ và toàn cục một cách liền mạch Khác với CNN, transformers không đặt giả thuyết về sự tương quan cục bộ Do đó để mô hình hóa sự giả thuyết tương quan hữu ích, ViTs yêu cầu một lượng lớn dữ liệu để hoạt động tương đương với CNN GMML Framework đề xuất cho phép ViTs học được giả thuyết tương quan cục bộ ngay cả từ một lượng dữ liệu nhỏ và cho phép ViTs hoạt động tương đương với CNNs ngay cả trên dữ liệu nhỏ trong khi vẫn giữ được lợi thế trên dữ liệu lớn.

Lõi của Self-supervised Vision Transformer (SiT) được xây dựng dựa trên ý tưởng đơn giản của GMML Khác với các phương pháp tự giám sát hiện có, GMML tận dụng sự trùng lặp thông tin và sự bổ sung nhau trong các transformer của hệ thống thị giác bằng cách học khôi phục/tái tạo nội dung cục bộ bằng cách liên kết nó với ngữ cảnh Theo đó, nguyên tắc này tương tự như mô hình MLM 4 được sử dụng trong BERT GMML mở rộng các nguyên tắc của MLM, bộ mã hóa tự động khử nhiễu và bộ mã hóa ngữ cảnh cho việc học tự giám sát của transformers Phương pháp tự giám sát được đề xuất này có vai trò quan trọng trong việc trích xuất mô hình dữ liệu bên trong và có khả năng thích ứng với các nhiệm vụ phụ trợ GMML được xác định là một SSL Framework độc lập mạnh mẽ vượt trội hơn tất cả các phương pháp tự giám sát hiện có và cũng vượt trội hơn so với Supervised Pretraining lần đầu tiên Nhờ tính linh hoạt về kiến trúc của transformers, SiT mở rộng thêm GMML và tận dụng lợi thế của cả Contrastive Learning và Pre-text Approaches.

Tóm tắt các đóng góp chính của nghiên cứu này:

1 Đề xuất Group Masked Model Learning (GMML), một khung tự giám sát mới cho việc học biểu diễn hình ảnh bằng cách sử dụng Vision Transformers GMML huấn luyện các mạng nơ-ron học sâu và học các biểu diễn một cách đa dạng bằng cách khôi phục một lượng lớn (lên đến 70%) thông tin hình ảnh bị thiếu bằng cách che giấu các nhóm các token và sử dụng ngữ cảnh có mặt trong các token hiển thị.

2 Trang bị kiến trúc GMML với một bộ giải mã và chứng minh rằng nó có thể được triển khai bằng cách sử dụng một bộ phân loại 2 lớp nhờ vào các đặc điểm bên trong bản chất của Transformer Mạng lưới tự mã hóa dựa trên Transformer này

4 Mô hình MLM (Masked Language Model) là một mô hình ngôn ngữ trong lĩnh vực xử lý ngôn ngữ tự nhiên và học sâu Mô hình này được sử dụng để học biểu diễn đặc trưng của từ và câu thông qua việc dự đoán các từ bị tránh việc cần có một khối giải mã hoàn chỉnh thường có trong kiến trúc mã hóa- giải mã (encoder-decoder) dựa trên CNNs.

3 Dựa trên khả năng tự mã hóa của Transformer hỗ trợ học đa nhiệm, chúng ta sẽ phát triển một Framework tự giám sát mạnh mẽ kết hợp tối ưu hóa các hàm mất mát khôi phục (GMML) và Contrastive.

4 Minh họa tính hiệu quả của Framework tự giám sát đề xuất trên các bài kiểm tra tiêu chuẩn theo các phương thức đánh giá khác nhau, bao gồm chuyển giao miền dữ liệu và tinh chỉnh lại mô hình.

5 Nó vượt trội so với các công trình cùng thời và sau này trên các tập dữ liệu khác nhau với khoảng cách lớn, đạt được cải tiến lên đến +5,4% khi các mô hình được tiền huấn luyện trên các tập dữ liệu nhỏ và đạt được hiệu suất tương đương với tình trạng tốt nhất khi các mô hình được tiền huấn luyện trên các tập dữ liệu quy mô lớn.

Các kỹ thuật Self-supervised tiên tiến

4.2.1 So sánh với các nghiên cứu đã có

Các phương pháp SSL thường đã được chứng minh có khả năng học các biểu diễn tốt hơn so với các phương pháp generative approaches Các phương pháp phân biệt thường được triển khai bằng cách sử dụng Pre-text Tasks hoặc Contrastive Learning Framework Cơ chế tiền huấn luyện cơ bản của Pre-text Tasks được thiết kế thủ công là tự động mã hóa, đòi hỏi mạng tìm ra một biểu diễn cho phép khôi phục lại hình ảnh đầu vào, ngay cả khi nó bị hỏng bởi các sự xáo trộn hoặc nhiễu Nhiều Self-supervised Pretext Tasks điều chỉnh dữ liệu đầu vào để có được biểu diễn hình ảnh tốt hơn Ví dụ, Pathak 5 cùng những người đồng đội đã huấn luyện một mạng tích chập để dự đoán nội dung của các vùng bị mất ngẫu nhiên trong một hình ảnh dựa trên phần còn lại của hình ảnh đó Mục đích đằng sau công việc này là để

5 Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, and Alexei A Efros Context encoders: Feature learning by inpainting In Proceedings of the IEEE conference on computer vision and pattern mạng tạo ra các giả thuyết hợp lý cho các phần bị mất, bộ mã hóa cần hiểu nội dung của toàn bộ hình ảnh Trên cùng một quan điểm, đội nhóm của Zhang 6 đã đề xuất một nhiệm vụ màu hóa hình ảnh bằng cách dự đoán phiên bản có màu của hình ảnh xám đầu vào và sử dụng cân bằng lớp để tăng tính đa dạng của các màu dự đoán Nhìn chung, các phương pháp dựa trên Pre- text như vậy mạnh mẽ trong việc học các biểu diễn hữu ích từ dữ liệu không có nhãn, tuy nhiên, chúng giới hạn sự tổng quát của việc học các biểu diễn phân biệt giữa các mẫu khác nhau, trong khi các phương pháp học đối nghịch phù hợp hơn.

Các phương pháp học đối nghịch (Contrastive approaches) huấn luyện mạng bằng cách đưa các biểu diễn của các phiên bản tăng cường khác nhau của cùng một hình ảnh gần nhau và tăng khoảng cách giữa các biểu diễn của các phiên bản từ các hình ảnh khác nhau Nói chung, các phương pháp dựa trên học đối nghịch thường thực hiện tốt hơn so với các phương pháp dựa trên Pre-text Tasks Chen 7 đã đề xuất SimCLR, một thuật toán học không giám sát đối nghịch không yêu cầu kiến trúc đặc biệt hoặc một bộ nhớ nào cả SimCLR là một khung cơ bản để học các biểu diễn từ hình ảnh không có nhãn dựa trên tăng cường dữ liệu bằng cách tối đa hóa độ tương đồng giữa hai cách nhìn tăng cường từ cùng một hình ảnh Huấn luyện mạng với mục tiêu này cải thiện chất lượng các biểu diễn học được trong việc phân biệt giữa các mẫu một cách đáng kể Trong quá trình huấn luyện, để đảm bảo rằng các mẫu đủ thông tin và đa dạng, các phương pháp này thường áp dụng các kỹ thuật đặc biệt nhằm tránh sự suy giảm chất lượng của biểu diễn học được, được gọi là "representation collapse".

6 Richard Zhang, Phillip Isola, and Alexei A Efros Colorful image colorization In European conference on computer vision, pages 649–666 Springer, 2016.

7 Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton A simple framework for contrastive learning of visual representations In International conference on machine learning, pages 1597–1607 PMLR,

Các phương pháp dựa trên phân cụm sâu (Deep clustering-based methods) học biểu diễn bằng cách phân cụm các hình ảnh trong không gian embedding Phương pháp DeepCluster sử dụng biểu diễn hiện tại để phân cụm các điểm dữ liệu và tạo ra nhãn cho biểu diễn tiếp theo Chỉ số cụm của mỗi mẫu được sử dụng làm mục tiêu phân loại cho biểu diễn mới Phương pháp này tốn nhiều tài nguyên tính toán vì yêu cầu một giai đoạn phân cụm và cần đảm bảo tránh kết quả phân cụm không mang lại ý nghĩa hay giá trị đối với việc học biểu diễn.

Hjelm et al 8 nghiên cứu việc sử dụng thông tin chung (mutual information) cho việc học biểu diễn không giám sát thông qua Deep InfoMax Phương pháp này tối đa hóa thông tin chung ở cấp độ toàn cục và cục bộ trên các mảnh cấu trúc trong một hình ảnh theo nguyên lý InfoMax.

Trong nghiên cứu này, chúng ta sẽ khai thác lợi thế của cả phương pháp Pre-text và phương pháp Generative Approaches để học các biểu diễn hữu ích và phân biệt giữa các mẫu khác nhau bằng cách sử dụng một khung nền đơn giản dựa trên Transformer cho việc học tự giám sát.

4.2.2 So sánh với phương pháp ra đời sau

Gần đây, đã có nhiều phương pháp sử dụng những nguyên tắc được đề cập trong GMML vào đầu năm 2021 Trong phần này, ta sẽ giới thiệu ngắn gọn về những điểm tương đồng và khác biệt giữa GMML với một số phương pháp sau đây Hai phương pháp sau đây đáng chú ý là SimMIM 9 và MAE 10

8 R Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, Karan Grewal, Phil Bachman, Adam Trischler, and Yoshua Bengio Learning deep representations by mutual information estimation and maximization In

International Conference on Learning Representations (ICLR), 2019

9 Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Jianmin Bao, Zhuliang Yao, Qi Dai, and Han Hu Simmim: A simple framework for masked image modeling In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 653–9663, 2022.

10 Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollar, and Ross Girshick Masked autoencoders are

Tương tự như GMML, cả SimMIM và MAE đều sử dụng nguyên tắc của mô hình mã hóa tự động dựa trên Transformer Cả hai phương pháp này đều tạo ra một tỷ lệ cao các token dữ liệu bị che khuất một cách ngẫu nhiên Tuy nhiên, chúng ta nhận thấy rằng khi chọn để che khuất một phần rất lớn của dữ liệu, tức là không sử dụng hoặc không tiếp cận một số lượng lớn các phần tử dữ liệu, điều này sẽ dẫn đến việc xác định các nhóm các phần tử dữ liệu có mối liên kết với nhau Nghĩa là, bằng cách che khuất một số lượng lớn các phần tử dữ liệu, chúng ta tạo ra các nhóm các phần tử dữ liệu có liên kết với nhau, tạo thành những khối thông tin riêng biệt Chúng ta cũng nhận thấy rằng tỷ lệ che khuất tối ưu của chúng rất giống với GMML Theo ý tưởng DropToken trong VATT 11 , MAE bỏ qua các token bị che khuất trong quá trình mã hóa và sử dụng chúng trong quá trình giải mã để tái tạo hình ảnh. Tuy nhiên, việc bỏ qua các token bị che khuất này đòi hỏi MAE sử dụng một mô hình giải mã phức tạp gồm từ sáu đến mười hai lớp Transformer, khác với GMML chỉ sử dụng hai lớp Convolutional Ta nhận thấy rằng thời gian chạy thực tế cho quá trình tiền huấn luyện của MAE và GMML là tương đồng cho mô hình ViT-B, trong khi thời gian huấn luyện việc huấn luyện MAE mất nhiều thời gian hơn so với GMML đối với mô hình ViTs do giải mã phức tạp của MAE Hơn nữa, do thiếu điều kiện đặc thù, hiệu suất của MAE giảm đáng kể đối với các tập dữ liệu nhỏ và MAE chỉ đạt hiệu suất tương đương với GMML đối với các tập dữ liệu lớn SimMIM rất giống với GMML, sự khác biệt duy nhất đáng chú ý là GMML sử dụng cả nhiễu và khái niệm phi thực tế bên cạnh việc che khuất bằng giá trị 0, trong khi SimMIM chỉ sử dụng che khuất bằng giá trị 0 Hơn nữa, sự biến đổi

11 Hassan Akbari, Liangzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, and Boqing Gong Vatt: Transformers for multimodal self-supervised learning from raw video, audio and text Advances in Neural

(corruption) trong SimMIM được áp dụng sau khối patch projection, trong khi đó ở GMML, sự biến đổi được áp dụng trực tiếp lên các pixel của ảnh.

Phương pháp khác đáng chú ý trong lĩnh vực nghiên cứu sau này đó là BeIT 12 BeIT sử dụng kiến thức bên ngoài bằng cách sử dụng một bộ mã hóa được huấn luyện không giám sát để nhóm các khối hình ảnh nhằm định nghĩa từ vựng hình ảnh Điều này cho phép sử dụng cross entropy làm hàm mất mát, giống như trong BERT 13 Tuy nhiên, khác với BERT, các lớp được đưa ra từ nguồn kiến thức bên ngoài mặc dù được huấn luyện không có giám sát Nó có thể được coi là một trường hợp đắt đỏ và cực đại của việc cô đọng patch thông qua bộ mã hóa được huấn luyện giám sát hoặc không giám sát. Thứ hai, nó sẽ mắc các vấn đề liên quan đến từ vựng hình ảnh như số lượng từ vựng hình ảnh cố định, lỗi tỷ lệ, sự không rõ ràng về mặt hình ảnh khi gán cho các cụm trung tâm và vấn đề khác liên quan đến khái niệm hình ảnh.

Giải thích phương pháp

Học có giám sát (Supervised Learning) cho phép Transformer học một biểu diễn bottleneck (hạn chế) trong đó sự kết hợp giữa nội dung và ngữ cảnh tập trung chủ yếu vào class token Điều này tạo ra một mô hình tương đối hời hợt với dữ liệu, tức là mô hình chỉ tập trung vào biểu diễn toàn cục của dữ liệu mà bỏ qua các chi tiết cụ thể, và việc liên kết với nhãn yêu cầu một lượng lớn mẫu huấn luyện Ngược lại, phương pháp GMML dựa trên học không giám sát tận dụng sự trùng lặp thông tin và sự bổ sung lẫn nhau trong dữ liệu hình ảnh bằng cách học tái tạo nội dung cục bộ bằng cách tích hợp nó với bối cảnh Phương pháp học tự giám sát được đề xuất đóng vai trò quan trọng trong việc trích xuất mô hình dữ liệu nội tại, vừa có khả

12 Hangbo Bao, Li Dong, and Furu Wei Beit: Bert pre-training of image transformers arXiv preprint arXiv:2106.08254, 2021.

13 Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova Bert: Pre-training of deep bidirectional năng chịu những biến động và vừa có khả năng thích nghi với các tác vụ phụ bằng cách tinh chỉnh lại (finetuning).

Những ưu điểm đáng chú ý mà phương pháp mang lại:

 The Self-supervised Transformer có thể được huấn luyện với dữ liệu chưa được gán nhãn.

 Số lượng dữ liệu huấn luyện có nhãn cần thiết cho việc tinh chỉnh để học một tác vụ phụ thấp hơn hai bậc so với dữ liệu huấn luyện trực tiếp.

 Tổng lượng dữ liệu huấn luyện (có nhãn và không nhãn) cũng thấp hơn nhiều về độ lớn.

 Hiệu suất đạt được tốt hơn đáng kể so với các phương pháp tự giám sát tiên tiến nhất.

Phương pháp đề xuất về việc tiền huấn luyện Transformer bằng tự giám sát dự kiến sẽ có một tác động đáng kể đối với sự tiến bộ của khoa học bằng cách cho phép cộng đồng nghiên cứu rộng hơn, có thể đóng góp vào việc học sâu dù tài nguyên vẫn còn hạn chế.

Vì vậy, mục tiêu chính của nghiên cứu này là học một biểu diễn của dữ liệu theo kiểu không giám sát Điều này được đạt được bằng cách khôi phục một phần hình ảnh bị che khuất hoặc biến đổi cục bộ của hình ảnh được biểu diễn bằng các data token tại đầu vào của Vision Transformer Giả thuyết cơ bản là, thông qua việc khôi phục các token/phần hỏng của một hình ảnh từ các token/phần không bị hỏng dựa trên ngữ cảnh từ toàn bộ trường hình ảnh, mạng sẽ ngầm học khái niệm tính toàn vẹn hình ảnh Khái niệm tính toàn vẹn hình ảnh này được nâng cao hơn bằng cách sử dụng các nhãn giả có thể được tạo tự động dựa trên một số thuộc tính của dữ liệu Học từ việc khôi phục các phần bị biến đổi và học từ nhãn giả có thể khác nhau nhưng động lực cơ bản đằng sau cả hai loại cơ chế học tự giám sát này là giống nhau, tức là học tính toàn vẹn hình ảnh Ví dụ, có thể hiểu rằng mạng chỉ có thể khôi phục các nhãn giả nếu nó học các thuộc tính đặc trưng của các kích thích hình ảnh tương ứng với các hành động cụ thể tác động đến đầu vào hình ảnh Trọng số của mô hình đã học sau đó có thể được sử dụng làm điểm khởi đầu cho bất kỳ tác vụ phụ nào như phân loại hình ảnh, phát hiện đối tượng, phân đoạn, v.v Để đạt được mục tiêu này, ta sẽ đề xuất một Self-supervised Vision Transformer (SiT) trong đó mô hình được huấn luyện thông qua học mô hình che khuất nhóm và ước lượng các biến đổi hình học khác nhau được áp dụng cho hình ảnh đầu vào và do đó, có thể thu được biểu diễn hình ảnh tốt hơn.

Hình 4.1 - Self-supervised Vision Transformer (SiT)

Vision Transformer nhận đầu vào là một chuỗi các patch nhận được bằng cách chia nhỏ hình ảnh đầu vào x  RH × W × C thành n patch hai chiều có kích thước p1 × p2 × C pixel, trong đó H, W và C lần lượt là chiều cao, chiều rộng và số kênh của hình ảnh đầu vào, (p1 × p2) là kích thước patch, và n là số patch,tức n = (H/p1) × (W/p2) Mỗi patch sau đó được chiếu qua một lớp tuyến tính thành D chiều ẩn Toàn bộ quá trình này cũng có thể được thực hiện bằng cách sử dụng một lớp tích chập với kích thước kernel p1 × p2, số kênh đầu vào và đầu ra lần lượt là C và D Để giữ lại mối quan hệ không gian tương đối giữa các patch, các position embeddings có thể được thêm vào các lớp nhúng patch như một đầu vào cho bộ mã hóa Transformer.

Bộ mã hóa Transformer bao gồm L khối Multi-head Self-Attention (MSA) và Multi-Layer Perceptron (MLP) liên tiếp Lớp MSA được định nghĩa bởi h self-attention heads với mỗi attention head đầu ra một chuỗi có kích thước n × d Cơ chế Self-attention được sử dụng dựa trên bộ ba có thể được huấn luyện (query, key, value) Mỗi vector query trong Q ∈ R n × d được so khớp với một tập hợp các vector key K ∈ R n × d , và kết quả sau đó được chuẩn hóa bằng hàm softmax và nhân với một tập giá trị V ∈ R n × d Do đó, đầu ra của khối Self- attention là tổng có trọng số của V như được hiển thị trong ngay bên ảnh dưới. Chuỗi đầu ra của mỗi khối sau đó được ghép vào thành một chuỗi có kích thước n × dh và được chiếu qua một lớp tuyến tính thành một chuỗi có kích thước n × D.

Hình 4.7 - Công thức đầu ra của khối Self-attention Để phục vụ cho nhiệm vụ phân loại, một vector có thể được huấn luyện (tức là class token) được thêm vào sau chuỗi đầu vào của các token patch và đi qua bộ mã hóa Transformer Cuối cùng, một đầu phân loại được thêm vào đầu ra của bộ mã hóa Transformer tương ứng với class token Đầu phân loại được thực hiện bằng một lớp tuyến tính duy nhất để chiếu class embeddings vào số lượng lớp.

Khác với ViT, công việc trong bài nghiên cứu này là dựa trên việc học/tiền huấn luyện không giám sát, do đó, không cần class token Thay vào đó, ta sẽ có một token đối lập, bên cạnh các token dữ liệu (các token patch hình ảnh) được sử dụng để tái tạo hình ảnh, để phục vụ cho các nhiệm vụ tiền huấn luyện tự học được đề xuất Token đối lập được áp dụng từ SimCLR, mô tả trong Phần 4.3.2.2, được sử dụng để phục vụ cho nhiệm vụ dự đoán đối lập.

Như đã đề cập trước đó, kiến trúc transformer cho phép tích hợp liền mạch việc học nhiều tác vụ đồng thời Chúng ta sẽ tận dụng ưu điểm này của transformer để huấn luyện SiT với hai mục tiêu khác nhau: (1) Tái tạo hình ảnh dựa trên GMML và (2) Contrastive learning Trong phần còn lại, chúng ta tiến hành mô tả các loại nhiệm vụ tự học được sử dụng trong nghiên cứu này.

4.3.2.1 Task 1: Tái tạo hình ảnh (Image Reconstruction) Đối với nhiệm vụ này, ta sẽ đề xuất sử dụng transformer như một bộ mã hóa tự động Khác với bộ mã hóa tự động dựa trên CNNs, yêu cầu bộ mã hóa và bộ giải mã phức tạp và tốn kémbao gồm các lớp tích chập và lớp tích chập chuyển vị, bộ giải mã trong bộ mã tự động transformer có thể được triển khai bằng cách sử dụng một bộ giải mã đơn giản Một hạn chế của bộ mã hóa dựa trên CNN là bước tóm tắt thông tin trong đó thông tin được vứt bỏ bằng cách sử dụng tích chập bước nhảy hoặc các phép tổng cực đại.Thông tin này sau đó được khôi phục bằng chuỗi các hoạt động phóng to và tích chập (hoặc tích chập chuyển vị) với kết nối bỏ qua (skip connection) giữa bộ mã hóa và bộ giải mã Tương tự như auto-encoder, mạng của chúng ta trình bày được huấn luyện để tái tạo hình ảnh đầu vào thông qua các token đầu ra của transformer Để học các biểu diễn ngữ nghĩa tốt hơn của hình ảnh đầu vào, chúng ta áp dụng Group Masked Model Learning (GMML) bằng cách áp dụng một số biến đổi cho các patch cục bộ của hình ảnh Khác với việc mask các token tiêu chuẩn trong BERT, chúng ta áp dụng các biến đổi cục bộ này cho một khối các token hàng xóm (các token liền kề nhau) được sắp xếp không gian (trong không gian 2D chứ không chỉ trong chuỗi) Trong BERT và các transformer khác dựa trên NLP, việc mask một token duy nhất là hợp lý, vì một token đơn có thể đại diện cho ý nghĩa ngữ nghĩa riêng Tuy nhiên, đối với tín hiệu hình ảnh, việc biến đổi các token “hàng xóm” gồm một hoặc nhiều khái niệm ngữ nghĩa là rất quan trọng Mục tiêu là khôi phục các phần cục bộ đã được biến đổi này ở đầu ra của SiT Qua đó, SiT ngầm hiểu các khái niệm ngữ nghĩa trong hình ảnh Lưu ý rằng các token đã được biến đổi này có thể nằm trên đối tượng phía trước hoặc phía sau, và việc khôi phục các token này có giá trị tương đương cho cả hai trường hợp Thực tế, trong quá trình mô hình hóa tín hiệu hình ảnh theo cách này, chúng ta không chỉ tập trung vào việc phân biệt phần mặt trước và phần nền của hình ảnh Thay vào đó, chúng ta coi mỗi phần của nội dung hình ảnh là một khái niệm ngữ nghĩa độc lập, bất kể đó là đối tượng chính của ảnh hay không nhằm để mô hình SiT có khả năng tổng quát hóa tốt hơn cho các nhiệm vụ chưa được quan sát trước, dù liên quan đến một đối tượng cụ thể, một đối tượng phân tán hoặc toàn bộ tín hiệu hình ảnh.

Image inpainting (Tái tạo hình ảnh) là một pre-text task đơn giản nhưng hiệu quả cho self-supervision, nơi mạng neural được huấn luyện để dự đoán các khu vực bị biến đổi bất kỳ dựa trên bối cảnh Bối cảnh này có thể từ cùng một đối tượng mà khu vực bị biến đổi được áp dụng, hoặc từ các đối tượng xung quanh Với CNN, bối cảnh này được xác định bằng trường nhận thức (receptive field), trong khi với transformers, bối cảnh bao gồm toàn bộ hình ảnh Ý tưởng đằng sau việc khôi phục hình ảnh là mạng neural cần học được kiến thức bao gồm màu sắc, kết cấu và cấu trúc của các đối tượng để suy ra các khu vực bị thiếu Trong nhiệm vụ này, chúng ta sử dụng hai loại khôi phục hình ảnh, là khôi phục ngẫu nhiên bằng cách ngẫu nhiên thay thế các phần tử hàng xóm trong hình ảnh bằng nhiễu ngẫu nhiên và khôi phục ngẫu nhiên bằng cách ngẫu nhiên thay thế các phần tử trong hình ảnh bằng các phần tử từ hình ảnh khác.

Mục tiêu của việc khôi phục hình ảnh là khôi phục lại hình ảnh ban đầu từ hình ảnh bị lỗi Đối với nhiệm vụ này, chúng ta sử dụng mất mát 1-loss giữa hình ảnh ban đầu và hình ảnh đã tái tạo như được hiển thị trong công thức bên dưới Mặc dù mất mát 2-loss thường hội tụ nhanh hơn so với 1- loss, nhưng mất mát 2-loss có thể làm mờ biên giới hơn cho việc khôi phục hình ảnh Do đó, mất mát `1-loss thường được sử dụng phổ biến hơn cho xử lý hình ảnh qua hình ảnh (image-to-image).

Hình 4.8 - Công thức hàm mất mát (1-loss) sử dụng trong tái tạo hình ảnh

Trong đó, ||.|| là chuẩn l1, xi là là hình ảnh đầu vào, ´ x i là hình ảnh bị lỗi, N là kích thước batch, và W đại diện cho các tham số của transformer được học trong quá trình huấn luyện Cuối cùng, hàm SiTrecons(.) trả về hình ảnh đã tái tạo bằng cách đưa đầu ra của các token dữ liệu từ phần gốc E(.), tức là vision transformer, đến bộ giải mã đơn giản D(), do đó SiTrecons(.) = D(E(.)[datatokens]).

Trong quá trình Self-supervised Learning, chúng ta không có bất kỳ nhãn khái niệm nào cho dữ liệu huấn luyện Tuy nhiên, bằng cách áp dụng các biến đổi hình học và biến đổi nhiễu cho một mẫu huấn luyện, chúng ta không thay đổi hay mất đi tính chất đặc trưng vốn có của nội dung Vì vậy, transformer được kỳ vọng sẽ tạo ra các đầu ra tương tự cho các cặp dữ liệu có nội dung tương tự Điều này đảm bảo rằng các biểu diễn của các nội dung tương đồng sẽ gần nhau trong không gian biểu diễn của mô hình Chúng ta sử dụng độ tương đồng góc để đo lường mức độ tương đồng của các biểu diễn Lấy cảm hứng từ các thuật toán Contrastive Learning 14 gần đây, ta tích hợp một hàm mất mát tương phản vào hàm mục tiêu, trong đó mạng được huấn luyện để giảm khoảng cách giữa positive pairs, tức là các hình ảnh được mở rộng từ cùng một hình ảnh đầu vào, và tăng cường khoảng cách giữa negative pairs, tức là các mẫu từ các hình ảnh đầu vào khác nhau Cụ thể, ta sử dụng sự tương tự softmax được chuẩn hóa theo temperature-scaled giữa một mẫu xi và bất kỳ điểm xj nào khác được định nghĩa như sau:

Hình 4.9 - Normalized Temperature-Scaled Softmax Similarity

Kết quả thực nghiệm và thảo luận

Phương pháp đánh giá phổ biến để chứng minh tính tổng quát của các đặc trưng đã học bằng các phương pháp Self-supervised là tiền huấn luyện mô hình theo phương thức không giám sát, sau đó điều chỉnh mô hình trên một tác vụ phụ thuộc như phân loại hình ảnh, phát hiện đối tượng, phân đoạn, v.v Trong công việc này,chúng ta sẽ tiến hành một số thử nghiệm trên các bộ dữ liệu đa lớp và đa nhãn nổi tiếng khác nhau (trình bày ngay bảng dưới), cũng như trên tác vụ phân đoạn các thể hiện của video để chứng minh hiệu quả của Self-supervised ViTs đã đề xuất.

Hình 4.13 - Bảng thống kê dữ liệu được sử dụng

4.4.1 Chi tiết cách thực hiện

Tiến hành triển khai kiến trúc tự giám sát bằng cách sử dụng Vision Transformer, chủ yếu sử dụng biến thể nhỏ của ViTs với kích thước ảnh đầu vào là 224 × 224, kích thước patch là 16 × 16, chiều ẩn (kích thước không gian đặc trưng ẩn) là 384, bộ mã hóa gồm 12 khối MSA (Multi-head Self-Attention) và MLP (Multi-Layer Perceptron) liên tiếp, và 6 head trên mỗi lớp MSA Tổng cộng, kiến trúc này có 21 triệu tham số. Đối với việc làm sai lệch ảnh đi so với ban đầu, chúng ta sẽ thay thế các mảnh ngẫu nhiên trên ảnh bằng nhiễu hoặc bằng các mảnh từ các hình ảnh khác.Chiều rộng và chiều cao của các mảnh bị thay thế trên ảnh gốc dao động từ 5% đến 25% của kích thước ảnh đầu vào với tỷ lệ thay thế tổng thể lên đến 70% trong trường hợp thay thế nhiễu và lên đến 30% trong trường hợp thay thế từ các hình ảnh khác Phần đầu tái tạo hình ảnh bao gồm 2 tầng fully connected với

2048 đơn vị neuron và hàm kích hoạt GeLU 16 , tiếp theo là một phép tích chập nghịch đảo để quay trở lại không gian ảnh. Đối với học tương phản, chúng ta sử dụng SimCLR 17 với tham số nhiệt độ được đặt là 0.2 Đầu tương phản bao gồm hai lớp fully connected với 4096 đơn vị neuron, lớp chuẩn hóa hàng loạt và hàm phi tuyến tính GeLU cho mỗi lớp, tiếp theo là một lớp tuyến tính với 256 nodes đầu ra đại diện cho các biểu diễn của ảnh Bộ mã hóa momentum được cập nhật bằng cách sử dụng trung bình di động mũ của trọng số của bộ mã hóa với mức λ tuân theo lịch trình hàm cosine từ 0.996 đến 1 trong quá trình huấn luyện. Đối với việc tối ưu hóa Self-supervised Models, ta đã huấn luyện tất cả các mô hình bằng cách sử dụng trình tối ưu hóa Adam 18 với kích thước batch là

64, động lượng là 0.9, giảm trọng lượng là 0.05 và tỷ lệ học là 5e -4 trong tổng cộng 800 epoch (số lần huấn luyện) cho việc tiền huấn luyện trên tập dữ liệu ImageNet-1K và 3000 epoch cho việc tiền huấn luyện trên các tập dữ liệu nhỏ. Thực tế, thực nghiệm chủ yếu dựa vào các siêu tham số mặc định của nhà phát triển Vision Transformer Chúng ta có thể tin rằng mô hình có thể đạt được nhiều cải thiện cải thiện hơn bằng cách điều chỉnh các siêu tham số cho mô hình tự giám sát.

Các kỹ thuật tăng cường dữ liệu đơn giản được áp dụng trong quá trình huấn luyện tự giám sát Chúng ta nhận thấy rằng để học các đặc trưng cấp thấp cũng như thông tin ngữ nghĩa cấp cao hơn, việc tăng cường dữ liệu quyết liệt như MixUp và AutoAugment gây ảnh hưởng đến quá trình huấn luyện với các chức năng mục tiêu hiện tại Do đó, ta chỉ sử dụng cắt, lật ngang, biến đổi màu

16 Dan Hendrycks and Kevin Gimpel Gaussian error linear units (gelus) arXiv preprint arXiv:1606.08415, 2016.

17 Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton A simple framework for contrastive learning of visual representations In International conference on machine learning, pages 1597–1607 PMLR, 2020.

18 sắc, hiện tượng ánh sáng nghịch (solarization) và làm mờ Gaussian Đối với mỗi phiên bản được tạo ra bằng việc tăng cường, quá trình biến đổi ảnh dựa trên GMML được mô tả trong phần 4.3 được áp dụng để làm nhiễu ảnh và mạng được tối ưu cùng với việc học tương phản để tái tạo lại ảnh sau khi biến dạng. Để có cái nhìn về khả năng tái tạo của SiT, trong Hình 4.6 ta việc tái tạo các hình ảnh được chọn ngẫu nhiên từ dữ liệu huấn luyện, dữ liệu kiểm tra và mẫu từ internet sau khi áp dụng nhiễu ảnh vừa phải để trình bày ví dụ.

Cuối cùng, trong quá trình điều chỉnh (finetuning), các đầu ra của việc tái tạo và tương phản bị bỏ đi và một lớp đầu ra mới với c nodes tương ứng với số lượng lớp trong nhiệm vụ con được thêm vào biểu tượng lớp của mạng neuron được sử dụng làm mô hình huấn luyện.

4.4.2 Phân loại đa lớp (Multi-class Classification)

4.4.2.1 Multi-class Classification on Small Datasets

Hình 4.14 - Bảng so sánh với các phương pháp tiên tiến khi được tiền huấn luyện và điều chỉnh trên tập dữ liệu mục tiêu sử dụng mô hình ViT-S/16

Một điều ta cần nắm rõ đó là transformers yêu cầu dữ liệu nhiều, điều này làm cho việc huấn luyện chúng khó khăn, chủ yếu là do thiếu sự ưu tiên và sự phụ thuộc vào cấu trúc học tập của việc tích chập Do đó, quy trình thông thường cho học tự giám sát với Transformers là tiền huấn luyện mô hình trên một bộ dữ liệu quy mô lớn, chẳng hạn như ImageNet-1K hoặc các bộ dữ liệu lớn hơn Yêu cầu tính toán và dữ liệu của Vision Transformers giới hạn sự áp dụng của chúng, đặc biệt là đối với các nhà nghiên cứu trí tuệ nhân tạo với nguồn tài nguyên nhỏ hơn Do đó, trong loạt thí nghiệm đầu tiên, ta nghiên cứu khả năng áp dụng việc huấn luyện transformers từ đầu với dữ liệu giới hạn Cụ thể, chúng ta sẽ so sánh phương pháp SiT đã đề xuất với các phương pháp SSL tiên tiến nhất khi tiền huấn luyện và điều chỉnh lại mô hình chỉ trên bộ dữ liệu đích Thật không may, chỉ có một số ít công trình trong tài liệu cho thấy tác động của phương pháp đề xuất của họ khi được tiền huấn luyện với dữ liệu giới hạn Để so sánh với các phương pháp hiện đại cùng thời và sau này trong tài liệu, ta đã tiền huấn luyện và điều chỉnh lại các phương pháp tiên tiến tự giám sát bằng cách sử dụng các mã nguồn công khai có sẵn và các tham số mặc định được đề xuất bởi các tác giả Cụ thể, chúng ta so sánh với MoCo-V3, Dino, MAE, và SimMIM Đối với bước tinh chỉnh, ta dựa trên các siêu tham số mặc định của nhà phát triển vision transformer.

Như được thể hiện trong bảng hình 4.8, việc tiền huấn luyện tự giám sát của SiT liên tục cải thiện hiệu suất trên tất cả các bộ dữ liệu so với việc huấn luyện từ đầu với một khoảng cách lớn (lên đến 64.7% trong trường hợp bộ dữ liệu Cars).

Hơn nữa, phương pháp này vượt trội hơn so với các phương pháp SSL hiện đại đồng thời và sau này với một sự cải thiện lớn là +3.9%, +11.7%,+11.8%, +8.8%, +1.1%, +1.1%, +0.8%, và +1.8% trên các bộ dữ liệuFlowers, Pets, CUB, Aircraft, STL10, Cars, CIFAR10, và CIFAR100 tương ứng Lưu ý rằng hiệu suất của SimMIM trên các bộ dữ liệu nhỏ không bao gồm trong bảng hình 4.8 vì các mô hình được tiền huấn luyện không hội tụ,dẫn đến hiệu suất điều chỉnh kém Có thể các công thức khác nhau có thể được yêu cầu để tiền huấn luyện SimMIM trên các bộ dữ liệu nhỏ.

Nói chung, các phương pháp SSL tương phản yêu cầu thiết kế dành riêng cho dữ liệu cụ thể hoặc điều chỉnh siêu tham số, làm cho chúng không phù hợp với các bộ dữ liệu nhỏ, điều này giải thích hiệu suất kém của MoCo-V3 và Dino trong bảng hình 4.8 Hiệu suất cao của SiT trên các bộ dữ liệu nhỏ độc lập là do việc mô hình hóa thống kê cục bộ các mối tương quan (mà transformers thiếu) và thông tin toàn cục được quy định bởi dữ liệu chính nó. Mặc dù MAE cũng sử dụng masked image modelling, nhưng sự lựa chọn thiết kế của MAE mô hình độ lệch quy nạp chủ yếu trong bộ giải mã phức tạp, sau đó được truyền xuống các lớp cuối cùng của bộ mã hóa Cách tiếp cận không hợp lý này trong việc mô hình hóa thông tin khiến cho MAE không phù hợp với các bộ dữ liệu nhỏ.

4.4.2.2 Multi-class Classification on Large-scale Datasets

Hình 4.15 - Bảng chuyển đổi miền của SiT được tiền huấn luyện trên tập dữ liệu

Trong phần này, chúng ta sẽ chỉ ra tính hiệu quả của SiT khi được tiền huấn luyện trên bộ dữ liệu quy mô lớn, chẳng hạn như ImageNet-1K, và điều chỉnh lại trên một số bộ dữ liệu phân loại đa lớp Trong bảng hình 4.9, chúng ta thấy phương pháp mà ta đã đề xuất vượt trội hơn so với tiền huấn luyện giám sát trên hầu hết các bộ dữ liệu và đạt được sự cải thiện 1.1% khi điều chỉnh lại trên bộ dữ liệu ImageNet-1K (trong trường hợp ViT-S/16) Hơn nữa, hiệu suất của phương pháp này vượt trội hoặc tương đương với các phương pháp hiện đại đồng thời và sau này trên hầu hết các bộ dữ liệu nhỏ cũng như bộ dữ liệu quy mô lớn khi nó được tiền huấn luyện bằng cấu trúc Transformer lớn hơn, chẳng hạn như ViT-B/16.

4.4.3 Phân loại đa nhãn (Multi-Label Classification)

Hình 4.16 - Bảng mAP (mean Average Precision) của quá trình suy luận thông thường trên các bộ dữ liệu PASCAL VOC 2007, VG-500 và MS-COCO

Bảng trên là kết quả của việc sử dụng các trọng số đã được đào tạo chính thức Tất cả các mô hình được đào tạo trước bằng Vision Transformer ViT-S/16 (trừ khi có đề cập khác) với độ phân giải đầu vào 224 × 224 và được tinh chỉnh có giám sát với độ phân giải 448 × 448.

Trong bảng hình 4.10, chúng ta so sánh phương pháp SiT được đề xuất với các Framework khác như DeiT, MoCo-v3 và DINO trên ba tập dữ liệu đa nhãn khác nhau, bao gồm PASCAL VOC, MS-COCO và VisualGenome.

Đánh giá và kết luận

Trong nghiên cứu này, chúng ta đã trình bày một mô hình vision transformer tự giám sát, được đào tạo bằng dữ liệu không có nhãn để thực hiện các nhiệm vụ tiền đề và sử dụng mô hình tiền huấn luyện làm khởi tạo cho việc tinh chỉnh cho một nhiệm vụ phân loại cụ thể Chúng ta cũng đã đề xuất sử dụng transformers như một autoencoder, điều này có thể thực hiện bằng cách sử dụng một perceptron 2 lớp ở đầu ra (nhờ kiến trúc transformer) Chúng ta tận dụng tính chất hấp dẫn của kiến trúc transformer trong việc kết hợp các hàm mất mát khác nhau cùng với hàm mất mát tái tạo Đồng thời, chúng ta thêm một token bổ sung cho việc học tương phản cùng với hàm mất mát tái tạo Mô hình SiT đề xuất vượt trội hơn so với các phương pháp tự giám sát tiên tiến với khoảng cách lớn Công việc này tập trung vào phân loại hình ảnh như một nhiệm vụ cụ thể.

Có thể thấy, SiT rất thích hợp cho nhiều nhiệm vụ cụ thể khác như phân đoạn và phát hiện, tuy nhiên, giả định này sẽ để lại cho các nghiên cứu tương lai không xa.

TỔNG KẾT

Kết luận

Trong quá trình nghiên cứu và thực hiện đề tài "A Method For Self- Supervised Training Of Vision Transformers", em đã tìm hiểu được nhiều kiến thức mới và đạt được những kết quả quan trọng Đầu tiên, em đã nghiên cứu và hiểu rõ về kiến trúc Vision Transformer (ViT) và ưu điểm của việc sử dụng Transformer trong thị giác máy tính Tiếp theo, em đã tìm hiểu và đề xuất phương pháp SiT (Self-Supervised Training of Vision Transformers) để huấn luyện mô hình ViT từ dữ liệu không có nhãn Thông qua các thử nghiệm cho thấy mô hình Vision Transformers đạt được độ chính xác và độ phân loại cao trong việc nhận dạng vật thể và phân loại ảnh Hiệu suất của mô hình vượt qua mục tiêu ban đầu và vượt trội so với nhiều phương pháp khác trong lĩnh vực thị giác máy tính Dựa trên kết quả và các phân tích trong nghiên cứu, em nhận thấy rằng việc mở rộng và phát triển phương pháp tự giám sát huấn luyện Vision Transformers có thể đem lại nhiều cải tiến đáng kể.

5.1.2 Tiềm năng và ứng dụng

Mô hình Vision Transformers mang lại nhiều ưu điểm và tiềm năng trong lĩnh vực thị giác máy tính Với khả năng học cấu trúc không gian của ảnh, mô hình có thể áp dụng trong nhiều ứng dụng thực tế như nhận dạng vật thể, phân loại ảnh và xử lý ảnh y tế Mô hình cũng có tiềm năng phát triển trong việc giải quyết các vấn đề thị giác máy tính phức tạp và đem lại những đóng góp đáng kể cho lĩnh vực này.

Phương pháp SiT có tiềm năng và ứng dụng rộng trong lĩnh vực thị giác máy tính Việc kết hợp giữa Transformer và Self-supervised từ dữ liệu không gắn nhãn mở ra những cánh cửa mới cho việc huấn luyện mô hình Vision Transformer SiT có thể được áp dụng trong các tác vụ phân loại ảnh, phân đoạn và phát hiện đối tượng Đặc biệt, với kiến trúc Transformer, SiT có khả năng xử lý hiệu quả các tập dữ liệu lớn và nắm bắt được thông tin ngữ nghĩa và đặc trưng từ ảnh.

Có thể nghiên cứu việc áp dụng SiT cho các nhiệm vụ khác như phân đoạn và phát hiện đối tượng, để khám phá khả năng của mô hình trong các lĩnh vực này Ngoài ra, có thể tìm hiểu và kết hợp thêm các cơ chế tự giám sát khác để tăng cường hiệu suất của SiT và mở rộng khả năng ứng dụng của nó.

Mô hình Vision Transformers vẫn còn một số hạn chế Mô hình có đòi hỏi các tài nguyên tính toán lớn và có thể khó huấn luyện trên các tập dữ liệu nhỏ. Đồng thời, việc tinh chỉnh siêu tham số của mô hình cũng đòi hỏi sự khéo léo và giàu kinh nghiệm.

Mặc dù phương pháp SiT đạt được kết quả tốt trong nghiên cứu này, nó cũng có những hạn chế Đầu tiên, việc huấn luyện từ dữ liệu không có nhãn đòi hỏi một lượng dữ liệu lớn và tốn kém về tài nguyên tính toán Điều này có thể hạn chế khả năng áp dụng phương pháp SiT trong các tình huống có hạn chế về dữ liệu hoặc tài nguyên Thứ hai, mặc dù SiT có thể đạt hiệu suất tốt hơn so với các phương pháp tự giám sát khác, nó vẫn có thể không vượt qua hiệu suất của các phương pháp giám sát truyền thống khi được huấn luyện trên các tập dữ liệu nhỏ.

Hướng phát triển

Trong tương lai sẽ tiếp tục nghiên cứu và phát triển các kiến trúc mô hình mới cho ViTs để cải thiện hiệu suất và khả năng nhận dạng Các nghiên cứu có thể tập trung vào việc tối ưu hóa tính toán, tăng cường dữ liệu huấn luyện và kết hợp ViTs với các mô hình khác như CNNs Ngoài ra, nghiên cứu áp dụng ViTs vào các lĩnh vực khác nhau như xử lý ảnh, nhận dạng hình ảnh trong xe tự động, trí tuệ nhân tạo, và nhiều lĩnh vực khác ViTs có tiềm năng để trở thành công cụ quan trọng trong lĩnh vực thị giác máy tính và có thể đóng góp vào nhiều ứng dụng thực tế, sẽ tiếp tục tìm hiểu và nghiên cứu các phương pháp nhằm tối ưu hóa và giảm yêu cầu tính toán, tài nguyên huấn luyện nhằm phát huy điểm mạnh và khắc phục hạn chế, giúp ViTs trở thành một công nghệ tiềm năng và được ứng dụng rộng rãi trong các ứng dụng thực tế.

Phương pháp SiT có thể được mở rộng và áp dụng trên các lĩnh vực khác như phân đoạn và phát hiện đối tượng Điều này đòi hỏi việc xây dựng các nhiệm vụ tiền đề phù hợp và tổ chức lại quá trình huấn luyện Tập trung nghiên cứu phương pháp nâng cao hiệu suất và khả năng tổng quát hóa của SiT, đồng thời tìm hiểu về cách tăng cường tính khả diễn giải của mô hình để tăng độ tin cậy và sự hiểu biết về quyết định của mô hình.

Tóm lại, việc nghiên cứu về phương pháp tự giám sát huấn luyện Vision Transformers đã mang lại nhiều kết quả đáng chú ý Phương pháp SiT đã vượt trội hơn so với các phương pháp tự giám sát tiên tiến khác và cho thấy tiềm năng lớn cho việc ứng dụng trong các bài toán thực tế Tuy nhiên, cần tiếp tục nghiên cứu và thử nghiệm để cải thiện và mở rộng phương pháp này, đồng thời đánh giá hiệu quả và độ tin cậy của nó trên các tập dữ liệu lớn và đa dạng.Ngoài ra, việc tìm hiểu và nghiên cứu phương pháp tự giám sát huấn luyện Vision Transformers đã cung cấp một cách tiếp cận tiềm năng và hiệu quả trong việc huấn luyện mô hình từ dữ liệu không có nhãn. Công trình này mở ra nhiều cơ hội ứng dụng và phát triển trong lĩnh vực xử lý hình ảnh, và có thể đóng góp vào sự tiến bộ của cộng đồng nghiên cứu trong lĩnh vực này.

DANH MỤC TÀI LIỆU THAM KHẢO

Tiêu đề	A Method For Self-Supervised Training Of Vision Transformers
Tác giả	Huỳnh Trung Thảo
Người hướng dẫn	ThS. Huỳnh Tuấn Anh
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Công nghệ thông tin
Thể loại	báo cáo đồ án
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	73
Dung lượng	9,66 MB