Bên cạnh đó, tôi sẽ đưa ra kết quảthử nghiệm ban đầu, so sánh và đánh giá giữa những phương pháp với nhau và giữa kết quả thửnghiệm với kết quả của bài báo đã công bố.Dựa trên những kết
Trang 1ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
————————
DƯƠNG ĐỨC TÍN
XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI TẬP DỮ LIỆU NHỎ DỰA VÀO HỌC TỰ GIÁM SÁT VÀ CẢI THIỆN BIỂU
DIỄN ĐẶC TRƯNG SÂU
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 8480101
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 1 năm 2024
Trang 22 Thư ký: TS Trần Tuấn Anh
3 Phản biện 1: TS Nguyễn An Khương
4 Phản biện 2: TS Lê Khánh Duy
5 Ủy viên: PGS.TS Nguyễn Tuấn Đăng
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khiluận văn đã được sửa chữa (nếu có)
KỸ THUẬT MÁY TÍNH
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: DƯƠNG ĐỨC TÍN MSHV: 2170580 Ngày, tháng, năm sinh: 14/08/1999 Nơi sinh: Bình Thuận Chuyên ngành: Khoa học Máy tính Mã số: 8480101
II NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu các mô hình phân lớp đối với các tập dữ liệu nhỏ sử dụng mô hình học sâu
- Nghiên cứu và đề xuất các mô hình dựa vào học tự giám sát và cải thiện biểu diễn đặc trưng cho bài toán phân loại các vật thể có độ tương đồng cao
- Thực nghiệm, đánh giá các kết quả của mô hình đề xuất trên các tập dữ liệu khác nhau
và so sánh với các mô hình SoTA
III NGÀY GIAO NHIỆM VỤ: 06/02/2023
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 10/12/2023
V CÁN BỘ HƯỚNG DẪN: PGS TS Lê Hồng Trang
Trang 4liệu lớn đa nguôn trong dự báo, cảnh báo dông set, mưa đá; TNMT.2024.06.06."
Xin gửi lời cảm ơn đến các thầy cô trường Đại học Bách Khoa Thành phố Hồ Chí Minh, đặcbiệt là các thầy cô bộ môn trong khoa Khoa học và Kỹ thuật Máy tính đã truyền đạt những kiếnthức quý báu trong hai năm học qua
Cuối cùng, tôi xin cảm ơn gia đình, bạn bè, những người đã giúp đỡ, hỗ trợ tôi hết mình trongsuốt thời gian tham gia chương trình bậc Cao học
TÁC GIẢ
Trang 5Dựa trên những kết quả đạt được, tôi đã tìm hiểu và đề xuất pipeline cũng như các mô hình chotừng khối xử lý bài toán đề ra gồm có khối trích xuất đặc trưng, khối phân tích đối tượng và khốiphân lớp đối tượng Ngoài ra, chúng tôi sẽ so sánh và đánh giá kết quả thực hiện để từ đó đi đếnquyết định sử dụng những phương pháp nào để giải quyết tốt bài toán phân lớp đối tượng.
Trang 6Based on the achieved results, we have explored and proposed a pipeline as well as models foreach processing block of the problem, including feature extraction block, object analysis block,and object classification block Furthermore, we will compare and evaluate the implementationresults to make decisions on which methods to use for effectively solving the object classifica-tion problem.
Trang 7Chúng tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn củaPGS.TS Lê Hồng Trang Nội dung nghiên cứu và các kết quả đều là trung thực và chưa từngđược công bố trước đây Các số liệu được sử dụng cho quá trình phân tích, nhận xét được chínhchúng tôi thu thập từ nhiều nguồn khác nhau và sẽ được ghi rõ trong phần tài liệu tham khảo.Ngoài ra, chúng tôi cũng có sử dụng một số nhận xét, đánh giá và số liệu của các tác giả khác,
cơ quan tổ chức khác Tất cả đều có trích dẫn và chú thích nguồn gốc
Nếu phát hiện có bất kì sự gian lận nào, chúng tôi xin hoàn toàn chịu trách nhiệm về nội dungluận văn tốt nghiệp của mình Trường đại học Bách Khoa thành phố Hồ Chí Minh không liênquan đến những vi phạm tác quyền, bản quyền do chúng tôi gây ra trong quá trình thực hiện
TP HCM, ngày 15 tháng 12 năm 2023
Dương Đức Tín
Trang 8Danh mục hình ảnh viii
1.1 Giới thiệu đề tài 2
1.2 Mục tiêu và phạm vi đề tài 2
1.3 Cấu trúc luận văn 3
Chương 2 KIẾN THỨC NỀN TẢNG 4 2.1 Mạng nơ-ron trí tuệ nhân tạo (Artificial Neural Network) 5
2.2 Mạng nơ-ron tích chập (Convolution Neural Network) 6
2.3 Mạng nơ-ron dư thừa (Residual Neural Network) 8
2.4 Mạng phân đoạn hình ảnh (Image Segmentation) 9
2.4.1 Semantic Segmentation 9
2.4.2 Instance Segmentation 11
2.5 Học bán giám sát (Semi supervised learning) 11
Chương 3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 13 3.1 Giới thiệu 14
3.2 Khối trích xuất đặc trưng 14
3.2.1 Tập dữ liệu 14
3.2.2 Khối trích xuất đặc trưng (backbone) 14
3.3 Thuật toán phân lớp đối tượng có độ tương đồng cao (Fine-Grained) 17
3.4 Thuật toán phân đoạn (Segmentation) 23
3.4.1 U-Net: Convolutional Networks for Biomedical Image Segmentation (U-Net) 23
3.4.2 U2-Net: Going Deeper with Nested U-Structure for Salient Object De-tection 24
3.4.3 ArcFace: Additive Angular Margin Loss for Deep Face Recognition 25
3.4.4 Naive semi-supervised deep learning using pseudo-label 26
Trang 9MỤC LỤC vii
3.4.4 Naive semi-supervised deep learning using pseudo-label 26
Chương 4 CÁC PHƯƠNG PHÁP ĐỀ XUẤT 28 4.1 SERF-P: Một tiếp cận học nửa giám sát thông qua cải thiện đặc trưng biểu diễn và giả gán nhãn 29
4.1.1 Tổng quan phương pháp 29
4.1.2 Tăng cường khả năng tách lớp của mô hình 29
4.1.3 Học bán tự động thông qua gán nhãn giả 30
4.1.4 Hàm mất mát 31
4.2 MealySup: Một phương pháp học giám sát yếu với đa hàm mất mát 33
4.2.1 Tổng quan phương pháp 33
4.2.2 Hàm lỗi đa phân lớp (Multi-classification Loss) 35
4.2.3 Hàm lỗi đa phân khúc (Multi-segmentation Loss) 37
Chương 5 THỰC NGHIỆM 41 5.1 Tập dữ liệu 42
5.1.1 Tập dữ liệu CUB 200-201 42
5.1.2 Tập dữ liệu CAR 42
5.1.3 Tập dữ liệu MNIST 43
5.1.4 Tập dữ liệu NEU-DET 43
5.2 Hiện thực 44
5.2.1 Phương pháp MealySup 44
5.2.2 Phương pháp SERF-P 45
5.3 Kết quả 45
5.3.1 Kết quả trên phương pháp SERF-P 45
5.3.2 Kết quả trên phương pháp MealySup 47
Chương 6 TỔNG KẾT 52 6.1 Các công việc đã hoàn thành 53
6.2 Hạn chế và cải tiến 53
6.2.1 Hạn chế 53
6.2.2 Giải pháp 54
6.3 Hướng phát triển tương lai 55
Trang 103.1 Một vài ảnh xe trong tập dữ liệu CAR [4] 14
3.2 Một vài ảnh xe trong tập dữ liệu CUB [3] 15
3.3 Nối tắt trong ResNet 16
3.4 Mô hình của ViT 17
3.5 Patch trong ViT 18
3.6 Transformer Encoder trong ViT 19
3.7 Mô hình của MACNN 20
3.8 Khối Joint và khối CNN bình thường 21
3.9 Kết quả của MA-CNN trên tập dữ liệu CAR 21
3.10 Mô hình thuật toán MAMC Lấy các cặp ảnh đưa qua mô hình của khối OSME để trích xuất attention và dựa vào các hàm lỗi để giúp mô hình nhìn vào những phần khác nhau của đối tượng 22
3.11 Quá trình cho ra Attention map 23
3.12 Kết quả thuật toán MAMC trên tập CAR 23
3.13 Mô hình của thuật toán U-Net 24
3.14 Mô hình của thuật toán U2-Net [13] 25
3.15 Mô hình của thuật toán ArcFace 26
3.16 Thuật toán của Naive Pseudo-Labeling 27
4.1 Mô hình huấn luyện và fine-tine Embedding vector thu được từ lớp Projection sẽ được đưa qua hàm mất mát biên và lớp phân loại 30
4.2 Phương pháp Nhãn Giả Kết Hợp Khoảng Cách và Xác Suất 31
4.3 Thuật toán tìm lớp gần nhất 31
4.4 Ảnh hưởng của mô hình đến biểu diễn không gian và tương quan giữa các lớp Trong những giai đoạn huấn luyện đầu tiên, rất khó để xác suất dự đoán cho mỗi lớp và khoảng cách đến các lớp tương ứng của chúng đồng thuận với nhau Tuy nhiên, phương pháp của chúng tôi cố gắng thúc đẩy và cải thiện tính nhất quán này để cải thiện chất lượng của quá trình nhãn giả 32
4.5 Mô hình thuật toán đề xuất 34
4.6 Mô hình thuật toán đề xuất 35
4.7 Ảnh gốc và ảnh của bản đồ đặc trưng 37
4.8 Quá trình huấn luyện của MSL 39
Trang 11DANH MỤC HÌNH ẢNH ix
4.9 Mô hình kiến trúc của MSL với nhiều tầng và thuật toán Unet 40
5.1 Hình ảnh tập dữ liệu CUB 435.2 Hình ảnh tập dữ liệu CAR [4] 445.3 Ví dụ về hình ảnh trong tập dữ liệu NEU Từ trái sang phải, các hình ảnh trongcùng một cột thể hiện cho: crazing, inclusion, patches, pitted surface, rolled-inscale và scratches 445.4 Kết quả của tập MNIST theo biểu đồ đường thẳng 465.5 Trực quan hóa vector nhúng trong cài đặt 10 ảnh cho mỗi lớp Từ trái sang phải,trực quan hóa t-SNE cho thấy các đặc trưng của vector nhúng với epoch 1, 5 vàbiểu diễn tốt nhất với độ chính xác cao nhất trên 10 ảnh cho mỗi lớp, tương ứng 475.6 Trực quan hóa các bản đồ nhiệt qua các block của mô hình Mỗi cột tương ứng
có 1 ảnh gốc, bản đồ nhiệt kết quả của các đặc trưng dựa vào kết quả sau khi điqua mỗi block (tương ứng 2, 3 và 4) 495.7 Trực quan hóa các cụm pixel qua các block của mô hình Mỗi cột tương ứng có
1 ảnh gốc, cụm pixel kết quả của các đặc trưng dựa vào kết quả sau khi đi quamỗi block (tương ứng 2, 3 và 4) 495.8 Trực quan hóa các kết quả của segmentation và heatmap qua các block của môhình tương ứng 2, 3 và 4 51
Trang 14hãng khác nhau Vì cùng một lớp đối tượng nên độ tương tự của các đối tượng này có độ tươngđồng cao đòi hỏi mô hình học sâu phải có khả năng tìm ra các đặc trưng chi tiết của từng lớpđối tượng Do đó, chúng tôi đề xuất mô hình học sâu và hàm lỗi để giúp mô hình giải quyết bàitoán phân loại đối tượng (fine-grained) hiệu quả hơn những mô hình phân lớp cho các đối tượngthuộc các lớp khác nhau.
Trong quá trình học tập, nghiên cứu và làm việc với PGS TS Lê Hồng Trang, tôi nhận thấytầm quan trọng của bài toán phân lớp đối tượng trong lĩnh vực thị giác máy tính Hơn nữa, khicác thuật toán về học sâu ra đời, đặc biệt kể từ khi mạng AlexNet [1] xuất hiện đến nay, bàitoán phân lớp đối tượng đã trở nên cực kì phổ biến và gần như đã giải quyết được Những dữliệu dùng để phân lớp bao gồm các đối tượng khác nhau rất rõ ràng về mặt vật lý ví dụ như đốitượng chó, mèo, cây, đồ vật Những đối tượng này về mặt hình ảnh, màu sắc rất dễ phân biệt Do
đó, những mô hình hiện nay đã giải quyết rất tốt những dữ liệu trên Tuy nhiên, khi các lĩnh vựcngày càng chuyên sâu, những dữ liệu cần được phân lớp ngày càng trở nên khó khăn trong việcphân lớp vì nhiều lý do trong đó việc khác nhau ở những chi tiết nhỏ là một trong những lý dochính gây nên sự khó khăn này Những dữ liệu này cơ bản là một trong những lớp của bài toánphân lớp thông thường, tuy nhiên, các hình ảnh trong tập dữ liệu đó lại được chia thành các lớpkhác nhau Do đó, việc giống nhau về độ chi tiết của những hình ảnh rất cao đòi hỏi mô hìnhphải cần tiến hóa hơn để có thể phân loại được những đối tượng này
Việc xây dựng mô hình có thể phân lớp tốt các dữ liệu có độ tương đồng cao sẽ góp phần làmcho các tác vụ nhận diện đối tượng trở nên chính xác hơn Từ đó, khi áp dụng vào các lĩnh vựccông nghiệp sẽ tạo ra những sản phẩm, mô hình có giá trị cao.Thực tế, trong các nhà máy, các
bề mặt sản phẩm thường xuất hiện lỗi và những lỗi này có độ tương đồng rất giống nhau Tronglĩnh vực bán lẻ, việc nhận diện những chai nước cũng là một thách thức khi bề ngoài những chainước ngọt khá giống nhau về màu sắc, mẫu mã Những vấn đề này rất khó giải quyết nếu chỉdùng những thuật toán phân lớp thông thường
1.2 Mục tiêu và phạm vi đề tài
Mục đích của nghiên cứu này là xây dựng mô hình phân lớp các đối tượng có độ tương đồngcao dựa trên phương pháp học sâu sẽ xây dựng hàm lỗi để giúp mô hình học sâu tăng khả năngnhận diện chi tiết hơn Để làm được điều này, mô hình đề xuất cần thực hiện được các việc cụthể dưới đây:
Trang 15CHƯƠNG 1 TỔNG QUAN 3
• Khối trích xuất đặc trưng Khi hình ảnh đi qua mô hình, khối trích xuất đặc trưng sẽ lấy
những đặc trưng cần thiết của đối tượng Các đặc trưng này sẽ được một hàm lỗi cho tác
vụ segmentation giám sát để giúp cho mỗi khối con trong khối trích xuất đặc trưng biếtđâu là vùng của đối tượng Khối trích xuất đặc trưng sẽ được cải thiện để tìm ra đặc điểm
có độ phân tách cao Ví dụ như khi phân lớp các lỗi trên bề mặt sẽ tìm ra đặc điểm củavết xước sẽ mỏng, dài, còn đặc điểm của vết dơ sẽ to tròn
• Khối phân lớpSau khi có các đặc trưng của đối tượng và hình ảnh của mỗi khối, khốiphân lớp sẽ được thêm vào mỗi khối con của mô hình để giúp cho mỗi khối con loại bỏ
đi những đặc trưng không cần thiết, từ đó biết được rằng các chi tiết cho đối tượng cầnphân loại khác nhau ra sao Việc loại bỏ đi những đặc trưng không cần thiết sẽ loại bỏ
đi những phần giống nhau của vật thể, ví dụ như phân loại các chai nước thì sẽ có nhữngvùng phông nền phía sau vật thể, nếu mô hình tập trung vào đây sẽ làm giảm độ chínhxác Do đó, việc giảm thiểu đi những vùng như phông nền hoặc xuất hiện nhiều tronghình ảnh sẽ giúp cải thiện độ chính xác
• Lớp đầu ra Kết quả sau khi đi qua các khối con của trích xuất đặc trưng, các đặc trưng
tối ưu nhất sẽ được cho qua lớp fully connected (FC) để cho ra kết quả cuối cùng Khiđến giai đoạn luận văn, việc xử lý cho những đối tượng ở lớp mới sẽ tập trung vào lớp nàythông qua kĩ thuật few-shot learning Bằng cách đó, việc xác định số lượng lớp từ đầu sẽđược loại bỏ và mô hình linh hoạt hơn những mô hình truyền thống
1.3 Cấu trúc luận văn
Phần còn lại của báo cáo được chia thành 5 chương Chương 2 sẽ nói về các kiến thức nền tảng cần thiết cho nghiên cứu trong đề tài Chương 3 sẽ trình bày về việc khảo sát chi tiết các nghiên
cứu liên quan đến đề tài, bao gồm các nghiên cứu về phân lớp các đối tượng có độ tương đồng
cao Chương 4 trình bày 2 phương pháp đề xuất dựa trên các kỹ thuật học tự giám sát và nhắm
đến giải các bài toán với dữ liệu huấn luyện có kích thước nhỏ Việc hiện thực các mô hình đã
đề xuất và thực nghiệm và đánh giá kết quả thu được sẽ được cho trong Chương 5 Chương 6
là các kết các luận và hướng nghiên cứu tiếp theo
Trang 16hiện luận văn.
Mục lục
2.1 Mạng nơ-ron trí tuệ nhân tạo (Artificial Neural Network) 5
2.2 Mạng nơ-ron tích chập (Convolution Neural Network) 6
2.3 Mạng nơ-ron dư thừa (Residual Neural Network) 8
2.4 Mạng phân đoạn hình ảnh (Image Segmentation) 9
2.5 Học bán giám sát (Semi supervised learning) 11
Trang 17CHƯƠNG 2 KIẾN THỨC NỀN TẢNG 5
2.1 Mạng nơ-ron trí tuệ nhân tạo (Artificial Neural Network)
Ý tưởng về mạng nơ-ron nhân tạo đã xuất hiện từ rất lâu về trước Kiến trúc này lấy ý tưởng
từ nơ-ron hệ thần kinh của con người và động vật Hệ thần kinh bao gồm rất nhiều nơ-ron thầnkinh liên kết chặt chẽ với nhau Mỗi khi có yếu tố kíck thích nào đó, các nơ-ron sẽ phát ra tínhiệu tuỳ thuộc theo tính đặc thù của nơ-ron đó với tác nhân kích thích và truyền tính hiệu sinh
ra đến các nơ-ron kết nối với nó Sự lan truyền có tiếp tục để cuối cùng cho ra phản ứng phù hợpvới yếu tố gây kích thích
Trong kiến trúc mạng nơ-ron nhân tạo, các nơ-ron là đơn vị tính toán nhận các giá trị đầu vào từ
dữ liệu đầu vào hoặc các nơ-ron phía trước Sau đó, nơ-ron sẽ tính toán bằng cách nhân giá trịđầu vào này với các trọng số tương ứng đã được lưu trong từng nơ-ron Tiếp đến, tổng của cácgiá trị trên được đi qua một hàm kích hoạt nhằm biến một hàm tuyến tính thành một hàm phituyến Điều này khiến hàm số trở nên phức tạp hơn và có thể biểu diễn được các giá trị phức tạp.Cuối cùng, sau khi tính toán xong, giá trị trên sẽ chuyển đến đầu ra cho ra kết quả hoặc tiếp tụctrở thành đầu vào cho một nơ-ron khác để có thể biểu diễn các giá trị phức tạp hơn Với trọng
sô được học hoặc điều chỉnh một cách hợp lí, mạng nơ-ron có thể biểu diễn được các hàm cực
kì phức tạp và tổng quát hoá được dữ liệu đưa vào
Hình 2.1 thể hiện sự tương đồng giữa nơ-ron thật và ảo Các Dendrites của tế bào nơ-ron thầnkinh như là các tầng giá trị đầu vào của mạng no-rơn Sau khi qua xử lý cũng như tính toán,mạng nơ-ron xuất ra giá trị từ các tầng giá trị đầu ra tương ứng với axon truyền tín hiệu ra cácnơ-ron thần kinh khác Công thức tính toán của mỗi nơ-ron trong mạng là:
Trang 18Hình 2.2: Mô hình nơ-ron thật và ảo1.
• x: Các giá trị đầu vào được truyền cho nơ-ron
• W: Các trọng số của mạng
• b: bias giúp biểu diễn giá trị nơ-ron tốt hơn
• f: Hàm kích hoạt của nơ-ron, giúp nơ-ron biểu diễn các hàm phức tạp
• a: Giá trị đầu ra của nơ-ron
Một mạng ANN thường bào gồm nhiều lớp nơ-ron chồng lên nhau để biểu diễn một hàm phứctạp hiệu quả nhất Kiến trúc này là Multilayer Perceptron như hình 2.2 Mô hình gồm các đầu ranơ-ron từ tầng trước được dùng làm đầu vào của nơ-ron tầng sau Càng nhiều tầng, mạng càngbiểu diễn được các hàm phức tạp
2.2 Mạng nơ-ron tích chập (Convolution Neural Network)
Convolution Neural Network là một loại kiến trúc mạng nơ-ron được sử dụng rộng rãi trong thịgiác máy tính Bản chất dữ liệu kiểu hình ảnh là những điểm gần nhau thường có liên hệ nhiềuhơn so với những điểm xa hơn CNN rất phù hợp với dạng bài toán này CNN gồm một cửa sổ
có rất nhiều bộ lọc khác nhau Cửa sổ trên trượt trên khung hình và tính toán được giá trị đầu rabằng phép tính chặp dựa trên những điểm ảnh xung quanh nhau có kích thước bằng kích thướccửa sổ Điều này giúp thông tin cục bộ như góc, cạnh được bộ lọc học và nhận biết dễ dàng từ
dữ liệu đầu vào
1 https://www.tutorialspoint.com/tensorflow/tensorflow_multi_layer_perceptron_ learning.htm
2 https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural\ -networks-the-eli5-way-3bd2b1164a53
Trang 19CHƯƠNG 2 KIẾN THỨC NỀN TẢNG 7
Hình 2.3 mô tả một CNN Các tham số của Convolution Neural Network:
• Kernel: Kích thước cửa sổ trượt, thường có giá trị là 3x3
• Filter: Bộ lọc, có chức năng học các đặc trưng khác nhau của ảnh
• Stride: Độ dời của cửa số, giá trị trên xác định cửa sổ dời bao nhiêu đơn vị
• Padding: Xác định kích thước dữ liệu đầu ra so với dữ liệu đầu vào
So với ANN, CNN có nhiều ưu điểm hơn khi áp dụng vào bài toán thị giác máy tính Đầu tiên
là về số trọng số cần phải học Với mạng ANN thông thường, ta cần duỗi thằng bức ảnh ra và tất
cả các giá trị đầu vào của ảnh đều nối với các nơ-ron, làm cho số trọng số cần phải học rất hơn.Trong khi đó, CNN chỉ gồm một bộ trọng số cố định trượt trên ảnh và học từ các vùng ảnh Sốlượng trọng số sẽ được giảm xuống rất nhiều giúp cho thời gian học cũng như tính toán đượcrút ngắn đáng kể Thứ hai, như đã đề cập ở trên, để mạng ANN có thể học được, ta cần duỗithẳng ảnh ra và nối vào các nơ-ron Điều này làm mất đi tính chất đặc trưng của ảnh là cục bộ,một điểm ảnh có liên hệ mật thiết với các điểm ảnh xung quanh nó Mất đi tính chất này sẽ mất
đi rất nhiều thông tin quan trọng của ảnh Ngoài ra, ngày càng có nhiều mô hình sử dụng CNNhoàn toàn mà không cần bất cứ tầng FC nào Đây là một xu thế phát triển rất mạnh gần đây vàcũng đạt được độ chính xác rất cao
Trang 20Hình 2.4: Mô hình Nối tắt Residual Neural Network res.
2.3 Mạng nơ-ron dư thừa (Residual Neural Network)
Vùng ảnh hưởng (Receptive field) là kích thước vùng hình ảnh đầu vào của một giá trị đầu ra.
Với một cửa sổ có kích thước 7x7, một điểm giá trị đầu ra được tính từ một vùng ảnh có kíchthước 7x7 Với 3 cửa sổ 3x3 xếp chồng lên nhau, vùng ảnh hưởng của giá trị đầu ra cũng có kíchthước 7x7 Nhưng mô hình với 3 cửa sổ 3x3 lại có ưu điểm cũng như là phương pháp phù hợphơn khi sử dụng để giải các bài toán về thị giác máy tính Đầu tiên, một vùng 7x7 cần số trọng số
là 7x7x(số bộ lọc) hay 49x(số bộ lọc) Còn 3 bộ lọc 3x3 xếp chồng lại cần (3x3+3x3+3x3)x(số
bộ lọc) nếu cả ba tầng đều cùng sử dụng số bộ lọc tương tự với cử sổ 7x7 Kết quả là 27x(sô
bộ lọc) Số trọng số nhỏ hơn nhưng vùng ảnh hưởng vẫn cùng giá trị Đây là lợi thế thứ nhấtcủa các tiếp cận nhiều cửa sổ kích thước nhỏ xếp chồng lên nhau Tiếp theo, tính chất của ảnh
là những điểm càng gần nhau thì càng quan trọng so với các điểm ảnh ở xa Với các bộ lọc xếpchồng, các điểm ảnh gần với điểm ảnh trung tâm sẽ càng được tính toán qua nhiều cửa sổ hơn.Điều này giúp tận dụng tốt hơn bản chất của hình ảnh Đây là hướng tiếp cận tốt hơn nhưng vẫn
có vấn đề khó giải quyết Đó là sự biến mất của đạo hàm (Gradient Vanishing).
Residual Neural Network là một khái niệm quan trọng giúp cho các mạng CNN phức tạp có thểhoạt động tốt Các kĩ thuật Neural Network đến hiện tại đều cần học các trọng số của mô hìnhthông qua cơ chế lan truyền ngược Cơ chế lan truyền ngược trên cần đạo hàm để có thể họcđược giá trị tối ưu của mô hình Nhưng với một mạng CNN gồm nhiều lớp xếp chồng lên nhau,con đường để lan truyền đạo hàm từ tầng đầu ra đến tầng đầu vào rất dài Điều này làm cho giátrị đạo hàm ở các lớp CNN càng xa so với đầu ra càng nhỏ, khiến cho mô hình không thể học,khiến cho đạo hàm biến mất Với Residual Neural Network, vấn đề này được giải quyết tốt hơn.Với phương pháp nối tắt này, đạo hàm sẽ được lan truyền ngược tốt hơn mà không cần lo đếnvấn đề đạo hàm triệt tiêu Như hình 2.4, dù đạo hàm theo đường F(x) bị triệt tiêu thì vẫn còn
Trang 21CHƯƠNG 2 KIẾN THỨC NỀN TẢNG 9
đường nối tắt x truyền đạo hàm đến tầng trước đó Điều này giúp đạo hàm được lan truyền toàn
mô hình mà không cần lo lắng đến vấn đề suy biến
Phân đoạn hình ảnh là một kĩ thuật trong thị giác máy tính ứng dụng rộng rãi trong các thànhtựu khoa học hiện nay trên nhiều lĩnh vực Mục đích của kĩ thuật này nhằm vào việc gom nhómcác pixel thành các vùng thể hiện cho các lớp trong các bài toán tương ứng để xác định vị trícủa vật thể và đây là mở rộng hơn của bài toán phân loại hình ảnh (image classification) Hiệnnay, mạng phân đoạn hình ảnh được chia làm hai nhánh chính bao gồm: Semantic segmentation
và Instance segmentation
Phân đoạn ngữ nghĩa (semantic segmentation) là một phương pháp quan trọng trong lĩnh vựcthị giác máy tính, nơi mục tiêu chính là phân loại từng pixel trong một hình ảnh vào các lớp ngữnghĩa khác nhau Điều này giúp máy tính hiểu được cấu trúc và nội dung của hình ảnh thôngqua việc gán nhãn chi tiết cho từng phần của ảnh, tạo ra một bản đồ ngữ nghĩa chi tiết
Tuy nhiên, trong thực tế, phương pháp này đôi khi đối mặt với những thách thức đặc biệt, đặcbiệt là khi có sự chồng chất nhiều đối tượng trong cùng một lớp Ví dụ, khi áp dụng mô hìnhphân đoạn ngữ nghĩa vào việc xử lý hình ảnh chứa đựng đám đông trên đường phố, mô hình cóthể dự đoán rằng toàn bộ khu vực đám đông thuộc về một lớp duy nhất như "người đi bộ" Điềunày mang lại sự đơn giản và tổng quát hóa, nhưng đồng thời cũng mang theo một hạn chế quantrọng
Một trong những thách thức đó là sự chồng chất đối tượng, nơi nhiều người hoặc đối tượng khácnhau có thể xuất hiện gần nhau và chồng lấn lên nhau trên hình ảnh Trong trường hợp này, môhình có thể gặp khó khăn trong việc phân biệt giữa các đối tượng và xác định ranh giới chínhxác cho từng đối tượng Điều này có thể dẫn đến việc mô hình gán cùng một nhãn cho nhiều đốitượng khác nhau, làm giảm chính xác của quá trình phân đoạn
Để giải quyết vấn đề này, có nhiều tiếp cận được đề xuất Một số phương pháp tích hợp thông tin
về đối tượng và không gian, như việc sử dụng thông tin đa lớp hoặc kết hợp phân loại đối tượng
và phân đoạn ngữ nghĩa Ngoài ra, việc sử dụng mô hình có khả năng học sâu (deep learning)
và kỹ thuật transfer learning từ các bộ dữ liệu lớn có thể cải thiện khả năng tổng quát hóa của
mô hình đối với các tình huống phức tạp
Trong khi phương pháp phân đoạn ngữ nghĩa mang lại nhiều lợi ích về việc hiểu biết hình ảnh,việc giải quyết những thách thức đặc biệt như sự chồng chất đối tượng vẫn là một lĩnh vựcnghiên cứu quan trọng trong thị giác máy tính Sự tiến triển trong này sẽ không chỉ cải thiện
Trang 22Chính vì những thách thức của phương pháp phân đoạn ngữ nghĩa trong các ngữ cảnh phức tạp,phân đoạn đối tượng (instance segmentation) trở nên một lựa chọn ưu việt Phân đoạn đối tượngkhông chỉ giúp xác định lớp của từng pixel mà còn đồng thời phân biệt giữa các đối tượng riêng
lẻ trong cùng một lớp, tạo ra một bản đồ chi tiết và phong phú hơn về cấu trúc của hình ảnh.Một trong những ưu điểm quan trọng của phân đoạn đối tượng là khả năng phân biệt giữa cácthể hiện cụ thể của đối tượng, điều này mang lại khả năng theo dõi và định rõ từng đối tượngriêng lẻ trong hình ảnh Điều này giúp mô hình có thể đưa ra quyết định chính xác hơn trongviệc hiểu biết về không gian, tương tác giữa các đối tượng và các chi tiết trong hình ảnh.Ngoài ra, phân đoạn đối tượng còn giúp giải quyết vấn đề của sự chồng chất đối tượng, vì mỗiđối tượng được phân biệt riêng lẻ và gán nhãn một cách độc lập Điều này làm tăng khả năngchính xác và chi tiết của kết quả phân đoạn, đặc biệt là trong những tình huống có nhiều đốitượng xuất hiện gần nhau
Tuy nhiên, phương pháp phân đoạn đối tượng cũng không hoàn toàn miễn trừ khỏi nhược điểm.Việc xác định và phân biệt giữa các đối tượng riêng lẻ đòi hỏi sự phức tạp và tốn kém về tínhtoán hơn so với phân đoạn ngữ nghĩa Đồng thời, đối với các hình ảnh chứa đựng nhiều đốitượng, đòi hỏi sự linh hoạt và hiệu suất của mô hình cũng là một thách thức
Tóm lại, sự lựa chọn giữa phân đoạn ngữ nghĩa và phân đoạn đối tượng phụ thuộc vào yêu cầu
cụ thể của ứng dụng và mức độ chi tiết cần thiết trong việc hiểu biết hình ảnh Cả hai phươngpháp đều đóng góp quan trọng vào lĩnh vực thị giác máy tính và cần được điều chỉnh phù hợpvới ngữ cảnh ứng dụng cụ thể
Trang 23họ và các đối tượng khác trong hình ảnh Phương pháp này mang lại sự hiểu biết sâu sắc hơn
về cấu trúc của hình ảnh, vì nó không chỉ giúp chúng ta nhận biết từng đối tượng cụ thể mà còn
mô tả mối liên kết giữa chúng 2.6, tạo nên một biểu đồ không gian đa chiều Điều này khôngchỉ giúp nâng cao khả năng chẩn đoán và nhận diện mà còn mở ra nhiều ứng dụng trong lĩnhvực như theo dõi đối tượng, an ninh, hay thậm chí trong nghiên cứu về hành vi xã hội của cácđối tượng trong một cảnh quan phức tạp
2.5 Học bán giám sát (Semi supervised learning)
Học máy bán giám sát (Semi-Supervised Learning - SSL) là một lĩnh vực quan trọng trong họcmáy, nơi mà chúng ta khám phá cách sử dụng cả dữ liệu có nhãn và không nhãn để huấn luyện
mô hình Trong môi trường thực tế, việc có đủ dữ liệu gắn nhãn để huấn luyện mô hình khôngphải lúc nào cũng khả thi SSL giải quyết vấn đề này bằng cách tận dụng thông tin từ dữ liệukhông gắn nhãn, làm tăng cường khả năng tổng quát hóa của mô hình
Trong mô hình SSL, tập dữ liệu được chia thành hai phần: tập dữ liệu có nhãn và tập dữ liệu
Trang 24mô hình trong giai đoạn huấn luyện tiếp theo Phương pháp này tận dụng dữ liệu không gắnnhãn một cách hiệu quả, đặc biệt là trong những trường hợp khi lượng dữ liệu có nhãn rất ít.SSL không chỉ giúp cải thiện hiệu suất mô hình khi dữ liệu có nhãn ít mà còn mang lại lợi ích
về chi phí và công sức Việc nhãn dữ liệu là một công việc tốn kém và mất thời gian, và SSLgiúp giảm bớt gán nhãn bằng cách sử dụng thông tin từ dữ liệu không gắn nhãn
Tuy nhiên, SSL không phải lúc nào cũng là lựa chọn tốt nhất Nó đòi hỏi sự cân nhắc kỹ lưỡngtrong việc xử lý dữ liệu không gắn nhãn và quản lý rủi ro từ thông tin nhiễu Đồng thời, cách tiếpcận này cũng phụ thuộc nhiều vào việc lựa chọn các phương pháp chính xác để tạo pseudo-labels
và tối ưu hóa mô hình
Tổng cộng, SSL đóng một vai trò quan trọng trong việc khai thác triệt hạng thông tin từ dữ liệukhông gắn nhãn, làm tăng khả năng học của mô hình và giảm bớt bài toán đánh giá chi phí trongquá trình huấn luyện mô hình học máy
Trang 25CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Trong chương này, chúng tôi mô tả chi tiết hơn về các công trình nghiên cứu liên quan đến các hướng tiếp cận được nghiên cứu trong luận văn.
Mục lục
3.1 Giới thiệu 14
3.2 Khối trích xuất đặc trưng 14
3.3 Thuật toán phân lớp đối tượng có độ tương đồng cao (Fine-Grained) 17
3.4 Thuật toán phân đoạn (Segmentation) 23
Trang 263.2 Khối trích xuất đặc trưng
Khi nhắc đến khối trích xuất đặc trưng (backbone), tập dữ liệu được sử dụng nhiều nhất để huấnluyện là ImageNet 1K [2] với tổng số loại đối tượng là 1000 loại đối tượng Tuy nhiên, nhữngđối tượng này có những đặc trưng khác khác nhau như chó, mèo, xe, cây cối Do đó, để phânlớp đối tượng có độ tương đồng cao, đề tài có tìm kiếm hai bộ dữ liệu có độ tương đồng cao vềđối tượng Các đối tượng cùng một lớp trong tập ImageNet [2] tuy nhiên các lớp trong tập sẽ chitiết hơn:
• CUB 200-201 [3]: bao gồm 200 loài chim với các chủng loài khác nhau
• CAR [4]: bao gồm 196 loại xe hơi với 16,185 ảnh xe hơi
Khối trích xuất đặc trung dùng để tìm ra những đặc trưng của hình ảnh và đối tượng thông quamạng học sâu Các mạng học sâu sẽ được huấn luyện trên tập dữ liệu lớn như ImageNet [2]
để tổng quát hóa mô hình phục vụ cho các tác vụ, bài toán khác nhau thông qua kĩ thuật học
Trang 27CHƯƠNG 3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 15
chuyển giao (transfer learning) Kể từ khi mô hình AlexNet [1] xuất hiện, các mô hình học sâutiếp tục nở rộ và thông dụng nhất đến nay là Deep Residual Learning for Image Recognition(ResNet)[5] và An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ViT) [6] Tuy nhiên, ViT lại cần sử dụng rất nhiều dữ liệu để huấn luyện nên khá không phùhợp với bài toán đang xét
Deep Residual Learning for Image Recognition (ResNet) [5] là bài báo được giới thiệu vào năm
2015 với vị trí thứ nhất trong ILSVRC 2015 khi đạt tỉ lệ lỗi cho top5 là 3.57%
ResNet [5] được sinh ra để giải quyết vấn đề Vanishing gradient do mạng học sâu quá lớn làmcho quá trình đạo hàm và backpropagation trở nên khó khăn khi các giá trị tiến dần về sát 0 làmcho mô hình không cập nhật thêm Do đó, Resnet [5] đưa ra giải pháp nối tắt để giảm thiểu vấn
đề Vanishing gradient như trong hình 3.3
ResNet có thiết kế tầng tích chập 3×3 Khối phần dư có hai tầng tích chập 3×3 với cùng số kênhđầu ra Mỗi tầng tích chập được theo sau bởi một tầng chuẩn hóa theo batch và một hàm kíchhoạt ReLU Ta đưa đầu vào qua khối phần dư rồi cộng với chính nó trước hàm kích hoạt ReLUcuối cùng Thiết kế này đòi hỏi đầu ra của hai tầng tích chập phải có cùng kích thước với đầuvào, để có thể cộng lại với nhau Nếu muốn thay đổi số lượng kênh hoặc sải bước trong khốiphần dư, cần thêm một tầng tích chập 1×1 để thay đổi kích thước đầu vào tương ứng ở nhánhngoài Hai tầng đầu tiên của ResNet giống hai tầng đầu tiên của GoogLeNet [7]: tầng tích chập7×7 với 64 kênh đầu ra và sải bước 2, theo sau bởi tầng gộp cực đại 3×3 với sải bước 2 Sự khácbiệt là trong ResNet, mỗi tầng tích chập theo sau bởi tầng chuẩn hóa theo batch ResNet sử dụngbốn mô-đun được tạo thành từ các khối phần dư có cùng số kênh đầu ra Mô-đun đầu tiên có sốkênh bằng số kênh đầu vào Vì trước đó đã sử dụng tầng gộp cực đại với sải bước 2, nên không
Trang 28Hình 3.3: Nối tắt trong ResNet.
cần phải giảm chiều cao và chiều rộng ở mô-đun này Trong các mô-đun sau, khối phần dư đầutiên nhân đôi số kênh, đồng thời giảm một nửa chiều cao và chiều rộng Có 4 tầng tích chậptrong mỗi mô-đun (không tính tầng tích chập 1×1 ) Cộng thêm tầng tích chập đầu tiên và tầngkết nối đầy đủ cuối cùng, mô hình có tổng cộng 18 tầng Do đó, mô hình này thường được gọi
là ResNet-18 Có thể thay đổi số kênh và các khối phần dư trong mô-đun để tạo ra các mô hìnhResNet khác nhau, ví dụ mô hình 152 tầng của ResNet-152
(ViT)
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)[6] là bàibáo ra đời vào năm 2020, sự tiếp nối của việc bùng nổ trong lĩnh vực xử lý ngôn ngữ tự nhiên,những kĩ thuật của xử lý ngôn ngữ tự nhiên được áp dụng qua xử lý ảnh làm cho lĩnh vực nàybước lên một nấc thang mới Kiến trúc của ViT gồm có:
• Linear Projection of Flattened Patches
• Transformer encoder
• Classification head
Mô hình tổng quát của ViT được thể hiện như hình 3.4
Với mỗi ảnh đầu vào, ViT sẽ chia ảnh thành những phần bằng nhau có thể trùng (overlap) hoặckhông trùng nhau như hình 3.5 Sau khi cắt ảnh ra thành các patch, tác giả cung cấp thêm thôngtin của patch cho model thông qua Positional Embedding Điều này giúp cho mô hình có thể
Trang 29CHƯƠNG 3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 17
Hình 3.4: Mô hình của ViT.
phân biệt được cấu trúc của ảnh Sau khi có vector positional embeeding cho mỗi patch ta sẽcộng các vector này tương ứng với embeeding vector của từng patch đã tính ở trên và thu đượccác vector embeeding vừa chứa thông tin của vùng ảnh vừa chứa thông tin về vị trí của nó trongảnh
Phần quan trọng nhất là Transformer encoder sẽ giúp cho mô hình nhận biết được vị trí của vậtthể dựa vào cơ chế attention Cơ chế attention là 1 cơ chế giúp mô hình có thể tập trung vào cácphần quan trọng trên dữ liệu Mô hình Transformer encoder được thể hiện như hình 3.6
Sau khi học được những đặc trưng của dữ liệu, mô hình sẽ đưa qua các lớp fully connected (FC)
• Làm tăng khả năng học được những đặc điểm chi tiết của khối trích xuất đặc trung bone) từ đó khối này sẽ cho ra những đặc trưng đóng vai trò quan trọng trong việc phânbiệt lớp này với lớp khác
(back-• Xác định vị trí của vật thể, đối tượng như một tác vụ để mô hình học sâu học xác định vậtthể cùng với mô hình phân loại cơ bản vì phải xác định vị trí đối tượng càng chính xác thìđặc trưng chi tiết sẽ thấy càng rõ
Trang 30Hình 3.5: Patch trong ViT.
Tương tự như phân lớp đối tượng thông thường, mô hình học sâu dựa trên biểu diễn đặc trưng
đã đạt được một số thành công nhất định trong fine-grained như DeCAF [8], Features shelf: an Astounding Baseline for Recognition [9] Sau đó, một số phương pháp đề xuất mô hìnhbilinear dùng để học đặc trưng thông qua vị trí của đối tượng
off-the-Tuy nhiên, việc nhận dạng đối tượng trong bài toán fine-grained đòi hỏi mô hình phải tập trungsâu vào vị trí của đối tượng đặc biệt là phần khác nhau Từ đó, các lớp FC phía sau sẽ làm việchiệu quả hơn trong việc phân lớp
Im-age Recognition (MA-CNN)
Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition(MA-CNN)[10] là bài báo ra đời năm 2017 ở hội nghị ICCV, đề xuất mô hình huấn luyện mạng
Trang 31CHƯƠNG 3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 19
trí tuệ nhân tạo sử dụng cơ chế nhiều attention dựa trên lớp tích chập để xác định vị trí phầnphân biệt mạnh của đối tượng trong ảnh Mô hình gồm ba phần chính:
• Multi-Attention CNN
• Multi-task Formulation
• Joint Part-based Feature Representation
Tổng quan mô hình được thể hiện như hình 3.7
Multi-Attention CNN: Xuất phát từ ảnh X, bài báo sẽ trích xuất vùng có những đặc trưng thể
hiện rõ nhất bằng cách sử dụng các lớp tích chập (CNN) Những đặc trưng sâu được trích xuất
Hình 3.6: Transformer Encoder trong ViT.
Trang 32dddiii(X )(X )(X ) = fi(WW∗XX) (3.1)Dựa trên 3.6, tác giả tiếp tục đề xuất bản Attention Map với công thức (3.2):
Multi-task Formulation: Hàm lỗi của MA-CNN được tối ưu hóa bởi hai hàm lỗi của mô hình
học giám sát bao gồm hàm lỗi phân lớp bộ phận và hàm lỗi tổng hợp kênh Hàm lỗi của mộtảnh XX được định nghĩa như sau:
Trang 33CHƯƠNG 3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 21
Trong đó, Lclslà hàm lỗi cho học có giám sát trong tác vụ phân lớp và Lcng là hàm lỗi cho việcgom kênh Hàm lỗi Lcng được định nghĩa như sau:
Lcng(MMMiii) = Dis(MMMiii) + λ Div(MMMiii) (3.5)
Trong đó, Dis(.) là khoảng cách của những đặc trưng Khoảng cách này khuyến khích nhữngđặc trưng tại bộ phận nào đó của các đối tượng cùng lớp gần nhau hơn và Div(.) làm cho cáckhoảng cách của các đặc trưng bộ phận của các lớp xa nhau hơn
Joint Part-based Feature Representation: dùng để chia các phần của bức ảnh để mỗi phần
được phân loại bằng CNN tốt hơn vì mặc dù hai khối trên đã giúp MA-CNN xác định đượcvùng, tuy nhiên vẫn rất khó khăn để xác định trên một vùng quá lớn thay vì những vùng nhỏhơn như hình 3.8 Có thể thấy rằng, khi thêm khối này vào thì những chi tiết trở nên sắc xảo hơn
và ít nhiễu đi đáng kể
Kết quả của thuật toán MA-CNN đạt khá tốt 92.8% trên tập CAR [4] như bảng 3.9
Hình 3.8: Khối Joint và khối CNN bình thường.
Hình 3.9: Kết quả của MA-CNN trên tập dữ liệu CAR.
Trang 34• Multi-Attention Multi-Class Constraint
Mô hình tổng quan của thuật toán MAMC như hình3.10
One-Squeeze Multi-Excitation Attention Module: Thuật toán sẽ đưa hai bức ảnh của hai lớp
khác nhau đi qua các lớp tích chập Sau đó, dùng thuật toán SENet để đi tìm Attention của từngbức ảnh của mỗi lớp Mỗi bức ảnh sẽ cho ra P bản đồ attention như hình 3.11
Sau khi có được các attention map thì sẽ có ba trường hợp xảy ra:
Hình 3.10: Mô hình thuật toán MAMC Lấy các cặp ảnh đưa qua mô hình của khối OSME để
trích xuất attention và dựa vào các hàm lỗi để giúp mô hình nhìn vào những phần khác nhau củađối tượng
Trang 35CHƯƠNG 3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 23
Hình 3.11: Quá trình cho ra Attention map.
Hình 3.12: Kết quả thuật toán MAMC trên tập CAR.
3.4 Thuật toán phân đoạn (Segmentation)
(U-Net)
U-Net: Convolutional Networks for Biomedical Image Segmentation [12] là bài báo ra đời năm
2015 nhằm mục đích phân đoạn hình ảnh trong y sinh Tuy nhiên, kiến trúc của mô hình hoạtđộng tốt trong các loại hình ảnh khác và được ứng dụng rộng rãi
Hình 3.13 thể hiện mô hình của thuật toán U-Net, gồm các tầng tích chập ở khối nén (encoder)
Đi sau đó là các tầng giải nén (decoder) gồm các tầng Upsample Các đặc tính của mỗi tầngtrong khối Encoder được đưa qua tương ứng cho các tầng của decoder, nhằm mục đích lưu giữthông tin cũ để việc xây dựng lại pixel được chính xác hơn
Trong nghiên cứu này, tác giả phát triển trên một kiến trúc mạng nhẹ hơn, được gọi là "fully
Trang 36Hình 3.13: Mô hình của thuật toán U-Net.
convolutional network" Tác giả điều chỉnh và mở rộng kiến trúc này để nó hoạt động với sốlượng hình ảnh huấn luyện rất ít và tạo ra các phân đoạn chính xác hơn Ý tưởng chính là bổsung một mạng co lại thông thường bằng các lớp liên tiếp, trong đó toán tử pooling được thaythế bằng toán tử upsampling Do đó, những lớp này tăng độ phân giải của đầu ra Để định vị,các đặc trưng độ phân giải cao từ con đường co lại được kết hợp với đầu ra được upsample Mộtlớp tích chập liên tiếp có thể học cách tổ chức đầu ra chính xác hơn dựa trên thông tin này.Một sửa đổi quan trọng trong kiến trúc của tác giả là trong phần upsampling, tác giả cũng cómột số lượng lớn kênh đặc trưng, cho phép mạng truyền thông tin ngữ cảnh đến các lớp độ phângiải cao hơn Do đó, con đường mở rộng có độ đối xứng khá tương đồng với con đường co lại,
và tạo ra một kiến trúc hình chữ U Mạng không có bất kỳ lớp kết nối đầy đủ nào và chỉ sử dụngphần hợp lệ của mỗi tích chập, tức là bản đồ phân đoạn chỉ chứa các pixel mà toàn bộ ngữ cảnh
có sẵn trong hình ảnh đầu vào
Chiến lược này cho phép phân đoạn mượt mà của hình ảnh có kích thước bất kỳ thông qua chiếnlược tiling trùng lắp Để dự đoán các pixel ở khu vực biên của hình ảnh, ngữ cảnh bị thiếu được
mở rộng bằng cách phản chiếu hình ảnh đầu vào Chiến lược trải lớp này quan trọng để áp dụngmạng vào hình ảnh lớn, vì ngược lại, độ phân giải sẽ bị giới hạn bởi bộ nhớ GPU
Detection
U2-Net: Going Deeper with Nested U-Structure for Salient Object Detection [13] là bài báo rađời năm 2020 và là sự phát triển của bài báo U-Net [12] Mô hình kiến trúc của U2-Net [13]dựa trên U-Net [12] với tinh chỉnh thay các tầng trong khối Encoder thành các mô hình U-Net
và tương tự với các lớp của khối Decoder, do đó mô hình này có tên là U2Net
Hình 3.14 thể hiện kiến trúc của mô hình Với kiến trúc này, mô hình cho kết quả khá tốt và hiệntại vẫn đang được sử dụng rất rộng rãi cho các bài toán Semantic Segmentation
Đầu tiên, U2-Net là một cấu trúc U hai cấp mà không sử dụng bất kỳ mô hình nền đã được đào
Trang 37CHƯƠNG 3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 25
tạo trước từ phân loại hình ảnh Mô hình có thể được đào tạo từ đầu để đạt được hiệu suất tốt.Thứ hai, kiến trúc mới cho phép mạng đi sâu hơn, đạt được độ phân giải cao mà không tăngđáng kể bộ nhớ và chi phí tính toán Điều này được thực hiện thông qua một cấu trúc U lồngvào nhau: ở cấp độ dưới thông qua thiết kế một khối RSU, có khả năng trích xuất đặc trưng đaquy mô nội tại mà không làm giảm độ phân giải của bản đồ đặc trưng; ở cấp độ trên, có mộtcấu trúc giống như U-Net, trong đó mỗi giai đoạn được điền bằng một khối RSU Cấu hình haicấp dẫn đến một cấu trúc U lồng vào nhau U2-Net (176.3 MB) đạt được hiệu suất tốt so với cácphương pháp hàng đầu trên sáu bộ dữ liệu công cộng và chạy ở thời gian thực (30 FPS, với kíchthước đầu vào là 320x320x3) trên GPU 1080Ti
ArcFace [14] là bài báo về nhận diện danh tính khuôn mặt thông qua việc đề xuất hàm mất mátbiên góc (Angular Margin Loss) Các tác giả giới thiệu một mô hình mất mát mới, được gọi là
"ArcFace," nhằm cải thiện độ chính xác của mô hình trong quá trình nhúng đặc trưng cho nhậndiện khuôn mặt
Tính chất chính của mất mát ArcFace là khả năng tối ưu hóa góc giữa các vector nhúng và vectortrọng số của các lớp dự đoán tương ứng với lớp của mẫu đó Điều này giúp tạo ra các đặc trưngnhúng chính xác và dễ phân biệt Mất mát này sử dụng góc góc Additive, điều này mang lại độchính xác cao và khả năng phân biệt lớn hơn
Bài báo thực hiện các thử nghiệm trên các bộ dữ liệu nhận diện khuôn mặt lớn như MegaFace
và Labeled Faces in the Wild (LFW), và kết quả chứng minh rằng mô hình ArcFace không chỉ
có hiệu suất tốt mà còn ổn định trên nhiều điều kiện Sự ổn định và chính xác của mô hình khiến
Trang 38nó trở thành một lựa chọn hữu ích cho các ứng dụng thực tế trong lĩnh vực nhận diện khuôn mặt.Đồng thời, tính linh hoạt của ArcFace cũng cho phép tích hợp dễ dàng vào các hệ thống nhậndiện khuôn mặt hiện đại.
Mô hình tổng quan của bài báo được thể hiện như hình 3.15 công thức tính hàm mất mát củaSoftmax như công thức (3.6):
Bằng cách chuẩn hóa ||WjT|| = 1 và ||xi|| bằng chuẩn L2 và chỉnh lại vector nhúng xi về thành
s Khi đó, hàm mất mát L1 được viết lại như công thức (3.7):
escos(θyi+m)+ ∑Nj=1, j̸=yiescos(θj )) (3.8)
Bài báo về Naive Semi-Supervised Deep Learning using Pseudo-Label [15] tập trung vào việc
đề xuất một phương pháp học máy bán giám sát thông qua việc sử dụng pseudo-labels, một cáchtiếp cận đơn giản nhưng có hiệu quả trong việc tận dụng dữ liệu không gắn nhãn để cải thiệnhiệu suất của mô hình Phương pháp này đáp ứng nhu cầu ngày càng tăng về việc mở rộng khảnăng học của mô hình trong trường hợp có ít dữ liệu gắn nhãn nhưng nhiều dữ liệu không gắnnhãn
Trang 39CHƯƠNG 3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 27
Hình 3.16: Thuật toán của Naive Pseudo-Labeling.
Trong quá trình thực hiện, mô hình được huấn luyện ban đầu trên tập dữ liệu gắn nhãn sử dụngmạng nơ-ron sâu Sau đó, mô hình được sử dụng để dự đoán nhãn cho tập dữ liệu không gắnnhãn, tạo ra pseudo-labels cho dữ liệu này Quá trình huấn luyện tiếp tục bằng cách kết hợp dữliệu gắn nhãn và pseudo-labeled, mở rộng khả năng học và cải thiện sự chính xác của mô hình
Ưu điểm của phương pháp này là sự đơn giản và tính linh hoạt, không đòi hỏi nhiều công sứcnhãn dữ liệu như thuật toán ở hình 3.16, và có thể triển khai dễ dàng trong nhiều tình huống thực
tế Thử nghiệm trên các tập dữ liệu thực tế chứng minh rằng mô hình sử dụng pseudo-labels cókhả năng cải thiện hiệu suất so với mô hình chỉ sử dụng dữ liệu gắn nhãn
Phương pháp này mở ra nhiều ứng dụng trong các lĩnh vực như nhận diện hình ảnh, xử lý ngônngữ tự nhiên và các nhiệm vụ học máy khác, nơi có sẵn nhiều dữ liệu không gắn nhãn và việcnhãn dữ liệu tốn kém Tổng cộng, bài báo đề xuất một giải pháp hữu ích và linh hoạt cho họcmáy bán giám sát
Trang 40loại đối tượng có đặc trưng giống nhau cao với ít dữ liệu Phương pháp thứ nhất là một kỹ thuật nửa giám sát với việc cải thiện biểu diễn và đánh nhãn giả Trong khi phương pháp thứ hai tập trung vào việc tự học của mô hình, với đa hàm mất mát cho việc phân lớp và phân đoạn.