Và ở trong dé tài này chúng tôi sẽ nghiên cứu về một trong những bài toán kinh điển nhất của thị giác máy tính là phát hiện đối tượng dựa trên Transformer.. Chính vì thế, trong khóa luận
Trang 1ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
TRƯƠNG ĐỨC VŨ
KHÓA LUẬN TÓT NGHIỆP
TÌM HIẾU VÀ ĐÁNH GIÁ MOT SO PHƯƠNG PHÁP
CU NHÂN NGANH KHOA HOC MAY TÍNH
TP HO CHi MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
TRƯƠNG ĐỨC VŨ - 18520194
KHÓA LUẬN TÓT NGHIỆP
TÌM HIẾU VÀ ĐÁNH GIÁC CÁC PHƯƠNG PHÁP PHÁT
HIEN DOI TƯỢNG DỰA TREN TRANSFORMER
CU NHÂN NGANH KHOA HOC MAY TÍNH
GIANG VIEN HUONG DAN
TS NGUYEN VINH TIEP
TP HO CHi MINH, 2021
Trang 3DANH SÁCH HOI DONG BAO VỆ KHÓA LUẬN
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số 38/QD-DHCNTT
ngày 19/01/2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 PGS.TS Lê Dinh Duy — Chủ tịch.
2 ThS Nguyễn Thanh Sơn — Thư ký.
3 TS Lê Minh Hưng - Ủy viên.
Trang 4ĐẠI HỌC QUOC GIA TP HO CHi MINH | CONG HÒA XÃ HOI CHỦ NGHĨA VIET NAM
TRUONG DAI HOC Độc Lập - Tự Do - Hanh Phúc CÔNG NGHỆ THÔNG TIN
TP HCM, ngay thang ndm
NHAN XET KHOA LUAN TOT NGHIEP
(CUA CAN BO HUONG DAN)
Tên khóa luận:
TÌM HIẾU VA ĐÁNH GIÁ CÁC PHƯƠNG PHÁP PHÁT HIỆN DOI TƯỢNG
DỰA TRÊN TRANSFORMER
Nhóm SV thực hiện: Cán bộ hướng dẫn:
Trương Đức Vũ - 18520194 TS Nguyễn Vinh Tiệp
Đánh giá Khóa luận
I Về cuốn báo cáo:
Số trang - Số chương
So bảng sô liệu Sô hình vẽ
Sô tài liệu tham khảo Sản phâm
Một sô nhận xét về hình thức cuôn báo cáo:
Trang 54 Về thái độ làm việc của sinh viên:
Diem từng sinh viên:
Trương Đức Vũ: -./10
Người nhận xét (Ký tên và ghi rõ họ tên)
Trang 6ĐẠI HỌC QUOC GIA TP HO CHi MINH | CONG HÒA XÃ HOI CHỦ NGHĨA VIET NAM
TRUONG DAI HOC Độc Lập - Tự Do - Hanh Phúc CÔNG NGHỆ THÔNG TIN
TP HCM, ngay thang ndm
NHAN XET KHOA LUAN TOT NGHIEP
(CUA CAN BO PHAN BIEN)
Tên khóa luân:
TÌM HIẾU VA ĐÁNH GIÁ CÁC PHƯƠNG PHÁP PHÁT HIỆN DOI TƯỢNG
DỰA TRÊN TRANSFORMERNhóm SV thực hiên: Can bô phản biên:
Trương Đức Vũ - 18520194 TS Lê Minh Hưng
Đánh giá Khóa luận
I Về cuốn báo cáo:
Số trang - Số chương
So bảng sô liệu Sô hình vẽ
Sô tài liệu tham khảo Sản phâm
Một sô nhận xét về hình thức cuôn báo cáo:
Trang 74 Về thái độ làm việc của sinh viên:
Diem từng sinh viên:
Trương Đức Vũ: -./10
Người nhận xét (Ký tên và ghi rõ họ tên)
Trang 8LỜI CẢM ƠN
Trước hết, chúng tôi xin gửi lời cảm ơn sâu sắc nhất đến Thay TS Nguyễn
Vinh Tiệp - người thầy đã dẫn dắt, truyền đạt những kiến thức bổ ích và
vô cùng cần thiết trên chặng đường nghiên cứu từ những bước chân đầu
tiên Thầy đã dạy cho chúng tôi từ cách nhìn nhận vấn đề, định hướng tư
duy, hỗ trợ trong lúc tìm giải pháp, luôn động viên, khích lệ cho những ý
tưởng mới cũng như trong suốt quá trình học tập, nghiên cứu và thực hiệnkhóa luận này D6 không chỉ là những góp ý hết sức quý báu trong quátrình thực hiện luận văn này mà còn là hành trang tiếp bước cho chúng tôi
trong quá trình học tập và lập nghiệp sau này Xin chân thành cảm ơn các
anh Nguyễn Thành Danh, anh Nguyễn Vũ Anh Khoa, anh Lưu Đức Tuấntrong Phòng Thí Nghiệm Truyền Thông Da Phương Tiện (MMLAB), đã
ở bên, giúp đỡ cho chúng tôi có cơ hội tiếp xúc, mở rộng và phát triển kiến
thức không chỉ là chuyên ngành mà còn ở nhiều lĩnh vực khác Những đóng
góp, chỉnh sửa quý báu của các bạn là một phần không thể thiếu để có thể
hoàn thành tốt khóa luận này Chúng tôi cũng xin gửi lời cảm ơn sâu sắc tớiPhong Thí Nghiệm Truyền Thông Da phương tiện (MMLAB), Khoa Khoahọc Máy tính, trường Đại học Công nghệ Thông tin và quý thầy cô đã hỗ
trợ chúng tôi trong suốt thời gian thực hiện khóa luận Hơn hết chúng tôi
muốn bày tỏ lòng biết ơn sâu sắc đến gia đình của mình đã, đang và sẽ
luôn là nguồn động lực, là chỗ dựa giúp chúng tôi có thể vững bước trên
con đường mà mình đã chọn Mặc dù đã cố gắng hoàn thành khóa luận
trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi
những thiếu sót Chúng tôi rất mong nhận được sự thông cảm, góp ý vàtận tình chỉ bảo của quý thầy cô và các bạn Một lần nữa chúng tôi xin
chân thành cảm on!
Trang 9ĐẠI HỌC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
DE CƯƠNG CHI TIẾT
TEN DE TÀI: TÌM HIỂU VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP PHÁT HIEN DOI
TƯỢNG DỰA TRÊN TRANSFORMER.
TÊN ĐÈ TÀI TIENG ANH: RESEARCH AND EVALUATION OF
TRANSFORMER-BASED OBJECT DETECTION METHODS.
Ngôn ngữ thực hiện: Tiếng Việt.
Cán bộ hướng dẫn: TS Nguyễn Vinh Tiệp.
Thời gian thực hiện: Từ ngày: /2021 đến ngày /2021.
Sinh viên thực hiện:
Trương Đức Vũ Lớp: KHTN2018
Email: 18520194 @gm.uit.edu.vn Dién thoai: 0364544354
Nội dung dé tai:(M6 ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết
quả mong đợi của dé tài)
A Mô tả bài toán:
Transformers là một kiến trúc học sâu đã trở nên phố biến trong những năm gan đây.
Mô hình này dựa trên một cơ chế đơn giản nhưng mạnh mẽ được gọi là Attention, cho phép các mô hình trí tuệ nhân tạo tập trung có chọn lọc vào một số phần nhất định của
dir liệu dau vào và do đó suy luận hiệu quả hơn Transformer đã được áp dụng rộng rãi
Trang 10trong các tác vụ xử lý ngôn ngữ tự nhiên (NLP) như mô hình ngôn ngữ (language
modeling), dịch máy (machine translation) và cũng đã được mở rộng sang các nhiệm
vụ khác như nhận dạng giọng nói, học tăng cường Và cả thị giác máy tính cũng bị
cuốn theo cuộc cách mạng Transformer.
Và ở trong dé tài này chúng tôi sẽ nghiên cứu về một trong những bài toán kinh điển nhất của thị giác máy tính là phát hiện đối tượng dựa trên Transformer Được biết, bài
toán phát hiện đối tượng dựa trên Transformer là mô hình loại bỏ nhiều thiết kế bang
tay (NMS - Non-maximum Suppression va cac điểm neo — anchor) trong kiến trúc.
Bên cạnh đó, mô hình kiến trúc không dựa trên mạng Convolutional mà thay thế CNN
và RNN bằng cơ chế tự chú ý “Self-Attention” mà van mang lại hiệu suất cạnh tranh.
Nhưng mô hình vẫn có mộ số hạn chế như là thời gian hội tụ rất chậm và hiệu suất còn hạn chế trên đối tượng nhỏ.
Trong đề tài này, nhóm chúng tôi sẽ tìm hiểu và đánh giá các phương pháp phát hiện
đối tượng dựa trên Transformer.
Faster R-CNN
Coarse
Proposals
Crop Classify and Deduplicate
(RolAlign) refine proposals
on Coarse proposals (NMS)
DETR
Trang 11B Đối tượng và phạm vi nghiên cứu:
- Chung tôi cải đặt, chạy thí nghiệm dựa trên bộ dữ liệu ADTC27K trên các mô hình
trong phạm vi nghiên cứu.
- Đề tài tập trung xoay quanh bài toán phát hiện đối tượng dựa trên mô hình
Transformer Các biến thể, các mô hình liên quan (DETR, FASTER RCNN,
Deformable DETR, UP-DETR ).
C Muc tiéu:
- Tim hiểu tổng quan về bai toán phát hiện đối tượng dựa trên Transformer về các
hướng tiếp cận, ưu nhược điểm của từng loại.
- So sánh đánh giá các phương pháp phát hiện đối tượng dựa trên Transformer.
- Tìm hiểu điểm yếu và các phương pháp cải tiến.
D Phương phát thực hiện:
Nội dung 1: Khảo sát nhóm bai toán phát hiện đối tượng dựa trên Transformer.
Phương pháp thực hiện: Cài đặt, chạy thí nghiệm, so sánh các phương pháp phát
hiện đối tượng dựa trên Transformer được công bó Tìm hiểu cách thực hiện, phân tích ưu, khuyết điểm của từng phương pháp (được nhắc tới ở phần phạm vi đề tài) Nội dung 2: Đề xuất phương pháp cải tiến thuật toán.
Phương pháp thực hiện: Với kết quả đánh giá từ nội dung 1, tiến hành đề ra các
phương án cải tiến nhằm tăng hiệu suất của (những) thuật toán hiện tại.
E Kết quả mong đợi:
-_ Báo cáo phân tích, so sánh các phương pháp cho bài toán phát hiện đối tượng dựa
trên Transformer.
- Báo cáo phương pháp đề xuất cải thiện.
Kế hoạch thực hién:(M6 td tóm tắt kế hoạch làm việc và phân công công việc cho từng
sinh viên tham gia)
Nội dung 1: tháng 8-11 năm 2021.
Trang 12- Thang 8: Tìm hiéu mô hình DETR, Deformable DETR, UP-DETR và các kiến thức
- Tháng 11: Từ bảng kết quả so sánh giữa các mô hình và qua việc phân tích ưu
nhược điểm trong mỗi mô hình, tiến hành đề xuất phương pháp cải tiến và thực
hiện.
Tổng hợp kết quả và viết báo cáo: tháng 12 năm 2021.
Xác nhận của CBHD TP HCM, ngày tháng năm 2021
(Ký tên và ghi rõ họ tên) Sinh viên
(Ký tên và ghi rõ họ tên)
Trương Đức Vũ
Trang 132 Vv
TOM TAT
Transformer đã trở thành mô hình thống tri trong các bai toán về xử ly
ngôn ngữ tự nhiên, nhờ khả năng pretrain trên một lượng lớn dữ liệu, sau
đó chuyển sang các nhiệm vụ nhỏ hơn, cụ thể hơn thông qua tỉnh chỉnh.
Transformer trong thị giác máy tính là nỗ lực lớn đầu tiên áp dung mô hìnhTransformer thuần túy trực tiếp cho hình ảnh làm đầu vào, và kết quả chothấy rằng so với Convolutional Network, kiến trúc dựa trên Transformer
cũng có thể đạt được kết quả cạnh tranh trong các nhiệm vụ phân loại điểm chuẩn Tuy nhiên, độ phức tạp tính toán của toán tử Attention vì vậy
chúng ta bị giới hạn ở các đầu vào có độ phân giải thấp Dối với các tác
vụ phức tạp hơn như phát hiện hoặc phân đoạn, việc duy trì độ phân giải
đầu vào cao là rất quan trọng để đảm bảo rằng các mô hình có thể xác
định đúng và phản ánh các chỉ tiết nhỏ trong đầu ra của chúng Điều này
đương nhiên đặt ra câu hỏi rằng liệu các kiến trúc dựa trên Transformer
trong thị giác máy tính có khả năng cải tiến để giải quyết các vấn đề còn
tồn động hay không Chính vì thế, trong khóa luận này, chúng tôi đã tìm
hiểu tổng quan về bài toán phát hiện đối tượng dựa trên Transformer, ứng
dụng của bài toán vào thực tế và một số các công trình nghiên cứu khác
Thách thức, khó khăn trong tác vụ phát hiện đối tượng trên Transformer.
Trong các mô hình liên quan, chúng tôi cũng đã chỉ ra một số mô hình nổi
bật và cách từng mô hình cải tiến so với mô hình bàn đầu Bên cạnh đó,
chúng tôi đã tiến hành thiết lập thực nghiệm trên các bộ dữ liệu VOC 2012
và ADTC27K để làm rõ hơn các luận điểm.
Trang 142.3.1 Transformer Backbonel
2.3.2 ‘Transformer Neck} 0.0.0 00.0000 ee ee
co ON ¬I GO OF WO WHO mm nh
Trang 154.3 Thiết lap thinghiém) 0 0 00000,
4.4 Trực quan hóa kết qua) Ặ Q SẺ
26 26 30 31 ải
32
39
35
38 40 42
44
44 44 46 47
49
50
56 56
9í
60
Trang 16Danh sách hình vẽ
1.1 Picomixer STA (Smart Traffic Analyzer) Phần mềm phân tích giao
thông đường bộ và bộ đếm phương tiện Hệ thống chuyên nghiệp cho
thu thập dữ liệu, phát hiện sự cố và lập kế hoạch cho an toàn đường bộdựa trên thị giác nhân tạo (trí tuệ nhân tạo và xử lý video) biến bất kỳcamera giám sát giao thông nào thành mot A.I tiên tiến
Điểm chuẩn của các mô hình phát hiện đối tượng thời gian thực theo
thời gian suy luận, mô hình hoạt động hàng đầu gan đây nhất là YOLOv4| 4
13 Một số ứng dụng của AI vào đời sống Ảnh được tham khảo từ nhiều
2.1 Cấu trúc của lớp Attention Bên trái: Scaled Dot-Product Attention
Bên phải: Multi-Head Attention Mechanism Ảnh được lấy từ [11l|
2.2 Kiến trúc đầy đủ của mô hình Transformer Hình ảnh được lấy từ
Ta 14
2.3 Phân loại phát hiện đối tượng dựa trên Transformer
2.4 Hướng tiếp cận của phát hiện đối tượng dựa trên Transformer (a) Nhiệm
vụ phát hiện đối tượng được xây dựng như nhiệm vụ dự đoán dự đoán
tập hợp thông qua Transformer (DETR 6|) (b) Loại bỏ backbone CNN
trong mô hình phát hiện đối tượng dựa trên Transformer (ViT-FRCNN
11
Trang 172.6 Minh họa về bộ phát hiện đối tượng Deformable DETR được đề xuất.
Hình được lấy từ [58]} 2 19
2.7 Bộ mã hóa của mô hình Adaptive Clustering Transformer Hình ảnh
được lấy từ BZ) ee 20
2.8 Tổng quan mô hình YOLOS Hình ảnh lấy từ
3.1 Các hệ thống phát hiện hai giai đoạn truyền thống, chang hạn như Faster
R-CNN, dự đoán các hộp giới hạn đối tượng bằng cách lọc qua một số
lượng lớn các vùng ứng viên, thường là một chức năng của các tính năng CNN Mỗi khu vực đã chọn được sử dụng trong các bước tỉnh chỉnh,
bao gồm việc cắt ở vị trí được xác định bởi khu vực, phân loại từng khu
vực một cách độc lập và tinh chỉnh vi trí của nó Cuối cùng, một bước
Non-maximum Suppression được áp dụng để loại bỏ các hộp trùng lặp.
DETR đơn giản hóa quy trình phát hiện bằng cách tận dụng kiến trúc
Transformer tiêu chuẩn để thực hiện các hoạt động (có khả năng không thể phân biệt được) đặc trưng cho việc phát hiện đối tượng theo truyền
ND 27
3.2 Kiến trúc của DETR Hình được lay từ [6|
3.3 Kiến trúc Transformer của DETR Hình được lay từ [6]
3.4 Minh họa mô đun được đề xuất tronglÐ8| Deformable Attention
3.5 Cách xây dựng bản đồ đối tượng nhiều tỷ lệ (multi-scale feature map)
re x
3.6 Quy trình tong thể về Spatially Modulated Co-precision (SMCA) với sự
Self-Attention trong phạm vi nội bộ, sự Self-Attention trên nhiều quy
mô, điều chế không gian và mé-dun Attention lựa chọn tỷ lệ
Attention được mã hóa bằng các màu khác nhau cho các đối tượng khác
nhau Bộ giải mã thường chú ý đến các chi của đối tượng, chẳng hạn
như chân và đầu Hình được lấy từ [6l| 39
iv
Trang 183.8 Minh hoa Spatial attention map trong cross-attention của bộ giải mã
DETR Hàng đầu tiên trong hình bên dưới là kết quả của Conditional
DETR [30], hàng thứ hai là kết quả của việc huấn luyện DETR trong 50epochs và hàng thứ ba là kết quả của việc huấn luyện DETR trong 500epochs Vi DETR sử dụng Multi-Head Attention, mỗi cột ở đây tương
3.9 Giao diện ứng dụng demo Ung dụng web được thiết kế trên thư viện
Dash và có sử dụng một số công cụ của Plotly trong Python
4.1 Một số ảnh từ tập dữ liệu ADTC27K
4.2 Ví dụ về việc áp dụng các phương pháp làm tăng cường dữ liệu
4.3 Trực quan hóa một số kết quả tốt trên bộ dữ liệu kiểm tra ADTC27K.
Các ảnh trên hầu hết là vào ban ngày, các phương tiện không quá đôngđúc và độ lớn của các đối tượng là tương đối lớn
4.4 Trực quan hóa một số kết quả xấu trên bộ dữ liệu kiểm tra ADTC27K.
Các ảnh trên phần lớn là vào buổi tối, khi có điều kiện ảnh kém chất
lượng, các phương tiện rất dày đặc
4.5 Trực quan hóa một số kết quả bên ngoài tập dữ liệu.Dánh giá khả năng
tổng quát hóa của mô hình Các hình ảnh lựa chọn không có trong tập huấn luyện và kiểm tra của ADTC27K Với nhiều trường hợp khác nhau như ở ảnh (a) là hình ảnh lấy từ buổi tối, có chất lượng ảnh thấp, ảnh (b)
có chất lượng tốt, các đối tượng lớn, rõ ràng Ảnh (c) có nhiều phương
tiện nhưng không quá đông đúc như ảnh (d).|
46 Ở đây chúng ta hình dung trọng số Attention của lớp bộ giải mã cuối
cùng Diều này tương ứng với việc trực quan hóa, đối với mỗi đối tượng
được phát hiện, phần nào của hình ảnh mà mô hình đang xem xét để
54
Trang 19mô hình được đào tạo, tập trung vào một số điểm trong hình ảnh Bộ
mã hóa dường như đã tách các phiên bản, điều này có khả năng đơn
giản hóa việc trích xuất đối tượng và bản địa hóa cho bộ giải mã Bộ mã
hóa Self - Attention cho một tập hợp các điểm tham chiếu Bộ mã hóa
có thể phân loại các phiên bản riêng lẻ Các dự đoán được thực hiện với
mô hình DETR Resnet-50 trên hình ảnh bộ đánh giái 55
vì
Trang 20Danh sách bang
2.1 So sánh kết quả một số mô hình CNN và một số mô hình dựa trên
Transformer Backbone Kết quả được dự đoán trên tập Val của bộ dữ
2.2 So sánh giữa các mô hình Transformer và một số đại diện tiêu biểu của
CNN trên tập đánh giá của bộ dit liệu COCO2017 “GPUs”: đề cập tớithời gian huấn luyện và số lượng, loại GPU đã sử dung; "Multi Scale":
áp dung đa quy mô cho đầu vào nếu vJ
4.1 So sánh việc sử dung đầu vào có multi-scale giữa các mô hình
4.2 Đánh giá một số phương pháp phát hiện đối tượng dựa trên Transformer
4.3 Mối liên hệ giữa FPS, số lượng tham số và độ chính xác của các mô hình
DETR, Deformable DETR, SMCA DETR, Conditional DETR.
vii
50
Trang 21thực, chẳng hạn như hệ thống nhận dạng khuôn mặt, máy phiên dịch, xe tự lái, giám
sát an toàn và AlphaGo, tất cả những ứng dụng này đang làm cho trí tuệ nhân tạo
không thể thiếu trong cuộc sống hàng ngày của chúng ta (Một số ứng dụng về AI trong
đời sống Hinh{L.3) Hưởng lợi từ sự phát triển của thiết bi di động, phương tiện truyền
thông xã hội và mạng di động tốc độ cao, có số lượng dữ liệu hình ảnh ngày càng tănglên theo cấp số nhân Ví dụ, giám đốc phòng nghiên cứu AI của Facebook Yann LeCun
đã từng nói rằng gần như 1 tỷ ảnh mới được đăng tải lên Facebook mỗi ngày trong
năm 2016 || Điều này làm cho nó ngày càng khó khăn hơn cho con người để quản lý tất cả di liệu này theo cách thủ công Do đó, thiết kế hệ thống máy tính để tự động
xử lý và hiểu số lượng lớn dữ liệu trở thành một ý tưởng thực tế Tuy nhiên, người ta
thường thừa nhận rằng, máy tính thực hiện các nhiệm vụ được xác định bởi các côngthức và quy tắc trong toán học, như là tính toán, lưu trữ và tìm kiếm Nhưng đó là
thách thức đối với máy móc để giải quyết các vấn đề trực quan và trừu tượng, chẳng
hạn như nhận dạng hình ảnh Diéu này do cái gọi là khoảng cách ngữ nghĩa giữa con
Thttps://www.youtube.com/watch?v=vlQomVlaNFg
Trang 22người và máy, tức là các tệp hình ảnh được lưu trữ dưới dạng dữ liệu pixel cấp thấp
trên máy, nhưng thông tin ngữ nghĩa cấp cao được yêu cầu để phân tích hình ảnh Và các nghiên cứu trong lĩnh vực thị giác máy tính hiện nay là tìm cách làm thế nào để thu hẹp khoảng cách này và dạy cho máy móc hiểu hình ảnh Trong đề tài này, chúng tôi sẽ tìm hiểu một số mô hình về bài toán phát hiện đối tượng.
Hình 1.1: Picomixer STA (Smart Traffic Analyzer) Phần mềm phân tích giao thông
đường bộ và bộ đếm phương tiện Hệ thống chuyên nghiệp cho quản lý giao thông Đô
thị / Đường bộ (và Quản lý Đường cao tốc) Dé thu thập dữ liệu, phát hiện sự cố và
lập kế hoạch cho an toàn đường bộ dựa trên thị giác nhân tạo (trí tuệ nhân tạo và xử
lý video) biến bất kỳ camera giám sát giao thông nào thành một A.I tiên tiến
1.2 Tổng quan bài toán
1.2.1 Định nghĩa bài toán
Phát hiện đối tượng là một nhiệm vụ quan trọng của máy tính được sử dụng để
phát hiện các đối tượng trực quan thuộc các lớp nhất định (ví dụ: con người, động vật,
ô tô, tòa nhà, Trong ảnh kỹ thuật số như ảnh hoặc video Mục tiêu của phát hiện
đối tượng là xây dựng mô hình tính toán cung cấp các thông tin cần thiết cơ bản nhất
cho các ứng dụng thị giác máy tính.
Trang 23Phát hiện đối tượng là một trong những van đề cơ bản của thị giác máy tính Nó tao
cơ sở cho nhiều tác vụ thị giác máy tính khác, chẳng hạn như chú thích hình ảnh, theo dõi đối tượng, Các ứng dụng phát hiện đối tượng cụ thể bao gồm phát hiện người đi
bộ, đếm người, nhận diện khuôn mặt, phát hiện văn bản, phát hiện tư thế hoặc nhậndạng biển số
Trong vài năm gần đây, những tiến bộ nhanh chóng của kỹ thuật học sâu đã thúc
đẩy rất nhiều động lực phát hiện đối tượng Với mạng học sâu và sức mạnh tính
toán của GPU, hiệu suất của bộ phát hiện và theo dõi đối tượng đã được cải thiện
đáng kể, đạt được những bước đột phá đáng kể trong phát hiện đối tượng Do đó, Mang Convolutional Neural Networks (CNN) da tré thanh tiéu chuan
để giải quyết nhiệm vu này, và có nhiều máy dò dua trên CNN đã được đề xuất
[25] Và từ day, các máy phát hiện đối tượng hiện đại dành được
phân loại thành hai loại: phương pháp tiếp cận một giai đoạn và phương pháp tiếp cận
hai giai đoạn.
Phương pháp tiếp cận hai giai đoạn: Trong bộ phát hiện đối tượng hai giai đoạn, cácvùng đối tượng được đề xuất bằng cách sử dụng các đặc trưng sâu (deep) trước khicác đặc trưng này được sử dụng cho việc phân loại cũng như các hộp giới hạn cho cácđối tượng mục tiêu
e Kiến trúc hai giai đoạn liên quan đến việc đề xuất vùng đối tượng với các phương
pháp thị giác thông thường hoặc mạng học sâu, tiếp theo là phân loại đối tượngdựa trên các tính năng được trích xuất từ vùng được đề xuất với hồi quy hộp
giới hạn.
e Phương pháp hai giai đoạn đạt được độ chính xác phát hiện cao nhất nhưng
thường chậm hơn Do có nhiều bước suy luận trên mỗi hình ảnh, hiệu suất(khung hình trên giây) không tốt bằng máy dò một giai đoạn
e Các mô hình phát hiện hai giai đoạn khác bao gồm Region Convolutional Neural
Network (R-CNN) với Faster R-CNN hoặc Mask R-CNN [17] Sự phát triển
mới nhất nhất của RCNN là Granulated R-CNN BI]
Trang 24Jul'17 Jan'18 Jul 18 Jan'19 Jul'19 Jan '20 Jul '20 Jan '21 Jul'21
Other models -®- Models with lowest inference time, ms
Hình 1.2: Điểm chuẩn của các mô hình phát hiện đối tượng thời gian thực theo thời
gian suy luận, mô hình hoạt động hàng đầu gần đây nhất là YOLOv4
e Trong mô hình phát hiện đối tượng hai giai đoạn, đầu tiên nó sẽ tìm vùng quan
tâm và sử dụng vùng đã cắt này để phân loại Tuy nhiên, các mô hình nhiều giai
đoạn như vậy thường không thể đào tạo từ đầu đến cuối bởi vì việc cắt xén là
một hoạt động không thể phân biệt được.
Phương pháp tiếp cận một giai đoạn: Trong bộ phát hiện đối tượng một giai đoạn, môhình sẽ dự đoán các hộp giới hạn trên hình ảnh mà không có bước đề xuất vùng Quá
trình này tiêu tốn ít thời gian hơn và do đó có thể được sử dụng trong các ứng dụngthời gian thực.
e Máy dò đối tượng một giai đoạn uu tiên tốc độ suy luận nhanh nhưng không tốt
trong việc nhận dạng các đối tượng có hình dạng bất thường hoặc một nhóm cácđối tượng nhỏ
e Các máy dò một giai đoạn phổ biến nhất bao gồm YOLO [33], SSD và
RetinaNet [25] Các công cụ phát hiện thời gian thực mới nhất là
YOLOv4-Scaled [45] (2020) và YOLOR [đổ| (2021).
Trong hơn một năm trở lại đây, có nhiều mô hình được hình thành ma không thuộc
vào bất kỳ phương pháp nào đã kể trên Đó chính là việc áp dụng mô hình Transformer
[44] đã rất quen thuộc trong các bài toán xử lý ngôn ngữ tự nhiên vào để xử lý cácnhiệm vụ về hình ảnh Đặc biệt là trong bài toán phát hiện đối tượng cái mà nhómchúng tôi sẽ tìm hiểu trong khóa luận này.
Trang 251.2.2 Thách thức
Mặc dù hiệu suất tuyệt vời từ các mô hình Transformer và các tính năng nổi bật thú
vị của chúng, có một số thách thức liên quan đến khả năng ứng dụng của chúng đốivới ứng dụng trong thực tế Các thử thách quan trọng nhất bao gồm yêu cầu về lượnglớn dit liệu đào tạo và chi phi tính toán cao liên quan và một số đặc tính liên quan tới
mô hình Transformer.
e Chỉ phí tính toán cao: Một thế mạnh của các mô hình Transformer là tính
linh hoạt của chúng để mở rộng đến mô hình có độ phức tạp và tham số cao.
Mặc dù đây là một đặc tính đáng chú ý cho phép đào tạo các mô hình có kíchthước khổng lồ Do đó, điều này dẫn đến việc phát sinh chi phí huấn luyện môhình và chi phí suy luận cao.
e Yêu cầu dữ liệu lớn: Vì các kiến trúc Transformer vốn dĩ không mã hóa các độ
lệch quy nạp (Inductive biad?) để xử lý dữ liệu trực quan Do vậy, chúng thường
yêu cầu lượng lớn dữ liệu để tìm ra các quy tắc cơ bản dành riêng cho phương
thức Ví dụ, một CNN có sẵn bản dịch bất biến, chia sẻ trọng số và bất biến quy
mô một phần do hoạt động gộp hoặc khối xử lý Multi-scale Tuy nhiên, mang
Transformer cần phải tự mình tìm ra các khái niệm cụ thể về hình ảnh này từ
các ví dụ đào tạo Điều này dẫn đến thời gian đào tạo dài hơn, yêu cầu tính toán
tăng đáng kể và bộ dữ liệu lớn để xử lý.
1.3 Lý do thực hiện đề tài
Các trường hợp sử dụng liên quan đến phát hiện đối tượng rất đa dạng Gần như không
giới hạn những cách làm cho máy tính giống con người để tự động hóa các tác vụ thủ
công hoặc tạo ra các sản phẩm và dịch vụ mới do AI hỗ trợ Nó đã được thực hiệntrong các chương trình thị giác máy tính được sử dụng cho một loạt các ứng dụng, từsản xuất, thể thao đến phân tích năng suất Ngày nay, nhận dạng đối tượng là cốt lõi
của hầu hết các phần mềm và chương trình AT dựa trên thị giác Phát hiện đối tượng
2Induetive bias (hay learning bias) của một thuật toán học tập là tập hợp các giả định mà người học sử dụng để dự đoán kết quả đầu ra của các đầu vào nhất định mà nó chưa gặp phải.
Trang 26đóng một vai trò quan trọng trong việc tìm hiểu hiện trường, vốn phổ biến trong các
trường hợp sử dung an ninh, giao thông, y tế và quân sự (Hình 1.3).
e Phát hiện phương tiện với AI trong Giao thông vận tải Nhận dang đối tượng
được sử dụng để phát hiện và đếm các phương tiện để phân tích giao thông hoặc
để phát hiện 6 tô dừng ở khu vực nguy hiểm, chang hạn như trên đường ngang
hoặc đường cao tốc
e Phát hiện tính năng y tế trong Chăm sóc sức khỏe Phát hiện vật thể đã cho
phép tạo ra nhiều đột phá trong cộng đồng y tế Bởi vì chan đoán y tế chủ yếu
dựa vào nghiên cứu hình ảnh, quét và chụp ảnh, phát hiện đối tượng liên quan
đến chụp CT và MRI trở nên cực kỳ hữu ích để chấn đoán bệnh, ví du với thuật
toán máy học để phát hiện khối u.
e Phát hiện đối tượng trong Bán lẻ Các hệ thông đếm người được bố trí có chiến
lược trong nhiều cửa hàng bán lẻ được sử dụng để thu thập thông tin về cách
khách hàng dành thời gian và lượng khách hàng đặt chân đến Phân tích khách
hàng dựa trên AI để phát hiện va theo dõi khách hàng bằng camera giúp hiểu rõ
về tương tác của khách hàng và trải nghiệm của khách hàng, tối ưu hóa bố cục
cửa hàng và giúp hoạt động hiệu quả hơn Một trường hợp sử dụng phổ biến là
phát hiện hàng đợi để giảm thời gian chờ đợi trong các cửa hàng bán lẻ.
e Lái xe tự động Ô tô tự lái phụ thuộc vào khả năng phát hiện đối tượng để nhận
ra người đi bộ, biển báo giao thông, các phương tiện khac, Ví du, Autopilot AI
của Tesla sử dụng rất nhiều tính năng phát hiện đối tượng để nhận biết các mối
đe dọa từ môi trường và xung quanh như xe đang tới hoặc chướng ngại vật.
e Phát hiện động vật trong Nông nghiệp Phát hiện đối tượng được sử dụng trong
nông nghiệp cho các nhiệm vụ như đếm, theo dõi động vật và đánh giá chất lượng
nông sản Sản phẩm bị hư hỏng có thể được phát hiện khi đang xử lý bằng cácthuật toán máy học.
Trang 271.4 Mục tiêu đề tài
Trong phần trên, chúng tôi đã trình bày một số phương pháp của mô hình phát hiệnđối tượng cũng như ứng dụng của chúng vào đời sống Trong đề tài này, chúng tôi có
các mục tiêu chính như sau:
e Tìm hiểu tổng quan bài toán phát hiện đối tượng Ỏ đây, chúng tôi sẽ chỉ ra các
hướng tiếp cận của bài toán phát hiện đối tượng, các mô hình tiêu biểu cho từng
loại tiếp cận và các ứng dụng vào thực tế của mô hình phát hiện đối tượng cũng
sẽ được đưa ra.
e Nghiên cứu một số mô hình tiêu biểu của bài toán phát hiện đối tượng dựa trên
mô hình Transformer.
e Thiết lập thực nghiệm Ứng với từng mô hình, để làm rõ hơn các nghiên cứu
trên, việc thiết lập các mô hình và làm thí nghiệm giúp chúng tôi chứng minh
các giả thuyết
1.5 Đóng góp chính của đề tài
Tổng quan về bài toán phát hiện đối tượng dựa trên Transformer và một số biến thếcủa nó.
e Nghiên cứu tổng quan về bài toán phát hiện đối tượng theo một giai đoạn, hai
giai đoạn Tìm hiểu chi tiết bài toán phát hiện đối tượng dựa trên Transformer
và các biến thể
e Thiết lập thực nghiệm trên bộ dữ liệu ADTC27K và so sánh, đánh giá kết quả
trên từng mô hình.
e Tài liệu chỉ tiết về các mô hình đã tìm hiểu, các ý tưởng, cách cài đặt, cách thiết
lập thực nghiệm và kết quả thực nghiệm
Trang 281.6 Bồ cục
Cấu trúc của luận văn này bao gồm:
e Chương 1: Tổng quan Giới thiệu tổng quan về bài toán phát hiện đối tượng
dựa trên Transformer [44], bao gồm tổng quan bài toán, lý do thực hiện đề tài,
mục tiêu cũng như đóng góp chính của bài toán.
e Chương 2: Các công trình liên quan Đầu tiên xem qua lại mô hình Transformer
đầu tiên Sau đó sẽ đi tìm hiểu các mô hình phát hiện đối tượng dựa trên
Transformer dựa trên các hượng tiếp cận
e Chương 3: DETR và các biến thể Trình bày về dữ liệu, cách tiền xử lý dữ
liệu, kiến trúc chi tiết của DETR và một số biến thể của nó Giới thiệu về chương
trình demo và hướng dẫn sửa dụng nó.
e Chương 4: Đánh giá thực nghiệm Trình bày bày kết quả đạt được của đề
tài trên cả hình ảnh và số liệu
e Chương 5: Kết luận Chương này tóm tắt lại một số nội dung và đánh giá
tổng kết của đề tài, bên cạnh đó đề ra một số hướng phát triển của đề tài trongtương lai.
Trang 29(b) Trong y tế, các mô hình AI giúp bác sỹ
phan tích các hình ảnh chụp CT một cách
chính xác và nhanh chóng hơn.
| (d) Xe tự lái dang là một xu hướng của thé
(c) Trong ngành bán lẻ, các trợ lý có thể giúp 8iới và Ai giúp xe phát hiên các vật thể xong chủ các cửa hàng tự động tư van sản phẩm quanh nhanh chong roi truyền tín hiệu de tự
cho khách hàng động lái xe.
—— eS |
Ss
—, = = >> Na sau
(f) Trong công nghiệp sản xuât, nhờ có AI,
(e) Trong nông nghiệp, các camera tích hợp các công đoạn hầu như được tiến hành tự
AI sẽ tự động chụp ảnh mùa vụ và đưa ra động Nhờ đó tăng hiệu suất sản xuất lên
một số lời khuyên cho người nông dân về tình nhiều lần
trạng của cây trồng hiện tại, giúp phát hiện
kịp thời sâu bệnh và tăng năng suất sản
phẩm tạo ra
Hình 1.3: Một số ứng dụng của AI vào đời sống Ảnh được tham khảo từ nhiều nguồn.
Trang 30dụng trong các bài toán phát hiện đối tượng thay cho các mô hình truyền thống khác.
Ngoài ra, chúng tôi sẽ nhắc lại mốt số kiến thức của mô hình Transformer đầu tiên [44]
để phục vụ cho việc đễ dàng hiểu các mô hình phát hiện đối tượng liên quan Chúng
tôi cũng sẽ phân tích các loại mô hình phát hiện đối tượng dựa trên Transformer dựatrên một số tiêu chí phân loại
2.2 Transformer
Đầu tiên, hãy đánh giá ngắn gon về Transformer, sau đó giới thiệu một số bài báo gầnđây về Transformer trong bài toán phát hiện đối tượng Trong số đó, ViT được
sử dụng để phan loại hình ảnh va DETR [6| và các biến thể của nó được sử dung để
phát hiện đối tượng Có thể thấy qua những bài báo này, mô hình Transformer trong
lĩnh vực thị giác máy tính đã bắt đầu hình thành Tiếp theo, chúng tôi sẽ mô tả bốn
thành phần chính và cung cấp một cái nhìn tổng quan về kiến trúc của Transformer
được giới thiệu đầu tiên ở [44]
10
Trang 312.2.1 Cơ chế Attention
Là một thành phần thiết yếu của Transformer, cơ chế Attention có thể được nhóm
thành hai phần
e Một lớp chuyển đổi ánh xạ các chuỗi đầu vào X € IR"zX% Y € JR"›*% thành ba
vecto tuần tự khác nhau (truy vấn Q, khóa K và giá trị V), trong đó n và d làchiều dài và kích thước của chuỗi dau vào, tương ứng Mỗi vectơ được tạo dưới
dạng:
Q=XW®,K =YW*,V=YW’, (2.1)
trong đó W9 € R&* WK € RYXt và WY € RY*@" là các ma trận tuyến
tính, đ" là chiều của giá tri Truy vấn được chiếu từ X, trong khi khóa và giá tri
được chiếu từ Y Lược đồ đầu vào hai trình tự này được sử dụng để gọi là cơ chế cross-attention (tam dịch: chú ý chéo) Cụ thể, nó có thể được coi là self-attention
(tam dich: tự chú ý) khi Y = X Ngoài ra, cơ chế Self - Attention được áp dụngcho cả bộ mã hóa và bộ giải mã, trong khi những cơ chế Cross - Attention chiđược sử dụng bên trong bộ giải mã.
e Lép Attention, như trong Hình tổng hợp rõ ràng truy vấn với khóa tương
ứng, gán chúng cho giá trị và cập nhật vectơ đầu ra Có thể xây dựng quy trình
trên thành một công thức thống nhất như sau:
QKT
Vad.
Attention(Q, K,V) = Softmax( )V, (2.2)
tại đó trọng số Attention được tạo ra bởi một dot-product hoạt động giữa truy
van và khóa, một hệ số tỷ lệ Vd, và softmax được cung cấp để dịch trọng số Attention vào một phân phối chuẩn hóa Kết quả là trọng số được gán cho các
phần tử tương ứng của giá trị, do đó mang lại vectơ đầu ra cuối cùng.
11
Trang 32Hình 2.1: Cau trúc của lớp Attention Bên trái: Scaled Dot-Product Attention Bên
phải: Multi-Head Attention Mechanism Ảnh được lấy từ 44]
2.2.2 Cơ chế Multi-Head Attention
Do không gian con của tính năng bi han chế, mô hình hóa khả năng của khối Attentionmột đầu là rất bình thường Để giải quyết van đề này, 44] đã đề xuất cơ chế Multi-
Head Attention cho phép xử lý tuyến tính các đầu vào tại nhiều đặc trưng của khônggian con và xử lý chúng bởi một số đầu Attention độc lập và các đầu Attention nàydiễn ra một cách song song với nhau Các vectơ kết quả được nối và ánh xạ tới vecto
cuối cùng đầu ra Quá trình Multi-Head Attention nà có thể được xây dựng bằng côngthức như sau:
Qi = XW%, kK, = XW Vi, = XW"
Z, = Attention(Q;, Ki,Vi),i = [1,2, , h] (2.3) MultiHead(Q, K,V) = Concat(Z,, Z2, ,Z,)W°?
trong đó h là số đầu (Head-Attention), W? € R'de%4moaet biểu thị ma trận đầu ra
dự kiến Z; biểu thị cho đầu ra tương ứng của mỗi đầu, We € ]R“»setx% WR c
RhnedeaXdk và WHE © JRfmsseXđ% là ba nhóm ma trận khác nhau Tương tự với sparse
12
Trang 33connection convolution (tạm dịch: kết nối thưa thớt của tích chập) cơ chế Attentionnhiều đầu phân tách đầu vào thành Attention độc lập h đầu và tích hợp từng vectơ
đặc điểm đầu song song mà không có thêm chi phí tính toán, Multi - Head Attention
làm phong phú thêm sự đa dạng của không gian con đối tượng
2.2.3 Feed-Forward Networks (FFN)
Dau ra của Multi-Head Attention sau đó được đưa vào hai mang chuyển tiếp (FFN)
liên tiếp với ham activation ReLU như sau:
FƑFPN(z) = RELU(Wz + b1)Wa + be (2.4)
Lớp Feed-Forward Networks này có thể được xem như một phép chập điểm khôn ngoan
khi xử lý từng vị trí như nhau nhưng sử dụng các tham số khác nhau giữa mỗi lớp
2.2.4 Mã hóa vị trí
Vi Transformer và cơ chế Attention hoạt động trên embedding đầu vào đồng thời và
giống nhau, vì vậy, thứ tự của trình tự bị bỏ quên Dể sử dụng thông tin tuần tự, giải
pháp được đưa ra ở đây là nối thêm một vector vị trí vào các đầu vào do đó sinh ra
thuật ngữ mã hóa vi trí Có nhiều cách chon để mã hóa vị trí Một vi dụ điển hình là lựa chọn các hàm sin và cos được biểu diễn như công thức dưới đây:
Trang 34a a
Positional Positional
Encoding & © Đ CY Encoding
Input Output Embedding Embedding
Hình [2.2] cho thấy kiến trúc bộ mã hóa-giải mã tổng thể của mô hình Transformer Cu
thể, Transformer bao gồm N = 6 khối mã hóa liên tiếp, mỗi khối được cấu tạo của hai lớp con Một lớp Multi-Head Attention tổng hợp mối quan hệ trong các lần embedding
của bộ mã hóa Một lớp Feed - Forward Network về vị trí trích xuất đại diện tính năng
Đối với bộ giải mã, nó cũng liên quan đến sáu khối liên tiếp theo chồng bộ mã hóa
So với bộ mã hóa, mỗi khối bộ giải mã thêm vào một lớp Cross - Attention nhiều đầu
để tổng hợp bộ giải mã nhúng và đầu ra của bộ mã hóa, trong đó Y tương ứng với cái trước, và X là cái sau như được hiển thị trong Công thức (2.1).
Hơn nữa, tất cả các lớp con trong bộ mã hóa và bộ giải mã đều triển khai một kết nối residual và lớp Chuẩn hóa [I] để nâng cao khả năng mở rộng của Transformer Dé
ghi lại thông tin tuần tự, mỗi embedding đầu vào được đính kèm với thông tin mã hóa
vị trí ở đầu bộ mã hóa Cuối cùng, một lớp tuyến tính và một ham activation softmaxđược sử dụng cho dự đoán từ tiếp theo
14
Trang 35( Sparse ) Deformable
Attention DETR, ACT
Detector Conditional DETR Spatial Prior
Hình 2.3: Phân loại phát hiện đối tượng dựa trên Transformer
Là một mô hình ngôn ngữ hồi quy, Transformer có nguồn gốc từ các tác vụ dịch máy.Dua ra một chuỗi các từ, Transformer vectơ hóa chuỗi đầu vào thành các embedding
từ, thêm mã hóa vị trí và cung cấp chuỗi vectơ kết quả cho một bộ mã hóa Trong quá
trình đào tạo, như được minh họa trong Hình|Ð.2| tác giả của Transformer [44] đã thiết
kế hoạt động mask theo quy tắc tác vụ tự động hồi quy mà vị trí hiện tại chỉ có thể
phụ thuộc vào các đầu ra vị trí trước đó Dựa trên mask này, bộ giải mã Transformer
có thể xử lý song song chuỗi đầu vào Trong thời gian suy luận, chuối từ dự đoán trước
đó được xử lý bởi cùng một hoạt động sẽ được đưa vào bộ giải mã để tạo ra từ tiếp
theo.
2.3 Phát hiện đối tượng dựa trên Transformer
Các máy dò đối tượng truyền thống chủ yếu được xây dựng dựa trên CNN, nhưng
tính năng của bài toán phát hiện đối tượng dựa trên Transformer đã thu hút được sự
quan tâm đáng kể gần đây do khả năng nổi bật của nó Một số phương pháp phát
hiện đối tượng đã cố gắng sử dụng cơ chế Self - Attention của Transformer và sau đó
nâng cao các mô-đun cụ thể cho các mô hình hiện đại Các phương pháp phát hiện
15
Trang 36Hình 2.4: Hướng tiếp cận của phát hiện đối tượng dựa trên Transformer (a) Nhiệm
vụ phát hiện đối tượng được xây dựng như nhiệm vụ dự đoán dự đoán tập hợp thông
qua Transformer (DETR |6]) (b) Loại bỏ backbone CNN trong mô hình phát hiện
đối tượng dựa trên Transformer (ViT-FRCNN BỊ)
đối tượng dựa trên Transformer có thể được phân loại thành hai nhóm chính: phương
pháp dự đoán tập hợp dựa trên Transformer(Transformer Neck) và phương pháp chỉ
sử dung backbone là Transformer(Transformer Backbone), như được trình bay trong
Hình
Trong đề tài này, chúng tôi sẽ tập trung đi vào nhóm thứ nhất đó chính là phươngpháp dự đoán tập hợp dựa trên Transformer Trước tiên, chúng tôi xem xét DETR[6], một bộ phát hiện Transformer đầu tiên cung cấp một đại diện mới là truy vấnđối tượng (object query), xây dựng công thức phát hiện đối tượng như một bài toán
dự đoán Do độ chính xác thấp trên các vật thể nhỏ và hội tụ chậm, có nhiều nỗ lực
để cải thiện máy dò Transformer từ ba khía cạnh: cơ chế Attention thưa thớt (sparse
attention), spatial prior và thiết kế lại cấu trúc (structural redesign) Ngoài ra, chúng
tôi xem xét việc ứng dụng của việc tự học có giám sát (Self-Supervised Learning).
16
Trang 37Backbone (M) FLOPs AP APs) AP; APs APy AP,
Resnet50 [18] 38 239 39.0 58.4 41.8 224 42.8 51.6
Resnet101 57 315 40.9 60.1 44.0 23.7 45.0 53.8 ResNeXt101-32x4d 56 319 41.4 61.0 443 23.9 45.5 53.7
ResNeXt101-64x4d [51] 94 473 41.8 61.5 444 25.2 45.4 546PVTv1-Large [48] 71 345 43.4 636 46.1 261 46.0 59.5ViL-Base [B5] 67 443 44.7 656 47.6 29.9 48.0 58.1
Swin-Base 98 477 45.8 664 49.1 29.1 494 60.3
Focal-Base [53} 101 514 46.9 67.8 50.3 31.9 503 61.5
Bang 2.1: So sánh kết quả một số mô hình CNN và một số mô hình dựa trên
Transformer Backbone Kết quả được dự đoán trên tập Val của bộ dit liệu COCO
2017, được huấn luyện với đầu vào đa quy mô (multi-scale).
2.3.1 Transformer Backbone
Đã có nhiều backbone được áp dung cho các mô hình Transformer trong thi giác máy
tính [12] 6] Các backbone này có thé dé dàng kết hợp vào các khuôn khổ khác nhau (ví du: Mask R-CNN [f7], RetinaNet [25], DETR [6], v.v.) để thực hiện các nhiệm
vụ dự đoán dày đặc Ngoài những cải tiến chung, một phần trong số chúng cũng có
lợi cho các nhiệm vụ dự đoán dày đặc Cấu trúc phân cấp, như PVT [48], xây dựng
Transformer như một quá trình phân giải từ cao đến thấp để tìm hiểu các tính năng
đa quy mô Cau trúc nâng cao cục bộ xây dựng đường trục như một sự kết hợp cục bộ
với toàn cục để trích xuất hiệu quả các phụ thuộc trực quan trong phạm vi ngắn và
dài và tránh chi phí tính toán bậc hai, chẳng hạn như Swin Transformer [28], ViL
va Focal Transformer [53] Bảng [2.1] so sánh các mô hình nay dựa trên các khuôn khổ
khác nhau trong các nhiệm vụ dự đoán dày đặc Backbone dựa trên Transformer tốt
hơn các mô hình CNN hiện đại từ 2-6,8%, điều này chứng tỏ hiệu quả của Transformer
đối với dự đoán dày đặc Tương tự với FPN [24], Zhang et al đề xuất Feature PyramidTransformer (FPT) [54] dành riêng cho các nhiệm vụ dự báo dày đặc, bằng cách kết
hợp các đặc tính của non-local và Multi-scale Ñó thúc day ba thành phan cơ chế Attention để mô hình hóa các tương tác trên cả không gian và quy mô, bao gồm cơ chế
Self-Attention, cơ chế Cross-Attention từ trên xuống và cơ chế tự Cross-Attention từdưới lên FPT đóng vai trò là trụ cột chung cho các nhiệm vụ dự đoán dày đặc nhằm
đạt được sự thúc đẩy hơn nữa trên nhiều mô hình mới và có kết quả tốt nhất hiện nay.
17
Trang 38Convolutional Set of Transformer neural — image encoder-
network features decoder
Hình 2.5: Tổng quan về kiến trúc của DETR Hình được lấy từ [6|
2.3.2 Transformer Neck
Khác với Transformer Backbone, Transformer Neck thường có backbone khác so với
Transformer Ví dụ, trong DETR [6] tác giả đã sử dung backbone 50 và
Resnet-101 để rút trích đặc trưng từ hình ảnh sau đó mới cho đầu ra đi vào Transformer Tiếp
theo, để phân tích các mô hình của Transformer Neck, ta có thể chia thành 5 hướng
tiếp cận như sau:
Mô hình phát hiện đối tượng đầu tiên dựa vào Transformer
DEtection TRansformer (DETR |6]) là mô hình phát hiện đối tượng dựa trên Transformer
đầu tiên loại bỏ các biểu diễn được thiết kế thủ công như là và hậu xử lý
non-maximum suppression(NMS) Thay vào đó mô hình DETR sẽ phát hiện trực tiếp
tất cả các đối tượng bằng cách đưa vào truy vấn đối tượng (object query) và tập hợp
dự đoán (set prediction) Cụ thé hơn, DETR sử dụng bộ mã hóa - giải mã như trong
mô hình Transformer gốc [44] và feed forward network (FFN) làm phần đầu cho dự
đoán (Mô hình chi tiết trong hình |3.2).
18
Trang 39DETR với Sparse Attention
Trong DETR, sự tương tác day đặc giữa embeddings bộ giải mã và các tinh năng toàncầu sẽ tiêu tốn rất nhiều tài nguyên tính toán và làm chậm sự hội tụ của DETR Do
đó, một số nghiên cứu được tiến hành nhằm mục đích thiết kế cơ chế Attention thưa
thớt phụ thuộc vào dit liệu để giải quyết vấn đề này, chang hạn như Deformable DETR
và ACT [57]
Deformable DETR [58]: Lay cảm hứng từ [7] mô hình Deformable DETR [58] ra đời
và cải thiện đáng kể thời gian huấn luyện so với mô hình tiền nhiệm DETR Deformable
DETR thay thé cơ chế Attention trong DETR bằng Attention Deformable, làm cho bộ
dò của mô hình Deformable DETR hiệu qua hơn va tăng tốc độ hội tụ lên 10 lần.
ACT [57]: Bằng cách hình dung ban đồ Attention của mô hình DETR, quan sát rằngcác phần tử gần giống nhau về mặt ngữ nghĩa và gần giống nhau về mặt không gian
luôn có một bản đồ Attention tương tự trong bộ mã hóa [57] Dé loại bỏ các truy van
19
Trang 40Input Images Object Queries
Encoder Decoder Prediction
Hình 2.7: Bộ mã hóa của mô hình Adaptive Clustering Transformer Hình anh được
lấy từ
thừa của bộ mã hóa, mô hình Adaptive Clustering Transformer - ACT được để xuất Dựa trên việc sử dụng E2LS [10], ACT có thể tự động phân cụm các truy vấn thành các nguyên mẫu khác nhau, sau đó được sử dụng để ước lượng một bản đồ Attention
khóa truy vấn bằng cách truyền phát từng nguyên mẫu tới các truy vấn tương ứng của
chúng (Hinh[2.7) So với DETR, ACT giảm 15 GFLOPs và AP chỉ giảm 0.7
DETR với Spatial Attention
Không giống như anchor hoặc các biểu diễn khác được tạo trực tiếp bởi nội dung và
các tính năng về hình học, truy vấn đối tượng mô hình hóa hoàn toàn thông tin không
gian với khởi tạo ngẫu nhiên, có thể có liên quan yếu với hộp giới hạn Gần đây, cácphương pháp chính của ứng dung Spatial Attention [14] 30] và bộ do hai giai đoạn vớikhởi tao toa độ hình học [58} [52]
SMCA [14]: Dé nâng cao mối quan hệ của truy vấn đối tượng và hộp giới hạn với
không gian thực nghiệm trước đó, SMCA được đề xuất lược đồ một giai đoạn được
gọi là Spatially Modulated Co-Attention (SMCA) để ước tính không gian của từng đối tượng truy vấn một cách rõ ràng Cụ thể, SMCA dự đoán động tâm ban đầu và
tỷ lệ của hộp tương ứng với từng truy vấn đối tượng, tạo bản đồ trọng số giống như
Gaussian, sau đó nhân với bản đồ Cross-Attention tương ứng Hơn nữa, SMCA tận
20