qrÄroffic '€ØfffSicio as Hình 1.3: Minh họa việc ứng dụng học sâu vào hệ thống xe tự hành [3] Các mô hình học sâu đã cho thấy được sự hiệu quả khi đã giải quyết các tác vụ của xe tự hành
Trang 1ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KỸ THUẬT MAY TÍNH
NGUYEN ĐÌNH PHÚC - 20521766
KHÓA LUẬN TÓT NGHIỆP
NGHIÊN CỨU VÀ XÂY DỰNG MÔ HÌNH XỬ LY DONG
THỜI ĐA TÁC VỤ CHO BÀI TOÁN XE TỰ HÀNH
Research and Development of a Simultaneous Multi-Tasking Model
for Autonomous Vehicle Problems
CU NHÂN KỸ THUAT MAY TÍNH
GIANG VIEN HUONG DAN
TS LAM DUC KHAI
KS CHE QUANG HUY
TP HO CHÍ MINH, 2024
Trang 2THONG TIN HỘI ĐỒNG CHAM KHÓA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 659/QD-DHCNTT ngày
05 tháng 07 năm 2024 của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
Trang 3LOI CAM ON
Đầu tiên, em xin gửi lời cảm ơn đến quý thay cô giáo trường Dai Học Công Nghệ Thông Tin
Trong quá trình học tập và rèn luyện tại trường, với sự dạy dỗ, chỉ bảo tận tình của các quý
thầy cô giáo đã trang bi cho em những kiến thức về chuyên môn cũng như kỹ năng mềm, tao
cho em hành trang vững chắc trong cuộc sống cũng như công việc sau này.
Tiếp theo, em xin cảm ơn khoa Kỹ Thuật Máy Tính vì đã luôn tạo mọi điều kiện thuận lợi
cho em được học tập và phát triển.
Đặc biệt, để hoàn thành khóa luận tốt nghiệp này, em xin gửi lời cảm ơn sâu sắc tới hai ThầyLâm Đức Khải và Thầy Chế Quang Huy đã tận tình chỉ bảo, hướng dẫn và hỗ trợ trang thiết
bị cho em trong suốt thời gian thực hiện đề tài Đồng thời, mình cũng xin gửi lời cảm ơn đếnmọi người trong Câu lạc bộ CEEC đã hỗ trợ mình hoàn thành khóa luận một cách tốt nhất
Em cũng muốn cảm ơn tất cả các công ty và nhà phát triển cung cấp các dịch vụ miễn phí
cũng như các thư viện và dự án mã nguồn mở Không có những công cụ và thư viện này khoáluận của em sẽ không thể hoàn thành được như bây giờ Cuối cùng, em xin cảm ơn đến giađình, những người luôn dành những sự động viên đến em trong suốt quá trình thực hiện khóa
luận.
Trang 4MỤC LỤC
1 GIỚI THIỆU DE TÀI
1.1
1.2
Tổng quan để tài Ốc
1.1.1 Tinh hình ngành công nghiệp xe tự hành trên thế giới
1.1.2 Đặtvấnđề ee Mục tiêu đề tài Q Q Q ee 2 CƠ SỞ LÝ THUYET ĐỀ TÀI 2.1 2.2 2.3 2.4 2.5 Bài toán Phát hiện đốitượng
Bài toán Phân đoạn khu vực lá xe
Bài toán Phát hiện làn đường
Mô hình đa tác vụ Ặ ee Các mô hình học sâu trên thiết bibién
-3_ GIẢI PHÁP ĐỀ XUẤT 3.1 3.2 3.3 Mô hình Phát hiện đối tượng
3.11 7 Lựachọnmôhìnhh
3.1.2 Đề xuất dữ liệu huấn luyện
3.1.3 Phương pháp huấn luyện, đánh giá và so sánh các mô hình
Mô hình Phân đoạnngữngha
3.2.1 Chi tiết kiến trúc mô hình
TwinLieNet -3.2.2 Chuẩn bi dữ liệu huấn luyện Ặ ee 3.23 Phương pháp huấn luyệnmôhình
Xử lý đồng thdidatécvu Ốc cv 3.3.1 Thiết kế kiến trúc phần mềm
3.3.2 Đánh giá trên thếtbjbiên
a +® ` WN WN
œ
10 11 12 13
Trang 54_ ĐÁNH GIÁ KET QUA THỰC NGHIỆM 35
4.1 Các mô hình Phát hiện đối tượng YOLO đề xuất 35
4.1.1 Chiphítnhtoán Ặ.Ặ Ặ 002 0 000004 35
4.1.2 Độ chính xác trên tập dữ liệu mẫu 36
4.1.3 Đánh giá trên các thiét bibién - 39
4.2 Mô hình phân đoạn ngữ nghĩa IwmnLiteNet 42
TÀI LIỆU THAM KHẢO 55
Trang 61.2
1.3
1.4
2.1
2.2
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
4.1
DANH MUC HINH
Minh họa hệ thống tự lái trên xe Tesla[l] - 2
Dich vụ Robotaxi ở Trung Quốc [2] - 3
Minh họa việc ứng dụng học sâu vào hệ thống xe tự hành [3] 5
Tổng quan kiến trúc mô hình tính toán song song 6
Phương pháp hai giai đoạn [4] - 8
Phương pháp một giai đoạn [4] 9
So sánh các phiên bản YOLO từ YOLOvS§ cho đến YOLOv8 [5] 15
Hình ảnh trong bộ dữ liệu MS COCO [6] 17
Minh họa dữ liệu trong BDDI00K[_] 18
Sự mất cân bằng giữa các loại đối tượng trong tập dữ liệu huấn luyện BDDI00K 19 Kiến trúc mô hình TwinLiteNet[S] 21
Mô-dun ESP[9] ẶẶ Ặ Q Q Q Q Q ee 23 Kiến trúc ESPNetC 24
Position Attention Module[l0] 25
Channel Attention Module[l0] 26
Khối decoder mô hình TwinLieNet[S8] 27
Hai lớp đối tượng “Directly Drivable Area” (đỏ) và “Alternative Area” (xanh) Ea 30
Trước và sau khi áp dụng phương pháp đề xuất trên BDDIOOK 31
Kiến trúc phần mềm của hệ thống xử lý đồng thời 32
Biểu diễn kết quả dự đoán của các mô hình YOLO đè xuất ở điều kiện ban
Trang 7Triển khai TwinLiteNet trên các thiết bịbiên 49
Năng lượng và nhiệt độ trên TX2 và Xavier khi triển khai TwinLieNet 50
Sự chiếm dụng GPU khi xử lý tuần tự và xử lý đồng thời trên Jetson TX2 52
Trang 83.1
3.2
3.3
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
DANH MUC BANG
Kết quả mục tiêu dé tai trong ngữ cảnh xetuhanh
Kết quả các mô hình YOLOv7 trên tập dit liệu MS COCO [ii]
Kết quả các mô hình YOLOv8 trên tập dữ liệu MS COCO [5]
So sánh các bộ dữ liệu về làn đường [7]
Kết quả đo đạc chi phí tính toán của các mô hình YOLO dé xuất
So sánh độ chính xác của các mô hình YOLO ở các độ phân giải khác nhau. So sánh độ trễ suy luận của các mô hình YOLO đề xuất
So sánh độ trễ và năng lượng tiêu thụ của các mô hình YOLO dé xuất
Kết quả đánh giá chi phí tính toán mô hình TwinLiteNet
Kết quả đánh giá tác vụ Phân đoạn khu vực lái xe mô hình TwinLiteNet
Kết quả đánh giá tác vụ Phát hiện làn đường mô hình TwinLiteNet Đánh giá hệ thống khi xử lý tuần tự và xử lý đồng thời trên thiết bị biên
Trang 9DANH MỤC TU VIET TAT
Al Artificial Intelligence
BDD100K Berkeley Deep Drive 100K
CNN Convolutional Neural Networks
CAM Channel Attention Module
DAM Dual Attention Modules
E-ELAN Extended Efficient Layer
Aggrega-tion Network ESP Efficient Spatial Pyramid
FPS Frame Per Second
FLOPs Floating Point Operation Per second IoU Intersection over Union
mAP Mean Average Precision
mloU Mean Intersection over Union
PAM Position Attention Module
SOTA State Of The Art
SSD Single Shot Multibox Detector
YOLO You Only Look Once
Trang 10TÓM TẮT KHÓA LUẬN
Khóa luận này tập trung vào việc nghiên cứu và phát triển các mô hình học sâu thời gian thực
để giải quyết các bài toán liên quan đến xe tự hành, bao gồm Phát hiện đối tượng, Phân đoạn
khu vực lái xe va Phát hiện làn đường Cac mô hình YOLOv7-tiny, YOLOv8n, YOLOv8s đã
được lựa chọn cho bài toán Phát hiện đối tượng, trong khi mô hình TwinLiteNet được nhóm
phát triển cho hai bài toán Phân đoạn khu vực lái xe và Phát hiện làn đường Tat cả các mô
hình này đều được cải tiến và đánh giá toàn diện trên tập dữ liệu BDD100K
Kết quả thực nghiệm cho thấy các mô hình đề xuất đạt được kết quả tốt về độ chính xác, tốc
độ xử lý và mức tiêu thụ năng lượng trên các thiết bị biên như Jetson TX2 và Jetson Xavier
Cụ thể, trên NVIDIA GeForce RTX A5000 GPU, mô hình YOLOv7-tiny đạt độ chính xác
56.7% mAP và tốc độ xử lý 249 FPS, YOLOv8n dat 37.3% mAP và 947 FPS, YOLOv8s đạt44.9% mAP và 554 FPS Mô hình TwinLiteNet với thiết kế gọn nhẹ chỉ với 0.4 triệu tham
số đã thể hiện khả năng vượt trội trong việc cân bằng giữa độ chính xác và tốc độ xử lý
TwinLiteNet đạt độ chính xác 91.3% mloU trong tác vụ Phân đoạn khu vực lái xe và 31.08%
IoU trong tác vụ Phát hiện làn đường, với tốc độ xử lý lên đến 60 FPS trên Jetson Xavier
Bên cạnh đó, dé tài cũng đã dé xuất và triển khai thành công phương pháp xử lý đồng thời đa
tác vụ, giúp giảm thiểu độ trễ 1.4 lần (từ 94.4ms xuống còn 67.6ms trên Xavier, từ 163.6msxuống còn 128.6ms trên TX2) và tối ưu hóa việc sử dung tài nguyên GPU trên các thiết bịbiên Phương pháp này mở ra hướng tiếp cận mới trong việc xây dựng các hệ thống xe tự
hành hiệu quả và đáng tin cậy hơn.
Trang 11Chương 1 GIỚI THIỆU ĐỀ TÀI
1.1 Tổng quan đề tài
1.1.1 Tình hình ngành công nghiệp xe tự hành trên thé giới
Công nghệ xe tự hành đang ngày càng phát triển mạnh mẽ và trở nên thịnh hành hơn khi thị
trường đòi hỏi những đột phá để mở ra kỷ nguyên mới cho ngành công nghiệp tự động hóa.
Các quốc gia dẫn đầu về công nghệ như Mỹ, Anh, Nhật Bản và Trung Quốc đều đang đẩy
mạnh việc nghiên cứu và phát triển xe tự hành, cùng với việc thiết lập các chính sách hỗ trợ
và mở cửa cho việc thử nghiệm và triển khai các mẫu xe tự hành mới
LEFT REARWARD VEHICLE CAMERA
MEDIUM RANGE VEHICLE CAMERA
Hình 1.1: Minh họa hệ thống tự lái trên xe Tesla [1]
Tại Mỹ, các công ty như Tesla, Waymo và Uber đang dẫn đầu trong việc phát triển và thửnghiệm các công nghệ xe tự hành tiên tiến Như được minh họa trong Hình 1.1, Tesla với cácmẫu xe có khả năng tự hành đã trở nên quen thuộc trên đường phố Trong khi Waymo, mộtcông ty con của Alphabet, đã triển khai dịch vụ taxi tự hành tại một số khu vực Các tiểubang như California và Arizona đã thiết lập các khu vực thử nghiệm rộng lớn, cho phép các
2
Trang 12công ty công nghệ thực hiện hàng ngàn giờ lái thử nghiệm, thu thập dữ liệu quý giá để cải
thiện các hệ thống tự động
Anh cũng không nằm ngoài cuộc đua công nghệ này khi chính phủ đã đưa ra các chính sách
khuyến khích và đầu tư hàng tỷ bảng vào nghiên cứu và phát triển công nghệ xe tự hành Các
dự án thử nghiệm tại London và Milton Keynes đang giúp thu thập dif liệu thực tiễn để hoàn
thiện công nghệ Anh đặt mục tiêu trở thành một trong những quốc gia hàng đầu về xe tự
hành vào năm 2025, với sự hợp tác giữa các cơ quan chính phủ và các công ty tư nhân.
Nhật Bản, nổi tiếng với sự tiên tiến trong công nghệ, đang nỗ lực phát triển các hệ thống
xe tự hành để giải quyết các van dé về giao thông và dân số già Các công ty như Toyota và
Nissan đang thử nghiệm các mẫu xe tự hành với độ tin cậy cao, hướng tới việc triển khai rộng
rãi vào Thế vận hội Tokyo Nhật Bản đặc biệt chú trọng đến việc đảm bảo an toàn và hiệuquả của các hệ thống tự hành, đồng thời phát triển cơ sở hạ tầng phù hợp để hỗ trợ công nghệ
này.
Trung Quốc đã có những bước tiến vượt bậc trong công nghệ xe tự hành, đặc biệt là với
sự ra mắt của các dịch vụ taxi không người lái, hay còn gọi là robotaxi Các công ty như Baidu, AutoX và Pony.ai đã triển khai các dịch vụ này tại các thành phố lớn như Bắc Kinh
và Thượng Hải Chính phủ Trung Quốc đã thiết lập các khu vực thử nghiệm đặc biệt và ban
Trang 13hành các chính sách hỗ trợ mạnh mẽ, tạo điều kiện thuận lợi cho sự phát triển và thử nghiệmcông nghệ tự hành.
Một trong những lý do chính khiến công nghệ xe tự hành trở nên thịnh hành là nhu cầu ngàycàng tăng về an toàn giao thông và sự tiện ích trong việc di chuyển Xe tự hành được coi là
giải pháp tiềm năng để giảm thiểu tai nạn giao thông do lỗi người lái Với các hệ thống cảm
biến và trí tuệ nhân tạo, xe tự hành có thể phản ứng nhanh chóng và chính xác trước các tìnhhuống khẩn cấp, giảm nguy cơ tai nạn Hơn nữa, việc tối ưu hóa các quy trình lái xe và giảmthiểu tắc nghẽn giao thông sẽ cải thiện lưu thông và tiết kiệm thời gian cho người sử dụng
Nhìn chung, công nghệ xe tự hành đang mở ra một kỷ nguyên mới cho ngành công nghiệp
tự động hóa, hứa hẹn mang lại nhiều lợi ích về an toàn, hiệu quả và tiện ích Các quốc gia và
công ty công nghệ trên thế giới đang không ngừng nỗ lực nghiên cứu và phát triển, vượt quacác thách thức về kỹ thuật và pháp lý để hiện thực hóa tiềm năng của công nghệ này Tươnglai của ngành công nghiệp xe tự hành sẽ tiếp tục phát triển mạnh mẽ, mang lại những thay
đổi tích cực va đáng kể cho cách chúng ta di chuyển và tương tác với công nghệ trong cuộc
sống hàng ngày
1.1.2 Dat van đề
Trong những năm gần đây, sự đột phá lớn của Artificial Intelligence (AI) nói chung và học
sâu nói riêng đã có tác động sâu sắc đến ngành công nghiệp xe và xu hướng này sẽ tiếp tục
trong tương lai, tiềm năng tạo ra những chiếc xe an toàn hơn Như được mô tả trong Hình 1.3,
các hệ thống AI được tích hợp trên xe tự hành có khả năng nhận diện và phân tích hình ảnh
từ các cảm biến như máy ảnh, ra-đa và lidar Điều này giúp xe tự hành nhận biết và đánh giá
hiện trạng của môi trường xung quanh, bao gồm các phương tiện giao thông, biển báo, vật
cản và người đi bộ, cho phép xe phản ứng một cách phù hợp với các tình huống giao thôngkhác nhau, bao gồm cả việc dừng lại, thay đổi làn đường hoặc tránh vật cản
Trang 14qrÄroffic '€ØfffSicio as
Hình 1.3: Minh họa việc ứng dụng học sâu vào hệ thống xe tự hành [3]
Các mô hình học sâu đã cho thấy được sự hiệu quả khi đã giải quyết các tác vụ của xe tự hành
với độ chính xác cao, nhưng đánh đổi lại là sự phức tạp của mô hình dẫn đến thực hiện mộtkhối lượng tính toán lớn làm gia tăng độ trễ Với một môi trường giao thông thay đổi liên tục
và cần phải giải quyết các tình huống theo thời gian thực đã gây khó khăn khi triển khai các
mô hình học sâu trên các thiết bị biên đặt trên xe
Các nghiên cứu [12] [13] đề xuất các mô hình thời gian thực đơn tác vụ để giải quyết các bàitoán dành cho xe tự hành Tuy nhiên, giải quyết tuần tự các tác vụ như Phát hiện đối tượng,Phát hiện làn đường và Phân đoạn khu vực lái xe sẽ làm gia tăng độ trễ cho hệ thống xe tựhành Để giải quyết vấn đề đó, nhóm tác giả trong nghiên cứu [14] [15] đề xuất một số môhình đa tác vụ có thể giải quyêt đồng thời nhiều tác vụ cùng một lúc Mặc dù vậy, các môhình đa tác vụ vẫn có những hạn chế nhất định:
« Yêu cầu lớn về tài nguyên tính toán: Mô hình đa tác vụ được thiết kế để thực hiện
nhiều nhiệm vụ cùng một lúc làm gia tăng độ phức tạp của mô hình, từ đó cần phải xử
lý một lượng lớn dữ liệu và mô hình hóa đa dạng các loại thông tin Điều này đòi hỏi
một lượng lớn các tham số của mô hình và khả năng tính toán cao, làm tăng chi phí và
Trang 15giới hạn khả năng triển khai mô hình trên các thiết bị biên có tài nguyên hạn chế.
» Tối ưu hóa mô hình: Việc giải quyết đồng thời nhiều nhiệm vụ khác nhau khiến cho
việc tối ưu hóa mô hình đặc biệt trở nên khó khăn do phải cân bằng hiệu suất giữa các
nhiệm vụ.
Trong ngữ cảnh của xe tự hành, phát hiện các đối tượng giao thông trên đường đi hay phânđoạn làn đường và khu vực lái an toàn cho xe là điều vô cùng cần thiết Với bài toán Pháthiện đối tượng, ho mô hình You Only Look Once (YOLO) đã được chứng minh hiệu quả với
độ chính xác cao và độ trễ thấp khiến YOLO trở thành lựa chọn ưu tiên cho các ứng dụngcần đến độ trễ thấp như xe tự hành, nhưng van còn thiếu những nghiên cứu đánh giá rõ ràng
về hiệu quả của mô hình này trong môi trường giao thông xe tự hành
Còn đối với tác vụ phân đoạn, các mô hình chính xác thường đòi hỏi nhiều tài nguyên tínhtoán và thời gian suy luận lớn, điều này tạo ra một thách thức lớn cho các mô hình phân đoạntrong việc cân bằng giữa độ chính xác và độ trễ suy luận mà cho đến hiện tại thì chưa có mô
hình nào đảm bảo được sự cân bằng ấy cho ngữ cảnh xe tự hành.
Ngoài ra, các nghiên cứu gần đây chỉ tập trung vào thiết kế một mô hình thời gian thực gọnnhẹ với độ chính xác cao để giải quyết một tác vụ hoặc mô hình đa tác vụ để giải quyết nhiềutác vụ nhưng chưa có nghiên cứu nào đề cập đến việc triển khai đồng thời các mô hình ấy
Output Object Detection
Input data ⁄
Hình 1.4: Tổng quan kiến trúc mô hình tính toán song song
Thấy được những hạn chế đó, nhóm dé xuất một mô hình xử lý đồng thời Nhu được mô tả
trong Hình 1.4, với mỗi ảnh đầu vào sau khi tiền xử lý dữ liệu, sẽ được các mô hình Phát hiện
6
Trang 16đối tượng và Phân đoạn xử lý đồng thời, kết quả đầu ra của các mô hình tạo ra thông tin nhận
thức toàn diện về môi trường giao thông xung quanh xe Việc xử lý đồng thời các mô hìnhthay vì tuần tự giúp giảm độ trễ của hệ thống, cho phép xe tự hành phản ứng nhanh hơn vớicác tình huống bắt ngờ trên đường
1.2 Mục tiêu dé tài
Bảng 1.1: Kết quả mục tiêu đề tài trong ngữ cảnh xe tự hành
Tác vụ Mô hình Độ chính xác | Tham số | Tốc độ Phát hiện đỗi tượng YOLO [12] > 75% - > 25 FPS
ˆ R YOLOP [11] (SOTA) 91.5% 7.9 triệu Phan đoạn khu vực lãi xe Mô hình đề xuất >90.0%_ | < 1.0 triệu | >20FPS
R a HybridNets [15] (SOTA) | 31.6% 13.8 triệu
-Thần dean lận dong Mô hình đề xuất >26.1% | <1.0triệu | > 20 FPS
Nhóm sẽ nghiên cứu, xây dung được một mô hình xử lý đồng thời da tác vụ kết hợp hai mô
hình học sâu, cụ thể:
* Với tác vụ Phát hiện đối tượng, nhóm thử nghiệm các mô hình YOLO, độ chính xác
các mô hình và tốc độ trung bình trên thiết bị biên được thể hiện ở Bảng 1.1
s Với hai tác vụ Phân đoạn khu vực lái xe và Phát hiện làn đường, nhóm đề xuất một mô
hình chi phí tính toán thấp với độ chính xác và tốc độ trung bình được thể hiện cụ thể
Trang 17Chương 2 CƠ SỞ LÝ THUYẾT ĐỀ TÀI
2.1 Bài toán Phát hiện đối tượng
Phát hiện đối tượng là một tác vụ quan trọng trong lĩnh vực xe tự hành Nhận dạng chính xác
và nhanh chóng các đối tượng như xe cộ, người đi bộ, đèn giao thông và các yếu tố khác trên
đường đi là điều cần thiết để đảm bảo an toàn và tránh va chạm Các thuật toán Phát hiện đốitượng phổ biến trong lĩnh vực này có thể được phân loại thành hai phương pháp chính: một
giai đoạn và hai giai đoạn.
Về cơ bản, cả hai phương pháp đều sử dụng mạng nơ-ron tích chập (Convolutional Neural
Networks - CNN) để trích xuất đặc trưng từ ảnh đầu vào Như được minh họa trong Hình
2.1, phương pháp hai giai đoạn tạo ra các vùng đề xuất (Region Proposal), là những vùng cókhả năng cao chứa đối tượng Sau đó, mạng phân loại và hồi quy sẽ tập trung vào các vùng
dé xuất này để tinh chỉnh vị trí và phân loại đối tượng Điều này giúp tăng cường độ chínhxác, đặc biệt đối với các đối tượng nhỏ hoặc bị che khuất, nhưng đồng thời cũng làm tăng
thời gian xử lý.
Object Recognition Region Proposal
feature extraction
+classification)
Hinh 2.1: Phuong phap hai giai doan [4]
Trang 18Ngược lại, mạng nơ-ron trong phương pháp một giai đoạn sẽ trực tiếp dự đoán cả vị trí và
lớp của đối tượng trên toàn bộ ảnh đầu vào, được mô tả trong Hình 2.2 Cách tiếp cận nàygiúp giảm thiểu thời gian xử lý, nhưng có thể ảnh hưởng đến độ chính xác, đặc biệt khi đối
Object Detection + Recognition
Các phương pháp một giai đoạn mặc dù đôi khi đạt độ chính xác thấp hơn so với phươngpháp hai giai đoạn nhưng vẫn cần thiết cho các ứng dụng thực tế do độ trễ thấp Do đó, các
mô hình một giai đoạn đã được áp dung rộng rãi Các ví dụ nổi bật bao gồm YOLO [12] và
Single Shot Multibox Detector [16] (SSD) Những mô hình này đồng thời thực hiện cả hainhiệm vụ là hồi quy khung giới hạn và phân loại đối tượng, do đó độ trễ suy luận thường sẽ
thấp hơn so với các mô hình hai giai đoạn [17] [18]
Đặc biệt hơn nữa, các nghiên cứu gần đây liên quan đến bài toán Phát hiện đối tượng đang
phát triển mạnh mẽ, các mô hình được thiết kế riêng cho ứng dụng xe tự hành liên tục được
ra đời đã thu hút sự quan tâm đáng kể Nghiên cứu [19] đã phát triển một thuật toán cải tiếndựa trên SSD cho việc phát hiện xe nhanh chóng trong các tình huống giao thông, sử dụngMobileNetV2 làm kiến trúc nền tảng và sử dụng một mô-đun giải nén cho cấu trúc tích hợptính năng Nhóm tác giả trong [20] đã giới thiệu một mô hình tổng hợp kết hợp ưu điểm củaFaster R-CNN [17] và YOLO [12], sử dụng hệ thống phân loại bằng cách bỏ phiếu đa số
Ngoài ra, nhiều mô hình đa tác vụ [14] [15] đã tích hợp thành công nhiều tác vụ vào một môhình duy nhất, được đào tạo trên bộ dữ liệu BDD100K [7] Những bước tiến này cho thấyđược tiềm năng phát triển to lớn của các mô hình Phát hiện đối tượng, đặc biệt là trong ứng
Trang 19dụng xe tự hành.
2.2 Bài toán Phân đoạn khu vực lái xe
Phân đoạn ngữ nghĩa đã được nghiên cứu rộng rãi và nhiều mô hình đã được phát triển nhằmđạt độ chính xác cao Đáng chú ý hơn, trong thời gian gần đây, các mô hình phân đoạn khuvực lái xe đã được đề xuất và đạt hiệu quả cao với chi phí tính toán thấp Cu thể, ENet [13]
là một mô hình CNN nhẹ có thể chạy trên các thiết bị nhúng với độ trễ thấp ENet sử dụng
kiến trúc mã hóa-giải mã bất đối xứng, với khối mã hóa lớn hơn nhiều so với khối giải mã
để giảm độ phức tạp tính toán Đặc biệt, ENet sử dụng các khối nút cổ chai (bottleneck),
tích chập giãn nở (dilation convolution) và kết nối bỏ qua (skip connection) để tối ưu hóa
hiệu suất và độ chính xác Hơn nữa, ENet còn giảm kích thước đầu vào bằng lấy mẫu xuống
(downsampling) và sử dụng các bộ lọc (filter) nhỏ để tăng tốc độ xử lý
Ngoài ra, ERFNet [21] là một kiến trúc CNN nhẹ, trong đó ERFNet trích xuất các đặc trưng
từ hình ảnh đầu vào bằng cách sử dụng các lớp tích chập và các khối phân rã dư (residual
blocks) Các đặc trưng được trích xuất sau đó được sử dụng để phân đoạn hình ảnh thành các
khu vực khác nhau, trong đó khu vực lái xe được xác định là một lớp riêng biệt Các kỹ thuật
như kết nối bỏ qua và kết nối tat (shortcut connection) cũng được sử dụng để cải thiện độ
chính xác của phân đoạn.
Trong nghiên cứu [22], các tác giả đã tìm ra việc sử dụng mô-đun tích chập giãn nở lai (hybrid
dilated convolution module) kết hợp nhiều tỷ lệ giãn nở khác nhau để tăng cường trường tiếpnhận (receptive field) và nắm bắt thông tin ngữ cảnh đa dạng, từ đó phân biệt tốt hơn các đốitượng trong ảnh Bên cạnh đó, họ thay thế phương pháp nội suy truyền thống bằng tích chập
tăng mẫu dày đặc (dense upsampling convolution), sử dụng các phép tích chập để tăng kích
thước bản đồ đặc trưng (feature map), giúp giữ được thông tin chỉ tiết và cải thiện độ phângiải kết quả phân đoạn Hơn nữa, họ còn sử dụng mô-đun gộp kim tự tháp (pyramid poolingmodule) để tổng hợp thông tin ngữ cảnh toàn cục bằng cách gộp với nhiều kích thước cửa sổ
trượt khác nhau, giúp mô hình hiểu rõ mối quan hệ giữa các vùng trong ảnh
Zhao và các cộng sự [23] đã thiết kế mô hình PSPNet, sử dụng mô-đun gộp kim tự tháp
10
Trang 20(pyramid pooling module) áp dụng thuật toán gộp trung bình toàn cục (global average
pool-ing) với nhiều kích thước khác nhau để trích xuất đặc trưng Bên cạnh các mô hình tính toánphức tap, Mehta va các cộng sự [9] đã đề xuất ESPNet với chi phí tính toán thấp, sử dụng
phép tích chập giãn nở để xây dựng một mô-đun Efficient Spatial Pyramid (ESP) hiệu quả
Cuối cùng, ngoài việc phát triển các mô hình mới, Dual Attention Modules [10] (DAM) đã
khám phá thông tin ngữ cảnh toàn cục và xây dựng các liên kết giữa các đặc trưng thông qua
cơ chế chú ý, nhằm tổng hợp thông tin ngữ cảnh từ xa một cách linh hoạt, từ đó cải thiện khả
năng biểu diễn đặc trưng cho phân đoạn cảnh.
2.3 Bài toán Phát hiện làn đường
Trong tác vụ Phát hiện làn đường, có rất nhiều nghiên cứu đổi mới dựa trên học sâu Đầu tiên,
nghiên cứu [24] xây dựng một mạng hai nhánh để thực hiện phân đoạn ngữ nghĩa và nhúngcác điểm ảnh trên chính hình ảnh gốc, sau đó tiếp tục gom nhóm các đặc trưng của hai nhánh
lại với nhau, tạo ra các phiên bản phân đoạn làn đường khác nhau Tiếp theo, SCNN [25] đềxuất phương pháp tích chập từng lát một (depthwise convolution), cho phép thông tin truyền
giữa các điểm ảnh qua các hàng và cột trong một lớp Tuy nhiên, phương pháp tích chập này
có độ trễ tương đối cao
Hơn nữa, LaneNet [26] chia nhỏ quá trình phân biệt làn đường thành hai giai đoạn khác nhau:
dé xuất cạnh làn đường (lane edge proposal) và bản địa hóa vạch kẻ làn đường (lane marking
localization) Cụ thể, giai đoạn đầu tiên phát hiện cạnh làn đường theo điểm ảnh bằng cách
sử dụng mạng dé xuất cạnh làn đường, trong khi giai đoạn sau phát hiện các vạch kẻ lànđường dựa trên các đề xuất cạnh làn đường
Trong khi đó, Enet-SAD [27] sử dụng phương pháp chưng cất tự chú ý (self-attention tillation), cho phép các ban đồ đặc trưng cấp thấp học hỏi từ các bản đồ đặc trưng cấp cao.Phương pháp này cải thiện hiệu suất của mô hình trong khi vẫn giữ cho mô hình nhẹ Thêmvào đó, Pizzati và các cộng sự [28] đã triển khai một phương pháp học sâu cung cấp một hệ
dis-thống đầu cuối (end-to-end) để xác định, phân cụm và phân loại ranh giới làn đường, dựatrên hai mạng thần kinh xếp tầng, chạy trong thời gian thực Phương pháp của họ chứa hai
11
Trang 21phần: phần đầu tiên huấn luyện CNN để phân đoạn trường hợp ranh giới làn đường (lane
boundary), và phần thứ hai xử lý bộ mô tả (descriptors extracted) được trích xuất bằng CNN
thứ hai.
Ngoài ra, CondLaneNet [29] đề xuất một phương pháp phát hiện làn đường mới lạ từ trên
xuống, nhận diện các trường hợp làn đường trước tiên và sau đó dự đoán hình dạng động của
làn đường cho mỗi trường hợp Họ đã sử dụng tích chập có điều kiện (conditional tion) và công thức theo hàng để cải thiện khả năng phân biệt cấp độ làn đường của họ Môhình này cũng giải quyết được van dé phát hiện các vạch kẻ làn đường có cấu trúc liên kết
convolu-phức tạp.
Cuối cùng, nhóm tác giả trong [30] đã triển khai một cách tiếp cận học sâu dựa trên tín hiệumột chiều Mô hình này có khả năng xử lý các tình huống đầy thách thức như mưa và bóngtối để đạt được hiệu suất tốt hơn so với các phương pháp dựa trên mô hình Tuy nhiên, loạiphương pháp học sâu này đòi hỏi một nền tảng phần cứng có công suất lớn, đặt ra giới hạn
cao đối với việc sử dụng các hệ thống biên
2.4 Mô hình đa tác vụ
Khi chuyển từ mô hình đơn nhiệm sang đa nhiệm vụ, phương pháp này đã trở nên phổ biến
bởi khả năng giải quyết nhiều nhiệm vụ cùng một lúc Sử dụng các biểu diễn được chia sẻ giữa
các nhiệm vụ khác nhau giúp tang cường hiệu qua của mô hình Bộ dữ liệu BDD100K [7]
đã thúc đẩy sự nghiên cứu và phát triển của các mô hình đa nhiệm vụ trong lĩnh vực lái xe
tự hành Các nghiên cứu trước đây đã khám phá nhiều hướng tiếp cận khác nhau, bao gồmphân đoạn khu vực có thể lái xe, phân đoạn làn đường [31] [32], sự kết hợp giữa phân đoạn
khu vực có thể lái xe và phân loại cảnh [33] [34], cũng như các mô hình tích hợp phân đoạn
khu vực có thể lái xe, phân đoạn làn đường, và phát hiện đối tượng [14] [35] [36]
Các nghiên cứu [14] [36] [35] đã giới thiệu một mô hình dùng chung xương sống (backbone)dựa trên YOLO với cấu trúc bộ mã hóa-bộ giải mã, kết hợp hiệu quả ba nhiệm vụ riêng biệt:
phát hiện xe, phân đoạn khu vực có thể lái xe và phát hiện làn đường Mask RCNN [37] kế
thừa ý tưởng của Faster RCNN [17], sử dụng kiến trúc ResNet với khối dư [38] (residual
12
Trang 22block) để trích xuất đặc trưng, và thêm một nhánh dự đoán mặt nạ để kết hợp hiệu quả nhiệm
vụ phân đoạn đối tượng va phát hiện đối tượng Nhóm tác giả của LSNet [39] thiết kế mộtkiến trúc mạng ba trong một và thực hiện đồng thời phát hiện đối tượng, phân đoạn đối tượng
và phân đoạn khu vực lái xe Họ cũng thiết kế một hàm mất mát cross-IoU để phù hợp với
các đối tượng ở các tỉ lệ và thuộc tính khác nhau
MultiNet [40] sử dụng một bộ mã hóa chia sẻ chung và ba bộ giải mã riêng biệt để thực hiệnnhiệm vụ phân loại cảnh, phát hiện đối tượng và phân đoạn khu vực lái xe Một kiến trúc bộ
mã hóa-bộ giải mã tương đương cũng có trong Hybridnets [15], có xương sống nhẹ hơn nhờ
sử dung các kết hợp có thể tách rời theo chiều sâu Ngoài ra, gần đây CenterPNets [41] đã
thu hút sự chú ý vì khả năng đạt được độ chính xác và độ chính xác cao với mạng đa nhiệm
được chia sẻ đầu cuối Tuy nhiên, các mô hình đa nhiệm được dé xuất trước đây chủ yếu tậptrung vào việc cải thiện độ chính xác và không được thử nghiệm rộng rãi trên các thiết bị cókhả năng tính toán hạn chế Do đó, việc triển khai trực tiếp các mô hình này trong các hệ
thống xe tự hành tiếp tục đặt ra những thách thức đáng kể
2.5 Các mô hình hoc sâu trên thiết bị biên
Mặc dù các mô hình học sâu có độ chính xác cao, chúng thường được xây dựng với kiến trúc
và nguồn tài nguyên tính toán lớn, điều này không phù hợp cho các ứng dụng thời gian thực
Để giảm bớt van dé này, các nền tảng tính toán trên biên, đặc biệt là dòng NVIDIA Jetson,
đã thu hút sự chú ý đáng kể trong cộng đồng trí tuệ nhân tạo trong việc hỗ trợ học sâu tạichỗ Tính toán trên các thiết bị này có một số lợi thế bởi khả năng thực hiện các tính toán trực
tiếp trên các đơn vị vừa hiệu quả về chi phí vừa cụ thể cho từng tác vụ Bat chấp lợi thé này,những khả năng như vậy bị hạn chế đáng kể về bởi yêu cầu về sức mạnh tính toán và dunglượng lưu trữ của các mô hình là quá lớn, đặt ra những thách thức đáng kể cho việc triển khai
các mô hình học sâu trên các nền tảng này
Nghiên cứu [42] đã minh họa hiệu quả của các mô hình YOLOv3-tiny và EfficiencyDet, đặc
biệt là EfficiencyNet-Lite, trên Nvidia Jetson TX2 cho bài toán phát hiện đối tượng với thờigian thực trong các hệ thống xe tự hành Họ cũng nhấn mạnh lợi ích của việc tối ưu hóa
TensorRT và lượng tử hóa sau đào tạo Tương tự, nhóm tác giả trong nghiên cứu [43] đã
13
Trang 23khám phá hiệu suất của các mạng YOLO trên các thiết bị biên khác nhau, nhắn mạnh vai trò
của tính toán biên trong việc cho phép các nhiệm vụ học sâu phức tạp Các nghiên cứu này
nhắn mạnh tiềm năng của các nền tảng nhúng trong việc vượt qua các thách thức tính toáncủa học sâu, mở đường cho các ứng dụng sáng tạo trong các tình huống thực tế
Các kỹ thuật nén mô hình nổi bật, chẳng hạn như lượng tử hóa 8 bit (8-bit quantization), cắt
tỉa (prunning) và chung cất kiến thức (knowledge distillation), đã được nghĩ ra để cho phéptính toán chi phí thấp hơn mà không ảnh hưởng đến độ chính xác Cụ thể, lượng tử hóa là
một phương pháp đơn giản nhưng hiệu quả liên quan đến việc thực hiện các phép tính với ít
bit hơn so với biểu diễn 32 bit tiêu chuẩn Lượng tử hóa sau đào tạo cho phép các mô hình,
ban đầu được đào tạo với 32 bit, tiến hành suy luận ở mức bit giảm mà không cần đào tạo lại.Ngược lại, phương pháp đào tạo nhận thức về lượng tử hóa (quantization-aware training) sử
dụng các lớp lượng tử giả, thường mang lại độ chính xác cao hơn so với phương pháp lượng
tử hóa sau khi đào tạo (post-training quantization) Tuy nhiên, phương pháp sau lại được ưa
chuộng hơn do tính đơn giản của nó, bởi nó loại bỏ nhu cầu phải đào tạo lại mô hình Howard
và các cộng sự giới thiệu MobileNet [44], một lớp mô hình hiệu quả được điều chỉnh cho cácứng dụng thị giác nhúng và đi động, sử dụng các kết hợp có thể phân tách theo chiều sâu đểgiảm thiểu nhu cầu tính toán
Các nghiên cứu gần đây đã chứng minh tính vượt trội của các kiến trúc có thể phân tách theo
chiều sâu so với các kiến trúc giãn nở thông thường trong các tác vụ phân loại Cụ thể, kiến
trúc có thể phân tách theo chiều sâu đã đạt được độ chính xác 67,9% với chỉ 123 triệu phéptính dấu phẩy động mỗi giây (Floating Point Operation per Second - FLOPs), trong khi kiếntrúc giãn nở thông thường đạt độ chính xác cao hơn một chút là 69,2% nhưng lại tốn tới 478triệu FLOPs, tăng gấp 3.9 lần chi phí tính toán Phát hiện này cho thấy rằng, mặc dù kiến
trúc giãn nở thông thường có thể cho độ chính xác cao hơn, nhưng nó lại đòi hỏi chi phí tính
toán cao hơn đáng kể Thêm vào đó, sự phát triển của các công cụ tối ưu hóa như TensorFlow
Lite, TensorRT, ncnn và MNN [45] đã giúp đơn giản hóa việc triển khai các mô hình học sâu
trên các thiết bị biên Mặc dù có rất nhiều kỹ thuật để tạo điều kiện thuận lợi cho việc triểnkhai mô hình trên các thiết bị có khả năng tính toán hạn chế, nhưng việc đạt được sự cânbằng giữa chi phí tính toán và độ trễ vẫn rất quan trọng đối với suy luận trong thời gian thực
14
Trang 24Chương 3 GIẢI PHÁP ĐỀ XUẤT
3.1 Mô hình Phát hiện đối tượng
3.1.1 Lua chọn mô hình
Họ mô hình YOLO [12] luôn là sự lựa chọn hàng đầu cho các bài toán Phát hiện đối tượngyêu cầu tốc độ xử lý nhanh Các mô hình trong họ YOLO nổi bật với khả năng xử lý tốc độcao nhưng vẫn đảm bảo độ chính xác cho mô hình Qua nhiều cải tiến liên tục từ các phiênbản trước đến nay, YOLO đã được cải thiện đáng kể cả về tốc độ lẫn độ chính xác
Hình 3.1: So sánh các phiên bản YOLO từ YOLOv5 cho đến YOLOv8 [5]
YOLOv§ [5] là một trong các phiên bản mới nhất của họ mô hình YOLO với một số cải tiến
so với các phiên bản tiền nhiệm YOLOv8 sử dụng các khối kiến trúc mới như C2f và SPPF
giúp tối ưu hóa việc trích xuất đặc trưng, tăng cường khả năng biểu diễn của mô hình, nổibật nhất chính là YOLOv8 không sử dụng neo ở kiến trúc đầu ra giúp đơn giản hóa kiến của
mô hình và cải thiện khả năng dự đoán vị trí đối tượng Hình 3.1 thể hiện độ chính xác cũngnhư tốc độ của mô hình so với các phiên bản tiền nhiệm, các đánh giá thử nghiệm trên bộ
dữ liệu COCO cho thấy YOLOv8 đạt độ chính xác vượt trội với mAP?> lên đến 53.9%,
đồng thời duy trì tốc độ khung hình lên đến 283 FPS trên GPU V100 (đã được tối ưu hóa
15
Trang 25với TensorRT), đáp ứng được hoàn toàn yêu cầu của các ứng thời gian thực như xe tự hành.
YOLOv§ vượt trội hoàn toàn so với phiên bản tiền nhiệm trước đó
Phiên bản tiền nhiệm YOLOv7 [1 |] cũng có những cải tiến đáng chú ý so với các phiên bảntiền nhiệm Kiến trúc của YOLOv7 được cải tiến đáng kể với việc giới thiệu các mô-đun
mới như Extended Efficient Layer Aggregation Network (E-ELAN) giúp tang cường khanăng hoc các đặc trưng của mô hình mà không làm tăng đáng kể chi phí tính toán Ngoài
ra, YOLOv7 còn sử dụng các kỹ thuật mới cho quá trình huấn luyện của mình để gia tăng
độ chính xác nhưng không làm tăng thời gian suy luận thực tế YOLOv7 đạt được độ chínhxác cao nhất lên đến 56.8% AP" trên bộ dit liệu MS COCO [6], vượt trội hơn các mô hình
phát hiện đối tượng thời gian thực khác như YOLOR, YOLOX, và Scaled-YOLOv4 Đặc biệt,
YOLOv7-E6 đạt tốc độ xử lý ấn tượng với 56 FPS nhưng vẫn giữ được độ chính xác cao 56%
AP*,
Qua những gi nêu trên, nhóm đề xuất hai phiên bản YOLOv7 và YOLOv§ cho bài toán Phát
hiện đối tượng trong xe tự hành Tuy nhiên, để phù hợp hơn khi triển khai trên các thiết bịbiên có phần cứng hạn chế, thay vì sử dụng phiên bản gốc, nhóm lựa chọn các biến thể của
chúng để tiến hành đánh giá
Bảng 3.1: Kết quả các mô hình YOLOv7 trên tập dữ liệu MS COCO [1 I]
Model #Param FLOPs Size AP?, APậ,
YOLOv7 36.9M 104.7G 640 697 55.9 YOLOv7-X 713M 1899G 640 71.2 57.8 YOLOv7-tiny 6.2M 13.8G 640 56.7 41.7
Đối với YOLOv7, nhóm dé xuất biến thể YOLOv7-tiny vì YOLOv7-tiny có khả năng cân
bằng tốt giữa tốc độ và độ chính xác Bảng 3.1 thể hiện kết quả của YOLOv7-tiny so với
các phiên bản khác của YOLOv7 Với kiến trúc nhẹ hơn, ít tham số hơn và yêu cầu ít tàinguyên tính toán hơn so với các phiên bản khác YOLOv7-tiny phù hợp với các hệ thống cótài nguyên tính toán hạn chế như các hệ thống được triển khai trên thiết bị biên
Đối với YOLOv8, nhóm dé xuất hai biến thể là YOLOv8s và YOLOv8n, được thiết kế để tối
16
Trang 26ưu hóa hiệu suất trên thiết bị biên Bang 3.2 thể hiện kết quả của các phiên bản YOLOv§,
YOLOv8s và YOLOv8n đều được phát triển với mục đích cung cấp hiệu quả tính toán cao
trong khi duy trì độ chính xác tốt YOLOv8s cung cấp một sự cân bằng giữa kích thước mô
hình và hiệu suất Trong khi đó, YOLOv8n được thiết kế để có độ nhẹ tối da
Bang 3.2: Kết quả các mô hình YOLOv§ trên tập dữ liệu MS COCO [5]
Model #Param FLOPs Size mAP§925val
YOLOv8x 682M 257.8G 640 53.9
YOLOv8l 2 437M 165.2G 640 52.9
YOLOv8m 259M 789G 640 50.2
YOLOv8s 11.2M 286G 640 44.9 YOLOv8n 3.2M 8.7G 640 37.3
3.1.2 Đề xuất dữ liệu huấn luyện
Đối với bài toán Phát hiện đồi tượng, bộ dữ liệu MS COCO [6] đã quá nổi bật khi được lựachọn làm dữ liệu huấn luyện và đánh giá của hầu hết các mô hình Phát hiện đối tượng Tuynhiên, đối với một bài toán như xe tự hành, đòi hỏi dữ liệu huấn luyện phải có tính tươngđồng cao với môi trường giao thông thực tế
Như được thể hiện trong Hình 3.2, có thể thấy được rằng dữ liệu trong MS COCO được thu
17
Trang 27thập chủ yếu trên các trang mạng xã hội do người dùng đăng tải lên, do đó không phù hợp
cho các tình huống giao thông thực tế
Nhóm đề xuất bộ dữ liệu BDD100K [7] cho quá trình huấn luyện các mô hình đề xuất Nhưđược minh họa trong Hình 3.3, với 100.000 khung hình video đa dạng về địa lý, môi trường
và điều kiện thời tiết được lấy trực tiếp từ các camera hành trình gắn trên xe và hơn 10 lớp
đối tượng khác nhau, BDD100K là tập dữ liệu hoàn toàn phù hợp cho bài toán phát hiện cácđối tượng giao thông trên xe tự hành Tập dữ liệu BDD100K được chia như sau:
* Tap huấn luyện: 70.000 ảnh
¢ Tập đánh giá: 10.000 ảnh
» Tập kiểm thử: 20.000 ảnh
Hình 3.4 cho thấy số lượng giữa các lớp đối tượng trong bộ dữ liệu BDD1OOK Có thé thấy
rằng có một sự mat cân bằng dữ liệu giữa các lớp đối tượng này, dẫn đến việc các mô hình có
18
Trang 28xu hướng nhận diện kém hiệu quả hơn với những loại đối tượng ít gặp Do đó, tương tự như
các nghiên cứu [14] [15], nhóm dé xuất nhóm các đối tượng “car”, “truck”, “bus” va “train”
vào một lớp duy nhất gọi là “vehicles”, tập trung hoàn toàn vào các đối tượng ô-tô, nhằm giúp giảm bớt sự phức tap và mat cân bằng dữ liệu và cải thiện hiệu suất các mô hình trong
quá trình huấn luyện
BDD100K Detection 2020 Labels Dataset
other person - 210
trailer - 71
Hình 3.4: Sự mat cân bang giữa các loại đối tượng trong tập dữ liệu huấn luyện BDD100K
Ngoài ra, chỉ sử dụng một lớp đối tượng đầu ra duy nhất cũng có một số thay đổi tích cực ởkiến trúc đầu ra trong YOLO Cụ thể hơn, giả sử mỗi ô lưới của YOLO dự đoán 3 khung hộpgiới hạn Với 80 lớp đối tượng, mỗi khung hộp giới hạn sẽ có 85 giá trị tương ứng:
[ (tes ty, f„, th), độ tin cậy, (80 giá trị xác suất các lớp đối tượng) ]
Do đó, mỗi ô lưới sẽ tạo ra một tensor đầu ra có kích thước 3 x 85 = 255 Tuy nhiên, khi chỉ
có 1 lớp, mỗi khung hộp giới hạn chỉ cần 6 giá trị tương ứng, lúc này tensor đầu ra của mỗi
ô lưới giảm xuống còn 3 x 6 = 18 Nếu chia hình ảnh đầu vào thành S x S ô lưới, mỗi ô lưới
dự đoán có kích thước S x $ x 3 (3 là số lượng neo) Với 80 lớp, kích thước tensor đầu ra sẽ
là S x §x 255 Trong khi đó, với 1 lớp, kích thước này giảm đáng kể xuống S x § x 18 Déxuất trên của nhóm không chỉ giúp tiết kiệm bộ nhớ mà còn tăng tốc độ xử lý của mô hình
Các phép tính ma trận trên tensor nhỏ hơn sẽ được thực hiện nhanh hơn, đặc biệt khi triển
khai trên các thiết bị có tài nguyên hạn chế như thiết bị biên
19
Trang 293.1.3 Phương pháp huấn luyện, đánh giá và so sánh các mô hình
Đối với tất cả các mô hình được chọn, nhóm đề xuất kỹ thuật học chuyển giao Thay vì xây
dựng và huấn luyện mô hình từ đầu, học chuyển giao tận dụng các mô hình YOLO đã đượctiền huấn luyện (loại bỏ lớp cuối cùng) trên bộ dữ liệu MS COCO (80 loại đối tượng khácnhau) để khởi tạo trọng số cho các mô hình mới Học chuyển giao có thể mang đến một số
lợi ích như sau:
* Giảm thời gian huấn luyện: Vì các mô hình đã được tiền huấn luyện trên một bộ dữ
liệu lớn và đa dạng như MS COCO, các trọng số ban đầu đã được tối ưu hóa cho nhiềuloại đối tượng Từ đó, mô hình sẽ hội tụ nhanh hơn giúp giảm thời gian cần thiết để
huấn luyện lại mô hình trên bộ dữ liệu mới như BDD100K
« Giảm thiểu sự quá khớp trong đữ liệu: Bằng cách tận dụng kiến thức từ các mô hình
đã được huấn luyện trên các bộ dữ liệu lớn và da dạng như MS COCO giúp giảm thiểunguy cơ bị quá khớp khi huấn luyện trên tập dữ liệu mới
Tiếp đến, nhóm tiến hành huấn luyện các mô hình đề xuất trên bộ dữ liệu BDD100K trong
100 chu kỳ với kích thước lô là 32 và độ phân giải ảnh đầu vào là 640x640 Việc sử dụng
kích thước lô lớn giúp tăng cường tính ổn định của quá trình huấn luyện và giảm thiểu sự daođộng ngẫu nhiên đến từ dif liệu huấn luyện trong việc cập nhật trọng số Đồng thời, độ phângiải ảnh đầu vào 640x640 cung cấp đầy đủ các thông tin chỉ tiết của đối tượng giúp cho mô
hình học tốt hơn
Nhóm đề xuất đánh giá các mô hình trên bốn độ phân giải khác nhau bao gồm: 640x384,480x288, 416x256, 352x224 mà không thực hiện bat kỳ tinh chỉnh nào cho các độ phân
giải này Thay vào đó, nhóm sử dụng mô hình đã được huấn luyện trên ảnh có độ phân giải
640x640 để đánh giá trên tất cả các độ phân giải mục tiêu Có một số lý do nhóm quyết định
thực hiện điều này:
- Ứng dụng linh hoạt: Việc đánh giá mô hình trên nhiều độ phân giải mà không tinh
chỉnh giúp có một góc nhìn và đánh giá đầy đủ về khả năng thích ứng của mô hình với
20
Trang 30các đầu vào có độ phân giải khác nhau Từ đó linh hoạt hơn khi ứng dụng vào các hệthống thực tế.
» Tiết kiệm thời gian và tài nguyên: Trên thực tế, tinh chỉnh mô hình cho từng độ phân
giải khác nhau đòi hỏi nhiều thời gian và tài nguyên Bằng cách sử dụng một mô hình
duy nhất đã được huấn luyện trên độ phân giải 640x640 để đánh giá trên tất cả các độphân giải mục tiêu sẽ giúp tiết kiệm được đáng kể thời gian và tài nguyên cần thiết cho
việc tinh chỉnh.
Về độ chính xác, nhóm sử dụng các độ đo thông dụng của bài toán Phát hiện đối tượng baogồm “Precision”, “Recall”, “mAPso” và “mAPso:os” Dé tập trung tối đa vào việc đánh giá
và so sánh các mô hình dé xuất, tất cả các siêu tham số huấn luyện khác sẽ được giữ nguyên
theo giá trị mặc định từ mã nguồn gốc của YOLOv7 và YOLOv§ nhằm tiết kiệm thời gian vàcông sức trong việc tối ưu hóa các siêu tham số cho từng mô hình Ngoài ra, việc giữ nguyên
các siêu tham số mặc định giúp tạo ra một môi trường đánh giá thống nhất, đảm bảo rằng các kết quả so sánh giữa các mô hình là công bằng và không bị ảnh hưởng bởi các yếu tố không
mong muốn ở bên ngoài
3.2 Mô hình Phân đoạn ngữ nghĩa
Dual Attention Module
Hình 3.5: Kiến trúc mô hình TwinLiteNet [S]
Nhóm đề xuất một mô hình đa tác vụ Phân đoạn ngữ nghĩa nhẹ chỉ với 0.4 triệu tham số,gọi là TwinLiteNet [S] TwinLiteNet có thể giải quyết được hai tác vụ Phát hiện làn đường
và Phân đoạn khu vực lái xe với độ chính xác cao nhưng nhưng vẫn đảm bảo được độ trễ suy
luận thấp
21
Trang 31Tổng quan kiến trúc mô hình TwinLiteNet được biểu thị ở Hình 3.5 Phương pháp của nhóm
là sử dụng một kiến trúc mạng có chi phí tính toán thấp ESPNet-C làm khối mã hoá, cho
phép tạo bản đồ đặc trưng hiệu quả Sau đó, nhóm tích hợp DAM vào mạng để nắm bắt các
phụ thuộc toàn cục ở cả không gian đặc trưng và kênh, giúp cải thiện khả năng nhận thức
thông tin ngữ cảnh của mạng Bản đồ đặc trưng thu được sẽ được đưa qua hai khối giải mã
để thực hiện hai tác vụ cụ thể: Phát hiện làn đường và Phân đoạn khu vực lái xe Bằng cách
sử dụng kiến trúc này, nhóm đã đạt được kết quả phân đoạn chính xác cao cho hai tác vụ trênvới chi phí tính toán thấp
3.2.1 Chi tiết kiến trúc mô hình TwinLiteNet
Đầu tiên, không giống như các phương pháp trước đó là sử dung backbone có chi phí tínhtoán cao như YOLOP sử dụng kiến trúc CSPDarknet [14], HybridNets sử dụng kiến trúc
EfficientNet-B3 [15], nhóm sử dụng một kiến trúc có chi phí tính toán thấp là ESPNet-C [9]
dựa trên kiến trúc ESPNet [9] làm khối mã hóa để trích xuất các đặc trưng từ hình ảnh đầu
vào giúp giảm thiểu chi phí tính toán trong mạng
ESPNet được xây dựng dựa trên các mô-đun ESP, chia một tích chập chuẩn thành hai phan:tích chập điểm và mô-đun ESP Như được mô tả trong Hình 3.6a, mô-đun ESP ban đầu áp
dụng phép tích chập 1 x 1 để chiếu các bản đồ đặc trưng có chiều không gian cao thành
chiều không gian thấp hơn Sau đó, các bản đồ đặc trưng sẽ được biểu diễn song song ở trong
mô-đun ESP bằng cách sử dụng đồng thời K phép tích chập giãn nở ø x n với tốc độ giãn
nở 2! k = {1, ,K} Như trong Hình 3.6b, Các quá trình tính toán trong mô-đun ESP sé
được chia thành 4 bước:
* Reduce: Đối với một tham số K đã cho, mô-đun ESP đầu tiên giảm chiều các ban dé
đặc trưng từ M xuống x bằng cách sử dung phép tích chập điểm.
« Split: Các bản đồ đặc trưng có số chiều không gian thấp sau đó được biểu diễn trên K
nhánh song song.
¢ Transform: Mỗi nhánh sau đó xử lý đồng thời các bản đồ đặc trưng này bằng cách sử
dung các tích chập giãn nở n x n với các tốc độ giãn nở 2*—! & = {1, ,K}.
22
Trang 32* Merge: Đầu ra của K phép tích chập giãn nở song song này sau đó được nối để tạo ra
một bản đỗ đặc trưng đầu ra N chiéu
Để giảm chi phí tính toán, bản đồ đặc trưng có thể được lấy mẫu xuống trước khi tiến hànhbước “Split” bằng cách thay thế phép tích chập điểm thành phép tích chập sai chân Vi dụ,
với một bản đồ đặc trưng F; c RWXx#x# khi lấy mẫu xuống với sai chân là 2, đầu ra của mô-đun ESP sẽ là F; c R2*2*"
_Step 2: Split and Ti
Step 1: Reduce ransform :
Trang 33nhiệm cho các hoạt động lấy mẫu xuống Lớp đầu tiên là một lớp tích chập 3 x 3 tiêu chuẩn
dùng để để trích xuất các đặc trưng ban đầu từ ảnh đầu vào Sau đó, một loạt các mô-đunESP được sử dụng để tiếp tục quá trình trích xuất đặc trưng và giảm kích thước không gian.Việc kết hợp các bản đồ đặc trưng từ các mô-đun ESP trước đó với ảnh đầu vào ban đầu ởcác kích thước khác nhau bằng phép nối giúp tăng cường thông tin và cải thiện luồng thông
tin trong mạng Để xây dựng tính hiệu quả về mặt tính toán cho thiết bị biên mà không thay
đổi cấu trúc liên kết, một siêu tham số œ được dé xuất để kiểm soát độ sâu của mạng Cụthể, mô-đun ESP được lặp lại a lần tại cấp độ không gian / Tại các cấp độ không gian cao(1 = 0 val = 1), không có mô-đun ESP hoặc mô-đun tích chập nào được lặp lại ở các cấp độkhông gian này Tat cả các lớp (tích chập và các mô-đun ESP) đều được theo sau bởi một lớpchuẩn hóa 16 [46] và một hàm kích hoạt phi tuyến tính PReLU [47] Đầu ra ESPNet-C là bản
Trang 34mạng Như trong Hình 3.5, các bản đồ đặc trưng từ bộ mã hóa sẽ được đưa vào hai mô-đun
Position Attention Module (PAM) và Channel Attention Module (CAM) để tạo ra các đặc
trưng mới về không gian ngữ cảnh tầm xa thông qua ba bước:
* Bước 1: Tạo ra một ma trận chú ý không gian mô hình hóa mối quan hệ không gian
giữa hai pixel bất kỳ
» Bước 2: Thực hiện phép nhân ma trận giữa bản đồ chú ý và các đặc trưng ban đầu
* Bước 3: Cộng theo phan tử để thu được biểu diễn cuối cùng phản ánh ngữ cảnh tầm
Hình 3.8: Position Attention Module [10]
Nhu được minh hoa trong Hình 3.8, PAM nhận dau vào là một đặc trưng A c R€xX#xŸ, Đầutiên, A được đưa vào một lớp tích chập để tạo ra ba bản đồ đặc trưng mới bao gồm: B và C có
kích thước IRSX#*Ÿ và D có kích thước IRC*#*W„ Đối với B và C, chúng được tái định hình thành R&*" , với N = H x W Tiếp theo, ma trận chuyển vị của B sé được nhân ma trận với C
và áp dụng một lớp softmax thu được bản đồ chú ý vị trí S € RY**, Còn đối với D, nó được tái định hình thành R€*Ÿ, với N = H x W Sau đó, thực hiện phép nhân ma trận giữa D và
S, kết quả của phép nhân ma trận này được tái định hình trở lại thành IRC*#XW, Cuối cùng,
nhân kết quả này với một tham số tỷ lệ œ và thực hiện phép cộng theo từng phần tử với đặc
trưng A ban đầu để thu được đầu ra cuối cùng E € IRC*#XW, PAM được thiết kế để tích hợp
25
Trang 35các thông tin ngữ cảnh rộng hơn vào các đặc trưng địa phương, từ đó cải thiện đáng kể khả năng biểu diễn của chúng.
reshape
reshape softmax
———— >£`—
—, reshape & transpose CxHxW
Hình 3.9: Channel Attention Module [10]
CxHxW
Khác với PAM, CAM trực tiếp tính toán bản đồ chú ý kênh X € IRC*€ từ các đặc trưng gốc
A € R©X4*W mà không qua bat kỳ một lớp tích chập nào cả, được thể hiện trong Hình 3.9.
Cu thể hơn, A được tái định hình thành RC*Ÿ với N = H x W, sau đó thực hiện phép nhân
ma trận giữa A và ma trận chuyển vị của A Kết quả sẽ được áp dụng một lớp softmax thuđược bản đồ chú ý kênh X phản ánh mức liên quan giữa các kênh với nhau Tiếp theo, thựchiện một phép nhân ma trận giữa X và A, và nhân kết quả này với một tham số tỷ lệ B, rồi
cộng theo từng phan tử với A ban đầu để có được dau ra cuối cùng E € RCx#XŸ, CAM tận
dụng sự phụ thuộc giữa các kênh để làm nổi bật các mối quan hệ phụ thuộc lẫn nhau giữacác ban đồ đặc trưng va củng cố việc biểu diễn các ngữ nghĩa cụ thể
Cuối cùng, kết quả đầu ra từ hai mô-đun PAM và CAM sẽ được biến đổi bằng một lớp tích chập và tổng hợp lại với nhau bằng phép cộng theo từng phần tử để thu được đầu ra
HOW 2 x w ES
B€R”?*3*š biểu diễn đặc trưng tôt hơn.
Tương tự như các nghiên cứu [14] [1 5], nhóm dé xuất một thiết kế đầu ra đa tác vụ nhằm giải
quyết đồng thời hai tác vụ Phát hiện làn đường và Phân đoạn khu vực lái Thay vì sử dụng
một đầu ra duy nhất cho tất cả các loại đối tượng cần phân đoạn, nhóm sử dụng hai khối giải
mã độc lập để xử lý bản đồ đặc trưng và tạo kết quả cuối cùng cho mỗi tác vụ Nhóm đề xuấtthiết kế đầu ra đa tác vì các lý do sau:
26
Trang 36* Tối ưu hóa hiệu suất phân đoạn: Với hai khối đầu ra, nhóm có thể tối ưu hóa hiệu
suất phân đoạn cho mỗi lớp Phương pháp này cho phép nhóm điều chỉnh và cải thiệnkết quả phân đoạn cho Phát hiện làn đường và Phân đoạn khu vực lái một cách riêng
biệt mà không bị ảnh hưởng bởi các lớp khác.
* Tăng độ chính xác: Sử dụng hai khối đầu ra cho các lớp riêng biệt cũng cải thiện độ
chính xác của phân đoạn Bằng cách tập trung vào mỗi lớp độc lập, mô hình của nhóm
có thể học hỏi và điều chỉnh các đặc trưng cụ thể cho Phát hiện làn đường và Phânđoạn khu vực lái tốt hơn, dẫn đến kết quả phân đoạn chính xác hơn cho mỗi lớp
Upsampling
Hình 3.10: Khối decoder mô hình TwinLiteNet [8]
Hình 3.10 thể hiện kiến trúc khối giải mã Bản đồ đặc trưng thu được từ DAM sẽ đi qua một
chuỗi các lớp lấy mẫu lên giúp phục hồi dần về kích thước ban đầu, từ đó tăng độ chính xáccủa kết quả phân đoạn Các khối lấy mẫu lên được thiết kế dựa trên các lớp tích chập chuyển
vị theo sau là chuẩn hóa lô và hàm kích hoạt pRelu [47] giúp ổn định và tăng tốc độ học củamạng Khối giải mã của nhóm được thiết kế tuy đơn giản nhưng vẫn đảm bảo được hiệu quả
đầu ra Sau khi giải mã, TwinLiteNet trả về hai hình ảnh phân đoạn 2 x H x W cho các tác
vụ Lane Detection và Phân đoạn khu vực lái xe.
27
Trang 37Nhóm đề xuất sử dụng hai hàm mắt mát cho mô hình TwinLiteNet bao gồm: Focal Loss [48]
và Tversky Loss [49]:
LoSStotal = LOSS focal + LoSStyersky (3.1)
Focal Loss giảm lỗi phân loại giữa các điểm ảnh trong khi giải quyết sự ảnh hưởng của cácmẫu dễ dự đoán và phạt nặng các mẫu khó dự đoán Như được thể hiện trong phương trình
3.2, Focal Loss sử dụng hệ số y nhằm điều chỉnh độ nhạy của hàm mất mát đối với sự thay
đổi trong xác suất dự đoán, cho phép mô hình tập trung vào việc học từ những trường hợp
khó hơn c
1& N
LOSS focal = "WN > Lil c)(1— pile (c))"log(p i(c)) (3.2)
trong đó:
* N: Số lượng điểm ảnh đầu vào
* C: Số lượng đối tượng cần phân loại, một lớp đối tượng là khu vực lái xe hoặc làn
đường, lớp đối tượng còn lại là nền
* pi(c): Xác suất dự đoán của điểm ảnh i thuộc lớp đối tượng c
* pi(c): Giá trị thực của điểm anh i thuộc lớp đối tượng c
« y: Hệ số hiệu chỉnh cân bằng.
Mặt khác, Tversky Loss [49] lấy cảm hứng từ Dice Loss [50] giải quyết van đề mắt cân bang
lớp trong các tác vụ phân đoạn hình ảnh Tuy nhiên, khác với Dice Loss, Tversky Loss bổ
sung thêm các tham số œ và để điều chỉnh mức độ quan trọng của các kết quả dương giả
và âm giả trong quá trình học giúp mô hình có thể được cân chỉnh tùy theo đặc thù của dif
liệu và yêu cầu của bài toán, đảm bảo rằng mô hình không chỉ cải thiện độ chính xác tổng
thể mà còn có khả năng xử lý tốt trong các tình huống dữ liệu không cân xứng, như được thể
hiện trong phương trình 3.3.
_ TP(c)
) (3.3)
trong đó:
28
Trang 38¢ TP: True Positives
¢ FN: False Negatives
e FP: False Positives
* C: Số lượng đối tượng cần phân loại, một lớp đối tượng là khu vực lái xe hoặc làn
đường, lớp đối tượng còn lại là nên
* a, 8: Kiểm soát mức độ phạt đối với FP va FN
3.2.2 Chuẩn bi dữ liệu huấn luyện
Các bộ dữ liệu hiện có về làn đường thường bị giới hạn về quy mô và tính đa dạng Ví
dụ, bộ dữ liệu Caltech Lanes [51] chỉ chứa 1.224 hình anh và bộ dữ Road Marking [52] có
1.443 hình ảnh được gắn nhãn trong 11 lớp đối tượng làn đường Hay trong nghiên cứu [53],VPGNet chi bao gồm khoảng 20.000 hình ảnh được chụp trong ba tuần lái xe ở Seoul Khác
với các bộ dữ liệu trên, như được trình bày ở mục 3.1.2, BDD100K [7] thể hiện sự vượt trội
của mình cả về mặt quy mô và tính đa dạng Bảng 3.3 cho thay sự khác biệt về mặt số lượng
hình ảnh trong tập dữ liệu BDD100K so với các bộ dữ liệu khác.
Bảng 3.3: So sánh các bộ dữ liệu về làn đường [7]
Datasets Training Total Sequences
Caltech Lanes Dataset [51] - 1.224 4
Road Marking Dataset [52] - 1.443 29
KITTIROAD [54] 289 579
VPGNet [53] 11.783 21.097 BDD100K [51] 70.000 100.000 100.000
-Qua những gi nêu trên, nhóm quyết định sử dung bộ dit liệu BDD100K làm dữ liệu huấnluyện cho TwinLiteNet để giải quyết hai tác vụ Phát hiện làn đường và Phân đoạn khu vực
lái.
Đối với tác vụ phân đoạn khu vực lái xe, BDD100K có cung cấp các nhãn liên quan đượcchia thành hai lớp đối tượng khác nhau, được mô tả ở Hình 3.11:
29
Trang 39* Directly Drivable Area: Lớp đối tượng chỉ ra khu vực mà phương tiện có thể lái xe
một cách an toàn dưới điều kiện bình thường Những khu vực này thường bao gồm các
làn đường dành cho xe chạy.
Alternative Drivable Area: Lớp đối tượng chi ra các khu vực mà phương tiện có thể
di chuyển nhưng không phải là lựa chọn ưu tiên.
Nhóm dé xuất gdp cả hai lớp đối tượng “Directly Drivable Area” va “Alternative Drivable
Area” thành một lớp đối tượng duy nhất “Drivable Area” nhằm tăng cường khả năng tổng
quát hóa và giảm thiểu sự phức tạp mô hình, từ đó cải thiện độ chính xác cho mô hình được
huan luyện.
Đối với tác vụ Phát hiện làn đường, BDD100K cũng có các nhãn liên quan đến tác vụ này
Tuy nhiên, các làn đường trong tập dữ liệu BDD100K được gan nhãn bằng các đường có độ
dày điểm ảnh thấp và được gán nhãn ở hai bên phần rìa của làn đường Để so sánh thuận tiệnvới nghiên cứu trước đây, theo nghiên cứu [27], nhóm đã áp dụng phương pháp hợp nhất hai
nhãn nhãn làn đường ở rìa thành một làn đường trung tâm duy nhất, được thể hiện trong Hình
3.12 Trong tập huấn luyện, nhóm cũng đã áp dụng phép giãn dé mở rộng các nhãn thêm 8
30