Khóa luận tốt nghiệp Kỹ thuật máy tính: Nghiên cứu và xây dựng mô hình xử lý đồng thời đa tác vụ cho bài toán xe tự hành

qrÄroffic '€ØfffSicio as Hình 1.3: Minh họa việc ứng dụng học sâu vào hệ thống xe tự hành [3] Các mô hình học sâu đã cho thấy được sự hiệu quả khi đã giải quyết các tác vụ của xe tự hành

Trang 1

ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KỸ THUẬT MAY TÍNH

NGUYEN ĐÌNH PHÚC - 20521766

KHÓA LUẬN TÓT NGHIỆP

NGHIÊN CỨU VÀ XÂY DỰNG MÔ HÌNH XỬ LY DONG

THỜI ĐA TÁC VỤ CHO BÀI TOÁN XE TỰ HÀNH

Research and Development of a Simultaneous Multi-Tasking Model

for Autonomous Vehicle Problems

CU NHÂN KỸ THUAT MAY TÍNH

GIANG VIEN HUONG DAN

TS LAM DUC KHAI

KS CHE QUANG HUY

TP HO CHÍ MINH, 2024

Trang 2

THONG TIN HỘI ĐỒNG CHAM KHÓA LUẬN TỐT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 659/QD-DHCNTT ngày

05 tháng 07 năm 2024 của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

Trang 3

LOI CAM ON

Đầu tiên, em xin gửi lời cảm ơn đến quý thay cô giáo trường Dai Học Công Nghệ Thông Tin

Trong quá trình học tập và rèn luyện tại trường, với sự dạy dỗ, chỉ bảo tận tình của các quý

thầy cô giáo đã trang bi cho em những kiến thức về chuyên môn cũng như kỹ năng mềm, tao

cho em hành trang vững chắc trong cuộc sống cũng như công việc sau này.

Tiếp theo, em xin cảm ơn khoa Kỹ Thuật Máy Tính vì đã luôn tạo mọi điều kiện thuận lợi

cho em được học tập và phát triển.

Đặc biệt, để hoàn thành khóa luận tốt nghiệp này, em xin gửi lời cảm ơn sâu sắc tới hai ThầyLâm Đức Khải và Thầy Chế Quang Huy đã tận tình chỉ bảo, hướng dẫn và hỗ trợ trang thiết

bị cho em trong suốt thời gian thực hiện đề tài Đồng thời, mình cũng xin gửi lời cảm ơn đếnmọi người trong Câu lạc bộ CEEC đã hỗ trợ mình hoàn thành khóa luận một cách tốt nhất

Em cũng muốn cảm ơn tất cả các công ty và nhà phát triển cung cấp các dịch vụ miễn phí

cũng như các thư viện và dự án mã nguồn mở Không có những công cụ và thư viện này khoáluận của em sẽ không thể hoàn thành được như bây giờ Cuối cùng, em xin cảm ơn đến giađình, những người luôn dành những sự động viên đến em trong suốt quá trình thực hiện khóa

luận.

Trang 4

MỤC LỤC

1 GIỚI THIỆU DE TÀI

1.1

1.2

Tổng quan để tài Ốc

1.1.1 Tinh hình ngành công nghiệp xe tự hành trên thế giới

1.1.2 Đặtvấnđề ee Mục tiêu đề tài Q Q Q ee 2 CƠ SỞ LÝ THUYET ĐỀ TÀI 2.1 2.2 2.3 2.4 2.5 Bài toán Phát hiện đốitượng

Bài toán Phân đoạn khu vực lá xe

Bài toán Phát hiện làn đường

Mô hình đa tác vụ Ặ ee Các mô hình học sâu trên thiết bibién

-3_ GIẢI PHÁP ĐỀ XUẤT 3.1 3.2 3.3 Mô hình Phát hiện đối tượng

3.11 7 Lựachọnmôhìnhh

3.1.2 Đề xuất dữ liệu huấn luyện

3.1.3 Phương pháp huấn luyện, đánh giá và so sánh các mô hình

Mô hình Phân đoạnngữngha

3.2.1 Chi tiết kiến trúc mô hình

TwinLieNet -3.2.2 Chuẩn bi dữ liệu huấn luyện Ặ ee 3.23 Phương pháp huấn luyệnmôhình

Xử lý đồng thdidatécvu Ốc cv 3.3.1 Thiết kế kiến trúc phần mềm

3.3.2 Đánh giá trên thếtbjbiên

a +® ` WN WN

œ

10 11 12 13

Trang 5

4_ ĐÁNH GIÁ KET QUA THỰC NGHIỆM 35

4.1 Các mô hình Phát hiện đối tượng YOLO đề xuất 35

4.1.1 Chiphítnhtoán Ặ.Ặ Ặ 002 0 000004 35

4.1.2 Độ chính xác trên tập dữ liệu mẫu 36

4.1.3 Đánh giá trên các thiét bibién - 39

4.2 Mô hình phân đoạn ngữ nghĩa IwmnLiteNet 42

TÀI LIỆU THAM KHẢO 55

Trang 6

1.2

1.3

1.4

2.1

2.2

3.1

3.2

3.3

3.4

3.5

3.6

3.7

3.8

3.9

3.10

3.11

3.12

3.13

4.1

DANH MUC HINH

Minh họa hệ thống tự lái trên xe Tesla[l] - 2

Dich vụ Robotaxi ở Trung Quốc [2] - 3

Minh họa việc ứng dụng học sâu vào hệ thống xe tự hành [3] 5

Tổng quan kiến trúc mô hình tính toán song song 6

Phương pháp hai giai đoạn [4] - 8

Phương pháp một giai đoạn [4] 9

So sánh các phiên bản YOLO từ YOLOvS§ cho đến YOLOv8 [5] 15

Hình ảnh trong bộ dữ liệu MS COCO [6] 17

Minh họa dữ liệu trong BDDI00K[_] 18

Sự mất cân bằng giữa các loại đối tượng trong tập dữ liệu huấn luyện BDDI00K 19 Kiến trúc mô hình TwinLiteNet[S] 21

Mô-dun ESP[9] ẶẶ Ặ Q Q Q Q Q ee 23 Kiến trúc ESPNetC 24

Position Attention Module[l0] 25

Channel Attention Module[l0] 26

Khối decoder mô hình TwinLieNet[S8] 27

Hai lớp đối tượng “Directly Drivable Area” (đỏ) và “Alternative Area” (xanh) Ea 30

Trước và sau khi áp dụng phương pháp đề xuất trên BDDIOOK 31

Kiến trúc phần mềm của hệ thống xử lý đồng thời 32

Biểu diễn kết quả dự đoán của các mô hình YOLO đè xuất ở điều kiện ban

Trang 7

Triển khai TwinLiteNet trên các thiết bịbiên 49

Năng lượng và nhiệt độ trên TX2 và Xavier khi triển khai TwinLieNet 50

Sự chiếm dụng GPU khi xử lý tuần tự và xử lý đồng thời trên Jetson TX2 52

Trang 8

3.1

3.2

3.3

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.8

DANH MUC BANG

Kết quả mục tiêu dé tai trong ngữ cảnh xetuhanh

Kết quả các mô hình YOLOv7 trên tập dit liệu MS COCO [ii]

Kết quả các mô hình YOLOv8 trên tập dữ liệu MS COCO [5]

So sánh các bộ dữ liệu về làn đường [7]

Kết quả đo đạc chi phí tính toán của các mô hình YOLO dé xuất

So sánh độ chính xác của các mô hình YOLO ở các độ phân giải khác nhau. So sánh độ trễ suy luận của các mô hình YOLO đề xuất

So sánh độ trễ và năng lượng tiêu thụ của các mô hình YOLO dé xuất

Kết quả đánh giá chi phí tính toán mô hình TwinLiteNet

Kết quả đánh giá tác vụ Phân đoạn khu vực lái xe mô hình TwinLiteNet

Kết quả đánh giá tác vụ Phát hiện làn đường mô hình TwinLiteNet Đánh giá hệ thống khi xử lý tuần tự và xử lý đồng thời trên thiết bị biên

Trang 9

DANH MỤC TU VIET TAT

Al Artificial Intelligence

BDD100K Berkeley Deep Drive 100K

CNN Convolutional Neural Networks

CAM Channel Attention Module

DAM Dual Attention Modules

E-ELAN Extended Efficient Layer

Aggrega-tion Network ESP Efficient Spatial Pyramid

FPS Frame Per Second

FLOPs Floating Point Operation Per second IoU Intersection over Union

mAP Mean Average Precision

mloU Mean Intersection over Union

PAM Position Attention Module

SOTA State Of The Art

SSD Single Shot Multibox Detector

YOLO You Only Look Once

Trang 10

TÓM TẮT KHÓA LUẬN

Khóa luận này tập trung vào việc nghiên cứu và phát triển các mô hình học sâu thời gian thực

để giải quyết các bài toán liên quan đến xe tự hành, bao gồm Phát hiện đối tượng, Phân đoạn

khu vực lái xe va Phát hiện làn đường Cac mô hình YOLOv7-tiny, YOLOv8n, YOLOv8s đã

được lựa chọn cho bài toán Phát hiện đối tượng, trong khi mô hình TwinLiteNet được nhóm

phát triển cho hai bài toán Phân đoạn khu vực lái xe và Phát hiện làn đường Tat cả các mô

hình này đều được cải tiến và đánh giá toàn diện trên tập dữ liệu BDD100K

Kết quả thực nghiệm cho thấy các mô hình đề xuất đạt được kết quả tốt về độ chính xác, tốc

độ xử lý và mức tiêu thụ năng lượng trên các thiết bị biên như Jetson TX2 và Jetson Xavier

Cụ thể, trên NVIDIA GeForce RTX A5000 GPU, mô hình YOLOv7-tiny đạt độ chính xác

56.7% mAP và tốc độ xử lý 249 FPS, YOLOv8n dat 37.3% mAP và 947 FPS, YOLOv8s đạt44.9% mAP và 554 FPS Mô hình TwinLiteNet với thiết kế gọn nhẹ chỉ với 0.4 triệu tham

số đã thể hiện khả năng vượt trội trong việc cân bằng giữa độ chính xác và tốc độ xử lý

TwinLiteNet đạt độ chính xác 91.3% mloU trong tác vụ Phân đoạn khu vực lái xe và 31.08%

IoU trong tác vụ Phát hiện làn đường, với tốc độ xử lý lên đến 60 FPS trên Jetson Xavier

Bên cạnh đó, dé tài cũng đã dé xuất và triển khai thành công phương pháp xử lý đồng thời đa

tác vụ, giúp giảm thiểu độ trễ 1.4 lần (từ 94.4ms xuống còn 67.6ms trên Xavier, từ 163.6msxuống còn 128.6ms trên TX2) và tối ưu hóa việc sử dung tài nguyên GPU trên các thiết bịbiên Phương pháp này mở ra hướng tiếp cận mới trong việc xây dựng các hệ thống xe tự

hành hiệu quả và đáng tin cậy hơn.

Trang 11

Chương 1 GIỚI THIỆU ĐỀ TÀI

1.1 Tổng quan đề tài

1.1.1 Tình hình ngành công nghiệp xe tự hành trên thé giới

Công nghệ xe tự hành đang ngày càng phát triển mạnh mẽ và trở nên thịnh hành hơn khi thị

trường đòi hỏi những đột phá để mở ra kỷ nguyên mới cho ngành công nghiệp tự động hóa.

Các quốc gia dẫn đầu về công nghệ như Mỹ, Anh, Nhật Bản và Trung Quốc đều đang đẩy

mạnh việc nghiên cứu và phát triển xe tự hành, cùng với việc thiết lập các chính sách hỗ trợ

và mở cửa cho việc thử nghiệm và triển khai các mẫu xe tự hành mới

LEFT REARWARD VEHICLE CAMERA

MEDIUM RANGE VEHICLE CAMERA

Hình 1.1: Minh họa hệ thống tự lái trên xe Tesla [1]

Tại Mỹ, các công ty như Tesla, Waymo và Uber đang dẫn đầu trong việc phát triển và thửnghiệm các công nghệ xe tự hành tiên tiến Như được minh họa trong Hình 1.1, Tesla với cácmẫu xe có khả năng tự hành đã trở nên quen thuộc trên đường phố Trong khi Waymo, mộtcông ty con của Alphabet, đã triển khai dịch vụ taxi tự hành tại một số khu vực Các tiểubang như California và Arizona đã thiết lập các khu vực thử nghiệm rộng lớn, cho phép các

2

Trang 12

công ty công nghệ thực hiện hàng ngàn giờ lái thử nghiệm, thu thập dữ liệu quý giá để cải

thiện các hệ thống tự động

Anh cũng không nằm ngoài cuộc đua công nghệ này khi chính phủ đã đưa ra các chính sách

khuyến khích và đầu tư hàng tỷ bảng vào nghiên cứu và phát triển công nghệ xe tự hành Các

dự án thử nghiệm tại London và Milton Keynes đang giúp thu thập dif liệu thực tiễn để hoàn

thiện công nghệ Anh đặt mục tiêu trở thành một trong những quốc gia hàng đầu về xe tự

hành vào năm 2025, với sự hợp tác giữa các cơ quan chính phủ và các công ty tư nhân.

Nhật Bản, nổi tiếng với sự tiên tiến trong công nghệ, đang nỗ lực phát triển các hệ thống

xe tự hành để giải quyết các van dé về giao thông và dân số già Các công ty như Toyota và

Nissan đang thử nghiệm các mẫu xe tự hành với độ tin cậy cao, hướng tới việc triển khai rộng

rãi vào Thế vận hội Tokyo Nhật Bản đặc biệt chú trọng đến việc đảm bảo an toàn và hiệuquả của các hệ thống tự hành, đồng thời phát triển cơ sở hạ tầng phù hợp để hỗ trợ công nghệ

này.

Trung Quốc đã có những bước tiến vượt bậc trong công nghệ xe tự hành, đặc biệt là với

sự ra mắt của các dịch vụ taxi không người lái, hay còn gọi là robotaxi Các công ty như Baidu, AutoX và Pony.ai đã triển khai các dịch vụ này tại các thành phố lớn như Bắc Kinh

và Thượng Hải Chính phủ Trung Quốc đã thiết lập các khu vực thử nghiệm đặc biệt và ban

Trang 13

hành các chính sách hỗ trợ mạnh mẽ, tạo điều kiện thuận lợi cho sự phát triển và thử nghiệmcông nghệ tự hành.

Một trong những lý do chính khiến công nghệ xe tự hành trở nên thịnh hành là nhu cầu ngàycàng tăng về an toàn giao thông và sự tiện ích trong việc di chuyển Xe tự hành được coi là

giải pháp tiềm năng để giảm thiểu tai nạn giao thông do lỗi người lái Với các hệ thống cảm

biến và trí tuệ nhân tạo, xe tự hành có thể phản ứng nhanh chóng và chính xác trước các tìnhhuống khẩn cấp, giảm nguy cơ tai nạn Hơn nữa, việc tối ưu hóa các quy trình lái xe và giảmthiểu tắc nghẽn giao thông sẽ cải thiện lưu thông và tiết kiệm thời gian cho người sử dụng

Nhìn chung, công nghệ xe tự hành đang mở ra một kỷ nguyên mới cho ngành công nghiệp

tự động hóa, hứa hẹn mang lại nhiều lợi ích về an toàn, hiệu quả và tiện ích Các quốc gia và

công ty công nghệ trên thế giới đang không ngừng nỗ lực nghiên cứu và phát triển, vượt quacác thách thức về kỹ thuật và pháp lý để hiện thực hóa tiềm năng của công nghệ này Tươnglai của ngành công nghiệp xe tự hành sẽ tiếp tục phát triển mạnh mẽ, mang lại những thay

đổi tích cực va đáng kể cho cách chúng ta di chuyển và tương tác với công nghệ trong cuộc

sống hàng ngày

1.1.2 Dat van đề

Trong những năm gần đây, sự đột phá lớn của Artificial Intelligence (AI) nói chung và học

sâu nói riêng đã có tác động sâu sắc đến ngành công nghiệp xe và xu hướng này sẽ tiếp tục

trong tương lai, tiềm năng tạo ra những chiếc xe an toàn hơn Như được mô tả trong Hình 1.3,

các hệ thống AI được tích hợp trên xe tự hành có khả năng nhận diện và phân tích hình ảnh

từ các cảm biến như máy ảnh, ra-đa và lidar Điều này giúp xe tự hành nhận biết và đánh giá

hiện trạng của môi trường xung quanh, bao gồm các phương tiện giao thông, biển báo, vật

cản và người đi bộ, cho phép xe phản ứng một cách phù hợp với các tình huống giao thôngkhác nhau, bao gồm cả việc dừng lại, thay đổi làn đường hoặc tránh vật cản

Trang 14

qrÄroffic '€ØfffSicio as

Hình 1.3: Minh họa việc ứng dụng học sâu vào hệ thống xe tự hành [3]

Các mô hình học sâu đã cho thấy được sự hiệu quả khi đã giải quyết các tác vụ của xe tự hành

với độ chính xác cao, nhưng đánh đổi lại là sự phức tạp của mô hình dẫn đến thực hiện mộtkhối lượng tính toán lớn làm gia tăng độ trễ Với một môi trường giao thông thay đổi liên tục

và cần phải giải quyết các tình huống theo thời gian thực đã gây khó khăn khi triển khai các

mô hình học sâu trên các thiết bị biên đặt trên xe

Các nghiên cứu [12] [13] đề xuất các mô hình thời gian thực đơn tác vụ để giải quyết các bàitoán dành cho xe tự hành Tuy nhiên, giải quyết tuần tự các tác vụ như Phát hiện đối tượng,Phát hiện làn đường và Phân đoạn khu vực lái xe sẽ làm gia tăng độ trễ cho hệ thống xe tựhành Để giải quyết vấn đề đó, nhóm tác giả trong nghiên cứu [14] [15] đề xuất một số môhình đa tác vụ có thể giải quyêt đồng thời nhiều tác vụ cùng một lúc Mặc dù vậy, các môhình đa tác vụ vẫn có những hạn chế nhất định:

« Yêu cầu lớn về tài nguyên tính toán: Mô hình đa tác vụ được thiết kế để thực hiện

nhiều nhiệm vụ cùng một lúc làm gia tăng độ phức tạp của mô hình, từ đó cần phải xử

lý một lượng lớn dữ liệu và mô hình hóa đa dạng các loại thông tin Điều này đòi hỏi

một lượng lớn các tham số của mô hình và khả năng tính toán cao, làm tăng chi phí và

Trang 15

giới hạn khả năng triển khai mô hình trên các thiết bị biên có tài nguyên hạn chế.

» Tối ưu hóa mô hình: Việc giải quyết đồng thời nhiều nhiệm vụ khác nhau khiến cho

việc tối ưu hóa mô hình đặc biệt trở nên khó khăn do phải cân bằng hiệu suất giữa các

nhiệm vụ.

Trong ngữ cảnh của xe tự hành, phát hiện các đối tượng giao thông trên đường đi hay phânđoạn làn đường và khu vực lái an toàn cho xe là điều vô cùng cần thiết Với bài toán Pháthiện đối tượng, ho mô hình You Only Look Once (YOLO) đã được chứng minh hiệu quả với

độ chính xác cao và độ trễ thấp khiến YOLO trở thành lựa chọn ưu tiên cho các ứng dụngcần đến độ trễ thấp như xe tự hành, nhưng van còn thiếu những nghiên cứu đánh giá rõ ràng

về hiệu quả của mô hình này trong môi trường giao thông xe tự hành

Còn đối với tác vụ phân đoạn, các mô hình chính xác thường đòi hỏi nhiều tài nguyên tínhtoán và thời gian suy luận lớn, điều này tạo ra một thách thức lớn cho các mô hình phân đoạntrong việc cân bằng giữa độ chính xác và độ trễ suy luận mà cho đến hiện tại thì chưa có mô

hình nào đảm bảo được sự cân bằng ấy cho ngữ cảnh xe tự hành.

Ngoài ra, các nghiên cứu gần đây chỉ tập trung vào thiết kế một mô hình thời gian thực gọnnhẹ với độ chính xác cao để giải quyết một tác vụ hoặc mô hình đa tác vụ để giải quyết nhiềutác vụ nhưng chưa có nghiên cứu nào đề cập đến việc triển khai đồng thời các mô hình ấy

Output Object Detection

Input data ⁄

Hình 1.4: Tổng quan kiến trúc mô hình tính toán song song

Thấy được những hạn chế đó, nhóm dé xuất một mô hình xử lý đồng thời Nhu được mô tả

trong Hình 1.4, với mỗi ảnh đầu vào sau khi tiền xử lý dữ liệu, sẽ được các mô hình Phát hiện

6

Trang 16

đối tượng và Phân đoạn xử lý đồng thời, kết quả đầu ra của các mô hình tạo ra thông tin nhận

thức toàn diện về môi trường giao thông xung quanh xe Việc xử lý đồng thời các mô hìnhthay vì tuần tự giúp giảm độ trễ của hệ thống, cho phép xe tự hành phản ứng nhanh hơn vớicác tình huống bắt ngờ trên đường

1.2 Mục tiêu dé tài

Bảng 1.1: Kết quả mục tiêu đề tài trong ngữ cảnh xe tự hành

Tác vụ Mô hình Độ chính xác | Tham số | Tốc độ Phát hiện đỗi tượng YOLO [12] > 75% - > 25 FPS

ˆ R YOLOP [11] (SOTA) 91.5% 7.9 triệu Phan đoạn khu vực lãi xe Mô hình đề xuất >90.0%_ | < 1.0 triệu | >20FPS

R a HybridNets [15] (SOTA) | 31.6% 13.8 triệu

-Thần dean lận dong Mô hình đề xuất >26.1% | <1.0triệu | > 20 FPS

Nhóm sẽ nghiên cứu, xây dung được một mô hình xử lý đồng thời da tác vụ kết hợp hai mô

hình học sâu, cụ thể:

* Với tác vụ Phát hiện đối tượng, nhóm thử nghiệm các mô hình YOLO, độ chính xác

các mô hình và tốc độ trung bình trên thiết bị biên được thể hiện ở Bảng 1.1

s Với hai tác vụ Phân đoạn khu vực lái xe và Phát hiện làn đường, nhóm đề xuất một mô

hình chi phí tính toán thấp với độ chính xác và tốc độ trung bình được thể hiện cụ thể

Trang 17

Chương 2 CƠ SỞ LÝ THUYẾT ĐỀ TÀI

2.1 Bài toán Phát hiện đối tượng

Phát hiện đối tượng là một tác vụ quan trọng trong lĩnh vực xe tự hành Nhận dạng chính xác

và nhanh chóng các đối tượng như xe cộ, người đi bộ, đèn giao thông và các yếu tố khác trên

đường đi là điều cần thiết để đảm bảo an toàn và tránh va chạm Các thuật toán Phát hiện đốitượng phổ biến trong lĩnh vực này có thể được phân loại thành hai phương pháp chính: một

giai đoạn và hai giai đoạn.

Về cơ bản, cả hai phương pháp đều sử dụng mạng nơ-ron tích chập (Convolutional Neural

Networks - CNN) để trích xuất đặc trưng từ ảnh đầu vào Như được minh họa trong Hình

2.1, phương pháp hai giai đoạn tạo ra các vùng đề xuất (Region Proposal), là những vùng cókhả năng cao chứa đối tượng Sau đó, mạng phân loại và hồi quy sẽ tập trung vào các vùng

dé xuất này để tinh chỉnh vị trí và phân loại đối tượng Điều này giúp tăng cường độ chínhxác, đặc biệt đối với các đối tượng nhỏ hoặc bị che khuất, nhưng đồng thời cũng làm tăng

thời gian xử lý.

Object Recognition Region Proposal

feature extraction

+classification)

Hinh 2.1: Phuong phap hai giai doan [4]

Trang 18

Ngược lại, mạng nơ-ron trong phương pháp một giai đoạn sẽ trực tiếp dự đoán cả vị trí và

lớp của đối tượng trên toàn bộ ảnh đầu vào, được mô tả trong Hình 2.2 Cách tiếp cận nàygiúp giảm thiểu thời gian xử lý, nhưng có thể ảnh hưởng đến độ chính xác, đặc biệt khi đối

Object Detection + Recognition

Các phương pháp một giai đoạn mặc dù đôi khi đạt độ chính xác thấp hơn so với phươngpháp hai giai đoạn nhưng vẫn cần thiết cho các ứng dụng thực tế do độ trễ thấp Do đó, các

mô hình một giai đoạn đã được áp dung rộng rãi Các ví dụ nổi bật bao gồm YOLO [12] và

Single Shot Multibox Detector [16] (SSD) Những mô hình này đồng thời thực hiện cả hainhiệm vụ là hồi quy khung giới hạn và phân loại đối tượng, do đó độ trễ suy luận thường sẽ

thấp hơn so với các mô hình hai giai đoạn [17] [18]

Đặc biệt hơn nữa, các nghiên cứu gần đây liên quan đến bài toán Phát hiện đối tượng đang

phát triển mạnh mẽ, các mô hình được thiết kế riêng cho ứng dụng xe tự hành liên tục được

ra đời đã thu hút sự quan tâm đáng kể Nghiên cứu [19] đã phát triển một thuật toán cải tiếndựa trên SSD cho việc phát hiện xe nhanh chóng trong các tình huống giao thông, sử dụngMobileNetV2 làm kiến trúc nền tảng và sử dụng một mô-đun giải nén cho cấu trúc tích hợptính năng Nhóm tác giả trong [20] đã giới thiệu một mô hình tổng hợp kết hợp ưu điểm củaFaster R-CNN [17] và YOLO [12], sử dụng hệ thống phân loại bằng cách bỏ phiếu đa số

Ngoài ra, nhiều mô hình đa tác vụ [14] [15] đã tích hợp thành công nhiều tác vụ vào một môhình duy nhất, được đào tạo trên bộ dữ liệu BDD100K [7] Những bước tiến này cho thấyđược tiềm năng phát triển to lớn của các mô hình Phát hiện đối tượng, đặc biệt là trong ứng

Trang 19

dụng xe tự hành.

2.2 Bài toán Phân đoạn khu vực lái xe

Phân đoạn ngữ nghĩa đã được nghiên cứu rộng rãi và nhiều mô hình đã được phát triển nhằmđạt độ chính xác cao Đáng chú ý hơn, trong thời gian gần đây, các mô hình phân đoạn khuvực lái xe đã được đề xuất và đạt hiệu quả cao với chi phí tính toán thấp Cu thể, ENet [13]

là một mô hình CNN nhẹ có thể chạy trên các thiết bị nhúng với độ trễ thấp ENet sử dụng

kiến trúc mã hóa-giải mã bất đối xứng, với khối mã hóa lớn hơn nhiều so với khối giải mã

để giảm độ phức tạp tính toán Đặc biệt, ENet sử dụng các khối nút cổ chai (bottleneck),

tích chập giãn nở (dilation convolution) và kết nối bỏ qua (skip connection) để tối ưu hóa

hiệu suất và độ chính xác Hơn nữa, ENet còn giảm kích thước đầu vào bằng lấy mẫu xuống

(downsampling) và sử dụng các bộ lọc (filter) nhỏ để tăng tốc độ xử lý

Ngoài ra, ERFNet [21] là một kiến trúc CNN nhẹ, trong đó ERFNet trích xuất các đặc trưng

từ hình ảnh đầu vào bằng cách sử dụng các lớp tích chập và các khối phân rã dư (residual

blocks) Các đặc trưng được trích xuất sau đó được sử dụng để phân đoạn hình ảnh thành các

khu vực khác nhau, trong đó khu vực lái xe được xác định là một lớp riêng biệt Các kỹ thuật

như kết nối bỏ qua và kết nối tat (shortcut connection) cũng được sử dụng để cải thiện độ

chính xác của phân đoạn.

Trong nghiên cứu [22], các tác giả đã tìm ra việc sử dụng mô-đun tích chập giãn nở lai (hybrid

dilated convolution module) kết hợp nhiều tỷ lệ giãn nở khác nhau để tăng cường trường tiếpnhận (receptive field) và nắm bắt thông tin ngữ cảnh đa dạng, từ đó phân biệt tốt hơn các đốitượng trong ảnh Bên cạnh đó, họ thay thế phương pháp nội suy truyền thống bằng tích chập

tăng mẫu dày đặc (dense upsampling convolution), sử dụng các phép tích chập để tăng kích

thước bản đồ đặc trưng (feature map), giúp giữ được thông tin chỉ tiết và cải thiện độ phângiải kết quả phân đoạn Hơn nữa, họ còn sử dụng mô-đun gộp kim tự tháp (pyramid poolingmodule) để tổng hợp thông tin ngữ cảnh toàn cục bằng cách gộp với nhiều kích thước cửa sổ

trượt khác nhau, giúp mô hình hiểu rõ mối quan hệ giữa các vùng trong ảnh

Zhao và các cộng sự [23] đã thiết kế mô hình PSPNet, sử dụng mô-đun gộp kim tự tháp

10

Trang 20

(pyramid pooling module) áp dụng thuật toán gộp trung bình toàn cục (global average

pool-ing) với nhiều kích thước khác nhau để trích xuất đặc trưng Bên cạnh các mô hình tính toánphức tap, Mehta va các cộng sự [9] đã đề xuất ESPNet với chi phí tính toán thấp, sử dụng

phép tích chập giãn nở để xây dựng một mô-đun Efficient Spatial Pyramid (ESP) hiệu quả

Cuối cùng, ngoài việc phát triển các mô hình mới, Dual Attention Modules [10] (DAM) đã

khám phá thông tin ngữ cảnh toàn cục và xây dựng các liên kết giữa các đặc trưng thông qua

cơ chế chú ý, nhằm tổng hợp thông tin ngữ cảnh từ xa một cách linh hoạt, từ đó cải thiện khả

năng biểu diễn đặc trưng cho phân đoạn cảnh.

2.3 Bài toán Phát hiện làn đường

Trong tác vụ Phát hiện làn đường, có rất nhiều nghiên cứu đổi mới dựa trên học sâu Đầu tiên,

nghiên cứu [24] xây dựng một mạng hai nhánh để thực hiện phân đoạn ngữ nghĩa và nhúngcác điểm ảnh trên chính hình ảnh gốc, sau đó tiếp tục gom nhóm các đặc trưng của hai nhánh

lại với nhau, tạo ra các phiên bản phân đoạn làn đường khác nhau Tiếp theo, SCNN [25] đềxuất phương pháp tích chập từng lát một (depthwise convolution), cho phép thông tin truyền

giữa các điểm ảnh qua các hàng và cột trong một lớp Tuy nhiên, phương pháp tích chập này

có độ trễ tương đối cao

Hơn nữa, LaneNet [26] chia nhỏ quá trình phân biệt làn đường thành hai giai đoạn khác nhau:

dé xuất cạnh làn đường (lane edge proposal) và bản địa hóa vạch kẻ làn đường (lane marking

localization) Cụ thể, giai đoạn đầu tiên phát hiện cạnh làn đường theo điểm ảnh bằng cách

sử dụng mạng dé xuất cạnh làn đường, trong khi giai đoạn sau phát hiện các vạch kẻ lànđường dựa trên các đề xuất cạnh làn đường

Trong khi đó, Enet-SAD [27] sử dụng phương pháp chưng cất tự chú ý (self-attention tillation), cho phép các ban đồ đặc trưng cấp thấp học hỏi từ các bản đồ đặc trưng cấp cao.Phương pháp này cải thiện hiệu suất của mô hình trong khi vẫn giữ cho mô hình nhẹ Thêmvào đó, Pizzati và các cộng sự [28] đã triển khai một phương pháp học sâu cung cấp một hệ

dis-thống đầu cuối (end-to-end) để xác định, phân cụm và phân loại ranh giới làn đường, dựatrên hai mạng thần kinh xếp tầng, chạy trong thời gian thực Phương pháp của họ chứa hai

11

Trang 21

phần: phần đầu tiên huấn luyện CNN để phân đoạn trường hợp ranh giới làn đường (lane

boundary), và phần thứ hai xử lý bộ mô tả (descriptors extracted) được trích xuất bằng CNN

thứ hai.

Ngoài ra, CondLaneNet [29] đề xuất một phương pháp phát hiện làn đường mới lạ từ trên

xuống, nhận diện các trường hợp làn đường trước tiên và sau đó dự đoán hình dạng động của

làn đường cho mỗi trường hợp Họ đã sử dụng tích chập có điều kiện (conditional tion) và công thức theo hàng để cải thiện khả năng phân biệt cấp độ làn đường của họ Môhình này cũng giải quyết được van dé phát hiện các vạch kẻ làn đường có cấu trúc liên kết

convolu-phức tạp.

Cuối cùng, nhóm tác giả trong [30] đã triển khai một cách tiếp cận học sâu dựa trên tín hiệumột chiều Mô hình này có khả năng xử lý các tình huống đầy thách thức như mưa và bóngtối để đạt được hiệu suất tốt hơn so với các phương pháp dựa trên mô hình Tuy nhiên, loạiphương pháp học sâu này đòi hỏi một nền tảng phần cứng có công suất lớn, đặt ra giới hạn

cao đối với việc sử dụng các hệ thống biên

2.4 Mô hình đa tác vụ

Khi chuyển từ mô hình đơn nhiệm sang đa nhiệm vụ, phương pháp này đã trở nên phổ biến

bởi khả năng giải quyết nhiều nhiệm vụ cùng một lúc Sử dụng các biểu diễn được chia sẻ giữa

các nhiệm vụ khác nhau giúp tang cường hiệu qua của mô hình Bộ dữ liệu BDD100K [7]

đã thúc đẩy sự nghiên cứu và phát triển của các mô hình đa nhiệm vụ trong lĩnh vực lái xe

tự hành Các nghiên cứu trước đây đã khám phá nhiều hướng tiếp cận khác nhau, bao gồmphân đoạn khu vực có thể lái xe, phân đoạn làn đường [31] [32], sự kết hợp giữa phân đoạn

khu vực có thể lái xe và phân loại cảnh [33] [34], cũng như các mô hình tích hợp phân đoạn

khu vực có thể lái xe, phân đoạn làn đường, và phát hiện đối tượng [14] [35] [36]

Các nghiên cứu [14] [36] [35] đã giới thiệu một mô hình dùng chung xương sống (backbone)dựa trên YOLO với cấu trúc bộ mã hóa-bộ giải mã, kết hợp hiệu quả ba nhiệm vụ riêng biệt:

phát hiện xe, phân đoạn khu vực có thể lái xe và phát hiện làn đường Mask RCNN [37] kế

thừa ý tưởng của Faster RCNN [17], sử dụng kiến trúc ResNet với khối dư [38] (residual

12

Trang 22

block) để trích xuất đặc trưng, và thêm một nhánh dự đoán mặt nạ để kết hợp hiệu quả nhiệm

vụ phân đoạn đối tượng va phát hiện đối tượng Nhóm tác giả của LSNet [39] thiết kế mộtkiến trúc mạng ba trong một và thực hiện đồng thời phát hiện đối tượng, phân đoạn đối tượng

và phân đoạn khu vực lái xe Họ cũng thiết kế một hàm mất mát cross-IoU để phù hợp với

các đối tượng ở các tỉ lệ và thuộc tính khác nhau

MultiNet [40] sử dụng một bộ mã hóa chia sẻ chung và ba bộ giải mã riêng biệt để thực hiệnnhiệm vụ phân loại cảnh, phát hiện đối tượng và phân đoạn khu vực lái xe Một kiến trúc bộ

mã hóa-bộ giải mã tương đương cũng có trong Hybridnets [15], có xương sống nhẹ hơn nhờ

sử dung các kết hợp có thể tách rời theo chiều sâu Ngoài ra, gần đây CenterPNets [41] đã

thu hút sự chú ý vì khả năng đạt được độ chính xác và độ chính xác cao với mạng đa nhiệm

được chia sẻ đầu cuối Tuy nhiên, các mô hình đa nhiệm được dé xuất trước đây chủ yếu tậptrung vào việc cải thiện độ chính xác và không được thử nghiệm rộng rãi trên các thiết bị cókhả năng tính toán hạn chế Do đó, việc triển khai trực tiếp các mô hình này trong các hệ

thống xe tự hành tiếp tục đặt ra những thách thức đáng kể

2.5 Các mô hình hoc sâu trên thiết bị biên

Mặc dù các mô hình học sâu có độ chính xác cao, chúng thường được xây dựng với kiến trúc

và nguồn tài nguyên tính toán lớn, điều này không phù hợp cho các ứng dụng thời gian thực

Để giảm bớt van dé này, các nền tảng tính toán trên biên, đặc biệt là dòng NVIDIA Jetson,

đã thu hút sự chú ý đáng kể trong cộng đồng trí tuệ nhân tạo trong việc hỗ trợ học sâu tạichỗ Tính toán trên các thiết bị này có một số lợi thế bởi khả năng thực hiện các tính toán trực

tiếp trên các đơn vị vừa hiệu quả về chi phí vừa cụ thể cho từng tác vụ Bat chấp lợi thé này,những khả năng như vậy bị hạn chế đáng kể về bởi yêu cầu về sức mạnh tính toán và dunglượng lưu trữ của các mô hình là quá lớn, đặt ra những thách thức đáng kể cho việc triển khai

các mô hình học sâu trên các nền tảng này

Nghiên cứu [42] đã minh họa hiệu quả của các mô hình YOLOv3-tiny và EfficiencyDet, đặc

biệt là EfficiencyNet-Lite, trên Nvidia Jetson TX2 cho bài toán phát hiện đối tượng với thờigian thực trong các hệ thống xe tự hành Họ cũng nhấn mạnh lợi ích của việc tối ưu hóa

TensorRT và lượng tử hóa sau đào tạo Tương tự, nhóm tác giả trong nghiên cứu [43] đã

13

Trang 23

khám phá hiệu suất của các mạng YOLO trên các thiết bị biên khác nhau, nhắn mạnh vai trò

của tính toán biên trong việc cho phép các nhiệm vụ học sâu phức tạp Các nghiên cứu này

nhắn mạnh tiềm năng của các nền tảng nhúng trong việc vượt qua các thách thức tính toáncủa học sâu, mở đường cho các ứng dụng sáng tạo trong các tình huống thực tế

Các kỹ thuật nén mô hình nổi bật, chẳng hạn như lượng tử hóa 8 bit (8-bit quantization), cắt

tỉa (prunning) và chung cất kiến thức (knowledge distillation), đã được nghĩ ra để cho phéptính toán chi phí thấp hơn mà không ảnh hưởng đến độ chính xác Cụ thể, lượng tử hóa là

một phương pháp đơn giản nhưng hiệu quả liên quan đến việc thực hiện các phép tính với ít

bit hơn so với biểu diễn 32 bit tiêu chuẩn Lượng tử hóa sau đào tạo cho phép các mô hình,

ban đầu được đào tạo với 32 bit, tiến hành suy luận ở mức bit giảm mà không cần đào tạo lại.Ngược lại, phương pháp đào tạo nhận thức về lượng tử hóa (quantization-aware training) sử

dụng các lớp lượng tử giả, thường mang lại độ chính xác cao hơn so với phương pháp lượng

tử hóa sau khi đào tạo (post-training quantization) Tuy nhiên, phương pháp sau lại được ưa

chuộng hơn do tính đơn giản của nó, bởi nó loại bỏ nhu cầu phải đào tạo lại mô hình Howard

và các cộng sự giới thiệu MobileNet [44], một lớp mô hình hiệu quả được điều chỉnh cho cácứng dụng thị giác nhúng và đi động, sử dụng các kết hợp có thể phân tách theo chiều sâu đểgiảm thiểu nhu cầu tính toán

Các nghiên cứu gần đây đã chứng minh tính vượt trội của các kiến trúc có thể phân tách theo

chiều sâu so với các kiến trúc giãn nở thông thường trong các tác vụ phân loại Cụ thể, kiến

trúc có thể phân tách theo chiều sâu đã đạt được độ chính xác 67,9% với chỉ 123 triệu phéptính dấu phẩy động mỗi giây (Floating Point Operation per Second - FLOPs), trong khi kiếntrúc giãn nở thông thường đạt độ chính xác cao hơn một chút là 69,2% nhưng lại tốn tới 478triệu FLOPs, tăng gấp 3.9 lần chi phí tính toán Phát hiện này cho thấy rằng, mặc dù kiến

trúc giãn nở thông thường có thể cho độ chính xác cao hơn, nhưng nó lại đòi hỏi chi phí tính

toán cao hơn đáng kể Thêm vào đó, sự phát triển của các công cụ tối ưu hóa như TensorFlow

Lite, TensorRT, ncnn và MNN [45] đã giúp đơn giản hóa việc triển khai các mô hình học sâu

trên các thiết bị biên Mặc dù có rất nhiều kỹ thuật để tạo điều kiện thuận lợi cho việc triểnkhai mô hình trên các thiết bị có khả năng tính toán hạn chế, nhưng việc đạt được sự cânbằng giữa chi phí tính toán và độ trễ vẫn rất quan trọng đối với suy luận trong thời gian thực

14

Trang 24

Chương 3 GIẢI PHÁP ĐỀ XUẤT

3.1 Mô hình Phát hiện đối tượng

3.1.1 Lua chọn mô hình

Họ mô hình YOLO [12] luôn là sự lựa chọn hàng đầu cho các bài toán Phát hiện đối tượngyêu cầu tốc độ xử lý nhanh Các mô hình trong họ YOLO nổi bật với khả năng xử lý tốc độcao nhưng vẫn đảm bảo độ chính xác cho mô hình Qua nhiều cải tiến liên tục từ các phiênbản trước đến nay, YOLO đã được cải thiện đáng kể cả về tốc độ lẫn độ chính xác

Hình 3.1: So sánh các phiên bản YOLO từ YOLOv5 cho đến YOLOv8 [5]

YOLOv§ [5] là một trong các phiên bản mới nhất của họ mô hình YOLO với một số cải tiến

so với các phiên bản tiền nhiệm YOLOv8 sử dụng các khối kiến trúc mới như C2f và SPPF

giúp tối ưu hóa việc trích xuất đặc trưng, tăng cường khả năng biểu diễn của mô hình, nổibật nhất chính là YOLOv8 không sử dụng neo ở kiến trúc đầu ra giúp đơn giản hóa kiến của

mô hình và cải thiện khả năng dự đoán vị trí đối tượng Hình 3.1 thể hiện độ chính xác cũngnhư tốc độ của mô hình so với các phiên bản tiền nhiệm, các đánh giá thử nghiệm trên bộ

dữ liệu COCO cho thấy YOLOv8 đạt độ chính xác vượt trội với mAP?> lên đến 53.9%,

đồng thời duy trì tốc độ khung hình lên đến 283 FPS trên GPU V100 (đã được tối ưu hóa

15

Trang 25

với TensorRT), đáp ứng được hoàn toàn yêu cầu của các ứng thời gian thực như xe tự hành.

YOLOv§ vượt trội hoàn toàn so với phiên bản tiền nhiệm trước đó

Phiên bản tiền nhiệm YOLOv7 [1 |] cũng có những cải tiến đáng chú ý so với các phiên bảntiền nhiệm Kiến trúc của YOLOv7 được cải tiến đáng kể với việc giới thiệu các mô-đun

mới như Extended Efficient Layer Aggregation Network (E-ELAN) giúp tang cường khanăng hoc các đặc trưng của mô hình mà không làm tăng đáng kể chi phí tính toán Ngoài

ra, YOLOv7 còn sử dụng các kỹ thuật mới cho quá trình huấn luyện của mình để gia tăng

độ chính xác nhưng không làm tăng thời gian suy luận thực tế YOLOv7 đạt được độ chínhxác cao nhất lên đến 56.8% AP" trên bộ dit liệu MS COCO [6], vượt trội hơn các mô hình

phát hiện đối tượng thời gian thực khác như YOLOR, YOLOX, và Scaled-YOLOv4 Đặc biệt,

YOLOv7-E6 đạt tốc độ xử lý ấn tượng với 56 FPS nhưng vẫn giữ được độ chính xác cao 56%

AP*,

Qua những gi nêu trên, nhóm đề xuất hai phiên bản YOLOv7 và YOLOv§ cho bài toán Phát

hiện đối tượng trong xe tự hành Tuy nhiên, để phù hợp hơn khi triển khai trên các thiết bịbiên có phần cứng hạn chế, thay vì sử dụng phiên bản gốc, nhóm lựa chọn các biến thể của

chúng để tiến hành đánh giá

Bảng 3.1: Kết quả các mô hình YOLOv7 trên tập dữ liệu MS COCO [1 I]

Model #Param FLOPs Size AP?, APậ,

YOLOv7 36.9M 104.7G 640 697 55.9 YOLOv7-X 713M 1899G 640 71.2 57.8 YOLOv7-tiny 6.2M 13.8G 640 56.7 41.7

Đối với YOLOv7, nhóm dé xuất biến thể YOLOv7-tiny vì YOLOv7-tiny có khả năng cân

bằng tốt giữa tốc độ và độ chính xác Bảng 3.1 thể hiện kết quả của YOLOv7-tiny so với

các phiên bản khác của YOLOv7 Với kiến trúc nhẹ hơn, ít tham số hơn và yêu cầu ít tàinguyên tính toán hơn so với các phiên bản khác YOLOv7-tiny phù hợp với các hệ thống cótài nguyên tính toán hạn chế như các hệ thống được triển khai trên thiết bị biên

Đối với YOLOv8, nhóm dé xuất hai biến thể là YOLOv8s và YOLOv8n, được thiết kế để tối

16

Trang 26

ưu hóa hiệu suất trên thiết bị biên Bang 3.2 thể hiện kết quả của các phiên bản YOLOv§,

YOLOv8s và YOLOv8n đều được phát triển với mục đích cung cấp hiệu quả tính toán cao

trong khi duy trì độ chính xác tốt YOLOv8s cung cấp một sự cân bằng giữa kích thước mô

hình và hiệu suất Trong khi đó, YOLOv8n được thiết kế để có độ nhẹ tối da

Bang 3.2: Kết quả các mô hình YOLOv§ trên tập dữ liệu MS COCO [5]

Model #Param FLOPs Size mAP§925val

YOLOv8x 682M 257.8G 640 53.9

YOLOv8l 2 437M 165.2G 640 52.9

YOLOv8m 259M 789G 640 50.2

YOLOv8s 11.2M 286G 640 44.9 YOLOv8n 3.2M 8.7G 640 37.3

3.1.2 Đề xuất dữ liệu huấn luyện

Đối với bài toán Phát hiện đồi tượng, bộ dữ liệu MS COCO [6] đã quá nổi bật khi được lựachọn làm dữ liệu huấn luyện và đánh giá của hầu hết các mô hình Phát hiện đối tượng Tuynhiên, đối với một bài toán như xe tự hành, đòi hỏi dữ liệu huấn luyện phải có tính tươngđồng cao với môi trường giao thông thực tế

Như được thể hiện trong Hình 3.2, có thể thấy được rằng dữ liệu trong MS COCO được thu

17

Trang 27

thập chủ yếu trên các trang mạng xã hội do người dùng đăng tải lên, do đó không phù hợp

cho các tình huống giao thông thực tế

Nhóm đề xuất bộ dữ liệu BDD100K [7] cho quá trình huấn luyện các mô hình đề xuất Nhưđược minh họa trong Hình 3.3, với 100.000 khung hình video đa dạng về địa lý, môi trường

và điều kiện thời tiết được lấy trực tiếp từ các camera hành trình gắn trên xe và hơn 10 lớp

đối tượng khác nhau, BDD100K là tập dữ liệu hoàn toàn phù hợp cho bài toán phát hiện cácđối tượng giao thông trên xe tự hành Tập dữ liệu BDD100K được chia như sau:

* Tap huấn luyện: 70.000 ảnh

¢ Tập đánh giá: 10.000 ảnh

» Tập kiểm thử: 20.000 ảnh

Hình 3.4 cho thấy số lượng giữa các lớp đối tượng trong bộ dữ liệu BDD1OOK Có thé thấy

rằng có một sự mat cân bằng dữ liệu giữa các lớp đối tượng này, dẫn đến việc các mô hình có

18

Trang 28

xu hướng nhận diện kém hiệu quả hơn với những loại đối tượng ít gặp Do đó, tương tự như

các nghiên cứu [14] [15], nhóm dé xuất nhóm các đối tượng “car”, “truck”, “bus” va “train”

vào một lớp duy nhất gọi là “vehicles”, tập trung hoàn toàn vào các đối tượng ô-tô, nhằm giúp giảm bớt sự phức tap và mat cân bằng dữ liệu và cải thiện hiệu suất các mô hình trong

quá trình huấn luyện

BDD100K Detection 2020 Labels Dataset

other person - 210

trailer - 71

Hình 3.4: Sự mat cân bang giữa các loại đối tượng trong tập dữ liệu huấn luyện BDD100K

Ngoài ra, chỉ sử dụng một lớp đối tượng đầu ra duy nhất cũng có một số thay đổi tích cực ởkiến trúc đầu ra trong YOLO Cụ thể hơn, giả sử mỗi ô lưới của YOLO dự đoán 3 khung hộpgiới hạn Với 80 lớp đối tượng, mỗi khung hộp giới hạn sẽ có 85 giá trị tương ứng:

[ (tes ty, f„, th), độ tin cậy, (80 giá trị xác suất các lớp đối tượng) ]

Do đó, mỗi ô lưới sẽ tạo ra một tensor đầu ra có kích thước 3 x 85 = 255 Tuy nhiên, khi chỉ

có 1 lớp, mỗi khung hộp giới hạn chỉ cần 6 giá trị tương ứng, lúc này tensor đầu ra của mỗi

ô lưới giảm xuống còn 3 x 6 = 18 Nếu chia hình ảnh đầu vào thành S x S ô lưới, mỗi ô lưới

dự đoán có kích thước S x $ x 3 (3 là số lượng neo) Với 80 lớp, kích thước tensor đầu ra sẽ

là S x §x 255 Trong khi đó, với 1 lớp, kích thước này giảm đáng kể xuống S x § x 18 Déxuất trên của nhóm không chỉ giúp tiết kiệm bộ nhớ mà còn tăng tốc độ xử lý của mô hình

Các phép tính ma trận trên tensor nhỏ hơn sẽ được thực hiện nhanh hơn, đặc biệt khi triển

khai trên các thiết bị có tài nguyên hạn chế như thiết bị biên

19

Trang 29

3.1.3 Phương pháp huấn luyện, đánh giá và so sánh các mô hình

Đối với tất cả các mô hình được chọn, nhóm đề xuất kỹ thuật học chuyển giao Thay vì xây

dựng và huấn luyện mô hình từ đầu, học chuyển giao tận dụng các mô hình YOLO đã đượctiền huấn luyện (loại bỏ lớp cuối cùng) trên bộ dữ liệu MS COCO (80 loại đối tượng khácnhau) để khởi tạo trọng số cho các mô hình mới Học chuyển giao có thể mang đến một số

lợi ích như sau:

* Giảm thời gian huấn luyện: Vì các mô hình đã được tiền huấn luyện trên một bộ dữ

liệu lớn và đa dạng như MS COCO, các trọng số ban đầu đã được tối ưu hóa cho nhiềuloại đối tượng Từ đó, mô hình sẽ hội tụ nhanh hơn giúp giảm thời gian cần thiết để

huấn luyện lại mô hình trên bộ dữ liệu mới như BDD100K

« Giảm thiểu sự quá khớp trong đữ liệu: Bằng cách tận dụng kiến thức từ các mô hình

đã được huấn luyện trên các bộ dữ liệu lớn và da dạng như MS COCO giúp giảm thiểunguy cơ bị quá khớp khi huấn luyện trên tập dữ liệu mới

Tiếp đến, nhóm tiến hành huấn luyện các mô hình đề xuất trên bộ dữ liệu BDD100K trong

100 chu kỳ với kích thước lô là 32 và độ phân giải ảnh đầu vào là 640x640 Việc sử dụng

kích thước lô lớn giúp tăng cường tính ổn định của quá trình huấn luyện và giảm thiểu sự daođộng ngẫu nhiên đến từ dif liệu huấn luyện trong việc cập nhật trọng số Đồng thời, độ phângiải ảnh đầu vào 640x640 cung cấp đầy đủ các thông tin chỉ tiết của đối tượng giúp cho mô

hình học tốt hơn

Nhóm đề xuất đánh giá các mô hình trên bốn độ phân giải khác nhau bao gồm: 640x384,480x288, 416x256, 352x224 mà không thực hiện bat kỳ tinh chỉnh nào cho các độ phân

giải này Thay vào đó, nhóm sử dụng mô hình đã được huấn luyện trên ảnh có độ phân giải

640x640 để đánh giá trên tất cả các độ phân giải mục tiêu Có một số lý do nhóm quyết định

thực hiện điều này:

- Ứng dụng linh hoạt: Việc đánh giá mô hình trên nhiều độ phân giải mà không tinh

chỉnh giúp có một góc nhìn và đánh giá đầy đủ về khả năng thích ứng của mô hình với

20

Trang 30

các đầu vào có độ phân giải khác nhau Từ đó linh hoạt hơn khi ứng dụng vào các hệthống thực tế.

» Tiết kiệm thời gian và tài nguyên: Trên thực tế, tinh chỉnh mô hình cho từng độ phân

giải khác nhau đòi hỏi nhiều thời gian và tài nguyên Bằng cách sử dụng một mô hình

duy nhất đã được huấn luyện trên độ phân giải 640x640 để đánh giá trên tất cả các độphân giải mục tiêu sẽ giúp tiết kiệm được đáng kể thời gian và tài nguyên cần thiết cho

việc tinh chỉnh.

Về độ chính xác, nhóm sử dụng các độ đo thông dụng của bài toán Phát hiện đối tượng baogồm “Precision”, “Recall”, “mAPso” và “mAPso:os” Dé tập trung tối đa vào việc đánh giá

và so sánh các mô hình dé xuất, tất cả các siêu tham số huấn luyện khác sẽ được giữ nguyên

theo giá trị mặc định từ mã nguồn gốc của YOLOv7 và YOLOv§ nhằm tiết kiệm thời gian vàcông sức trong việc tối ưu hóa các siêu tham số cho từng mô hình Ngoài ra, việc giữ nguyên

các siêu tham số mặc định giúp tạo ra một môi trường đánh giá thống nhất, đảm bảo rằng các kết quả so sánh giữa các mô hình là công bằng và không bị ảnh hưởng bởi các yếu tố không

mong muốn ở bên ngoài

3.2 Mô hình Phân đoạn ngữ nghĩa

Dual Attention Module

Hình 3.5: Kiến trúc mô hình TwinLiteNet [S]

Nhóm đề xuất một mô hình đa tác vụ Phân đoạn ngữ nghĩa nhẹ chỉ với 0.4 triệu tham số,gọi là TwinLiteNet [S] TwinLiteNet có thể giải quyết được hai tác vụ Phát hiện làn đường

và Phân đoạn khu vực lái xe với độ chính xác cao nhưng nhưng vẫn đảm bảo được độ trễ suy

luận thấp

21

Trang 31

Tổng quan kiến trúc mô hình TwinLiteNet được biểu thị ở Hình 3.5 Phương pháp của nhóm

là sử dụng một kiến trúc mạng có chi phí tính toán thấp ESPNet-C làm khối mã hoá, cho

phép tạo bản đồ đặc trưng hiệu quả Sau đó, nhóm tích hợp DAM vào mạng để nắm bắt các

phụ thuộc toàn cục ở cả không gian đặc trưng và kênh, giúp cải thiện khả năng nhận thức

thông tin ngữ cảnh của mạng Bản đồ đặc trưng thu được sẽ được đưa qua hai khối giải mã

để thực hiện hai tác vụ cụ thể: Phát hiện làn đường và Phân đoạn khu vực lái xe Bằng cách

sử dụng kiến trúc này, nhóm đã đạt được kết quả phân đoạn chính xác cao cho hai tác vụ trênvới chi phí tính toán thấp

3.2.1 Chi tiết kiến trúc mô hình TwinLiteNet

Đầu tiên, không giống như các phương pháp trước đó là sử dung backbone có chi phí tínhtoán cao như YOLOP sử dụng kiến trúc CSPDarknet [14], HybridNets sử dụng kiến trúc

EfficientNet-B3 [15], nhóm sử dụng một kiến trúc có chi phí tính toán thấp là ESPNet-C [9]

dựa trên kiến trúc ESPNet [9] làm khối mã hóa để trích xuất các đặc trưng từ hình ảnh đầu

vào giúp giảm thiểu chi phí tính toán trong mạng

ESPNet được xây dựng dựa trên các mô-đun ESP, chia một tích chập chuẩn thành hai phan:tích chập điểm và mô-đun ESP Như được mô tả trong Hình 3.6a, mô-đun ESP ban đầu áp

dụng phép tích chập 1 x 1 để chiếu các bản đồ đặc trưng có chiều không gian cao thành

chiều không gian thấp hơn Sau đó, các bản đồ đặc trưng sẽ được biểu diễn song song ở trong

mô-đun ESP bằng cách sử dụng đồng thời K phép tích chập giãn nở ø x n với tốc độ giãn

nở 2! k = {1, ,K} Như trong Hình 3.6b, Các quá trình tính toán trong mô-đun ESP sé

được chia thành 4 bước:

* Reduce: Đối với một tham số K đã cho, mô-đun ESP đầu tiên giảm chiều các ban dé

đặc trưng từ M xuống x bằng cách sử dung phép tích chập điểm.

« Split: Các bản đồ đặc trưng có số chiều không gian thấp sau đó được biểu diễn trên K

nhánh song song.

¢ Transform: Mỗi nhánh sau đó xử lý đồng thời các bản đồ đặc trưng này bằng cách sử

dung các tích chập giãn nở n x n với các tốc độ giãn nở 2*—! & = {1, ,K}.

22

Trang 32

* Merge: Đầu ra của K phép tích chập giãn nở song song này sau đó được nối để tạo ra

một bản đỗ đặc trưng đầu ra N chiéu

Để giảm chi phí tính toán, bản đồ đặc trưng có thể được lấy mẫu xuống trước khi tiến hànhbước “Split” bằng cách thay thế phép tích chập điểm thành phép tích chập sai chân Vi dụ,

với một bản đồ đặc trưng F; c RWXx#x# khi lấy mẫu xuống với sai chân là 2, đầu ra của mô-đun ESP sẽ là F; c R2*2*"

_Step 2: Split and Ti

Step 1: Reduce ransform :

Trang 33

nhiệm cho các hoạt động lấy mẫu xuống Lớp đầu tiên là một lớp tích chập 3 x 3 tiêu chuẩn

dùng để để trích xuất các đặc trưng ban đầu từ ảnh đầu vào Sau đó, một loạt các mô-đunESP được sử dụng để tiếp tục quá trình trích xuất đặc trưng và giảm kích thước không gian.Việc kết hợp các bản đồ đặc trưng từ các mô-đun ESP trước đó với ảnh đầu vào ban đầu ởcác kích thước khác nhau bằng phép nối giúp tăng cường thông tin và cải thiện luồng thông

tin trong mạng Để xây dựng tính hiệu quả về mặt tính toán cho thiết bị biên mà không thay

đổi cấu trúc liên kết, một siêu tham số œ được dé xuất để kiểm soát độ sâu của mạng Cụthể, mô-đun ESP được lặp lại a lần tại cấp độ không gian / Tại các cấp độ không gian cao(1 = 0 val = 1), không có mô-đun ESP hoặc mô-đun tích chập nào được lặp lại ở các cấp độkhông gian này Tat cả các lớp (tích chập và các mô-đun ESP) đều được theo sau bởi một lớpchuẩn hóa 16 [46] và một hàm kích hoạt phi tuyến tính PReLU [47] Đầu ra ESPNet-C là bản

Trang 34

mạng Như trong Hình 3.5, các bản đồ đặc trưng từ bộ mã hóa sẽ được đưa vào hai mô-đun

Position Attention Module (PAM) và Channel Attention Module (CAM) để tạo ra các đặc

trưng mới về không gian ngữ cảnh tầm xa thông qua ba bước:

* Bước 1: Tạo ra một ma trận chú ý không gian mô hình hóa mối quan hệ không gian

giữa hai pixel bất kỳ

» Bước 2: Thực hiện phép nhân ma trận giữa bản đồ chú ý và các đặc trưng ban đầu

* Bước 3: Cộng theo phan tử để thu được biểu diễn cuối cùng phản ánh ngữ cảnh tầm

Hình 3.8: Position Attention Module [10]

Nhu được minh hoa trong Hình 3.8, PAM nhận dau vào là một đặc trưng A c R€xX#xŸ, Đầutiên, A được đưa vào một lớp tích chập để tạo ra ba bản đồ đặc trưng mới bao gồm: B và C có

kích thước IRSX#*Ÿ và D có kích thước IRC*#*W„ Đối với B và C, chúng được tái định hình thành R&*" , với N = H x W Tiếp theo, ma trận chuyển vị của B sé được nhân ma trận với C

và áp dụng một lớp softmax thu được bản đồ chú ý vị trí S € RY**, Còn đối với D, nó được tái định hình thành R€*Ÿ, với N = H x W Sau đó, thực hiện phép nhân ma trận giữa D và

S, kết quả của phép nhân ma trận này được tái định hình trở lại thành IRC*#XW, Cuối cùng,

nhân kết quả này với một tham số tỷ lệ œ và thực hiện phép cộng theo từng phần tử với đặc

trưng A ban đầu để thu được đầu ra cuối cùng E € IRC*#XW, PAM được thiết kế để tích hợp

25

Trang 35

các thông tin ngữ cảnh rộng hơn vào các đặc trưng địa phương, từ đó cải thiện đáng kể khả năng biểu diễn của chúng.

reshape

reshape softmax

———— >£`—

—, reshape & transpose CxHxW

Hình 3.9: Channel Attention Module [10]

CxHxW

Khác với PAM, CAM trực tiếp tính toán bản đồ chú ý kênh X € IRC*€ từ các đặc trưng gốc

Cu thể hơn, A được tái định hình thành RC*Ÿ với N = H x W, sau đó thực hiện phép nhân

ma trận giữa A và ma trận chuyển vị của A Kết quả sẽ được áp dụng một lớp softmax thuđược bản đồ chú ý kênh X phản ánh mức liên quan giữa các kênh với nhau Tiếp theo, thựchiện một phép nhân ma trận giữa X và A, và nhân kết quả này với một tham số tỷ lệ B, rồi

cộng theo từng phan tử với A ban đầu để có được dau ra cuối cùng E € RCx#XŸ, CAM tận

dụng sự phụ thuộc giữa các kênh để làm nổi bật các mối quan hệ phụ thuộc lẫn nhau giữacác ban đồ đặc trưng va củng cố việc biểu diễn các ngữ nghĩa cụ thể

Cuối cùng, kết quả đầu ra từ hai mô-đun PAM và CAM sẽ được biến đổi bằng một lớp tích chập và tổng hợp lại với nhau bằng phép cộng theo từng phần tử để thu được đầu ra

HOW 2 x w ES

B€R”?*3*š biểu diễn đặc trưng tôt hơn.

Tương tự như các nghiên cứu [14] [1 5], nhóm dé xuất một thiết kế đầu ra đa tác vụ nhằm giải

quyết đồng thời hai tác vụ Phát hiện làn đường và Phân đoạn khu vực lái Thay vì sử dụng

một đầu ra duy nhất cho tất cả các loại đối tượng cần phân đoạn, nhóm sử dụng hai khối giải

mã độc lập để xử lý bản đồ đặc trưng và tạo kết quả cuối cùng cho mỗi tác vụ Nhóm đề xuấtthiết kế đầu ra đa tác vì các lý do sau:

26

Trang 36

* Tối ưu hóa hiệu suất phân đoạn: Với hai khối đầu ra, nhóm có thể tối ưu hóa hiệu

suất phân đoạn cho mỗi lớp Phương pháp này cho phép nhóm điều chỉnh và cải thiệnkết quả phân đoạn cho Phát hiện làn đường và Phân đoạn khu vực lái một cách riêng

biệt mà không bị ảnh hưởng bởi các lớp khác.

* Tăng độ chính xác: Sử dụng hai khối đầu ra cho các lớp riêng biệt cũng cải thiện độ

chính xác của phân đoạn Bằng cách tập trung vào mỗi lớp độc lập, mô hình của nhóm

có thể học hỏi và điều chỉnh các đặc trưng cụ thể cho Phát hiện làn đường và Phânđoạn khu vực lái tốt hơn, dẫn đến kết quả phân đoạn chính xác hơn cho mỗi lớp

Upsampling

Hình 3.10: Khối decoder mô hình TwinLiteNet [8]

Hình 3.10 thể hiện kiến trúc khối giải mã Bản đồ đặc trưng thu được từ DAM sẽ đi qua một

chuỗi các lớp lấy mẫu lên giúp phục hồi dần về kích thước ban đầu, từ đó tăng độ chính xáccủa kết quả phân đoạn Các khối lấy mẫu lên được thiết kế dựa trên các lớp tích chập chuyển

vị theo sau là chuẩn hóa lô và hàm kích hoạt pRelu [47] giúp ổn định và tăng tốc độ học củamạng Khối giải mã của nhóm được thiết kế tuy đơn giản nhưng vẫn đảm bảo được hiệu quả

đầu ra Sau khi giải mã, TwinLiteNet trả về hai hình ảnh phân đoạn 2 x H x W cho các tác

vụ Lane Detection và Phân đoạn khu vực lái xe.

27

Trang 37

Nhóm đề xuất sử dụng hai hàm mắt mát cho mô hình TwinLiteNet bao gồm: Focal Loss [48]

và Tversky Loss [49]:

LoSStotal = LOSS focal + LoSStyersky (3.1)

Focal Loss giảm lỗi phân loại giữa các điểm ảnh trong khi giải quyết sự ảnh hưởng của cácmẫu dễ dự đoán và phạt nặng các mẫu khó dự đoán Như được thể hiện trong phương trình

3.2, Focal Loss sử dụng hệ số y nhằm điều chỉnh độ nhạy của hàm mất mát đối với sự thay

đổi trong xác suất dự đoán, cho phép mô hình tập trung vào việc học từ những trường hợp

khó hơn c

1& N

LOSS focal = "WN > Lil c)(1— pile (c))"log(p i(c)) (3.2)

trong đó:

* N: Số lượng điểm ảnh đầu vào

* C: Số lượng đối tượng cần phân loại, một lớp đối tượng là khu vực lái xe hoặc làn

đường, lớp đối tượng còn lại là nền

* pi(c): Xác suất dự đoán của điểm ảnh i thuộc lớp đối tượng c

* pi(c): Giá trị thực của điểm anh i thuộc lớp đối tượng c

« y: Hệ số hiệu chỉnh cân bằng.

Mặt khác, Tversky Loss [49] lấy cảm hứng từ Dice Loss [50] giải quyết van đề mắt cân bang

lớp trong các tác vụ phân đoạn hình ảnh Tuy nhiên, khác với Dice Loss, Tversky Loss bổ

sung thêm các tham số œ và để điều chỉnh mức độ quan trọng của các kết quả dương giả

và âm giả trong quá trình học giúp mô hình có thể được cân chỉnh tùy theo đặc thù của dif

liệu và yêu cầu của bài toán, đảm bảo rằng mô hình không chỉ cải thiện độ chính xác tổng

thể mà còn có khả năng xử lý tốt trong các tình huống dữ liệu không cân xứng, như được thể

hiện trong phương trình 3.3.

_ TP(c)

) (3.3)

trong đó:

28

Trang 38

¢ TP: True Positives

¢ FN: False Negatives

e FP: False Positives

* C: Số lượng đối tượng cần phân loại, một lớp đối tượng là khu vực lái xe hoặc làn

đường, lớp đối tượng còn lại là nên

* a, 8: Kiểm soát mức độ phạt đối với FP va FN

3.2.2 Chuẩn bi dữ liệu huấn luyện

Các bộ dữ liệu hiện có về làn đường thường bị giới hạn về quy mô và tính đa dạng Ví

dụ, bộ dữ liệu Caltech Lanes [51] chỉ chứa 1.224 hình anh và bộ dữ Road Marking [52] có

1.443 hình ảnh được gắn nhãn trong 11 lớp đối tượng làn đường Hay trong nghiên cứu [53],VPGNet chi bao gồm khoảng 20.000 hình ảnh được chụp trong ba tuần lái xe ở Seoul Khác

với các bộ dữ liệu trên, như được trình bày ở mục 3.1.2, BDD100K [7] thể hiện sự vượt trội

của mình cả về mặt quy mô và tính đa dạng Bảng 3.3 cho thay sự khác biệt về mặt số lượng

hình ảnh trong tập dữ liệu BDD100K so với các bộ dữ liệu khác.

Bảng 3.3: So sánh các bộ dữ liệu về làn đường [7]

Datasets Training Total Sequences

Caltech Lanes Dataset [51] - 1.224 4

Road Marking Dataset [52] - 1.443 29

KITTIROAD [54] 289 579

VPGNet [53] 11.783 21.097 BDD100K [51] 70.000 100.000 100.000

-Qua những gi nêu trên, nhóm quyết định sử dung bộ dit liệu BDD100K làm dữ liệu huấnluyện cho TwinLiteNet để giải quyết hai tác vụ Phát hiện làn đường và Phân đoạn khu vực

lái.

Đối với tác vụ phân đoạn khu vực lái xe, BDD100K có cung cấp các nhãn liên quan đượcchia thành hai lớp đối tượng khác nhau, được mô tả ở Hình 3.11:

29

Trang 39

* Directly Drivable Area: Lớp đối tượng chỉ ra khu vực mà phương tiện có thể lái xe

một cách an toàn dưới điều kiện bình thường Những khu vực này thường bao gồm các

làn đường dành cho xe chạy.

Alternative Drivable Area: Lớp đối tượng chi ra các khu vực mà phương tiện có thể

di chuyển nhưng không phải là lựa chọn ưu tiên.

Nhóm dé xuất gdp cả hai lớp đối tượng “Directly Drivable Area” va “Alternative Drivable

Area” thành một lớp đối tượng duy nhất “Drivable Area” nhằm tăng cường khả năng tổng

quát hóa và giảm thiểu sự phức tạp mô hình, từ đó cải thiện độ chính xác cho mô hình được

huan luyện.

Đối với tác vụ Phát hiện làn đường, BDD100K cũng có các nhãn liên quan đến tác vụ này

Tuy nhiên, các làn đường trong tập dữ liệu BDD100K được gan nhãn bằng các đường có độ

dày điểm ảnh thấp và được gán nhãn ở hai bên phần rìa của làn đường Để so sánh thuận tiệnvới nghiên cứu trước đây, theo nghiên cứu [27], nhóm đã áp dụng phương pháp hợp nhất hai

nhãn nhãn làn đường ở rìa thành một làn đường trung tâm duy nhất, được thể hiện trong Hình

3.12 Trong tập huấn luyện, nhóm cũng đã áp dụng phép giãn dé mở rộng các nhãn thêm 8

30

Tiêu đề	Nghiên Cứu Và Xây Dựng Mô Hình Xử Lý Đồng Thời Đa Tác Vụ Cho Bài Toán Xe Tự Hành
Tác giả	Nguyen Đình Phúc
Người hướng dẫn	TS. Lâm Đức Khải, KS. Chế Quang Huy
Trường học	Đại Học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành	Kỹ Thuật Máy Tính
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	78
Dung lượng	28,7 MB